You are on page 1of 340

ACERCA DEL AU"i9R

l 1
1 - L
Gabriel Velasco Sotomayor es matemti- 0 ~ ~ 3 q 3
col originario de la ciudad de Mxico, egresado
de la Facultad de Ciencias de la Universidad
Nacional Autnoma de Mxico (UNAM), con
maestra en la Universidad de Kiev, Ucrania,
y doctorado en la Universidad de Maine, EUA.
Ha sido catedrtico de varias universidades de
prestigio en Mxico, Islandia y Noruega. Actualmente es investigador de tiempo completo
en la Universidad Anhuac. Ha publicado hasta ahora catorce libros, tanto en ingls como
en espaol, sobre diversos temas: geometra,
lgebra, probabilidad, clculo vectorial y estadstica, as como ajedrez. Es autor de varios
,. -.
trabajos de investigacin en idioma ingls y ha
, '
traducido libros del ruso al espaol. Asimismo,
.
ha recibido reconocimientos importantes por
parte del Tecnolgico de Monterrey, la Universidad Iberoamericana y el Instituto Tecnolgico
Autnomo de Mxico (ITAM).
l%ra Lwt Meiy, Ricardo y Sdfanny
Dr. Gabriel Velasco Sotomayor
Profesor de Tiempo Completo
Universidad Anhuac
ESTADISTICA
CON EXCEL
Estadstica descriptiva
Distribuciones estadsticas
Inferencia estadstica
Estadstica no paramtrica
Regresin y correlacin
Gabriel Velasco Sotomayor
EDITORIAL 1
TRILLAS wl
MBxico. Argentina. EspaAa
Colombia. Puerto Rico, Venezuela
Catalogacin en la fuente
Velasco Sotomayor, Gabriel
Estadfstica con Excel. -- Mxico : Trillas, 2005.
527p. : il. ; 24 cm.
ISBN 968-24-0626-9
1. Estadstica matemtica. 2. Procesamiento
electrdnico de datos. I. t.
D- 519.50285'V159e LC- QA276.4T4.4
La presentacin y disposicin en conjunto de
ESTAD~STICA CON EXCEL
son propiedad del editor. Ninguna parte de esta obra
puede ser reproducida o trasmitida, mediante ningdn sistema
o mtodo, electrdnico o mecnico (incluyendo el fotocopiado,
la grabacidn o cualquier sistema de recuperacin y almacenamiento
de informacidn), sin consentimiento por escrito del editor
Derechos reservados

@ 2005, Editorial Trillas, S. A. de C. P,


Divisidn Administrativa, Av. Ro Churubusco 385,
Col. Pedro M d Anaya, C.P. 03340, Mkxico, D. E
Tel. 56 88 42 33, FAX 56 04 13 64
Divisidn Comercial, Calz. de la Viga 1132, C.P. 09439
Mxico, D. E, Tel. 56 33 09 95, FAX 56 33 08 70
Miembro de la Cdmara Nacional de la
Industria Editorial, Reg. nm. 158
Primera edicin, octubre 2005
ISBN 968-24-0626-9
Impreso en Mkxico
Printed in Mexico
Esta obra se termin de imprimir
el 25 de octubre del 2005,
en los talleres de RodeJi Impresores, S. A. de C. V:
Se encuadernd en Rstica y Acabados Grjicos, S. A. de C. V:
BM2 80 RW
Qu hubiera pensado algn eminente sabio de hace siglos, como Newton
o Laplace, si hubiese sido transportado en una mquina del tiempo hasta nuestros das y hubiera observado a los estudiantes de una universidad? Cmo habra
reaccionado al ver a todos absortos y concentrados ante unas extraas pantallas
brillantes de unas curiosas cajitas negras planas? Qu magia encerraran esas
extraas cajitas aplanadas que parecan tener hipnotizados a todos? Y si ese personaje del pasado pudiese ser testigo de una clase normal en un aula de la unive
rsidad, se sorprendera ms al ver que los alumnos, en vez de atender al profesor
y tomar notas, siguen con la mirada fija en las pantallas de esas extraas cajit
as
aplanadas, con sus manos ocupadas en unos curiosos botoncitos de las mismas,
y slo de vez en cuando alzan la mirada para ver al expositor.
El uso de la computadora, en la casa, en el saln de clases, en la biblioteca y
hasta en la cafetera o en el restaurante, es ya parte de nuestro panorama cotidia
no. Hace 30 aos era comn ver en las universidades a jvenes estudiosos bajo
la sombra de los rboles, en las cafeteras o en las bibliotecas, siempre concentrados en el estudio de apuntes o la lectura de libros, mas esa escena ha desapa
recido en nuestros das. Ahora, uno encuentra a los jvenes estudiantes en los
mismos lugares, pero han remplazado los libros y apuntes por prcticas laptops,
que parecen ejercer un poder hipntico sobre ellos. Las usan para estudiar, resolver tareas, conversar a distancia con amigos y familiares, escuchar msica, ver
y "bajar" imgenes y videos, enterarse de las noticias o simplemente "navegar" y
explorar los sitios de la Internet, con sus infinitos atractivos.
Es innegable que los tiempos cambian de manera vertiginosa y, para bien o
para mal, los que hemos iniciado este nuevo siglo y milenio de constantes transformaciones y crisis sociales, que no dejan de tener impacto en el mbito educativo, hemos atestiguado una dramtica revolucin en el mundo de las comunicaciones y la informacin. El "trabajo sucio" que antao requera de frmulas
complicadas y clculos engorrosos puede ahora, en muchos casos, ser resuelto
a la velocidad del rayo con ayuda del software adecuado y una mquina, cuya
6 Prlogo
memoria y rapidez de clculo es infinitamente superior a la de todos los seres
humanos juntos.
No obstante, las computadoras (u ordenadores) y todos sus atractivos: el
software especializado, la Internet y la pasmosa facilidad de intercomunicacin,
pueden convertirse en un riesgo si no se saben emplear con inteligencia. Si esa
maravilla tecnolgica no es usada con inteligencia y mesura, corremos el riesgo

de que acabe por convertirse en el basurero de la estupidez humana, para usar


una frase del eximio escritor Juan Jos Arreola. Todo uso de una herramienta tecnolgica implica tambin un posible abuso y un riesgo latente. Por ejemplo, el automvil es una maravilla tecnolgica, inventada y desarrollada por algunos individuos muy inteligentes y que saban pensar, pero ahora es empleada masivamente
por muchos individuos estpidos que no saben pensar y que han ocasionado
tragedias. Tambin la computadora fue inventada y desarrollada por algunos individuos con una gran inteligencia para ser usada con mesura e inteligencia por
las masas, pero desgraciadamente la mesura y la inteligencia no son cualidades
de las masas. Eso ha ocasionado que en muchos individuos el uso de la computadora, lejos de producir progresos y aprendizaje, slo ha provocado una mayor
ignorancia y ha exacerbado una latente estupidez.
Adems, la herramienta computacional produce en no pocos estudiantes
una falsa confianza de que ahora ya no es necesario pensar, porque la mquina
har todo por nosotros, incluso razonar y resolver nuestros problemas por s
sola. Nada ms lejano de la verdad. Si creemos que la computadora puede ser
usada como sustituto de nuestro cerebro, estamos perdidos. Siempre debemos
estar conscientes de los aspectos en que somos inferiores a la mquina y emplearla slo para que nos ayude en ese tipo de cosas en las que somos muy torpes comparados con esos monstruos de silicn. Pero en otros aspectos somos
mucho muy superiores a ellos. Para pensar, planear, razonar y usar el ingen
io
somos, y seguramente seguiremos siendo por muchos aos, incomparablemente
superiores a las mquinas. Para realizar clculos y todo tipo de trabajo operativo
somos infinitamente inferiores a ellas. Y en este sentido es donde necesitamos s
u
ayuda y la agradecemos.
Como fruto de la experiencia de casi 15 aos consecutivos de impartir cursos de todas las variedades de la estadstica que ofrecen actualmente las universidades e institutos tecnolgicos (estadstica descriptiva, inferencia estadstica y
estadstica no paramtrica, as como probabilidad), el autor logr escribir este
libro, que sintetiza las partes ms esenciales e importantes de la estadstica
en
general, con una breve introduccin a los conceptos bsicos de la probabilidad.
Asimismo, orienta la exposicin a la utilidad prctica de la materia y sus mltiples
aplicaciones en administracin, economa y ciencias sociales, pero teniendo siempre presente que el lector a quien va dirigido el libro va a trabajar cotidianam
ente
con una computadora o al menos tiene acceso a una computadora personal o
laptop, que le facilitar el trabajo operativo.
El nico prerrequisito para leer con provecho este libro es un conocimiento
rudimentario del programa Excel de Microsoft OfJice y, por supuesto, una prepa
racin matemtica equivalente a la de un estudiante de bachillerato. El autor ha
procurado esquivar, casi con xito total, cualquier mencin del clculo diferencial
e integral. Slo en contadas ocasiones pareci imposible exponer un par de ideas
sin usar un signo de integral o dos. Por eso, se incluy en el captulo 4 una breve
Prlogo 7
seccin (seccin 4.2) que ilustra cmo se resuelven las integrales ms fciles y
cmo se usan para el clculo de reas. Aun si el estudiante nunca curs clculo
en bachillerato (preparatoria o CCH), con lo expuesto en esa seccin tendr las
herramientas suficientes para comprender acerca de lo que se habla cuando se
pone un signo de integral.
El autor ha publicado otros dos libros de texto sobre estadstica y/o teora
de las probabilidades, en colaboracin con otro colega, y en los cuales s se us
libremente la notacin del clculo diferencial e integral. Sin embargo, aquellos
volmenes destacaban las aplicaciones a la ingeniera y soslayaban casi por completo el uso de software para la computadora personal en el estudio de la esta

dstica.
El enfoque que se da en este libro es ms bien ligero y orientado a su practicidad. El tipo de estudiante para el cual est dirigido es el alumno prctico que
quiere sacar provecho de la estadstica para afrontar problemas cotidianos y para
organizar, presentar e interpretar datos que tiene a la mano.
El autor us una versin preliminar del manuscrito de este libro en un curso de mtodos estadsticos impartido va satlite a muchas partes de Mxico,
Estados Unidos y a pases de Centroamrica y Sudamrica. El curso fue un xito
rotundo y mucho se debe agradecer a los estudiantes que, va Internet, manifestaron sugerencias, plantearon dudas o preguntas o bien detectaron alguno
s
pequeos errores, que rpidamente fueron corregidos. Al final del libro se transcribe una pequea seleccin de preguntas y respuestas que se suscitaron durante
esas trasmisiones satelitales (apndice C) y que se trasmitieron va Internet.
Hay copias grabadas en videocassette de las 16 sesiones satelitales referidas, cada una con una duracin de una hora y media, pero no son propiedad
del autor sino de la institucin que las patrocin. Sin embargo, si el instructor lo
requiere, se puede solicitar su prstamo o copiado. Tambin se puede solicitar
un disco compacto (CD) para computadora con todas las exposiciones de esas
trasmisiones satelitales en atractivas presentaciones de PowerPoint, las cua
les
pueden facilitarse a los profesores que usen este libro como texto en sus cursos
de estadstica, si as lo llegaran a solicitar. Las presentaciones contienen una snte
sis del material de cada captulo y son ideales para su exposicin en clase o para
. '
conferencias. El lector interesado en estos materiales puede comunicarse con el
autor a la direccin de correo electrnico que se indica al final del prlogo.
Cabe aclarar, que este libro es un texto para aprender estadstica y quiz
tambin algo de probabilidad, pero no para aprender a usar el programa Excel. Se
presupone que el lector ya conoce los rudimentos de este programa y sabe cmo
usarlo para hacer operaciones bsicas, tablas, etc. Si el lector jams lo ha usado,
entonces le convendra consultar un manual bsico o tomar un curso previo de
Excel antes de emprender el estudio de este libro.
Como no en todas las universidades e institutos tecnolgicos se acostumbra
que cada alumno lleve su Zaptop o tenga acceso a una PC durante la clase, tambin
se han incluido tablas estadsticas, con objeto de que los problemas y ejercicios
puedan resolverse tambin sin una computadora, con tablas y una calculadora
cientfica de bolsillo. Como mencionamos, el autor us una versin preliminar
de este libro en un curso de estadstica impartido a estudiantes de actuara de la
Facultad de Ciencias de la UNAM (Universidad Nacional Autnoma de Mxico),
sin recurrir en absoluto a la computadora y slo se desarroll con herramientas
8 Prlogo
tradicionales (tablas estadsticas, calculadora, pizarrn y gis), condiciones en las
que el libro result de excelente ayuda para todos. Esto quiere decir que, no
obstante el titulo que se le ha dado, este libro puede usarse tambin como texto
de introduccin a la estadstica en cursos tradicionales en los que no se usan
computadoras.
El autor espera que el trabajo invertido en la elaboracin de este libro no
haya sido en vano y que sea un libro que guste y despierte inters, e incluso entusiasmo, por la bella y til ciencia de la estadstica.
Por ltimo, van unas palabras de agradecimiento a Jos Luis Serrato, editor

de ?iillas, por su paciente y esmerada labor en el trabajo editorial de este vo


lumen, y por sus valiosas indicaciones y sugerencias.
Cualquier crtica constructiva o comentarios que tengan el nimo de eliminar errores o mejorar el contenido en futuras reimpresiones y ediciones, se
rn bienvenidos y agradecidos, y podrn remitirse al editor de 'Rillas va correo
electrnico (esup@trillas.com.mx) o directamente al autor (gaitol968@yahoo.
com) .
Prlogo 5
Cap. 1. Introduccin 13
1.1. Introduccin y prerrequisitos, 13. 1.2. Cul es el objeto de estudiar
estadstica?, 15. 1.3. Uso de la calculadora cientfica, 17. 1.4. Apoyo
computacional y uso del Excel, 20. 1.5. Redondeo de aproximaciones
decimales, 23. 1.6. Trminos del lenguaje que suelen causar dificultad,
24. 1.7. Uso de porcentajes, 25. 1.8. Diagramas de pastel (o de pay), 26.
Ejercicios complementarios 1.1,29. Tareas de lectura e investigacin, 34.
Parte 1. Estadstica descriptiva
Cap. 2. Manejo de datos aislados 37
2.1. Introduccin, 37.2.2. Glosario de trminos usuales, 37.2.3. Medidas
de localizacin, 41.2.4. Medidas de dispersin, 44.2.5. Obtencin de la
mediana con grficos de tallo y hojas, 46.2.6. Coeficiente de variacin,
48. 2.7. Error absoluto medio y error cuadrtico medio, 50. 2.8. Error
tpico de la media en una muestra de tamao n, 50.2.9. Notacin sigma
para sumas, 53. 2.10. Interpretacin geomtrica de la media, 54. 2.11.
Interpretacin geomtrica de la mediana, 56. 2.12. Cuartiles, deciles
y otros percentiles, 58. 2.13. Desviacin estndar muestral, 59. 2.14.
Estadstica descriptiva con la calculadora cientfica, 61. 2.15. Resumen
de estadstica descriptiva con Excel, 62. Ejercicios de autoevaluacin
2.1,65. Respuestas de los ejercicios de autoevaluacin 2.1,67. Ejercicios
complementarios 2.1,70.
Cap. 3. Datos agrupados en clases o intervalos 75
3.1. Clases y sus caractersticas, 75. 3.2. Histograrnas y polgonos de
frecuencia, 77. 3.3. Distribucin acumulada y ojivas, 80. 3.4. Media y
desviacin media para datos agrupados, 82. 3.5. Mediana y cuantiles para
1 0 lndice de contenido
datos agrupados, 84.3.6. Lamoda para datos agrupados y su interpretacin
geomtrica, 86. 3.7. Desviacin estndar para datos agrupados, 89. 3.8.
Intervalos con anchuras variables y densidad de frecuencia, 91. Ejercicios de
autoevaluacin3.1,97. Respuestas de los ejercicios de autoevaluacin 3 1, 98.
Test sobre estadstica descriptiva, 101. Ejercicios complementarios 3.1,104,
Cap. 4. Variables aleatotias y distribuciones de probabilidad
113
4.1. Variables aleatorias discretas y continuas, 113. 4.2. Integrales elementales y reas bajo curvas, 114.4.3. Sesgo (coeficiente de asimetra) y
curtosis, 117.4.4. Distribuciones de probabilidad y momentos, 121.4.5.
Tipificacindeunavariableaieatoria, 130.4.6.LadesigualdaddeChbyshev,
133. 4.7. Ejemplos tpicos, 134. Ejercicios complementarios 4.1, 140.
Parte 11. Principales distribuciones estadsticas
Cap. 5. Las distribuciones discretas te6ricas ms importantes
157
5.1. Introduccin: combinaciones de n objetos con r de ellos a la vez,
157. 5.2. El muestreo con reposicin y la distribucin binomial, 159.
5.3. El uso de tablas y del Excel en la distribucin binornial, 163. 5.4.
El muestreo sin reposicin y la distribucin hipergeomtrica, 164. 5.5.
La distribucin de Poisson, 167. 5.6. El uso de tablas y del Excel en la
distribucin de Poisson, 169. 5.7. Las distribuciones binomial negativa
y geomtrica, 173. Ejercicios de autoevaluacin 5.1, 175. Respuestas
de los ejercicios de autoevaluacin, 5.1. 178. Test sobre distribuciones
discretas, 179.5.8. Resumen de frmulas: ms ejemplos y ms ejercicios,

182. Ejercicios complementarios sobre la distribucin binomiai5.1,189.


Ejercicios complementarios acerca de la distribucin binomial negativa
y la distribucin geomtrica 5.2,199. Ejercicios complementarios acerca
de la distribucin hipergeomtrica 5.3,204. Ejercicios complementarios
acerca de la distribucin de Poisson 5.4, 209. Problemas acerca de distribuciones combinadas, 210.
Cap. 6. Las distribuciones continuas tericas ms importantes
213
6.1. La distribucin normal, 213. 6.2. El uso de tablas y del Excel en
la distribucin normal, 216. 6.3. Correccin por continuidad, 219. 6.4.
Ejemplos prcticos, 219. 6.5. Aproximacin de la distribucin binomial
con una distribucin normal, 222. 6.6. Las distribuciones exponencial
y de Erlang, 226. 6.7. La distribucin ji-cuadrada (X2) con v grados de
libertad, 234.6.8. La distribucin t de Student con v grados de libertad,
236. Ejercicios de autoevaluacin 6.1,240. Respuestas de los ejercicios de
autoevaluacin 6.1,244. Test sobre distribuciones estadsticas (captulos
5 y 6), 247. Test general de diagnstico sobre los captulos 1 al 6,249.
Parte 111. Inferencia estadstica
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 257
7.1. La Desigualdad de Chebishev, 257. 7.2. El Teorema de De MoivreLaplace, 259. 7.3. La Ley de los Grandes Nmeros, 260. 7.4. El Teorema
[ndice de contenido 1 1
Central del Lnite y la distribucin muestral de medias, 261.7.5. Dis-tribucin
muesual de una proporcin, 266.7.6. Ejemplos diversos, 270. Ejercicios de
autoevaluacin 7.1,272. Respuestas de los ejercicios de autoevaluacin 7.1,
273. Tests genedes de diagnstico (captulos 1 al 7), 273.
Cap. 8. Estimacin de padmetros, i nt edos de confianza y tamaio de muestra 281
8.1. Intervalos de confianza para la media poblacional (muestra grande),
281.8.2. Clculo del tamao de muestra en la estimacin de una media,
286. 8.3. Intervalos de confianza para la media con muestra pequea,
287. 8.4. Intervalos de confianza para la varianza poblacional y para la
desviacin estndar, 289.8.5. Intervalos de confianza para una proporcin
poblacional, 295.8.6. Clculo del tamao de muestra en la estimacin de
una proporcin, 296. Ejercicios de autoevaluacin 8.1, 300. Respuestas
de los ejercicios de autoevaluacin 8.1, 302. Test sobre estimacin de
parmeuos, intervalos de confianza y tamao de muestras, 304.
Cap. 9. Pruebas de hiptesis paramtricas: introduccin y pruebas relativas a
medias 307
9.1. Hiptesis estadsticas, errores y glosario de trminos, 307.9.2. Ejemplos
de pruebas de hiptesis yerrores de tipos Iy 11,310.9.3. Ensayos unilaterales
y bilaterales, 312. 9.4. Resumen del procedimiento para una prueba de
hiptesis en general, 313. 9.5. Esquema gua para la prueba de hiptesis
relativa a una media, 313.9.6. Pruebas para la media de una poblacin: caso
de muestra grande, 316.9.7. Pruebas para una media poblacional: caso de
muestra pequea, 318.9.8. Determinacin del tamao de muestra en una
prueba de hiptesis relativa a una media poblacional, 319.9.9. Criterios del
vaporp de la prueba para rechazar H,, 323.
Cap. 10. Pruebas de hiptesis relativas a una proporcin, a la desviacin tpica
y a la varianza de una poblacin 325
10.1. Pruebas de hiptesis sobre una proporcin poblacional, 325. 10.2.
Pruebas de hiptesis relativas a la varianza y la desviacin estndar, 328. Test
general acerca de los i nt edos de confianza y pruebas de hiptesis, 332.
Cap. 11. Inferencia estadstica para dos poblaciones 335
11.1. Introduccin, 335.11.2. Intervalos de confianza para la diferencia de
medias (muestras independientes), 336. 11.3. Pruebas de hiptesis para
la diferencia de medias (muestras independientes), 337. 11.4. Muestras
pequeas tomadas de poblaciones aproximadamente normales, 338.11.5.
Caso de muestras apareadas (o emparejadas), 339.11.6. Inferencias acerca
de la diferencia entre proporciones de dos poblaciones, 343. Test general
acerca de pruebas de hiptesis en sus distintas modalidades, 345.

Cap. 12. Comparacin de las varianzas de dos poblaciones 349


12.1. Distribucin F de Fisher, 349. 12.2. Intervalos de confianza para
razones de dos varianzas, 352. 12.3. Prueba de hiptesis para la varianza
de dos poblaciones, 352.12.4. Tablas de valores crticos de la distribucin
F de Fisher, 353.
1 2 ndice de contenido
Parte IV. Estadstica no paramtrica
Cap. 13. La prueba ji-cuadrada de Pearson
13.1. Introduccin, 365. 13.2. Empleo de la ji-cuadrada de Pearson para la
bondad de ajuste, 366.13.3. Correccin de Yates para la continuidad, 371.
13.4. Tablas de contingencia e independencia de datos asociativos, 373.
13.5. Forma matemtica y grfica de una distribucin ji-cuadrada, 375.
Cap. 14. Las pmebas no paramtricas ms usudes
14.1. Introduccin, 377.14.2. Prueba de los signos, 377.14.3. Prueba de
los signos para muestras apareadas, 379. 14.4. La prueba de rango con
signo de Wilcoxon, 380. 14.5. Prueba de rango con signo de Wilcoxon
para muestras apareadas, 385. 14.6. La prueba U de Mann-Whitney
(prueba de suma de rangos), 386. 14.7. La prueba H de Kruskal-Wallis,
391.14.8. La prueba de Wald-Wolfowitz de rachas o corridas, 394.
Parte V. Otras distribuciones notables
Cap. 15. La distribucin de Weibdi y otras distribuciones continuas notables
15.1. Distribucin de Weibull, 407.15.2. La distribucin beta, 414. 15.3.
Relacin entre la distribucin beta y la distribucin binomial, 416. 15.4.
Distribucin uniforme continua o rectangular, 417. 15.5. Distribucin
de Rayleigh, 419.
Parte VI. Regresin y correlacin
Cap. 16. Regresin lineal simple y correlacin
16.1. Introduccin, 425. 16.2. El mtodo de ajuste por mnimos cuadrados, 428. 16.3. Correlacin, 431. 16.4. Coeficiente de determinacin
muestra1 r2, 432. 16.5. Ejemplos y frmulas importantes, 432. 16.6.
Abreviaturas ms usuales en la Teora de Regresin y Correlacin, 435.
16.7. Intervalo de confianza para Po, 437.16.8. Pruebas de hiptesis para
Po, 438.16.9. Intervalo de confianza para la respuesta media p yKo ,dadoXo,
439. 16.10. Pruebas de hiptesis relativas al coeficiente de correlacin r,
440. Ejercicios de autoevaluacin 16.1,443. Respuestas de los ejercicios
de autoevaluacin 16.1, 443. Ejercicios adicionales, 447. Cuestionario
de conceptos e ideas generales, 449. Ejercicios suplementarios, 450.
Apndice A. Algunos conceptos fundamentales de probabilidad
Apndice B. Tablas estadsticas
Apndice C. Dudas tpicas y preguntas con respuesta
Apndice D. Respuestas de los tests
Bibliografa selecta
ndice onomstica
ndice anaitico
El pensamiento estadistico ser un dia tan necesario para el
ciudadano ejiciente como la capacidad de leer y escribir.
La estadstica es una ciencia terico-prctica de gran utilidad para profesionistas de muy diversas orientaciones, desde mdicos, psiclogos, nutrilogos,
agrnomos, economistas, administradores y ejecutivos, hasta bilogos, ingenieros, fsicos, actuarios y matemticos. Por esta razn, la estadstica moderna se ha
segmentado en diferentes modalidades o variedades, segn los intereses, enfoques o necesidades de cada usuario. As, se imparten cursos de estadstica descriptiva, inferencial, no-paramtrica, bayesiana, administrativa, matemtica,
etc., por mencionar slo algunas de las variedades ms comunes.
La etimologa de la palabra proviene del vocablo latino status, que significa
estado (o gobierno), y aparentemente fue usada por vez primera en 1672
por
Helenus Politanus (de Francfort) en un escrito satrico titulado Microscepium Statisticum. Pero eso se refiere slo al origen de la palabra, ya que ese escrito na

da
tena que ver con lo que es estadstica segn la acepcin moderna de la palabra.
Se cree que fue el clrigo luterano alemn Martin Schmeizel quien, ms o menos
por 1720, us la palabra estadistica con el significado actual, que es el de recol
eccin sistemtica y anlisis metdico de datos e informacin numrica.
Sin embargo, el origen de la estadstica como actividad de recoleccin siste1 4 Cap. 1 . Introduccin
mtica de datos se remonta a hace ms de 5000 aos en China. A decir verdad, casi
todas las grandes civilizaciones de la antigedad usaron esta actividad en mayor o
menor escala. En los monumentos egipcios que datan de ms de 3000 aos antes
de Cristo se han hallado pruebas de que los egipcios llevaban cuenta rigurosa y
sistemtica de movimientos poblacionales, as como de censos de poblaciones y
tierras. Se sabe que Ramss 11hizo un censo de las tierras con objeto de verificar nuevos repartos, y se cuenta que tal era la dedicacin de los egipcios de la
antigedad por llevar relacin y cuenta sistemtica de todo que hasta tenan a la
diosaSafnkit,' diosa de los libros y las cuentas. Tambin, los romanos antiguos e
ran
maestros de la recoleccin y recopilacin sistemtica de datos.
El inicio de la estadstica moderna est asociado a los nombres del ingls
John Graunt (1620-1674) y del belga Adolphe Quetelet (1796-1874), entre otros.
Sin embargo, el desarrollo verdaderamente cientfico de la estadstica pudo surgir gracias a su interconexin con la teora moderna de las probabilidades (ciencia que surgi en Francia.en el siglo xvrr y alcanz su ms vertiginoso desarrollo
en la Rusia zarista de fines del siglo m y principios del m). La estadstica cientf
ica
moderna, como tal, es indisoluble de la teora de las probabilidades. Los ms
ilustres pioneros de la estadstica fueron casi todos ingleses (Graunt, Petty, Ga
lton, Pearson, Gosset, Fisher, etc.), pero los pioneros de la teora moderna de las
probabilidades fueron casi todos franceses o rusos (Pascal, Fermat, De Moivre,
Laplace, Poisson, Borel, Chbyshev, Markov, Lyapunov, Kolmogrov, Gnedenko,
etc.) y alguno que otro ingls (Bayes) o alemn (Gauss).
En el Continente Americano, la probabilidad y la estadstica no fueron tomadas muy en serio sino hasta mediados del siglo xx ms o menos, de ah que casi
no haya estadounidenses en la lista de los grandes pioneros de la probabilidad y
la estadstica, quiz con la excepcin de William Feller y de George W Snedecor,
ambos relativamente recientes. Al final de cada captulo de este libro se presentan ilustraciones con breves datos biogrficos de algunos de los personajes ms
representativos que, a travs de la historia, contribuyeron al desarrollo y la evo
lucin de la estadstica y de la teora de las probabilidades.
Vamos a hablar ahora un poco acerca de las partes de la estadstica. La estastica descriptiva proporciona tcnicas sencillas y frmulas para organizar y
manejar datos masivos o informacin recolectada, ya sea en encuestas o en bases
de datos. Como su nombre lo indica, su propsito es simplemente describir las
caractersticas de la informacin recabada. A menudo, la informacin disponible
es tan slo una parte (muestra) de un conjunto ms grande de datos (poblacin)
que puede ser de difcil acceso en su totalidad.
Por otra parte, la inferencia estadstica (o estadistica inferencia) utiliz
a
todas esas descripciones para realizar inferencias y tomar decisiones concer
nientes a la poblacin de donde se sacaron los datos que se examinan. Gran
parte del trabajo de la inferencia estadstica consiste en averiguar mrgenes

probables de error y de tolerancia en la estimacin de parmetros (magnitudes


numricas) de una poblacin sobre la base de una muestra de datos extrados
de ella, as como la elaboracin de hiptesis acerca de parmetros, las cuales
se trata de corroborar o desmentir.
Hay muchas otras ramas de la estadstica, tales como el anlisis de varianza
y el diseo de experimentos, la regresin lineal (simple y mltiple), la estadstica
1.2. Cul es el objeto de estudiar estadistica? 1 5
no paramtrica, la inferencia bayesiana, la teora del muestreo, etc. Es virtualmente imposible cubrir en un solo libro todas las ramas modernas de la estadstica,
por lo que los textos introductorios (como ste) exponen nicamente algo de
estadstica descriptiva, as como un poco de una pequea seleccin de temas,
como distribuciones probabilsticas, inferencia y regresin, y algn otro tema,
quiz estadstica no pararntrica o anlisis de varianza, y dejan a los dems tpicos para cursos avanzados o ms especializados.
1.2. CUL ES EL OBJETO DE ESTUDIAR ESTAD~STICA?
En trminos generales, el objetivo de la estadstica consiste en aprender a
manejar conjuntos de datos y observaciones para realizar inferencias (pueden ser
predicciones o decisiones) acerca de la poblacin de donde provienen dichos
datos, sobre la base de la informacin contenida en una muestra. Por lo comn,
la persona que se dedica a la estadstica cuantifica la informacin y estudia d
iversos diseos y procedimientos de muestreo, buscando el procedimiento que
produzca una cantidad especfica de informacin en una situacin dada, a un
costo mnimo.
Como se mencion antes, existe una estrecha e indisoluble relacin entre
la estadstica y la teora de las probabilidades, ciencia que es bastante ms antigua que la estadstica y que provee a sta de tcnicas cuantitativas tiles para el
manejo de los datos, de cara a una permanente condicin de incertidumbre en la
que se trabaja. La probabilidad es la ciencia que estudia las caractersticas de
los
procesos aleatorios o relacionados con el azar. La misma palabra aleatorio proviene del vocablo latino alea, que significa suerte o azar, y esta ltima proviene
de la palabra rabe alzahr, que significa "los dados".
A pesar de que la estadstica siempre est sujeta a las contingencias del azar,
con los subsiguientes errores en las estimaciones e inferencias, puede dec
irse
que es una ciencia exacta gracias al concurso de la teora de las probabilidades,
que
permite no slo conocer y cuantificar los errores, sino adems, saber cmo se
distribuyen stos en diferentes circunstancias. Algunas de las leyes bsicas de la
teora de las probabilidades, como la llamada Ley de los Grandes Nmeros o el
Teorema Central del Lmite, han sido de invaluable ayuda para el desarrollo de la
estadstica matemtica y de la inferencia estadstica, pues han dado a estas ramas
de la estadstica una base cientfica slida y elegante. El tema medular y central,
tanto en la estadstica como en la teora de las probabilidades, es el tema de la
distrZbucin, es decir, la forma matemtica como se distribuyen los datos o las
observaciones en una poblacin finita o infinita. La teora de las probabilidades
analiza y clasifica todos los tipos de distribuciones tericas que existen, as como
sus propiedades y caractersticas, y la estadstica prctica obtiene de todo ello un
gran provecho y utilidad.
En resumen; la estadstica es un rea de la ciencia que se ocupa del anlisM de datos y de realizar inferencias acerca de una poblacin de mediciones,
a partir de la informacin contenida en una muestra y del conocimiento de
las leyes probabilsticas sobre la forma como se distribuyen los datos en una

poblacin especGca.
1 6 Cap. 1 . lntroduccidn
Es verdad que la mayora de las leyes o teoremas de la estadstica moderna
se sustentan y se fundamentan en ltima instancia en la teora de las probabilidades y en la teora de los procesos estocsticos (del griego stokos, que significa
"adivinar"). Aun as, y a pesar de que la formulacin precisa de las leyes de la est
adstica puede involucrar matemticas sofisticadas y formales, es posible sintetizar
los conceptos y enseanzas bsicas en un curso ligero y prctico, haciendo a un
lado las sutilezas tericas y poniendo nfasis en la utilidad prctica que puede
tener la estadstica en situaciones cotidianas.
El hecho mismo de que la estadstica sea una usuaria afn a muchas disciplinas distintas, ha provocado que la notacin o la nomenclatura empleada
en
estadstica sea, en ocasiones, extraa y no siempre homognea entre los diversos
autores. Los estudiantes que abordan por primera vez el estudio de la estadstica
suelen sentirse incmodos ante la diversidad de notaciones y smbolos empleados. Por ejemplo, es comn usar letras maysculas para referirse a una variable
aleatoria en general y letras minsculas para valores particulares de la misma
,
aunque no todos los autores de libros y trabajos sobre estadstica se cien a esa
convencin.
Tambin, el uso de smbolos y letras griegas o latinas para denotar los parmetros de las distribuciones ms usuales es, desafortunadamente, muy heterogneo entre los diversos autores. Para poner un ejemplo, en geometra elemental,
cualquier estudiante sabe que la razn de la longitud de la circunferencia al dimetro de un crculo se denota universalmente por la letra griega n, y a nadie se
le
ocurrira usar otro smbolo para ello. En cambio, en estadstica uno puede tomar
tres libros al azar, y comprobar que los parmetros de forma y de escala para la
distribucin gama, por mencionar un ejemplo, se denotan (respectivamente) por r
y h en un libro, pero por a y 1/8 en otro, o por algunos otros smbolos o letras g
riegas en el tercer libro. La gran diversidad de usuarios de la estadstica ha provoc
ado
esa variedad de notaciones, y el estudiante debe estar preparado para ello.
Procedemos ahora a resumir lo esencial de esta seccin y de la anterior en
pocas palabras:
La estadstica es un rea de la ciencia que se ocupa de extraer la informacin contenida en datos numricos y de usarla para hacer inferencia
acerca de la poblacin de la que se extraen los datos.
Existe una estrecha e indisoluble relacin entre la estadstica y la teora de
las probabilidades.
La probabilidad es la ciencia que estudia las caractersticas de los procesos aleatorios o relacionados con el azar.
El tema central, tanto en la estadstica como en la teora de las probabilidades, es la distribucin, es decir, la forma matemtica como se distribuyen los datos o las observaciones en una poblacin finita o infinita.
La teora de las probabilidades analiza y clasifica todos los tipos de distdbuciones tericas que existen, as como sus propiedades y caractersticas.
La estadstica obtiene de todo ello un gran provecho y utilidad.
Las leyes de la estadstica se desarrollan y se fundamentan en ltima instancia en la teora de las probabilidades y en la teora de los procesos
estocsticos.
1.3. Uso de la calculadora cientfica 1 7
La estadstica descriptiva proporciona tcnicas y mtodos para organizar,
manejar e interpretar datos o informacin recolectada.
La inferencia estadstica usa todas esas descripciones para:
- Realizar inferencias y tomar decisiones relativas a la poblacin de don-

de se sacaron los datos que se examinan.


- Determinar mrgenes probables de error y de tolerancia en la estimacin de parmetros de una poblacin sobre la base de una muestra de
datos extrados de ella.
- Aplicar mtodos para probar hz'pitesis acerca de parmetros, las cuales
se trata de corroborar o desmentir.
El diseo de experimentos y el anlisis de v a r i a m se ocupan de determinar y confirmar relaciones causales entre variables, comparando simultneamente las caractersticas intrnsecas de varias poblaciones.
Iaestadistica noparamtrica es un conjunto de mtodos que funcionan
para suplir las deficiencias de la estadstica cuando se desconocen los parmetros de la poblacin (o no se pueden usar supuestos de normalidad)
y cuando las muestras son demasiado pequeas.
Los mtodos estadsticos clsicos (o frecuentistas) son consistentes y tiles, pero fundamentalmente estticos.
Los mtodos estadsticos bayesianos son dinmicos y usan informacin
previa (distribuciones a priori), as como evidencias muestrales empricas, y las convierten en distribucionesposteriores. Estos mtodos han enriquecido mucho la teora de las decisiones y los mtodos de pronstico.
Se fundamentan en ltima instancia en el Teorema de Bayes, una regla
famosa que permite calcular probabilidades inversas (probabilidades a
posteriori) a partir de probabilidades previas (apriori) y de probabilidades condicionales observadas o supuestas.
La regtesiin (trmino inventado por el ingls sir Francis Galton en 1833)
es una metodologa estadstica muy importante que estudia las relaciones estocsticas entre un nmero de variables aleatorias independientes
(variables explicativas) y una variable objetivo (o predictando), con el
propsito de realizar predicciones y de averiguar el mayor o menor efecto
de cada variable explicativa sobre el predictando.
13. USO DE LA CALCULADORA CIENT~FTCA
Actualmente, hay una gran proliferacin de marcas y tipos de calculadoras aentificas de bolsillo de todos orgenes, principalmente chinas, coreanas y
niponas, y adems a precios cada vez ms accesibles para cualquier estudiante.
Empero, cada marca y tipo de calculadora funciona de modo distinto a otras. Es
muy importante que el estudiante adquiera una calculadora cientfica, barata si
quiere, pero que lea el instructivo y aprenda a usarla bien, sobre todo en lo qu
e
x refiere a su modalidad estadstica. Si usted no tiene el instructivo porque ya
lo perdi, entonces deber tratar de descubrir sus funciones y utileras mediante
ensayo y error, es decir, mediante experimentacin.
1 8 Cap. I . Introduccin
Casi siempre, el autor inicia su curso de estadstica pidiendo a los alumnos
que sin falta traigan una calculadora cientfica para la segunda clase, y entonces
dedico buena parte de esta clase a hacerlos que se ejerciten en su uso, has
ta
asegurarme de que todos hayan aprendido bien a manejarla. Entonces salen a
relucir ciertas deficiencias de algunos alumnos, las que se pueden enmendar precisamente ah mismo, tales como un desconocimiento de la notacin cientfica o
del uso de parntesis como signos de agrupacin, o de cmo elevar a potencias
o de qu cosa significa un logaritmo, o de qu cosa es el nmero e y por qu se
usa como base de los logaritmos naturales. Aveces no falta el despistado que pre
gunte cmo se prende la calculadora. A pesar de que esa clase va en detrimento
del avance temtico en el curso, nunca la considero una clase desaprovechada.
Una calculadora cientfica normal tiene distintas modalidades de operacin,
las cuales generalmente se dan de alta con una tecla que dice MODE seguido de
un nmero apropiado; por ejemplo, con el O es para clculos normales (COMP),
con el 1 para otras bases numricas (BASE-n), con el 2 para estadstica (SD

o
STAT), con el 3 para fracciones (FRAC), etc. Desde luego, esto es slo para un
tipo de calculadora hecha en China, pero para otras calculadoras puede ser distinto. Hay calculadoras en las que para usar funciones primero se pone el argumento (el valor de la variable) y despus la funcin; en cambio, hay otras en las
que primero se pulsa la funcin deseada y despus se introduce el argumento.
Con respecto a la modalidad estadstica, hay algunas calculadoras que conservan
en la memoria los datos introducidos aun despus de apagadas, mientras que
otras borran toda la informacin tan pronto como se apagan. El estudiante debe
conocer cmo opera su calculadora. No saber hacerlo es como tener un automvil muy bueno y no saber cmo se cambian las velocidades o cmo se encienden
las luces.
Una de las funciones ms usadas en trabajo estadstico consiste en elevar el
nmero real e (cuyo valor es aproximadamente 2.71828) a diferentes potencias
positivas o negativas, no necesariamente enteras. Si el estudiante no sabe de la
existencia de ese nmero ni por qu es importante, ser difcil explicarlo aqu en
pocas palabras, pero basta por el momento que sepa cmo elevar e a distintas potencias. Por ejemplo, si tiene su calculadora a la mano, observe que hay una tec
la
que dice in (significa logaritmo natural). La funcin inversa de sa es precisamente la elevacin de e a una potencia, y aparece precisamente arriba y afuera de esa
tecla con letra pequea y de cierto color, que dice ex. Las funciones inversas d
e
las que indican las teclas se ejecutan o se llaman con la tecla shijit, que est e
n el
mismo color en el que se escribe la funcin inversa correspondiente.
Por ejemplo, vamos a suponer que se desea elevar el nmero e a la potencia
menos tres quintos, es decir, se desea calcular 2. Si su calculadora es de las
que
requiere primero que pulse la funcin y despus el argumento, entonces empiece por pulsar la tecla shzp y luego la tecla h. Enseguida busque una tecla
que
dice (-) o algo as, oprmala y luego pulse la tecla para abrir parntesis y escriba
3 + 5. Finalmente, pulse la tecla para cerrar parntesis y luego la tecla de igual
(o
exe). Aparecer entonces en su pantalla 0.54881.. . o bien 5.4881.. .-"l. Esta ltim
a
expresin es la notacin cientfica y significa 5.4881 x lo-'.
Hagamos ahora otro ejercicio. Pulse la tecla MODE y luego un nmero apropiado (hasta arriba debe decir cul) para que aparezca en la pantalla, con letr
a
1.3. Uso de la calculadora cientfica 1 9
pequea, la leyenda SD (o bien STAT), lo que significa statistical data (dat
os
estadsticos). Ahora saquemos el promedio de los nmeros 6, 7, 8 y 9, el cual
sabemos que es 7.5. Introducimos primero el nmero 6 y pulsamos una tecla que
dice DATA. (Si su calculadora no trae esa tecla, intente tal vez con una tecl
a
que dice M+, o consulte el manual.) Al hacerlo, deber aparecer en la pantalla l
a
leyenda n = 1. Esto significa que la calculadora reconoce un dato estadstico que
se ha introducido. Si aparece n = 8 (u otro nmero), quiere decir que anteriormente alguien ya introdujo 7 datos y los conserva en la memoria. Deber borrarlos como se indica en el manual. (Intente, por ejemplo, con RESET, ALPHA y ON.)
Para usar RESET debe picar con la punta de un bolgrafo en un pequeo hoyo
que aparece en la parte trasera de la calculadora. Ahora intente de nuevo escrib
ir
el 6 y pulsar DATA, y compruebe si aparece n = 1. Si es as, contine anotando

los otros tres datos, pulsando DATAdespus de cada uno de ellos. Ahora observe
que afuera de alguna tecla y con letra pequea aparece el smbolo X, que significa media aritmtica (o promedio de los datos). Pulse SHIFT y despus esa tecla
y exe, y ver entonces que aparece 7.5, que es la media aritmtica o promedio de
los datos 6, 7, 8 y 9.
Con estos dos ejercicios es suficiente por ahora. Ahora ya sabe usted cmo
obtener la media aritmtica de un conjunto de nmeros, y tambin cmo elevar
el nmero real e a cualquier potencia positiva o negativa. Antes de seguir adelante, haga una pausa y resuelva los siguientes ejercicios con ayuda de su calculad
ora
cientfica.
Ejercicio 1.1. Suponga que las edades de los integrantes de un equipo de futbo
l soccer
de primera divisin son (en aos): 33, 24, 21, 25, 26, 20, 19, 30, 26, 22 y 20. Con
la utilera estadstica de su calculadora cientfica, halle la media aritmtica ?? (o promedi
o) de
las edades de esos 11 futbolistas.
Ejercicio 1.2. La presin atmosfrica (en milmetros de mercurio) en un lugar de la
Tierra
a una altura de h metros sobre el nivel del mar est dada por:
donde k es una constante que vale aproximadamente 0.000117.
a) Calcule la presin atmosfrica de la Ciudad de Mxico si su altura es de 2230 metro
s
sobre el nivel del mar.
6) Calcule la presin atmosfrica a 10000 metros sobre el nivel del mar.
Ejercicio 1.3. Use su calculadora para resolver lo siguiente en una sola operacin
, esto es,
sin oprimir el igual (o el exe) ms de una vez.
1.4. APOYO COMPUTACIONAL Y uso DEL EXCEL
Para la mayora de los usos bsicos de la estadstica, el programa Excel de
Microsoft Office es ms que suficiente como apoyo computacional y tiene la ventaja de que es conocido y de fcil acceso. Por esa razn ser el programa al que
ms se har referencia en este libro, de ah el ttulo mismo del libro. Otro software recomendable es el SPSS (Statistical Package for the Social Sciences) y el
EVIEWS (Econometric Views), as como el MINITAB, que es ms antiguo, pero
que sigue siendo atractivo para muchos usuarios y constantemente salen nuevas
y mejores versiones. A decir verdad, no es indispensable usar apoyos computacionales para un curso bsico de estadstica, pero s es deseable para aligerar
el trabajo de las operaciones. En este sentido, para los objetivos y propsitos d
e
este libro, las hojas de clculo de Excel bastarn en la mayora de los casos. Con
la prctica cotidiana, el estudiante ir aprendiendo a aprovechar las utileras estadsticas que ofrece el Excel, el cual es muy amigable y se aprende sin ninguna
dificultad. En la medida de lo posible, trataremos de usar en este libro la mi
sma
simbologa y la misma nomenclatura que aparece en el Excel.
La mayora de las versiones de Excel que traen las computadoras comerciales son versiones restringidas que carecen de algunas herramientas de anlisis, o
bien las traen inactivadas. Slo la versin profesional completa trae instaladas todas las utileras y herramientas. Para probar si usted tiene una versin restringida
en su mquina o no, haga el siguiente experimento: Abra Excel y pulse el men
Herramientas en la parte superior. Si en la lista que aparece no sale Anlisis de
datos, entonces pulse (dentro de esa misma lista) donde dice Complementos (en
ingls Add-ins), y entonces aparecern varios complementos disponibles con un

pequeo cuadro a la izquierda que se puede marcar con una paloma. Quite la
paloma en todos los cuadros y ponga paloma en el complemento que dice Anlisis de datos nicamente. Si usted tambin espera usar el Excel para otro tipo de
trabajo (como, por ejemplo, para problemas de programacin lineal), entonces
tambin puede poner paloma donde dice Solver y donde dice Herramientas
para anlisis VBA. Una vez que ya marc con paloma esos tres complementos
y slo sos, pulse aceptar. Si le aparece un mensaje que dice Inserte el CD de
OBce para dar de alta esos complementos, entonces es que su versin de Excel
no era la completa y deber conseguir el CD que le pide. Si no le aparece ese
mensaje, espere a que se den de alta automticamente los complementos que
seal, los cuales, en lo sucesivo, siempre van a aparecer cada vez que pulse el
men Herramientas (fig . 1.1).
Ahora haga el siguiente experimento: Invente un conjunto de nmeros
(pueden ser, por ejemplo, las edades de sus sobrinos), digamos: 2, 3, 3, 4, 6, 5
, 1
y 3, y antelos en la columna A, uno en cada celda (fig. 1.2).
Despus, pulse de nuevo el men Herramientas y el submen Anlisis de
datos que acaba de dar de alta. Entonces aparecer una larga lista de utileras y
funciones estadsticas, la mayora de las cuales seguramente no tendrn ningn
sentido para usted a estas alturas. En los captulos 2 y 3 iremos examinando esas
funciones y utileras. Por lo pronto, pulse donde dice Estadistica descn'ptiva. En
seguida aparecer un cuadro de dilogo como el que se muestra en la figura 1.3.
Luego, donde dice Rango de entrada, pulse con el cursor las celdillas Al
Figura I . I
Figura 1.2
hasta A8, que es donde tiene usted sus datos. Y donde dice Opciones de salida,
marque donde dice En una hoja nueva y ponga una marca (paloma) en el cuadro que dice Resumen de estadsticas.
A continuacin, aparecer una lista de trminos y sus correspondientes valores numricos (fig. 1.4). El significado de esos trminos y valores numricos
se explicar en los prximos captulos. Mientras, podemos adelantar algunos de
estos trminos. Empecemos por los ltimos cinco de ellos. Al final dice Cuenta
8, lo cual quiere decir que se registraron ocho datos numricos. El penltimo
dice Suma 27, lo cual significa que la suma de los ocho datos introducidos es 27
.
Figura 1.3
.l
Figura 1.4
1.5. Redondeo de aproximaciones decimales 23
Un poco ms arriba dice: Mlnimo 1 y Mximo 6, lo que significa cules fueron el
menor dato y el mayor dato, respectivamente, que se introdujeron. La diferencia
entre el mayor y el menor de esos datos (6 - 1 = 5) es el rango.
El rango es una de varias medidas de dispersin que se usan en estadstica.
En trminos generales, si el rango es pequeo, casi todos los datos son parecidos,
mientras que un rango grande indica mucha variabilidad (o heterogeneidad) en
los datos. Obviamente, si todos los datos hubiesen sido iguales, el rango habra
sido cero, al igual que todas las dems medidas de dispersin (como la varianza
y la desviacin estndar, las cuales se definirn y se examinarn en el captulo
siguiente).
Volviendo a nuestra lista, entre los primeros cuatro trminos que aparecen
dice Media 3.375, Mediana 3 y Moda 3. Estos tres parmetros representan medidas de localizacin o de tendencia central; es decir, son tres maneras diferentes
de considerar una especie de valor promedio de los datos introducidos. La media
es el promedio aritmtico de los ocho nmeros introducidos:
Por otra parte, la mediana hace referencia al dato intermedio en cuanto a
tamao (si se trata de un nmero impar de datos), o en su defecto a la media
aritmtica de los dos datos intermedios (si se trata de un nmero par de datos,
como en este caso). En efecto, si ordenamos los ocho datos de menor a mayor,
tendremos la siguiente sucesin: 1, 2, 3, 3, 3, 4, 5 6 . Los dos datos intermed

ios
se han sealado con negrita, y la media aritmtica de ellos es (3 + 3)/2
= 3.
Por tanto, la mediana es 3. Por ltimo, la moda es el valor (o valores) que apa
recen con mayor frecuencia. En este caso, el 3 aparece tres veces, as que
es
la moda. Es claro que puede haber ejemplos con dos o ms modas o con ninguna moda. Los restantes trminos de la lista son bastante ms complicados y se
tratarn en el captulo siguiente.
Algunas personas suelen tener dificultades para hacer un redondeo correcto en el ltimo dgito significativo de una representacin decimal. La regla general, para no equivocarse, es que siempre debemos considerar el dgito que est
ms cerca, y en caso de estar a la misma distancia, subir al siguiente dgito.
Por ejemplo, si deseamos redondear el nmero 0.142857 a slo cuatro dgitos significativos despus del punto, escribimos 0.1429 y no 0.1428, toda vez
que 857 est ms cerca de 900 que de 800. En cambio, el nmero 0.2343499 se
redondea a cuatro dgitos decimales como 0.2343, ya que 3499 est ms cerca
de 3000 que de 4000. Un nmero como 0.25675000 se redondea a cuatro dgitos
como 0.2568 por convencin.'
'NOTA: Algunos autores prefieren usar la siguiente convencin para redondear a n
dgitos despus
dei punto: si el lugar n + 1 es 5 y los siguientes son ceros, la cifra se redon
dea al nmeropar ms cercano. Si
d n s i o dgito despus del punto es un nmero par, no sufre cambio alguno, pero si
es impar se agrega
24 Cap. l . lntroduccidn
Muchos de los nmeros que se obtienen en estadstica y probabilidad suelen redondearse a cuatro dgitos decimales al final, es decir, cuando se va a exhibir la respuesta numrica final. Sin embargo, a la hora de realizar operaciones
con calculadora no resulta conveniente redondear los nmeros, ya que entonces
se producirn errores, que se van a propagar y multiplicar, ocasionando al final
un error grueso o considerable. Por eso, slo se recomienda hacer redondeos
numricos al expresar la respuesta final, mas no durante las operaciones intermedias. Es comn representar una respuesta numrica final con un redondeo
correcto de cuatro dgitos despus del punto decimal.
1.6. B R M L N O S DEL LENGUAJE QUE SUELEN CAUSAR
DIFICULTAD
Muchos estudiantes suelen encontrar serias dificultades para comprender
algunos trminos del idioma espaol que se aplican comnmente en estadstica
y probabilidad. Vamos a dedicar esta breve seccin para aclarar algunos de esos
trminos.
Los trminos nrando menos, por lo menos o al menos son sinnimos y significan una cantidad mnima que se va a considerar dentro de un conjunto de datos
determinados o indeterminados. Por ejemplo, si un seor dice que tiene en el
bolsillo cuando menos 50 pesos, ello significa que la minima cantidad que tiene
en ese bolsillo es de 50 pesos, pero bien puede tener ms. Tal vez tenga un fajo d
e
billetes con varios miles de pesos y eso no contradice la afirmacin de que tiene
cuando menos 50 pesos (o al menos 50 pesos). Para poner otro ejemplo, si en
un da muy contaminado en el Distrito Federal la Secretara de Proteccin Arnbiental afirma que la contaminacin atmosfrica alcanz niveles depor lo menos
230 unidades IMECAS,2 ello significa que el valor minimo de la contaminacin
registrada fue de 230 unidades, pero bien pudo haber sido mayor.
Por otra parte, los trminos ~ n d o mucho, cuando ms, a lo sumo o a lo mrs
son sinnimos y significan el valor &mo que se va a considerar dentro de un
conjunto de datos determinados o indeterminados. Por ejemplo, si se dice que
un seor tiene cuando mucho 60 aos, queremos decir que 60 aos es la mxima
edad que le estimamos, pero puede ser menos. En otro ejemplo, si un pugilista

(boxeador) dice a su futuro oponente que ste le va a durar cuando m i s cinco


rounds, significa que el primero espera ganar la pelea en alguno de los primeros
cinco, esto es, en cualquiera de los rounds 1, 2, 3, 4 o 5.
Ntese que los trminos cuando menos x o cuando ms x incluyen en
cada caso al valor x. En cambio, los trminos ms de x o menos de x no incluyen al
valorx. Si alguien afirma que tiene ms de 35 aos, entonces por lo menos tiene
36 aos. Si alguien afirma que se ha casado menos de tres veces, entonces es que
se ha casado cuando mucho dos veces.
uno a ese dgito para convertirlo en par. Por ejemplo, el nmero 6.545000 se redonde
a a dos dgitos como
6.54, porque el 4 es par, pero 6.575000 se redondea a dos dgitos como 6.58 porque
el 7 es impar. Nosotros
haremos caso omiso de esta complicada sutileza y siempre usaremos el segundo cri
terio, es decir, redondearemos tambin 6.545000 como 6.55.
ZIMECA = ndice Metropolitano de la Calidad del Aire.
1.7. Uso de porcentajes 2 5
Igualmente, el trmino no mc & x incluye al valor x y quiere decir x o
menos. Si alguien afirma que posee no ms de dos autos, entonces su nmero
de autos puede ser 0 , l o 2. Lo mismo pasa con el trmino no menos dex, el cual
significax o ms. Por ejemplo, si se dice que el ajedrecista Anand ha derrotado al
ajedrecista Kasprov no menos de seis veces, quiere decir que el nmero mnimo
de veces que lo ha vencido es de seis (aunque pueden ser ms).
A decir verdad, me siento extrao al tener que incurrir en semejantes explicaciones acerca del idioma espaol en un libro sobre estadstica, pero la experiencia de varios lustros de ensear la materia muestra cun difcil resulta para
muchos estudiantes entender el significado de esos trminos. Si no fuese porque
me dedico a la docencia, jams habra pensado que tales explicaciones deberan
incluirse en un libro de texto sobre la materia. En cierta ocasin, durante un exa
men de probabilidad, eran tantos los estudiantes que se levantaban para preguntar el significado de trminos como cuando mi s , cuando menos, a lo mucho,
etc., que pens que la prxima vez que escribiera un libro de texto de estadstica
o probabilidad, dedicara una seccin completa a explicar estos trminos del idioma espaol desde el principio.
1.7. Uso DE PORCENTA@S
El uso de porcentajes es uno de los mtodos ms socorridos y populares
para presentar datos estadsticos al pblico. La frmula para obtener un porcentaje es muy sencilla:
Ejemplo 1.1.65 % de 150 es:
Naturalmente, habra sido equivalente multiplicar 0.65 por 150.
Veamos otro ejemplo:
Ejemplol.2. Qu tanto por ciento de 82 es 20?
n x 82 2000
n %(82) = - = 20 implica que n=- =24.39 %
100 82
Obsrvese que la funcin porcentaje, es decir n %(x), es unabnci n lineal, lo cual significa que satisface las siguientes dos propiedades:
1. n %(a) = c n %(x) para cualquier constante c
2. n %(x + y ) = n %(x) + n %(y).
26 Cap. l . Introduccin
Por ejemplo, 12 % de 60 (que es 40 + 20) es igual a 12 % de 40 ms 12 % de
20. Claro que tambin sera igual, por ejemplo, a 12 % de 45 ms 12 % de15. Sugerimos al lector que tome una calculadora de bolsillo y se convenza por s mismo
de este hecho.
Un tipo de presentacin muy usual para datos porcentuales cualitativos o
categricos (es decir, no numricos) es el llamado diagrama de pastel (o depq),

el cual es muy fcil de obtener con Excel.


Ejemplo 1.3. Cierto ao ingresaron 700 alumnos de nuevo ingreso a una pequea
universidad que ofrece cinco carreras: administracin, contabilidad, ingeniera, act
uara
y matemticas. Los nmeros respectivos de los alumnos fueron los siguientes (en ese
orden): 280,210,105,70 y 35. Use Excel para dibujar un diagrama de pastel que mues
tre los
porcentajes respectivos en proporcin a las reas de rebanadas de ese pastel.
Solucin: Aqu las variables en cuestin son cualitativas o categricas (carreras escogidas por estudiantes). Primeramente se abre una hoja de clculo de Excel y se
anotan
los datos en dos columnas contiguas, como se indica en la figura 1.5.
Enseguida se pulsa un icono con unas pequeas barritas arriba, el cual dice Chart
Wzard (en ingls) o Asistente para grdjcos (en espaol) y se van siguiendo las instr
ucciones en cuatro pasos. Puede escoger varios tipos de pasteles, en doso tres dim
ensiones
(fig. 1.6).
Al final, puede escoger la opcin de poner los datos finales en porcentajes o en s
u
valor numrico original. Lo ms usual es escoger en porcentajes. El Ekcel escoge po
r default ciertos colores, y la leyenda la pone en un recuadro a mano derecha, don
de indica
el significado de cada color (fig. 1.7). Si el documento se va a sacar en blanco
y negro (por
ejemplo, para acetatos o fotocopias), entonces resultar dificil distinguir los to
nos, as que
se puede retocar, copiando como imagen de b i mp y luego usando el Paint de Mi
crosoft
con las herramientas de dibujo.
De este modo se obtiene el diagrama de pastel deseado (fig. 1.8) y se puede copi
ar
y pegar en un documento de Word o en una presentacin en Power Point.
1 administracin '280 I
-- i- - - - - - -- - 2 - contabilidad - - . -. - - 210 -. .
-3 1 Ingeniera -- .. - 105
4 4 Actuaria . . 70
-$i Matemticas ---- - 35 a
6,
I
m a
Figura 1.5
Figura 1.6
1 Figura 1.7
Figura 1.8
Luca Pacioli ( 1 445- 15 14). Sabio italiano del Renacimiento,
considerado el padre de l a contabilidad moderna. Fue el primero en
ocuparse de la probabilidad y plantear problemas concretos de tipo
estadstico, aunque nunca public nada al respecto.
Cerolarno Cardano ( 1 50 1 - 1576). Mdico
de profesin y aficionado a los juegos de
azar. En su libro Liber de Ludo Aleae (Libro
de los juegos de azar), aplic la teora de las
probabilidades a los juegos de azar. Fue el
primer libro sobre probabilidad.
E~ERCICIOS COMPLEMENTARIOS 1.1
1. Mencione por los menos cinco reas de la ciencia o la cultura en las que el co

nocimiento de la estadstica es importante.


2 Qu ciencia se interconect histricamente con la estadstica para convertir a sta
en una actividad matemticamente robusta, moderna, slida y verdaderamente
cientfica?
A a) Mencione los apellidos de no menos de tres cientficos franceses y de ms de t
res
rusos que contribuyeron notablemente al desarrollo de la probabilidad.
b) De qu pas fueron la mayora de los pioneros de la estadstica moderna?
c) Cules de las civilizaciones antiguas practicaban actividades estadsticas desde
hace miles de aiios?
C Diga de dnde proviene el significado etimolgico de cada una de las sigui
entes
paiabras: estadstica, aleatorio, azar y estocstico.
5. Xui es, a grandes rasgos, la esencia de los mtodos estadsticos bayesianos (a di
ferencia de los mtodos clsicos o frecuentistas) y por qu se llaman bayesianos?
i La media de cinco nmeros es 8.8. Cuatro de esos nmeros son 6, 7, 8 y 9. Cul es
el quinto nmero?
7- Cuatro nmeros estn ordenados de menor a mayor. El nmero que ocupa el tercer
iugar es 2.4 y se sabe que la mediana es 2.35. Cul es el nmero que ocupa el segunbo lugar?
S Roporcione un redondeo correcto a cuatro dgitos decimales despus del punto,
para cada uno de los siguientes nmeros:
1
4:
30 Cap. 1. Introduccin
9. En una lista de seis nmeros haba uno al que le cay una mancha de tinta y
era
imposible saber qu nmero era. Los restantes cinco nmeros eran 0, 3, 1, 8 y 12.
Averige, en cada caso, cul debe ser el nmero faltante, si adems se sabe que:
a) la media es 8
6) la moda es 8.
10. En un puesto de tacos haba 10 trabajadores que coman. Cada uno de ellos ganab
a
un sueldo de cuando mucho 1.5 veces el salario mnimo. Casualmente pas por ah
Carlos Slim, el millonario ms rico de toda Latinoamrica, para comerse unos tacos.
Un becario de estadstica hizo una encuesta entre los 11 seores acerca de sus respectivos ingresos mensuales. Cul medida de tendencia central sera ms representativa de los ingresos promedio de esos 11 seores: la media, la mediana o la moda
?
11. Considere el conjunto de nmeros {2.3,2.4,2.5,2.6,2.7, 2.8,2.9}. Seleccione c
ules
de esos nmeros valen:
a) cuando menos 2.5
6) cuando mucho 2.5
C) ms de 2.7
4 menos de 2.8
e) por lo menos 2.8.
En los ejercicios 12 a 16, use una hoja de clculo de Excel (o una calculadora de
bolsillo) y halle, para cada conjunto de nmeros: a) la media, ) la moda, c) la median
a
y d) el rango. Si usa decimales, exprese su resultados con redondeos cor
rectos a
cuatro dgitos despus del punto decimal.
17. De cierto individuo, se dice que hay que creerle la mitad de lo que dice, y
de lo que
queda hay que poner en duda las tres cuartas partes. Qu porcentaje del total de

cosas que afirma hay que poner en duda?


18. De los ocho nmeros del conjunto del ejercicio 14, seale cules de ellos valen:
a) menos de 6
6) por lo menos f i
C ) no ms de f i
d) cuando ms f i
e) ms de f i
f) exactamente fi .
19. En una encuesta realizada entre 10 personas, se afirm que cuando ms cuatro de
ellas se opondran a cierta reforma. Explique si result falsa la afirmacin, si al fi
nal
se hall que la mitad de ellas se opusieron a la reforma.
20. Suponga que hay 6 mil millones de personas en el mundo, que en Mxico hay 11
0
millones de personas, que en el mundo hay 500 millones de catlicos, y que en
Mxico hay 80 millones de catlicos. Exprese, con un redondeo decimal de slo dos
dgitos despus del punto, los siguientes porcentajes:
a) el porcentaje de mexicanos que son catlicos;
6) el porcentaje de catlicos que son mexicanos;
c) el porcentaje de no mexicanos que no son catlicos;
d) el porcentaje de personas en el mundo que no son catlicas;
e) el porcentaje de personas del mundo que no son mexicanos;
f) el porcentaje de mexicanos que no son catlicos.
21. Considere el siguiente conjunto:
Use una calculadora de bolsillo (o Excel) para haiiar:
a) la media
6) la mediana
32 Cap. 1 . Introduccin
c) la moda
4 el rango.
En cada caso, se requiere redondear las respuestas a cinco dgitos despus del punto
decimal.
22. Con respecto a los 12 nmeros del ejercicio 21, diga qu porcentaje de ellos va
len:
a) menos de 6
b) al menos 6
C) no menos de 6
d) m s d e 6
e) no ms de 6
fi a i o m s J S
g) exactamente 6 .
Debe redondear los porcentajes que obtenga a dos dgitos despus del punto decimal.
23. Exprese cada uno de los 12 nmeros del ejercicio 21 en notacin decimal con u
n
redondeo correcto despus del punto de:
a) tres dgitos
6) cuatro dgitos
e) seis dgitos.
24. En una oficina hay 120 computadoras personales, de las cuales 80 tienen pro
cesador
Pentium IV y 40 tienen procesador Celeron. De las Pentium hay 50 con quemador de discos compactos y 30 que no tienen quemador. De las Celeron hay 30 con
quemador y 10 sin quemador. Obtenga los siguientes porcentajes, con un redondeo
correcto de s610 dos dgitos despus del punto decimal:
a) iQu porcentaje del total de computadoras tienen quemador?
6) iQu porcentaje de las computadoras que no tienen quemador es Pentium IV?

E) Qu porcentaje de las Pentium IV no tienen quemador?


d) iQu porcentaje de las Celeron tienen quemador?
e) Qu porcentaje de las que tienen quemador son Celeron?
25. Proporcione un conjunto de cuatro nmeros enteros tales que su rango sea 2, y
tanto la media como la mediana y la moda sean iguales a 7.
26. La media de un conjunto de seis nmeros es 10. Cinco de esos nmeros son lo
s
siguientes: 1,7, 11, 13 y 17. Cul es el nmero que falta?
27. En un bar-disco hay 150 personas adultas, de las cuales 80 son mujeres y 70
hombres.
De las mujeres hay 30 que fuman y 50 que no fuman; de los hombres hay 20 que
fuman y 50 que no fuman. Obtenga, con precisin de dos dgitos decimales despus
del punto y con redondeo correcto, los siguientes porcentajes:
a) Qu porcentaje de los fumadores que hay ah son mujeres?
6) iQu porcentaje de las mujeres que hay ah fuma?
c) iQu porcentaje de los no fumadores que hay ah son hombres?
4 iQu porcentaje de las personas de ese lugar fuman o son mujeres?
Ejercicios complementarios 1 . 1 33
28. En una muestra de 480 conductores de automvil se hall que 400 tenan licencia
para conducir y los otros 80 no la tenan. De los que tenan licencia haba 300 que
aprobaron un examen bsico sobre el reglamento de trnsito y los otros 100 lo reprobaron. De los que carecan de licencia slo 30 aprobaron ese examen.
a) Qu porcentaje de los que tenan licencia aprobaron el examen?
6) Qu porcentaje de los que aprobaron el examen tenan licencia para conducir?
c) Qu porcentaje de los automovilistas no aprobaron el examen bsico sobre el
reglamento de trnsito?
29. En la empresa Oflce Max de Avenida Insurgentes Sur vendieron 40 impresora
s durante un mes. El mes anterior haban vendido 80 impresoras. Cul fue el porcentaje
de disminucin de sus ventas de impresoras?
30. Una seora vende quesadillas a $4.50 cada una. Si ella busca una ganancia ne
ta de
50 % en sus ventas, cul debe ser el costo de su inversin en materias primas y trabajo por cada quesadilla?
31. Un joven comerciante vendi 200 tamales durante una semana. Cuntos tamales
ms deber vender la prxima semana para obtener un incremento de 25 %?
32. Una mujer colecciona figuriilas antiguas de porcelana. Compr dos, pero al ve
rse sin
dinero tuvo que venderlas apuradamente. Las vendi en $ 6000 cada una. En una
gan 20 % y en la otra perdi 20 %. Gan o perdi la mujer dinero en la operacin?
Cunto?
33. El director de una empresa ofrece a sus nuevos empleados un sueldo de $160
000
anuales pagaderos por semestres. Si el trabajo de los empleados es satisfactorio
, les
propone un posterior aumento de sueldo a elegir: de $30 000 anuales o de $10000
cada semestre. Qu opcin es ms ventajosa para los empleados si tienen garantizado un contrato de por lo menos tres aos?
34. Una seora puso una fonda para comida corrida barata. Durante la segunda sema
na
de operacin, vendi 168 comidas, lo cual signific una disminucin de 4 % con respecto a la primera semana. Cuntas comidas vendi durante la primera semana?
35. Los seores A y B son dos fabricantes de refrigeradores que anuncian que l
a vida
"promedio" de sus respectivos productos es de siete aos, aunque no mencionan
a qu tipo de promedio se refieren. En una muestra aleatoria de 20 refrigerador

es
fabricados por el seor A se comprob que la vida til (en aos) de estos productos
(ordenados de menor a mayor) fue la siguiente sucesin de nmeros: 5, 5, 5, 6, 6, 6,
6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9. En cambio, una muestra aleatoria d
e 20 refrigeradores fabricados por el seor B produjo la siguiente sucesin de nmeros (vida til
en aos y ordenados de menor a mayor): 2,3,4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 7, 7, 7,
8, 8, 20,
20,20.
a) Cul medida "promedio" seal cada fabricante?
6) Cul refrigerador representara la mejor inversin?
c) Con cul refrigerador se sentira usted ms seguro al afirmar que su vida "promedio" es de siete aos?
Cn distribuidor de libros
vende al pblico a $200 c
ando como base:
4 su costo
6) el precio de venta.
compra ejemplares de cierta obra a $150 cada uno
:a& ejemplar. Especifique su porcentaje de ganancia
y los
utili34 Cap. 1 . Introduccin
En cada uno de los ejercicios 37 a 41, use Excel para dibujar un diagrama depay
(o
de pastel) que represente la distribucin porcentual de los datos cualitativos o c
ategricos en cada caso. No olvide que la respuesta se pide en porcentaje.
37. En una encuesta sobre los medios predilectos para enterarse de las notic
ias en un
grupo de 450 adultos, se obtuvieron los siguientes datos: 210 dijeron que la tel
evisin, 130 dijeron que los peridicos (o diarios), 57 dijeron que la radio, y 53 dije
ron
que no les interesaban las noticias.
38. En una encuesta realizada a 650 personas adultas en el Distrito Federal
se les pregunt qu tipo de vivienda habitaban: 245 dijeron tener vivienda propia, 190 tenan
vivienda rentada, 160 habitaban un predio irregular, 50 vivan en casas prestadas
por
parientes o convivan con familiares y cinco vivan en otro tipo de vivienda (hotele
s,
casas de huspedes, conventos, albergues, etc.).
39. En marzo de 2004, se realiz una encuesta en la ciudad de Guadalajara para pr
eguntar a 450 personas adultas qu tipo de remedio buscaban cuando se enfermaban, con
las siguientes respuestas: 190 dijeron que consultaban a un mdico, 150 se autome
dicaban, 70 le pedan ayuda al dependiente de la farmacia, 24 dijeron que recurran
a
hierbas o remedios indgenas, ocho dijeron recurrir a la brujera y otros ocho dijer
on
que no hacan nada ms que rezar y esperar a sanarse solos.
40. En una universidad se realiz una encuesta entre 700 profesores y estudiantes
, y se
les pregunt cul consideraban que haba sido la causa verdadera de la invasin anglo-estadounidense a Irak. De stos, 360 contestaron que la ambicin por sustraer
el petrleo de ese pas, 185 dijeron que era una excusa para poder usar el supervit de armas acumuladas, 80 manifestaron que era el combate o la prevencin del

terrorismo, 50 dijeron que era una especie de venganza personal del presiden
te
estadounidense por cuentas pendientes con Saddam Hussein, y 25 dijeron que no
saban o prefirieron no opinar.
41. En 1866, el monje y botnico austriaco Johan Gregor Mendel (1822-1884) r
ealiz
experimentos sobre la hibridacin de plantas, para investigar los caracteres do
minantes y recesivos en la herencia. De un total de 556 chcharos (guisantes) que cu
ltiv mediante cruzas, observ que haba 315 lisos y amarillos, 108 lisos y verdes, 101
rugosos y amarillos y 32 rugosos y verdes.
42. En una familia tanto el padre como la madre trabajan, y sus ingresos mensua
les conjuntos netos ascienden a $23 200 mensuales. Al hacer cuentas, la seora observ que
en su familia los gastos mensuales promedio (en pesos) se distribuyen de la sigu
iente manera: alimentacin $3800; vestido $2000; colegiaturas $6700; renta, impuestos
y servicios $8500; otros, $2200.
Antes de pasar al siguiente captulo, le encomendamos al estudiante la siguiente t
area.
1. Consiga en su biblioteca local (o trate de localizar en alguna biblioteca
pblica o en
una librera de libros viejos) un ejemplar de un antiguo libro de Daryl Huff:
How to
1Zewith Statistics (Cmo mentir con las estdsticas), W W Nonon, Nueva York, 1954.
Seleccione y comente cinco tipos de abusos de la estadstica de ese libro que le h
ayan
llamado la atencin.
2. Use un buscador de Internet (como Google, por ejemplo) para hallar ms ejemplo
s de
abusos de la estadstica y de hechos falsos que aparentemente son "demostrados" co
n
estadsticas.
re. ,
i
Cuando se dice, quiz de manera simplista, que la estadstica es el arte de
organizar, presentar e interpretar conjuntos de datos o informacin de inters
para el usuario, en realidad se hace referencia a s610 una parte de la estadstic
a,
que es la estadstica descriptiva. La mayora de las veces, los datos son de tipo
numrico (o cuantitativo), lo que permite realizar operaciones aritmticas con
ellos. Adems, la naturaleza de los datos puede ser muy variada; por ejemplo,
podra tratarse de un conjunto de nmeros que representan las duraciones (en
minutos) de varias conferencias telefnicas, de las calificaciones de una prueba o
examen, de los pesos (en gramos) de un gran nmero de limones o de los contenidos de aceite de varios recipientes similares.
Si los datos que se tienen son demasiado numerosos, a menudo resulta preferible agruparlos primero en clases (o grupos), antes de someterlos al anlisis
estadstico. Ello lo haremos en el captulo 3, que trata de los mtodos de estadstica descriptiva para datos agrupados. Si los datos son individuales (o aislados
) su
manejo estadstico se expondr en esta leccin y en la siguiente. Antes de abordar
las frmulas y ejemplos al respecto, es pertinente dar un breve glosario de trmi-

nos usuales, que iremos intercalando con algunas explicaciones o ejemplos.


A continuacin se describen algunos de los trminos ms importantes y
usuales en estadstica.
38 Parte l. Gtadstica descriptiva
Poblacin. Se llama as a la totalidad de los elementos de inters en determinado estudio. Por regla general, una poblacin tiene un nmero grande (puede ser muy grande o incluso infinito) de elementos, aunque ello no es indispensable. De hecho, una poblacin de slo dos elementos puede ser vlida al menos
en teora, aunque sera de escaso o nulo valor estadstico.
Los trminos grande ypequeo son usuales en estadstica, si bien no hay
una demarcacin precisa de dnde termina lo pequeo y dnde empieza lo grande. Por ejemplo, un profesor de estadstica con slo 20 alumnos en su grupo
puede considerar que su grupo es an pequeo, pero con 28 o 30 alumnos (o
ms), podra decir que le toc un grupo grande. En estadstica, la demarcacin
es anloga a la de este ejemplo. Un conjunto de 25 o 27 elementos est ms o
menos en los lmites entre lo pequeo y lo grande. Un conjunto de 30 o ms definitivamente se considera grande.
Muestra. Es un subconjunto cualquiera de la poblacin. Si dicho subconjunto se selecciona de manera totalmente aleatoria, entonces se llama muestra
aleatoria. Por regla general, cuando hablamos de "muestra", nos referimos a una
muestra aleatoria.
Si en un grupo de alumnos hay, por ejemplo, 32 miembros y se desea escoger una muestra aleatoria de cinco de ellos, una manera posible de hacerlo sera
elegirlos por nmero de matrcula o de lista, o bien anotando los respectivos
nombres en 32 pequeos papeles que se doblan y se meten a un frasco, para entonces extraer cinco de esos papeles al azar y leer los nombres de los elegidos.
En este mismo ejemplo, es obvio que hay dos maneras de extraer los cinco
papeles del frasco: la primera (y ms natural) sera hacerlo sin reposicin, es decir
,
cada papel que se saca del frasco ya no se vuelve a introducir en l; y la segund
a
sera hacerlo con reposicin, esto es, se saca un papel, se anota el nombre en una
hoja, luego se dobla y se vuelve a meter en el frasco antes de sacar el siguient
e,
hasta sacar as los cinco papeles. Ntese que en el muestre0 con reposicin cabe
la posibilidad de que un mismo elemento (en este caso un alumno) sea tomado
en cuenta dos o ms veces.
Como veremos ms adelante, el acto de seleccionar la muestra con reposicin o sin ella, produce diferentes frmulas y diferentes valores numricos para
las magnitudes de inters. Sin embargo, si la poblacin es mucho muy grande en
comparacin con la muestra, tal diferencia es prcticamente irrelevante, lo cual
es adems obvio: si usted le quita una cubeta de agua al mar, o incluso a una piscina, para el caso da lo mismo si es con reposicin o sin ella.
Una muestra se considera grande si tiene ms de 25 elementos (algunos autores prefieren usar la cifra de 30); en caso contrario, se considera como muest
ra
pequea. No se acostumbra usar el trmino regular para algn tamao especfico
de muestra. En estadstica descriptiva, el hecho de que la muestra sea grande o
pequea carece de importancia, ya que las frmulas y los mtodos son vlidos en
general; sin embargo, en inferencia estadstica, los mtodos y las frmulas que se
van a usar dependen a menudo, entre otras cosas, de que la muestra sea grande
o pequea. Desde luego, las muestras muy pequeas (por ejemplo, de uno o dos
elementos) extradas de una poblacin grande tienen poco o nulo valor desde el
punto de vista estadstico. Siempre es deseable que el tamao de la muestra sea
lo ms grande posible, porque ello aumenta la precisin de los resultados y las
Cap. 2. Manejo de datos aislados 3 9
conclusiones. En inferencia estadstica, hay frmulas para determinar el tamao

ptimo de una muestra. Con frecuencia, tomar una muestra demasiado grande
implica costos importantes, y el incremento en la precisin de los resultados es
mucho menor de lo que uno podra pensar.
Tambin resulta esencial que el muestreo sea totalmente aleatorio. Por ejemplo, si usted desea averiguar qu porcentaje de la basura de una gran ciudad es
vidrio, papel, plstico, desechos orgnicos, etc., y toma una muestra de basura en
la esquina donde un seor hace jugos de naranja todas las maanas, entonces seguramente llegar a la conclusin de que 90 % o ms de la basura de la ciudad est
formada por cscaras de naranja, lo que es obviamente una inferencia equivocada,
basada en un muestreo inadecuado.
Parmetro. Es la caracterstica numrica de una poblacin. En trminos ms
amplios y fuera del mbito de la estadstica, se liamaparmetm a una cantidad
que permanece constante en un problema particular o una situacin especfica,
pero que es variable en distintas situaciones o diferentes problemas. El tpic
o
ejemplo de un parmetro es el radio de un crculo o la pendiente de una recta.
Cuando se estudian una o varias poblaciones, algunos parmetros tienen
una importancia central en el anlisis estadstico. Ellos los definiremos ms adelante en su momento, y aqu slo mencionaremos algunos de los parmetros ms
tiles con que trabajaremos en las lecciones posteriores, aunque no tengan ningn sentido por ahora para el lector: media, varianza, mediana, moda, desviacin
media, desviacin estndar, cuartiles, deciles, proporcin, coeficiente de correlacin, covarianza, coeficiente de determinacin, error estndar de una prediccin,
etc. Toda esta jerga de palabras raras y muchas otras por el estilo son slo algun
os
de los ejemplos ms importantes de los parmetros, que, sin exagerar, son los
que hacen posible y le dan sentido a la estadstica.
Los mtodos estadsticos que no emplean el concepto de parmetro ni el
concepto de distribucin son de menor importancia y se llaman mtodos no paramtricos. Muchos de los parmetros que se estudian en estadstica suelen denorarse por letras griegas minsculas, aunque en algunas ocasiones se suelen emplear tambin letras latinas minsculas.
Estadstico. Es la caracterstica numrica de una muestra. Esto significa que
el estadstico es a la muestra como el parmetro a la poblacin. Por regla general,
se usan letras latinas minsculas para designar un estadstico, o a veces son letras
que tienen algn pequeo signo arriba, como una raya o un acento circunflejo.
Cada parmetro de una poblacin tiene su contraparte muestral, que es un esWt i c o . A menudo se denota el primero por una letra griega y el segundo por
h letra latina correspondiente, mas no siempre es el caso. Algunos autores se
refieren a un estadstico como un estadgrafo o una estadstica (en femenino),
pero ello es ms bien raro.
Estimador. Muy a menudo, la funcin de un estadstico consiste en estimar
(O aproximar) el valor inaccesible o desconocido de un parmetro de la poblacin.
En tal caso, el estadstico recibe el nombre de estimador Agrosso modo, un estimador se llama insesgado si al considerarlo muchas veces, con diversas muestras
& la misma poblacin, los valores que se obtienen de l son tales que su prome&o (media) tiende a ser igual al valor del parmetro mismo que se desea estimar,
3 medida que se toman ms y ms muestras de la misma poblacin. La palabra
40 Parte l . Estadstica descriptiva
insesgado significa ms o menos simtrico, imparcial, centrado o equilibrado. Hay
adems otras propiedades que pueden tener los estimadores, como ser consistentes y ejcientes, pero ellas se tratan en cursos de estadstica para ingeniera o de
estadstica matemtica, en los captulos dedicados a la teon'a de la estimcin.
Ejemplo 2.1. Podemos ilustrar este punto con un ejemplo sencillo. Supongamos
que la poblacin consiste del conjuntoA = (1,3,7). El promedio de estos tres eleme
ntos
11 11
es - . Denotemos a este parmetro por la letra griega p, esto es, p = - y digamo

s que
3 3
este parmetro es la media de la poblacin. Ahora bien, vamos a tomar muestras de ta
mao dos a esta poblacin, primero con reposicin y luego sin ella. En el primer caso
,
el total de muestras posibles es contemplado como el total de permutaciones o va
riaciones con repeticin de tres objetos tomando dos a la vez: (1, 31, (3, 11, (1, 71
, (7, 11,
(3, 71, (7, 31, (1, 11, (3, 3) y (7, 7). Denotemos por F, ..., F9 a los es
tadsticos que
denotan los promedios respectivos de cada una de estas nueve muestras,
los cuales forman el siguiente conjunto (llamado distribucin muestra1 de medias): (2,
2, 4, 4,
33 11
5,5,1,3,7). El promedio (media) de estos valores es - = - , el cual coincide
con el va9 3
lor del parmetro que se deseaba estimar. Por tanto,. para muestras de tamao dos co
n
remplazo en el conjunto A, el estadstico F result ser un estimador insesgado del p
armetro p. Se puede demostrar que esto es verdad para cualquier poblacin y cualquie
r tamao de muestra, con reposicin o sin ella. Como ejercicio, el estudiante deber compr
obar esta aseveracin para el mismo conjunto, tomando ahora las tres muestras de ta
mao
dos sin reposicin: {1,3), {1,7) y {3,7) (puede hacerlo mentalmente).
Frecuencia relativa. Provisionalmente, se puede usar el concepto de frecuencia relativa como un sinnimo de laprobabilidad de ocurrencia de un suceso, es decir, el nmero de veces que ocurri el suceso entre el nmero total de
datos. Por ejemplo, si las calificaciones finales que reporta una maestra de ing
ls
que tiene slo ocho alumnos son {7,8, 9, 6, 6, 8, 8, 101, la frecuencia relativa
de
cada una de sus calificaciones es la que se describe en la siguiente tabla:
Obsrvese, en este caso, que la poblacin de las calificaciones posibles que
asign la maestra forma el conjunto ( 6, 7, 8, 9, lo}, pero estos nmeros tienen
ficacin
L
Frecuencia
relativa
2
Porcentaje
-C n
Cap. 2. Manejo de datos aislados 4 1
diferentes frecuencias relativas, as que sera un error grave pretender que el promedio de calificaciones del grupo es la suma de estos cinco nmeros dividida entre cinco (+ = 8). Para obtener el verdadero promedio (media) de las calificaciones del grupo es menester ponderar cada dato por su correspondiente frecuencia relativa, as:
2 1 3 1 1
Mediaopromedio: p = 6 ~ - + 7 X - + 8 ~ - + 9 ~ - +10X-=7.75
8 8 8 8 8
La frecuencia relativa no conviene expresarla en porcentaje, sino como frac-

cin o proporcin de la unidad. Por ejemplo, una frecuencia relativa de 75 % se


expresa mejor como 3/4 O como 0.75.
Varios de los parmetros de una poblacin o varios de los estadsticos de
una muestra miden la tendencia central o fungen como especie de promedios.
Esos parmetros o estadsticos se llaman medidas de localizacin o medidas de
tendencia central. Los ms importantes son la media, la mediana y la moda. El
hecho de que se usen varias medidas de tendencia central y no s610 una, obedece a que todas ellas tienen distintos usos estadsticos, as como difer
entes
ventajas e inconvenientes. Sin embargo, el parmetro de localizacin ms til
e importante es con mucho la media o valor esperado. En el ejemplo sobre las
calificaciones que report una maestra de ingls, se calcul la media sumando
los productos de cada observacin o dato por su correspondiente frecuencia
relativa. As es exactamente como se hace en el caso general, y esto se define a
continuacin.
Media (poblacional). Si una poblacin consiste de n datos: {x,, x2, . ..
,
xn), con respectivas frecuencias relativas dadas por p,, p,, ... , p,,,
la media (media poblacional) de las observaciones se define como p = xlp, +
x& + ... + ~ 2 ~ : En este caso, es importante notar que la suma de
todas
las frecuencias relativas debe ser la unidad, es decir, p, + p, + - . . + p,,
= 1. En
el ejemplo de las calificaciones, la poblacin era el conjunto (6, 7, 8
, 9, 101, y
2 1 3 1 1
las respectivas frecuencias relativas - - - - y -. Queda claro que la suma
8 ' 8 ' 8 ' 8 8
de todas estas frecuencias relativas tiene que ser 1 (esto es, 100%), ya que lo
contrario implicara que hay alguna calificacin reportada por la maestra que no est
considerada en la lista.
La nica desventaja de la media como parmetro de la tendencia central
consiste en que si la poblacin no es muy grande, su valor puede verse afectado
por observaciones extremas. Por ejemplo, durante la Copa Mundial de Futbol en
Corea y Japn, 2002, las respectivas diferencias de goles entre los dos equipos
que disputaron cada uno de los partidos de la primera jornada (31 de mayo al 3
42 Parte l. Gtadktica descriptiva
de junio) formaron el siguiente conjunto: {1, 1, 1, 0, 1, 2, 2, 1, 0, 8, 1, 0,
2, 1, 0, 2) .
Esto se puede escribir en forma de tabla:
As, el valor promedio (media) de este conjunto de datos, tomados como
una poblacin, es:
Sin embargo, si no se hubiera tomado en cuenta el nico partido que p
dujo una diferencia extrema de goles (Alemania 8-Arabia Saudita O), hul%cxms
tenido slo un conjunto de 15 datos con un promedio (o media) exacto de
(O) - +(l) - +(2) - = 1
) ) [ R )
Esto significa que, de no haber sido por el resultado del encuentro entre
Alemania y Arabia Saudita, se hubiera registrado exactamente un promediode un
gol de diferencia en cada uno de los 15 partidos. Un valor extremo muyrliFmf al
resto de las observaciones de la poblacin (como en este caso) se liama d
d s t i c a . Como vemos en este ejemplo, cualquier anomala ziiizaa
considerablemente el valor de la media poblacional, a menos que el cmra& de
la poblacin sea lo bastante grande como para que tal anomala no se nae Rx
esta razn, en las competencias olmpicas de clavados y gimnasia, ames deel promedio de calificaciones de los jueces, se eliminan las punma&aes m6 a !
y ms baja (media ajustada, o en ingls: trimmed mean).
En general, cuando se habla de un promedio, se hace r e f m -

te a la media, tal y como se acaba de definir, as que los trminos mediaydio se toman como sinnimos. Sin embargo, hay otros parmetros que & ZQO
modo, tambin representan una especie de valor "promedion de k s cbmexie
nes. stos los veremos a continuacin.
Cap. 2. Manejo de datos aislados 43
Moda. Se llama as al dato (o datos) de la poblacin que tienen la mxima frecuencia relativa. En nuestro ejemplo de las calificaciones reportadas por la mae
stra
3
de ingls, la moda es 8, porque su frecuencia relativa, es decir, - , es la
mayor
8
de todas. Por supuesto, puede ocurrir que dos o ms datos de la poblacin califiquen para ser modas, en cuyo caso se dice que el conjunto de observaciones
es bimodai o multimodai, respectivamente. Tambin puede suceder que la moda
simplemente no exista.
En el ejemplo de las diferencias de goles en los 16 partidos de futbol, la moda
es con toda claridad 1, ya que su frecuencia relativa [ - : 6 ) es la mayor
de la tabla. En este caso, vemos que el valor de la moda da una idea mucho ms realista
de la verdadera diferencia "promedio" de goles, sin verse afectada por el dat
o
extremo o anmalo del encuentro entre alemanes y rabes. Hay muchos smbolos diferentes para denotar la moda, pero los ms usuales son m. y M. Nosotros
emplearemos el primero de ellos.
Mediana. Es el dato intermedio en cuanto a tamao; es decir, si se ordenan
todas las observaciones en orden creciente, la mediana ser aquel dato que tenga
igual nmero de observaciones a mano izquierda que a mano derecha. Si ello no
es posible por tratarse de un nmero par de datos, entonces hay dos datos que
cumplen con esa condicin, y la mediana es el promedio de ambos.
Veamos, por ejemplo, cmo podramos calcular la mediana en cada uno
de los ejemplos que se examinaron lneas arriba. En el caso del conjunto de calificaciones, dicho conjunto era: (7, 8, 9, 6, 6, 8, 8, 10). Se ordenan de menor
a
mayor: 6, 6, 7, 8, 8, 8, 9, 10. Hemos marcado con tipo negrita los dos datos que
quedan en medio. El promedio aritmtico de ambos es, obviamente, 8. Por tanto,
la mediana es 8. En el segundo ejemplo (diferencias de goles en cada uno de los
16 encuentros de futbol de la primera jornada de la Copa del Mundo), se tena el
siguiente conjunto: (1, 1, 1, 0, 1, 2, 2, 1, 0, 8, 1, 0, 2, 1, 0, 2). Ordenad
os quedan
as: O, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 8. Tambin se han escrito co
n tipo negrita
los dos datos que quedan en medio, cuya media aritmtica es, naturalmente, 1.
En consecuencia, la mediana es 1. Aqu vemos que tampoco la mediana se ve
afectada por resultados extremos o anmalos.
Hay varias notaciones para la mediana. Las ms usuales son m, 2 y xo,. NOsotros emplearemos la primera de ellas.
Media muestrai. En principio, se calcula exactamente igual que la media poblacional excepto que, como en la mayora de los casos la muestra se toma sin
remplazo, ocurre que todos los elementos de una muestra son diferentes, as
que cada uno tiene la misma frecuencia relativa al seleccionar la muestra.
Por
ejemplo, si el conjunto {x,, x,, . . . , xn) consiste de una muestra sin rempla
zo de
n elementos tomados de una poblacin ms grande, entonces todos son diferentes, y por tanto, todos tienen la misma oportunidad de ser elegidos, es decir
,
1

todos tienen la misma frecuencia relativa - . La media (promedio) de ellos es


,
n
entonces:
Por fortuna, en este caso el smbolo Z, o bien es ms o menos universal
en todos los libros y calculadoras de bolsillo.
La media muestral se llama a menudo tambin media aritmdtica. Ntese
que la media muestral (2) es un estadstico, mientras que la media poblacional
0-1) es un parmetro. Obsrvese tambin que en una muestra podran tomarse la
mediana (muestral) o la moda (muestral), pero estos ltimos estadsticos tienen
poco o nulo valor en la teora y en la prctica, as que nadie los usa.
Hay tambin parmetros y estadsticos que miden el grado de dispersin (o
de heterogeneidad) de las observaciones con respecto a su valor promedio. La
necesidad de tales parmetros es evidente si consideramos el siguiente ejemplo.
Consideremos a dos maestras: A y B. Supongamos que la seoritaA es una maestra de francs con siete alumnos, cuyas calificaciones finales forman el conjunto:
{8, 9, 8, 8, 7, 8, 8). Podemos ver con facilidad que la media es 8 (tambin el 8
es la
mediana y la moda), pero adems que hay muy poca variabilidad (o desviacin)
de los datos con respecto a la media. La seorita B es otra maestra de francs de la
misma escuela, que tambin tuvo a su cargo a siete alumnos y report las siguientes calificaciones finales: {5,9,8,4,10,10,10). Aqu tambin ocurri que la media
de calificaciones es 8 (se puede apreciar que la mediana es 9 y la moda es 10).
En el caso de la seorita B, la media de sus notas da una idea mucho ms
clara que la moda o la mediana, acerca de lo que ms o menos ocurri con sus
calificaciones; no obstante, hace falta un parmetro que arroje ms informacin
acerca de las altas desviaciones (con respecto a la media) que se registraron en
varias de las notas: desde luego, el 8 y el 9 tienen pequeas desviaciones del
promedio, pero los otros cinco datos tienen desviaciones considerables del 8. De
hecho, el conjunto de las desviaciones de la media (xi - p.) es el siguiente: {3,1,
0, -4, 2, 2, 2). En cambio, con la seorita A, el conjunto de las desviaciones de
la
media es {O, 1,0,0, -1,0, O). En trminos generales (es decir, en conjunto), hu
bo
ms desviaciones con la seorita B que con la A.
Quiz a alguien se le podra ocurrir idear un-parmetro que fuese el promedio de las desviaciones, es decir, la suma algebraica de todas las desviaciones
dividida entre 7, pero es fcil ver que ello no funciona, ya que en ambos casos la
suma de las desviaciones da cero, porque las negativas se neutralizan con las po
sitivas. Podemos evitar este defecto de dos maneras: tomando el promedio de los
cuadrados de las desviaciones, o bien tomando el promedio de los valores absolutos de las desviaciones. En el primer caso, tenemos lo que se llama varianz
a
(o tambin variancia o d i ~ p ~ n ) , mientras que en el segundo caso se llama
desviacin media. Estos conceptos los definimos enseguida.
Varianza (poblacionai). La varianza (tambin llamada dispersin o variancia) de un conjunto de datos X= {x,, x,, . . . , x,,) que forman una poblacin
que
Cap. 2. Manejo de datos aislados
45
se va a estudiar es el promedio de los cuadrados de las desviaciones de los dato

s
con respecto a su media.
Si todos los datos x,, x,, . . . , x,, son distintos y cada uno de ellos tiene
fre1
cuencia relativa 2, entonces la varianza se calcula as:
n
Sin embargo, si las observaciones x,, x,, . . . , x, tienen frecuencias relati
vas
p1,p2, . . . , pn, respectivamente, entonces la varianza se calcula as:
Los smbolos 02, Var(X) o bien V(X) son los ms usuales para denotar la
varianza. Nosotros usaremos el primero.
La varianza es un excelente parmetro de dispersin, pero tiene dos pequeos defectos: el primero es que su valor queda casi siempre muy inflado por el
hecho de haber elevado las desviaciones al cuadrado, pero el segundo y ms serio es que no tiene unidades razonables para medirse. Por ejemplo, si los datos
originales estn en pesos o dlares, entonces'la varianza se mide en pesos al cuadrado o dlares al cuadrado, lo cual no tiene sentido prctico. Es deseable tener
un parmetro de dispersin que se mida en las mismas unidades en que estn
medidos los datos originales. Por esto se introduce otro parmetro de dispersin
que se llama desviacin estndar (o desviacin t@ica).
Desviacin estndar. Se llama desviacin estndar (o tambin desviacin cuadrtica media o desviacin tpica) a la raz cuadrada no negativa de la varianza, y se
denota por el smbolo o. Otro parmetro de dispersin utiliza valores absolutos
de las desviaciones y se define a continuacin.
Desviacin media La desviacin media (tambin llamada desviacin promedio
de la media) de un conjunto de datosX= {x,, x,, . . . , xn) que forman una po
blacin
que se va a estudiar es el promedio de los valores absolutos de las desviaciones
de
los datos con respecto a su media. Hay varios smbolos para denotar este parmetro, tales como dm o bien d,. Aqu emplearemos el primero.
La desviacin media se calcula entonces de la siguiente manera:
si todos los datos x,, x,, . . . , x, son distintos y cada uno tiene frecuenci
a rela1
tiva - .
n
En caso de que todos los datos x,, x,, . . . , x,, sean distintos y tengan
frecuencias relativas p,, p,, . . . , p,, respectivamente, entonces la desviacin
media
se calcula as:
Desviacin promedio de la mediana Es el promedio de los valores absolutos
de las desviaciones de los datos con respecto a su mediana. Se suele denotar por
el smbolo d,.
Se calcula entonces como sigue:
si todos los datos x,, x,, . . . , xn son distintos y cada uno tiene frecuencia
rela1
tiva ' .
n
Para el caso en que x,, x,, . . . , x,, tengan frecuencias relativas p,, p,,
. . . , p,,,
respectivamente, la desviacin promedio de la mediana se calcula en la siguiente
forma:
Rango. Por ltimo, mencionaremos la medida de dispersin ms primitiva
de todas, el rango, y se define como la diferencia entre el mayor de los datos y

el
ms pequeo. El rango tiene poca utilidad estadstica, y su nica ventaja consiste
en que se calcula con mucha facilidad. En el ejemplo de las calificaciones de
la
seoritaA y la seorita B, los rangos respectivos son 2 y 6. Obviamente, un rango
mayor suele ser indicativo de un mayor grado de dispersin, pero eso no siempre
ocurre. Por ejemplo, en el caso de las diferencias de goles en cada uno de los 1
6
partidos de la primera jornada de la Copa del Mundo 2002 (vase la seccin 2.3),
el rango es 8, lo que podra tentar a uno a pensar que hubo una enorme dispersin en los datos, pero eso es engaoso, ya que en general los datos fueron bastante homogneos con respecto a su promedio, y se puede calcular fcilmente
que la desviacin tpica es de apenas 1.836 goles.
2.5. OBTENCI~N DE LA MEDIANA CON GRAFICOS
DE TALLO Y HOJAS
Cuando los datos son numerosos, resulta muy incmodo y laborioso ponerse a ordenarlos todos de menor a mayor y luego contarlos para obtener el dato
intermedio, el cual es la mediana de las observaciones. Un mtodo ms efectivo
consiste en observar que la mediana siempre va a ser el elemento que ocupe el
lugar (n + 1)/2, y en vez de ordenar los datos en una fila, lo hacemos en varia
s
filas, separadas por una lnea vertical, a la izquierda de la cual se ponen las r
espectivas decenas y centenas de los datos (tallo), mientras que a mano derecha se
anotan las respectivas unidades (hojas). Esto permite una rpida localizacin de
la mediana y aun de la moda, como se ilustra en el siguiente ejemplo.
Cap. 2. Manejo de datos aislados 47
Ejemplo 2.2. Un equipo de baloncesto jug un total de n = 25 partidos durante un
a
temporada, y el nmero de puntos que anotaron en cada partido se registr en el sigu
iente
cuadro:
Calcular la mediana de estos datos.
Soluci6n: La mediana es el valor del dato que ocupa el lugar:
Esto es, el elemento decimotercero. Ahora escribimos una lnea vertical grande (ta
llo) y a
mano izquierda de ella escribimos los nmeros del 1 al 10 en orden ascendente. En
este
ejemplo particular, como los datos no son demasiados, se aprecia de un vistazo q
ue la
menor puntuacin fue de treinta y tantos y la mayor de ciento y pico, por lo que e
l tallo
tendr s610 los nmeros del 3 al 10, como se ilustra a continuacin:
Enseguida, a mano derecha del tallo, vamos anotando las unidades de cada dato
(hojas). No tiene importancia en qu orden se haga, pero hay que asegurarnos de qu
e no
falte ningn dato:
Ahora buscamos el dcimo tercer dato. Como en las primeras tres filas (a la derech
a
del tallo) hay 10 hojas (dgitos), entonces la hoja nmero 13 ser la tercera de m
enor a
mayor en la cuarta fila, la cual es el dgito 2. Por consiguiente, la mediana de e
ste ejemplo
es me = 62.
48 Parte l . Estadstica descriptiva
Tambin se puede localizar con facilidad la moda. Slo hay que observar la
rama que tenga ms hojas repetidas. En este caso, la nica rama con hojas repetidas es la tercera, que tiene dos ochos. Por tanto, la moda es m. = 58.

Tanto las medidas de localizacin (media, mediana y moda) como las de


dispersin (desviacin estndar, varianza, rango, etc.) nos proporcionan informacin til acerca de los datos muestrales e, indirectamente, acerca de la poblacin
de donde se extrajeron. Sera interesante preguntarse si tales magnitudes sirven
tambin para comparar las caractersticas de dos poblaciones diferentes. Queda
claro que si las dos poblaciones se midieran en las mismas unidades (por ejemplo, los salarios en pesos por hora de los maestros de dos escuelas diferentes),
tanto las respectivas medias muestrales 2, y Z2 como las correspondientes desviaciones tpicas muestrales S, y s2 bastaran para hacer una comparacin razonable entre las dos muestras.
Sin embargo, qu pasara si se tratara de comparar dos variables aleatorias X,
yX2 que se midieran en unidades diferentes? Por ejemplo, que X, representara la
s
estaturas (en metros y centmetros) de cierta poblacin o grupo de hombres y X2
representara los pesos (en kilogramos) de los mismos hombres. En tal caso, podramos tratar de comparar, de algn modo, la altura de esos hombres con respecto a su
peso, pero tendra poco o ningn sentido comparar metros con kilogramos.
Asimismo, si se tratara de comparar magnitudes del mismo tipo con unidades diferentes, tendramos las mismas dificultades. Por ejemplo, si una poblacin
consiste de los pesos de 100 ballenas (en toneladas) y la otra consiste de los p
esos de 100 hormigas (en miligramos), ninguna de las dos unidades (toneladas o
miligramos) sera til para comparar las caractersticas intrnsecas de ambas poblaciones, ya que la desviacin estndar de los pesos de las ballenas sera enorme
si se pesaran en miligramos, mientras que la desviacin estndar de los pesos de
las hormigas sera virtualmente cero si se pesaran en toneladas. En ambos casos,
necesitaramos un parmetro de comparacin que eliminara la dimensionalidad
de las variables, para que la comparacin fuese independiente de las unidades
usadas y al mismo tiempo nos permitiera comparar las respectivas razones entre
medias y desviaciones tpicas.
El llamado coeficiente de variacin (tambin llamado coeficiente de dispersin relativa) es un parmetro til que no depende de las unidades usadas porque
es adimensional, y se define de la siguiente manera:
Desviacin estndar
Coeficiente de variacin = cv =
Media
Casi siempre la comparacin se hace con los respectivos estadsticos muestrales ( F, S) y no con parmetros poblacionales (p, o). Por tanto, podemos decir
que el coeficiente de variacin es un estadstico que se define as:
Cap. 2. Manejo de datos aislados 49
Tambin es comn multiplicar esta magnitud por 100 y medirla como un porcentaje. Si se comparan dos conjuntos de datos tomados de poblaciones distintas, el
que tiene menor coeficiente de variacin se considera un conjunto ms consistente de datos, entendiendo como tal ms homogneo, y las respectivas unidades
que se empleen en cada poblacin no afectan esta magnitud.
Ejemplo 2.3. Una mujer sale a correr todas las maanas, y en sus registros anot qu
e
haba corrido un promedio de 14 km por semana, con una desviacin estndar de 3.5 km
por semana. Su vecina tambin sale a correr todas las maanas y anot en sus registros
que hizo un promedio de 17.4 km por semana, con una desviacin estndar de 5.2 km
por semana. Cul de las dos mujeres es ms consistente en sus hbitos de correr por las
maanas?
Solucin: Denotemos conXal nmero de kilmetros por semana de la primera mu-

jer y con Y al de su vecina. Ahora calculemos los respectivos coeficientes de va


riacin:
Como cv, < cv, se sigue que la primera mujer es ms consistente que la segunda
en sus hbitos de correr.
Propiedades del coeficiente de variacin:
1. El coeficiente de variacin slo debe calcularse y conszonszderarse cuando
todos los datos u observaciones sean positivos o cuando menos cero.
Recurdese que en esencia los ndices de variabilidad nunca deben ser
negativos. Si todos los datos son mayores o iguales a cero, lo cual es lo
ms comn en la prctica, entonces todos los estadsticos Z,sxycvxson no
negativos. De hecho, la desviacin estndarsx es por definicin una magnitud 2 0, aun cuando algunos datos (o todos) pudiesen ser negativos.
2. El coeficiente de variacin no es invariante ant e cambios de origen.
Esto quiere decir que si se hace una traslacin sumando una constante c
(positiva o negativa) a cada valor de la variablex, entonces el coeficiente
de variacin de la nueva variable aleatoria Y=X+ c no ser el mismo que
el de la variable original X. Desde luego, ello es consecuencia del hecho
de que si bien la media es invariante ante cambios de origen, la desviacin estndar no lo es. Adems, resulta claro que si c > O, entonces cv,
< cv, mientras que si c < O, entonces ocurre que cuy > cv, Esto es muy
fcil de demostrar. En efecto, supongamos que c > 0, entonces:
3. Sin embargo, el coejcimte de variacin s resulta ser invariante ant e
cambios de escala (amplificaciones o reducciones). Es decir, si c es una
constante, las variables aieatorias X y Y = cX tienen ambas el mismo coeficiente de variacin. Esto se puede demostrar con facilidad si se usa
la propiedad de la varianza, segn la cual Var(cX) = czVar(X), ya que
entonces la desviacin estndar de cXes c multiplicada por la desviacin
estndar de X.
2.7. ERROR ABSOLUTO MEDIO Y ERROR CUADRA~CO MEDIO
Tanto la varianza como la desviacin promedio (de la media o de la mediana) se pueden generalizar para una constante cualquiera. Empecemos por
definir el error absoluto medio de una constante a, tambin llamado desviacin
promedio de a .
Desviacin promedio de una constante a. En general, para cualquier constante a (puede ser positiva, negativa o cero), la desviacin promedio de a (o error
absoluto medio de a) se calcula as:
donde p,, p,, . . . , pn son las correspondientes frecuencias relativas de
x,, x,, . . . ,
1
xn. En caso de que dichas frecuencias relativas sean todas iguales a - , la d
esvian
cin promedio de a est dada por:
En cursos ms avanzados de estadstica (por ejemplo, estadstica para ingenieros o estadstica matemtica) se demuestra con todo rigor que el valor mnimo
de la desviacin promedio de una constante a se alcanza precisamente cuando
a = me (la mediana), lo cual se enuncia a veces diciendo que la mediana es el
parmetro que minimiza el error absoluto medio de una prediccin. l
Error cuadrtico medio de una constante a. Es la generalizacin de la varianza. Si a es cualquier constante, el error cuadrtico medio de a , denotado por
ECIM (a), se define en la siguiente forma:
EGiM(a) = (x, - a)'p, + (x, - a)'p2 +
+ (xn - a)2pn
Igualmente, en cursos ms avanzados se prueba que el error cuadrtico medio de una constante a alcanza su valor mnimo cuando a = p (media), lo cual se
enuncia a veces diciendo que la media es el parmetro que minimiza el error
cuadrtico medio de una prediccin, y dicho valor mnimo es precisamente la
varianza. Para una demostracin, consltese la referencia al pie de pgina.,

Cuando se toma una muestra de tamao n de una poblacin finita o infinita, hay
un estadstico de gran importancia terica y prctica que se llama error tpico de
la me'Para una demostracin completa y formal, vase, por ejemplo, el libro de Piotr M.
Wisniewski y Gabnel Velasco S., Problemario depmbabilidud, Thomson International Editores, Mxi
co, 2001, p. 132.
?Op. cit., p. 131.
Cap. 2. Manejo de datos aislados 5 1
dia (tambin llamado error probable de la media o error estndar de la
media) y que
se denota por el smbolo Qa. Este estadstico es la desviacin estndar de la distr
ibucin
muestral de medias. Si la poblacin es infinita, o tan grande que virtualmente po
dra considerarse como infinita, entonces no importa si el muestreo se hace con remplazo o
sin l. En
tal caso, el valor de este estadstico es siempre:
Si la poblacin es finita, de tamao N, entonces el error tpico de la media
tendr ese mismo valor slo si la muestra se toma con reposicin, es decir, como
las permutaciones o variaciones con repeticin de los N elementos de la poblacin, tomando n de ellos a la vez. Para una poblacin de tamao N siempre hay
N" muestras diferentes con remplazo.
Si el muestreo se hace sin remplazo (y ello es lo ms usual y natural en la
prctica), entonces el error tpico de la media viene dado por:
Para una poblacin finita de tamao N, siempre hay un total de:
N(N-I)(N-2)..-(N-n+I) - - N!
n(n-I>...l n!(N- n)!
muestras sin remplazo.
Ejemplo 2.4. Retomemos el ejemplo 2.1, en el que la poblacin objetivo consiste d
el
conjuntoA = {1,3,7). Recurdese que las 9 muestras con remplazo de tamao n = 2 son
las siguientes: {1,3), {3,1), {1,7), {7,1), {3,7), {7,31, {1,1), {3,3) y {7,7).
Consideremos de nuevo el conjunto que se compone de las respectivas medias de estas mue
stras:
(2, 2, 4, 4, 5, 5, 1, 3, 71, es decir, la distribucin muestral de medias para
muestras con
reposicin de tamao n = 2. Contemplemos ahora este ltimo conjunto como una nueva
poblacin y procedamos a calcular su desviacin estndar, denotada por a: . Para hacer
lo,
hagamos primero una tabla de los nmeros distintos que hay en este conjunto, junto
con
sus respectivas frecuencias relativas:
28
Con ayuda de una calculadora de bolsillo (o con Excel) hallamos que o: = - =3.i
.
9
Por consiguiente, extrayendo raz cuadrada:
Ahora comparemos este nmero con la desviacin estndar de los datos de la poblacin original: {1,3,7). Calculamos primero la varianza:
Extrayendo raz cuadrada se obtiene:
Comprobamos entonces que:
Como ejercicio de rutina, proponemos ahora al estudiante que para esta
misma poblacin A = {1,3,7) haga una lista de las tres posibles muestras de tamao 2 sin reposicin, luego calcule la distribucin muestra1 de medias y la desviacin estndar de la distribucin muestra1 de medias, es decir, 05. En este caso, el
tamao de la poblacin es N = 3 y el tamao de cadainuestra es n = 2. Compruebe
que se verifica entonces la identidad siguiente:
(Este ser el ejercicio 13 de la autoevaluacin.)

Con frecuencia, en el trabajo estadstico (y en matemticas en general) se


requieren sumas de un nmero considerable de trminos. Para eso se usa, a
modo de taquigrafa o abreviatura, la letra griega mayscula sigma (E) asociada
a algn ndice mudo, es decir una letra, generalmente i, j o k (no importa cul
sea), que indica cul es la variable sobre la que acta la suma. Debajo del smbolo
de sigma se indica desde qu valor de ese ndice mudo empieza la suma, y arriba
del smbolo de sigma se escribe un nmero pequeo que indica hasta dnde se
efecta la suma. De esta manera, se obtiene una escritura breve y se evitan puntos suspensivos. Por ejemplo, supongamos que se desea abreviar la escritura de
la siguiente suma:
Podemos abreviar esta suma as:
donde se ha usado la letra i como ndice mudo. Por supuesto, podramos haber
empleado cualquier otra letra como ndice, por ejemplo, la letra k o la letra r, e
n
cuyo caso se habra escrito, respectivamente:
c a b o bien z a r
Veamos otro caso.
Ejemplo 2.5. Abrevie con notacin sigma la siguiente suma:
l3 + 33 + + 73 + 33 + 113 + 133 + 153 + 173 + 19j
Solucin: Podemos abreviar esta suma de dos maneras distintas:
x ( Z k - 1)) o bien 2 (2k + 1))
Es muy importante usar el ndice mudo, ya que cualquier letra que no contenga dicho ndice en la suma, se considera como una constante.
Propiedades de la suma abreviada. Las siguientes propiedades de la suma
abreviada (o sumatoria) son fciles de demostrar:
54 Parte l . stadstica descriptiva
1. z c = m, donde c es una constante
n n
2. x c . f (x,) = c x f (xi), donde c es una constante
i =l i =l
A veces est suficientemente claro que el ndice de la suma vara desde 1
hasta n, y entonces se puede abreviar todava ms escribiendo simplemente S,.
Los tres parmetros de localizacin (media, mediana y moda) tienen cada
uno s u correspondiente interpretacin geomtrica. Ilustraremos est o con un
ejemplo concreto.
Ejemplo 2.6. En una pequea tienda de autoservicio, tratan de averiguar cunto
s
artculos lleva cada cliente en promedio. Suponga que para ello se toma una muestr
a de
392 clientes al azar y se obtienen los siguientes registros:
En esta tabla de datos, se puede ver a simple vista que hay dos modas: 6 y 7 artc
ulos por cliente (ambos datos registraron una frecuencia de 25, que es la
mxima), es
decir, se trata de una distribucin bimodal. Esto significa que el nmero ms probabl
e
de artculos que comprar un cliente cualquiera es de seis o siete. La probabilidad
(frecuencia relativa) de que un cliente cualquiera compre seis artculos (o tambin siet
e artculos) es de 0.638. De manera similar, podemos calcular la frecuencia relativ
a
392
de cualquier otro valor de la variable X, que denota el nmero de am'culos compra
dos
por un cliente.
Ahora bien, como los datos representan una muestra extrada de la poblacin, la
media de X se denota por y no por p. Aqu la poblacin sera inaccesible y virtualmen
te
infinita, porque representara el registro del nmero de artculos que lleva cada clie

nte en
Cap. 2. Manejo de datos aislados 55
todo el historial de la tienda (pasado, presente y futuro), por lo que p es un
valor irnposible de conocer. Para la muestra seleccionada de los 392 clientes, hay dos m
aneras de
calcular el valor de la media aritmtica (o media muestral) 2 y en ambos casos pod
emos
ayudarnos con una hoja de clculo de Excel. El primer mtodo consiste en constmir u
na
tabla de cada valor de xi (son i artculos comprados por cada cliente) junto con l
a respectiva frecuencia relativa (o probabilidad) p,. En ese caso se tendra la siguiente
tabla:
El valor de la media se calcula en la misma hoja de clculo de Excel:
Esta magnitud representa el nmero esperado de artculos que compra un cliente
cualquiera (para esa muestra).
El otro mtodo alternativo para hallar el valor de la media estriba en sumar los
productos de cada valor de x, por su frecuencia real (no relativa), es decir, (1)(6
) + (2)(14)
+ . . + (36)(1) y dividir el resultado (4541) entre 392. Esto queda claro, po
rque se est
dividiendo el total de artculos que se compraron (por todos los 392 clientes de l
a muestra) entre el total de clientes. Para obtener una interpretacin geomtrica, obsrv
ese la
figura 2.1.
Figura 2.1
56 Parte l . Estadstica descriptiva
En la figura 2.la, hemos colocado 392 esferitas apiladas, de tal manera que
, para
cada valor de xi desde i = 1 hasta 36, se han apilado exactamente tantas esferi
tas como frecuencias se registraron. El nmero de esferitas apiladas sobre cada valor de x, r
epresenta
el nmero de veces que algn cliente compr i artculos. El valor de la media, T = 11.5
8,
corresponde exactamente al punto donde se podran equilibrar las 392 esferitas com
o en
una balanza. En este caso, las dos modas (7 y 8) estn a la izquierda de la media.
En la figura 2.16, tenemos lo que ms o menos podra esperarse que ocurriera en
un caso continuo. Si en vez de tomar una muestra aleatoria de 392 clientes, hubir
amos
tomado una muestra de 20000 clientes, por ejemplo, podramos hacer un dibujo aniogo
con 20000 esferas (mucho ms pequeas) apiladas de la misma manera, y de lejos se ve
ra
como la curva de la derecha. Siguiendo este mtodo hasta tomar una muestra tan gra
nde
de esferitas como la poblacin misma, se tendra lo mismo: el punto correspondiente
a
la media p es donde se lograran equilibrar todas las esferitas como en una balanz
a, sin
que se inclinen a la izquierda ni a la derecha. Esto proporciona no slo una inter
pretacin
geomtrica de la media, sino tambin una interpretacin fsica.
Cmo se puede calcular e interpretar la mediana en el ejemplo anterior? En
teora, necesitaramos ordenar las 392 compras de los clientes de menor a mayor,

en cuanto a nmero de artculos adquiridos en cada compra y, como se trata de


un nmero par, escogeramos las compras situadas en los lugares 196 y 197, para
entonces promediar el nmero de artculos que se compraron en ambos casos.
Recurdese que, segn lo establecido, para hallar la mediana de n datos aislados,
basta con ordenarlos y enumerarlos de menor a mayor, y tomar el dato intermedio, o el promedio de los dos intermedios.
Se puede hallar la mediana en otra forma ms sencilla? Por supuesto. Si
observamos otra vez el dibujo de las esferas apiladas, queda claro que la median
a
ser aquel punto sobre el eje en el que a mano izquierda estn apiladas la mitad de
las esferas y a mano derecha la otra mitad, esto es, 196 pequeas esferas a mano
izquierda y 196 a mano derecha. Para resolver esto rpidamente con Ekcel, nos
ser til el concepto defiecuencia acumulada. Para cada nmero de artculos
comprados xi, denotemos por N(x,) a las frecuencias acumuladas desde 1 hasta xi
.
La siguiente tabla se calcula rpidamente con Excel:
Cap. 2. Manejo de datos aislados 5 7
Esta tabla nos permite ver con claridad que hasta la novena pila llevamos
acumuladas 182 esferitas y que nos hacen falta tan s610 196 - 182 = 14 esferi
tas
de las 22 que hay en la dcima pila para completar 50 % del total de esferas (vase
fig. 2.2).
Figura 2.2
Todas las esferas de la dcima pila corresponden a compras en las que el
cliente respectivo llev 10 artculos. Si hubisemos contado todas las esferas
,
una por una, de izquierda a derecha y de abajo hacia arriba, las esferas nmeros
196 y 197 seran la ltima clara y la primera oscura en la dcima pila. Por tanto, la
mediana es me = 10.
PREGUNTA INTERESANTE: La idea matemtica de la mediana es que si se traza una
lnea vertical en x = me, 50 % del rea bajo la curva queda a mano izquierda y 50 %
a mano derecha. Tomando en cuenta esto, uno podra pensar que quiz un valor
ms preciso para la mediana debera ser el siguiente:
Sera realmente este valor de la mediana ms exacto que si tomamos me = lo?
La respuesta es negativa. Recordemos que la caracterstica esencial de la mediana
estriba en que es el dato que minimiza el error absoluto medio. Si tomamos toda
la escala del 1 al 36 como continua, entonces se puede comprobar que el mnimo
valor del error absoluto medio corresponde a x = 10 y no a x = 10.63. Con a
yuda de
una hoja de clculo de Excel, podemos hallar la siguiente informacin:
- Dato (x,) / absoluto medio
1 I
En el captulo siguiente veremos, sin embargo, que semejante procedimiento de clculo de la mediana s sera vlido para datos agrupados por intervalos.
As como la mediana divide el total de frecuencias acumuladas (o rea bajo
la curva) en dos mitades, los cuartiles son los tres puntos Q,, Q, y Q, que d
ividen el total de frecuencias acumuladas en 25,50 y 75 %, respectivamente. Desde
luego, el cuartil Q, coincide con la mediana. De la misma manera, los terciles
TI zT, son los dos datos que dividen el total de frecuencias acumuladas en 33.3
66.6%, respectivamente. Los d&iles D,, D,, . . . , D, son los datos que di
viden el
total de frecuencias acumuladas (o rea bajo la curva) en porciones de 10 % cada
una. El quinto decil, por ejemplo, es igual a la mediana. El trmino genrico que
engloba a todos estos es el percentil. As, el percentil P,,, por ejemplo, es igu
al a

la mediana; el percentil P,, es igual al tercer cuartil, etctera.


En el mismo ejemplo que estamos considerando, para calcular el cuartil Q,,
nos remitimos de nuevo a la tabla de frecuencias acumuladas. El 25 % de 392 es
98. Para el dato x = 5, llevamos apenas 85 esferas acumuladas, as que el cuartil
Q, est en la sexta pila de esferitas. Por tanto, Q, = 6. Este sera el dato que se
obtendra si se ordenaran todas las 392 compras de menor a mayor (en cuanto a
nmero de artculos comprados) y se tomara un promedio de los datos que ocupasen los lugares 98 y 99 (ambos corresponden a seis artculos comprados).
Los nueve deciles D,, . . . , D, de una distribucin son los puntos que dividen
el rea bajo la curva o bajo el histograma en 10 porciones de idntica rea cada
una. En la figura 2.3, aparecen las localizaciones de los nueve deciles de una
distribucin continua con forma acampanada (se trata de una distribucin llamada
distribucin normal estndar, la cual se examinar con detalle en el captulo 6).
Obsrvese que el quinto decil coincide con la mediana. Las reas de cada una de
las franjas de un tono gris son iguales, esto es, cada franja de un tono gris t
iene
exactamente 10 % del rea total bajo la curva.
Si dicha curva es alguna de las distribuciones acampanadas usuales de la estadstica (como la distribucin normal o la distribucin t de Student), entonces
las posiciones exactas de los nueve deciles se pueden obtener fcilmente con ayuda de tablas o del Excel. Eso tambin lo veremos en el captulo 6.
Figura 2.3. Los nueve deciles de una distribucin acampanada.
Si se tiene un conjunto de n datos {x,, x,, . . . , xn}, hay dos formas esenci
almente distintas en las que podemos considerar esos datos. La primera sera suponer que esos n datos forman en s una poblacin finita, en cuyo caso la desviacin
estndar (o desviacin tpica) se calcula as:
Este parmetro se llama desviacin estndar poblaciond y se puede calcular fcilmente con casi cualquier calculadora cientfica tambin @ara no tener que
emplear la frmula). Algunas calculadoras emplean, en lugar del smbolo o, cualquiera de los smbolos xon o bien on.
Sin embargo, el conjunto original de datos {x,, x,, . . . , xn} puede considerarse tambin como una muestra que ha sido extrada de una poblacin mayor (o
de una poblacin infinita). En tal caso, el siguiente estadstico se usa para calcul
ar
la desviacin estndar:
60 Parte l . Estadstica descriptiva
Este estadstico recibe el nombre de desviacin estndar muestral. En las calculadoras cientficas, puede evaluarse fcilmente con una tecla que dice s, o tambin
sx o bien 4-i, dependiendo de la calculadora de que se trate. En la seccin 2.1
4,
veremos cmo usar la calculadora cientfica para evaluar este estadstico.
La siguiente pregunta surge naturalmente: Por qu para la desviacin tpica
poblacional se ha dividido entren mientras que para la desviacin tpica muestral
se divide entre n - 1? Hay dos razones importantes para hacer esto. En primer
lugar, recurdese que ya hablamos de lo que es un estimador insesgado y que se us
ese nombre para un estimador que tena la propiedad de que su valor promedio
era igual al valor del parmetro que se deseaba estimar. Por ejemplo, vimos que
el estadstico2 era un estimador insesgado del parmetro p.. Aqu ocurre, sin emC (x, - z>'
bargo, que el estadstico no es un estimador insesgado del parmetro 02, pero el estimador s2 =
C (xi - XI2
n-1
s lo es, afortunadamente. Aunque la
demostracin de este hecho no la daremos aqu? veremos algunos ejemplos con-

cretos para verificarlo en la prctica. Ntese que aqu estamos hablando de la


varianza, porque en ninguno de estos dos casos se obtendra, al extraer raz cuadrada no negativa, un estimador insesgado del parmetro o.
La segunda razn para dividir entre n - 1 tiene que ver con un concepto
estadstico de gran importancia que se llama grados de libertad. Para entend
er
este concepto, obsrvese, en primer lugar, que si en el clculo de la varianza las
desviaciones (x, - X) no estuviesen elevadas al cuadrado, entonces la suma de
todas las desviaciones C (x, - X) sera cero (por qu?), as que cualquiera de las
n desviaciones puede determinarse a partir de las restantes n - 1 desviaciones
.
Por consiguiente, el valor de la suma de los cuadrados de las desviaciones, es d
ecir, C (xi - Z)2 depende nicamente de las n - l desviaciones que tienen libertad
de variar de una muestra a otra. En ese caso decimos que la suma de los cuadrados de las desviaciones tiene n - 1 grados de libertad. Esto se traduce en que,
si
se dividiera la varianza muestral entre n, se obtendra un valor que subestimara
la varianza poblacional. Al usar n - 1 como denominador en lugar de n, se obtendr un valor ligeramente mayor para la varianza muestral, lo cual siempre es
deseable para compensar la mayor incertidumbre que provocara trabajar con
una muestra no muy grande. Por supuesto, si el tamao de la muestra (n) es
bastante grande, la divisin entre n o entre n - 1 dar resultados casi idnticos.
Si esta explicacin pudiera parecer confusa para algn lector, recomendamos no preocuparse, ya que con el estudio sistemtico y con la solucin cotidiana de muchos ejercicios, y a medida que se vaya avanzando en el estudio de este
libro, estos conceptos sutiles se volvern poco a poco ms claros para el estudiante. Por ahora, basta con que el lector d por sentado que para calcular la varianz
a
muestral y la desviacin tpica muestral, conviene dividir entre n - 1. En algunos
libros antiguos, la divisin se realiza entre n, y tampoco tiene nada de malo.
'El lector interesado puede ver la demostracin en el libro Probabilidady estadkt
icapara ingenteda y ciencias, de Gabriel Velasco Sotomayor y Piotr M. Wisniewski, Thomson Int
ernational Editores, Mxico, 2001, captulo 9, teorema 9.1, p. 210.
Casi todas las calculadoras cientficas de diferentes marcas (HP, Sharp, Casio, Texas Imtmments, etc.) tienen una modalidad para uso estadstico. Por desgracia, como se mencion en el captulo anterior, el procedimiento para emplear
la utilera estadstica de una calculadora vara mucho de marca a marca y de modelo a modelo, as que lo mejor es consultar el instructivo de la calculadora, y s
i
no se tiene, experimentar un rato con ella hasta descubrir cmo se procede para
hallar los valores deseados.
Veamos, por ejemplo, con una calculadora Sharp, modelo EL-531L, cmo
podramos resolver el siguiente ejercicio: para los datos {1, 3, 5, 8, 8, 9, 3, 4)
, calcular la media, la desviacin estndar poblacional y la desviacin estndar muestral. En ese tipo de calculadora, se pulsa la tecla MODE y luego se selecci
ona
el nmero 1 (modo estadstico), entonces aparece en la pantalla un pequeo
letrero que dice STAT. En las calculadoras de otras marcas o modelos (por ejemplo, las CasEo), hay que pulsar la tecla necesaria para que aparezca el letrero
SD
(statistical data). Volviendo a la calculadora Sha?p, se introducen los datos un
o
a uno, presionando siempre la tecla M+ despus de cada dato. (Ello significa que
la calculadora est registrando todos los datos en su memoria.)
Arriba de algunas teclas aparecen con letra pequea y con algn color los

smbolos n, 2, sx yxo,, as como Cx y Zx2. Estos dos ltimos smbolos no son tiles para nosotros por el momento, pero lo sern cuando veamos el tema de regresin. En algunas calculadoras Sharp de modelos ms viejos, aparecen los smbolos s y o, respectivamente, en lugar de sx y ox. En calculadoras de otras m
arcas
o modelos, aparecen los smbolos on-i y 4, respectivamente. En la calculadora
Sharp del modelo mencionado, los pequeos smbolos aparecen con color verde, as que se llaman con la tecla del mismo color que dice RCL. En otros modelos
ms antiguos de calculadoras Sharp, aparecen con color amarillo o naranja claro
y se llaman con la tecla del mismo color 2ndF, o INV Casi siempre hay que guiars
e
por el color en el que aparecen los smbolos de inters. As, obtenemos:
Si el lector no encuentra por ahora cmo hallar estos valores con su calculadora @ara el mismo ejemplo) y no tiene el instructivo de la calculadora, no im
porta, puede hacerlo ms tarde cuando. tenga tiempo libre y nada que hacer; por
ejemplo, cuando deba esperar en el consultorio del mdico, o cuando tenga que
ir a hacer algn trmite en el gobierno, puede llevarse su calculadora y experimentar con ella un rato; le aseguramos que pronto descubrir cmo se hace todo
esto. Cabe mencionar que, en las calculadoras Olivetti, los datos permanecen en
la memoria aun despus de apagarla. Para muchos estudiantes ello es molesto,
pero es fcil borrarlos de la memoria pulsando consecutivamente las teclas ALPHA y ON/C. Por cierto, en estas calculadoras Olivetti, los datos no se introduc
en
con la tecla M+, sino con la tecla DATA De cualquier manera, aprender a usar
la
utilera estadstica de una calculadora de bolsillo es ms fcil que aprender a conducir un automvil, por ejemplo.
2.1 5. RESUMEN DE ESTAD~STICA DESCRIPTIVA CON ~ C E L
Para obtener valores de los estadsticos muestrales con Excel se procede de
la siguiente manera. Se pulsa en el encabezado donde dice Herramientas (Tools)
y entonces se despliega un men (fig. 2.4). Luego se pulsa donde dice Complementos (Add ins) y enseguida se despliega un submen que tiene varias opciones de utilera, cada una con un pequeo cuadro a la izquierda (Administrador
de informes, Asistentepara bsquedas, etc.). Se localiza la utilera Herramientas
para anlisis (Data analysis) y se pone una paloma en el cuadro de la izquierda
(slo hay que picar dicho cuadro y la paloma se pone sola). Esto significa que uno
desea dar de alta la opcin de anlisis de datos, la cual por regla general no viene
dada de alta en Excel.
No conviene palomear todas las opciones de utilera (o por lo menos las
utileras que no se van a emplear), ya que esto provocara un gasto innecesario de
recursos en la computadora y a veces se volvera ms lento el proceso de abrir el
Excel, a menos que usted tenga una barbaridad de memoria RAM en su mquina.
Recomendamos poner paloma nicamente en la opcin mencionada (Anlisis
de datos). Al dar enter, puede ocurrir una de dos: o bien la opcin ya est integrada a la versin de Excel que est instalada en su mquina y entonces tomar
unos pocos segundos darla de alta, o bien le pedir que inserte el disco compacto
de Ofice 2000 o de la versin de Ofice que use, para instalar dicha utilera. (Est
o
significara que su computadora no traa instalada la versin profesional completa
de Ekcel.) Una vez que ya dio de alta la opcin para Anlisis de datos, esta utilera
aparecer automticamente al desplegar el men Herramientas.
Vamos a repetir ahora el mismo ejemplo que dimos en la seccin anterior, es
decir, el conjunto de datos: {1, 3, 5,8, 8, 9, 3, 4) . Introducimos todos esto
s datos
(uno en cada celdilla) en una columna cualquiera de la hoja de clculo (por ejemplo, en las celdilla A3 hasta la A10). Picamos en Herramientas y luego en Anlisis

de datos. Entonces se despliega un men con varias opciones y sealamos Estadstica descriptiva (fig. 2.5). En el cuadro de dilogo que aparece, marcamos con
'. 67- 1 1 1 1 1 I 1 1
Figura 2.4
Figura 2.5
el cursor los datos introducidos. Donde dice Opciones de salida pedimos en una
Hoja nueva. Se pone paloma en Resumen de estadsticas y Nivel de confianza
(95 %) solamente, y se pulsa Aceptar.
Aparece entonces el siguiente resumen:
1 Media / 5.125 1
Mediana
r n n
Moda
--- I Sur 7 4
Cuenta 8
Nivel de confianza (95.0%) / 2.42456189
-- Desviacin estndar
Varianza de la muestra
Curtosis
Obsrvese que el resumen proporciona la desviacin estndar muestral, mas no
la poblacional. No obstante, es muy sencillo deducir una relacin matemtica simple entre ambas desviaciones.
2.90012315
8.41071429
-1.53625705 '
- Coc le asirneti
- -i
64 Parte l. Estadstica descriptiva
El ltimo rengln, correspondiente al Nivel de conjianza, es un tema que
no pertenece a la estadstica descriptiva, sino a la inferencia estadstica, pero po
demos adelantar al lector lo que significa ese nmero que ah aparece. La media
de la poblacin de donde se extrajo la muestra de los ocho datos es un parmetro
p desconocido, pero hay una probabilidad mnima de 0.95 (es decir, 95 %) de que
dicho valor se encuentre dentro del intervalo 5.125 f 2.4245619; en otras palabr
as,
si el conjunto de datos de nuestro ejemplo ha sido extrado de una poblacin infinita o inaccesible cuya media es p, podemos tener una confianza de por lo menos
95 % de que 2.70 < p < 7.55. Aunque este tema de los intervalos de confianza lo
veremos ms adelante, repetimos, no le har dao al lector saber ahora cmo podra determinar este intervalo con ayuda de una calculadora y de unas tablas de
percentiles de la distribucin t de Student, que es una distribucin acampanada
cuyos percentiles vienen tabulados al final de cualquier libro de estadstica.
Determinemos el intervalo en nuestro ejemplo. Como el conjunto de observaciones {1, 3, 5, 8, 8, 9, 3, 4) consiste de n = 8 datos, buscamos el valor de
l percentil t,,,, con n - 1 = 7 grados de libertad en dicha tabla (se busca tO07, y
no t,,,
porque hay un pequeo error de 5 % repartido en ambas esquinas bajo la curva,
y sobre la posicin del percentil crtico queda 97.5 % de rea bajo la curva a mano
izquierda). Hallamos 2.3646226. Por otra parte, el error tpico de la media es:
John Graunt (1 620- 1 674) y Sir Williarn Petty (1 623- 1687). Organizaron en
1662 datos
demogrficos para investigar las caractersticas biorntricas de poblaciones humana

s.
Cap. 2. Manejo de datos aislados 65
aunque no hace falta calcular esta magnitud, porque la misma informacin del
Fxcel nos la dio (es el segundo dato del resumen). Por tanto, el inter
valo de
confianza de 95 % para la media queda dado por:
que coincide.con el valor dado en el resumen del Excel. Como veremos en captulos posteriores, el Excel presupone que los datos siguen una distribucin normal, ya que de lo contrario no sera vlido todo esto.
Cuando no se tiene una computadora a la mano, se pueden hallar las 14 magnitudes del resumen de estadstica descriptiva que proporciona el Excel, empleando slo una calculadora de bolsillo y unas tablas de percentiles de la distribucin
t de Student. En su momento nos tocar estudiar esa distribucin con detalle. Por
cierto, en el resumen de estadstica descriptiva del Excel hay dos trminos que
an no hemos examinado: Curtosis y Coeficiente de Estos conceptos
se tratarn en el captulo 4.
Para finalizar este captulo, invitamos'al estudiante a que tome unas hojas de pap
el (o un
cuaderno) y un lpiz, e intente resolver el siguiente examen de 13 preguntas. Ti
ene que
hacedo a contrarreloj, en un plazo mximo de dos horas. Puede usar calculadora de
bolsillo para las operaciones. Inmediatamente despus del examen, aparecen las respue
stas
correctas, pero el estudiante no debe mirarlas sino despus de haber resuelto
todo su
examen. A continuacin deber autocalificarse. Si obtiene menos de 75 % de aciertos
(es
decir, slo nueve aciertos o menos), entonces le recomendamos volver a estudiar bi
en este
captulo y despus de un par de das tratar de resolver el examen de nuevo (o al men
os
las preguntas fallidas), antes de pasar al siguiente captulo. Las preguntas van a
umentando
en grado de dificultad, pero al calificarse, suponga que todas valen lo mismo.
Si obtiene
10 u 11 aciertos, su aprovechamiento ha sido bueno, con 12 aciertos muy bueno,
con 13
excelente y se hace acreedor a una felicitacin. Mucho xito!
1. A menudo leemos (o escuchamos) frases como "la persona promedio" o "el hombr
e
promedio". Considera usted que al usar la palabrapromedio en ese sentido se refie
ren a la media, a la mediana o a la moda? Explique.
2. El clebre fsico y escritor estadounidense George Gamow seal en cierta ocasin
que le pareca una coincidencia notable el hecho de que, entre todas las cosas de
l
Universo, el ser humano tuviera ms o menos un tamao promedio entre lo ms pequeo (los tomos o incluso las partculas subatmicas) y lo ms grande (las galaxias
o incluso los cmulos de galaxias). A qu tipo de "promedio" cree usted que se refena el profesor Gamow: a la media, la mediana o la moda?
3. En un sitio de Internet apareci una vez el siguiente comentario: "Las
estadsticas
muestran que aproximadamente 30% de los accidentes de automvil involucran a
un conductor que ha ingerido alcohol. Por tanto, 70% restante de los accidentes
involucran a un conductor que no ha bebido, luego entonces se concluye que la form
a
ms segura de conducir es estando borracho." En qu estriba la falacia de semejante
argumento? Explique.

4. El siguiente conjunto describe el nmero de goles anotados en cada uno de los


16
66 Parte 1. Estadstica descriptiva
partidos de la primera jornada en la Copa Mundial de Futbol2002: X= {1, 3, 4, 4
, 3,
2, 2, 5, 2, 8, 1, 2, 2, 1, 4, 21.
a) Determine la media, la mediana y la moda.
b) Para los distintos elementos de este conjunto de datos, construya una tabla
de
frecuencias relativas.
5. Para los datos del ejercicio 4, calcule:
a) lavarianza
6) la desviacin estndar
C) el error cuadrtico medio del valor x = 2.
Aproxime sus respuestas a tres dgitos decimales despus del punto.
6. De nuevo, para los datos del ejercicio 4, calcule:
a) la desviacin media
6) el rango
c) la desviacin promedio de la mediana
4 el error absoluto medio (o desviacin promedio) del dato x = 1.
7. Suponga que el conjunto X = (1, 2, 5, 8, 9) forma una poblacin. Elabore una
tabla
comparativa del error cuadrtico medio (desviacin cuadrtica media) para cada valor deX, y compruebe que el mnimo valor de dicho error corresponde precisarnente a la media.
8. Considere al conjunto X = ( 5 , 6, 4,2, 7) como una poblacin que representa
el nmero de tazas de caf que consumi un empleado de oficina durante cada uno de
los cinco das laborables de una semana. Haga una tabla comparativa de la desviacin
promedio (error absoluto medio) de los cinco valores deX, y compruebe que el mnimo valor de dicha desviacin corresponde precisamente a la mediana.
9. Para el conjunto de datos del problema 8 (considerado como poblacin), anote l
as
10 muestras sin remplazo de tamao tres, y describa el conjunto { F, , Jc2, .
. . , Z,,) que
representa las medias muestrales de cada una de esas 10 muestras.
10. Respecto al conjunto de las 10 muestras sin reposicin del ejercicio 9:
a) Elabore una tabla con todos los elementos distintos de ese conjunto y sus res
pectivas frecuencias relativas. Esa tabla es la distribucin muestral de medias.
b) Si se denota por e, a la media de la distribucin muestral de medias, com
pruebe que dicho parmetro es igual a la media de la poblacin original, es decir, = p. Entonces, si X es un estimador de p, iqu clase de estimador es?
11. Suponga que el conjuntoX= (1,3,5) forma una poblacin de la cual se extraen m
uestras de tamao n = 2. Dentese por N al tamao de la poblacin (N = 3). Compruebe
que si el muestre0 se hace sin reposicin, se obtendr el siguiente valor para la de
sviaci6n tpica de la distri'bucin muestral de medias (o error tpico de la media):
(NOTA: Esta frmula es siempre vlida, para cualquier poblacin y tamao de muestra
sin reposicin.)
Cap. 2. Manejo de datos aislados 67
12. Respecto al ejercicio 11, piense de manera intuitiva a qu valor tiende:
cuando N tiende a infinito y N n (el smbolo significa "mucho mayor").
13. Para la poblacin A = { 1, 3, 71, cuyo tamao es N = 3, haga una lista
de las tres
posibles muestras de tamao n = 2 sin reposicin, luego calcule la distrib
ucin

muestral de medias y la desviacin estndar de la distribucin muestral de m


edias, es decir, o,. Compruebe entonces que:
REPUESTAS DE LOS EJERCICIOS DE AUTOEVALUACI~N 2.1
1. Probablemente se refieren a la moda, es decir, alguna caracterstica, virtud
o defecto
que es muy comn encontrar en las personas y, por ende, tiene alta frecuencia rel
ativa.
2. A la mediana. La moda habra dado un valor diminuto, mientras que la media dara
un
valor gigante.
3. El argumento sera correcto si los borrachos y los sobrios estuviesen ms o me
nos
igualmente distribuidos entre los conductores. En realidad, el porcentaje de con
ductores ebrios es muy pequeo (quiz 2 % o menos del total), y ese 2 % es responsable
de 30 % de los accidentes. Es un asunto de frecuencia relativa.
23
4. a) Media p = - =2.875 goles; mediana me = 2 goles; moda m. = 2 goles.
8
68 Parte l. Estadstica descriptiva
87 20
6. a ) Desviacin inedia = d, = - = 1.359,; 6 ) Rango =7; c ) d, = - = 1.2
5;
64 16
Dato
1
9. Las 10 muestras son: ( 5' 6' 41, {5,6,21, { 5, 6, 7) , { 5, 4, 2) , { 5,
4, 7) , { 5, 2, 7) , {6, 4,
2), { 6, 4, 7) , { 6, 2, 7) y {4, 2, 7). Las respectivas medias de estos conj
untos forman,
a su vez, el siguiente conjunto:
Dmzh5-n cuardtiu media
26
Dato
2
4
5 (mediana)
donde hay dos pares de elementos repetidos.
10. a) La distribucin muestra1 de medias est dada por la siguiente tabla:
Desuiac.in promedio del dato
2.8
1.6
1.4
2 19
- 5 10 (va
- 8
9
6
7
+
1.6
2.2
Cap. 2. Manejo de datos aislados 69

6) La media de la distribucin muestral de medias es, por tanto:


Se trata, entonces, de un estimador irnesgado.
11. X = {1,3, 5 ), p = 3, a = N= 3. El total de muestras de tamao n = 2, sin re
posicin es el siguiente: (1, 3), (1, 5) y (3, 5). Las respectivas medias
muestrales
forman el conjunto: (2, 3, 4). La media de los elementos de este ltimo conju
nto
es pz = 3 = p. La desviacin tpica de los elementos de este conjunto es
=
Comprobamos que en efecto:
a
12. Tiende al valor = -, toda vez que el factor
J
se aproxima a la unidad
cuando N tiende a infinito y N >> n.
13. Se obtiene en ambos casos el valor J14 / 3 = 1.24722 . En efecto, la varia
nza de la poblacin est dada por:
Luego, la desviacin tpica de la poblaci6n es a = Por otra parte:
3
As:
que coincide con la desviacin estndar del conjunto (2, 4, 51, el cual es la distri
bucin muestral de las medias de la poblacin original @ara muestras de tamao dos).
1. En cada uno de los siguientes incisos, desarrolle las sumas que se indican:
2. Calcule el valor numrico de las siguientes sumas:
3. Dos profesoras de estadstica, la profesora A y la profesora B, reportaron las
calificaciones finales de sus respectivos grupos (llammoslosA y B). La siguiente tabla m
uestra la comparacin de los parmeuos correspondientes de sus calificaciones reportadas: media, mediana y desviacin estndar:
a) En cul de los dos grupos debera la profesora invertir ms tiempo en asesoras
individuales?
b) En cul de los dos grupos es ms probable hallar a algunos estudiantes excelentes?
GrupoA
Grupo B
4. Los incisos siguientes se refieren al conjunto de datos: {1, 2, 5, 8, 3, 9,
7) :
a) Calcule la media.
b) Si se suma 4 a cada nmero del conjunto, cul ser la media del nuevo conjunto
de datos?
c) Si cada nmero se multiplica por 3, cul ser la media?
dj Suponga ahora que cada nmero se multiplica por 8 y despus se suma 6 al resultado correspondiente. En tal caso, cul sena la media del nuevo conjunto de nmeros?
.
Media
78
-.
72
.
Medzna
65
73
D ~ W ~ I I C P ~ estrtdar
16
6

Cap. 2. Manejo de datos aislados 7 1


5. Suponga que tiene un conjunto de 10 nmeros cuya media es 17 y un segundo conjunto de 20 nmeros cuya media es 16. Cul es la media de los 30 nmeros?
6. Si se tiene un conjunto d e n nmeros cuya media es x y otro conjunto de m nmer
os
cuya media esy, cul es la media del conjunto de los n + m nmeros?
n
7. Si se tiene un conjunto de n nmeros {x,, x,, . . . , x,,}, demuestre que (
x, - Z) = O.
1 = I
8. Un tipo de media poco usual en la prctica es la llamada media geomtrica.
Para el
conjunto de los n datos del ejercicio 7, por ejemplo, la media geomtrica se defin
e
como d . . . . Use su calculadora cientfica para hallar la media geomtrica de
los siguientes conjuntos de datos:
9. Demuestre que la media de dos nmeros no negativos tiene que ser mayor o igual
a
su media geomtrica. Se podra generalizar esta afirmacin para n nmeros?
10. Proporcione un conjunto de dos nmeros cuya media sea 10 y cuya varianza sea
4.
11. Se tiene un conjunto de dos nmeros desconocidos, y slo se sabe que la varianz
a es
4. Cul es el rango?
12. Invente un conjunto de cuatro nmeros enteros que satisfagan simultneamente l
as
siguientes condiciones: la media es 10, la mediana 9, la moda 7 y el rango 15. (
Hay varias soluciones posibles.)
13. Arregle los siguientes datos numricos en una diagrama de tallo y hojas, y lu
ego obtenga
la mediana y la moda. Los nmeros representan la duracin (en nmero de movimientos)
de todas las partidas de ajedrez de un torneo de grandes maestros jugado en 1997
.
14. Los goles anotados por el equipo de futbol Puma. de la UNAM de la primera
divisin
del balompi mexicano, durante sus ltimos 42 partidos, fueron los siguientes:
Calcule el coeficiente de variacin y exprselo en porcentaje.
72 Parte l. Estadstica descriptiva
15. Suponga que {u,, u,, . . . , un) es un conjunto de nmeros cuya media es , y
definamos el conjunto de nmeros {x,, x,, . . . , x,,) tal que x, = au, + b @ara i =
1, 2, . . . , n) ,
donde a y b son ciertas constantes. Demuestre que entonces la media del segundo
conjunto es? = a + b.
16. Calcule la media del siguiente conjunto de nmeros: {3, 7, 8, 21, 35) , y a
partir del resultado que obtenga, deduzca rpidamente cul debe ser la media de cada conjunto
siguiente:
17. La distribucin de frecuencia de una variable x es la siguiente:
Obtenga la media de x con una calculadora y luego vea si puede hallar rpidamente,
y por simple inspeccin, la media de cada una de las variables u, u, w, y, cuyas
distribuciones de frecuencia se listan a continuacin:
X
-2
-1
o

1
2
3
n--- .zcia
17
37
'I /
>
w
5 1
52
53
54
55
56
18. Considere el conjunto: {u,, u,, . . . , un) , cuya desviacin media es
d, y definamos
otra vez el conjunto de nmeros {x,,x,, . . . , xn) de suerte quex, =au, + b
@ara i = 1,
2, . . . , n), donde a y b son ciertas constantes. Demuestre que entonces la de
sviacin
media del segundo conjunto es ad.
Frecuencia
14
38
. 7 4
52
30
12
y
75.5
85.5
95.5
105.5
115.5
125.5
Frecuencia
7
19
37
26
15
5
Cap. 2. Manejo de datos aislados 73
19. Compruebe que la desviacin media del conjunto (3,7,8,21,35) es 10.56.
20. Use los resultados de los dos ltimos ejercicios (18 y 19) para obtener rpida
mente
la desviacin media de los siguientes conjuntos numricos:
21. Una nia lanz un par de dados 9 veces y registr las siguientes puntuaciones: 8,
2,7,
3, 10, 8, 8, 5 y 12. Calcule:
a) el rango
6) la media
c) la desviacin media.
3.1. CLASES Y sus CARACTER~STICAS
Una clase es un intervalo de variacin para una variable continua o de variacin terica (ficticia) para una variable discreta. Por ejemplo, si la varia
ble X
representa el tiempo en minutos que requiere cierta persona para cambiar un

neumtico de su automvil, una clase podra ser el intervalo [ l , 5), es decir, e


l
conjunto de valores de X tales que 1 I X < 5 (en minutos). Como veremos despus, casi siempre conviene usar intervalos que son cerrados por la izquierda y
abiertos por la derecha, como en este ejemplo.
Si X es una variable discreta (por ejemplo, el nmero de veces que sale
guila en 10 lanzamientos de una moneda), se puede usar una variacin continua
ficticia para X y tomar, por ejemplo, el intervalo de variacin continua [1.5, 3.
5)
como aproximacin del conjunto 2 I X I 3, esto es, que salgan dos o tres guilas,
o bien tomar el intervalo continuo [1.5, 2.5) como sustituto del valorX= 2. Es
te
tipo de aproximacin (que se llama correccin por continuidad) puede parecer
extrao por el momento, pero ms adelante veremos que tiene muchas ventajas,
ya que permite que algunas variables discretas se manejen con distribucione
s
continuas a las que se aproximan.
Lmites d e s de clase. Casi siempre ocurre que las clases se establecen de tal
manera que quedan algunos huecos (o vacos) entre dos intervalos adyacentes.
En tales casos, los intervalos se pueden alargar artificialmente para abarcar
tarnbin la mitad de los huecos que quedan a sendos lados y producir una variacin
continua de principio a fin. Los extremos de lis clases alargadas artificialmen
te
de esta manera se llaman lmites d e s de clase, y el intervalo de variacin terica
entre los lmites reales de clase se denomina intervalo ampliado. Por convencin,
los intervalos ampliados se toman cerrados por la izquierda y abiertos por la de
re76 Parte l. Estadstica descriptiva
cha. El lmite real izquierdo se acostumbra llamar M t e tea inferior, mientras
que
el derecho recibe el nombre de limite r ed superior. Usualmente se emplea la notacin x,y x, para denotar los lmites reales inferior y superior, respectivamente
.
Marcas de clase. Son los puntos medios de cada intervalo. No importa si se
consideran los intervalos originales o los intervalos ampliados, la localizacin d
e
cada marca de clase ser la misma. La razn de establecer marcas de clase estriba
en que no se pueden efectuar operaciones aritmticas con intervalos, por lo que
cada marca de clase se toma como representativa de su intervalo, y es precisamente ese supuesto el que se traducir en una pequea inexactitud de las estimaciones resultantes. La notacin para la marca de clase de la i-sima clase es xi.
Amplitud o anchura de una clase. Se llama as a la distancia entre los lmites
reales de clase. La forma ms sencilla de calcular la amplitud de una clase consis
te
en restar el lmite real superior (derecho) menos el lmite real inferior (izquierdo). En la mayora de los ejemplos prcticos, los datos se organizan de tal modo
que todos los intervalos, excepto quiz el ltimo, tienen la misma amplitud. Sin
embargo, eso no es esencial. Puede haber casos en los que las amplitudes de los
diferentes intervalos varen.
En los ejemplos que expondremos en este captulo, usaremos hojas de clculo de Excel para realizar las operaciones con rapidez. Es cierto que existen alg
unos
programas comerciales ms efectivos que el Excel para el manejo estadstico de datos, pero la obtencin de tales programas implica por lo general un desembolso adi
cional por parte del estudiante, amn de que hay que invertir tiempo para aprender

a usarlos. El software ms popular y usual para el manejo de datos estadsticos es


el programa MINITAB. Al parecer hay una versin gratuita de 30 das que se puede
bajar de Internet, pero despus de ese tiempo hay que comprarlo. Otro programa
muy apreciado para el manejo de datos es el SPSS (Statistical Rxkage for tbe So
cial
Sciences). Si el estudiante ya tiene algunos de esos programas instalados y adems
sabe usarlos, sera fabuloso; no obstante, basta con el Excel, que es el programa
ms
conocido y que forma parte del Ofice instalado en cualquier computadora.
El siguiente ejemplo lo vamos a manejar como "caballito de batalla" durante
buena parte de este captulo, para ejemplificar los clculos de diferentes magnitudes (parmetros) y los tipos de grficos que se van a ir definiendo a lo largo de
varias secciones.
Ejemplo 3.1. Supngase que se ha agrupado en clases el nmero de horas semanales que los nios ven la televisibn (incluso videocassettes y DVD), para una
muestra
aleatoria de 300 nios, con los siguientes resultados:
1 Horas semanuIes 1 Frecuencia
. .
Cap. 3. Datos agrupados en clases o intervalos 77
Para trabajar con estos datos, primero debemos determinar las amplitudes de l
as
clases y las marcas de clase, y anotar toda esta informacin en una hoja de clcu
lo de
Excel, junto con las frecuencias respectivas:
Las primeras dos columnas no se utilizan para ninguna operacin y slo tienen valor
informativo. En esos casos, al usar Excel, hay que sealar las columnas y pulsar e
n Formuto - Celda - N~rnero, y pedir la opcin de Texto.
3.2. HISTOGRAMAS Y POL~GONOS DE FRECUENCIA
Antes de proseguir con el anlisis estadstico de los datos del ejemplo 3.1, conviene tener una representacin grfica de ellos, con objeto de visualizar de qu forma es la distribucin de frecuencias. Hay muchos tipos de representaciones grficas
para datos estadsticos aislados o agrupados, pero el ms til y comn es el histograma, el cual definimos a continuacin, adems del polgono de frecuencias.
Histograma Es una representacin grfica de una distribucin de frecuencias relativas para datos aislados o agrupados, en forma de barras rectangulares
,
cuyas alturas correspondientes son las respectivas frecuencias (o frecuencias r
elativas) y cuyas bases son iguales a las clases ampliadas (vase fig. 3.1).
En el histograma de la figura 3.1, todos los rectngulos estn juntos o adyacentes, pero hay ejemplos en los que ello no es posible, y entonces quedarn
separados. Sin embargo, siempre se debe procurar que la base de cada uno de
los rectngulos sea unitaria, porque entonces el rea de cada rectngulo @ase x
altura) es igual a la probabilidad para ese valor de xi. Siempre es importante
ser
consistente con el concepto de que rea = probabilidad.
Para distribuciones de frecuencias relativas de observaciones aisladas o
para distribuciones de probabilidad de variables aleatorias discretas, convi
ene
tomar bases unitarias en cada rectngulo, a fin de que el rea de cada rectngulo
@ase por altura) sea exactamente igual a la frecuencia relativa o a la probabili
dad
correspondiente. De este modo, vemos que el concepto de rea viene siendo
un sinnimo de probabilidad acumulada en un intervalo. Este mismo concepto
se mantiene para variables aleatorias continuas, de tal suerte que la probabilid

ad
de un intervalo de variacin de la variable queda representada por un tramo de
rea bajo la curva de densidad de probabilidad.
Figura 3.1
Es relativamente fcil dibujar un histograma a mano, con papel, lpiz, colores y regla, pero tambin se puede dibujar con casi cualquier software de estadstica, incluso el programa Excel, que no es propiamente un software de estadstica. En el men Herramientas del Excel viene la opcin de Histograma, aunque a
veces los dibujos deben ser retocados para darles las preferencias del usuario.
No
es necesario que los rectngulos de un histograma queden unidos o adyacentes,
pero s es deseable, porque as tienen mejor aspecto.
Hay otro tipo de histogramas que se llaman histogramas defiecuencias, en
los cuales las alturas no coinciden con las probabilidades (o frecuencias relati
vas)
sino con las frecuencias reales. En ellos, las bases de los rectngulos no son ne
cesariamente unitarias. En la figura 3.2, aparece un histograma correspondiente
a una serie de tiempo. Se llama as a una sucesin cronolgica de datos donde la
variable representa el avance del tiempo.
Porcentaje de la PEA
i 9, 1
Figura 3.2. Aumento del desempleo en Amrica Latina. (FUENTE: CEPAL.)
Cap. 3. Datos agrupados en clases o interualos 79
Poligono de frecuencias. Es un grfico de trozos de la frecuencia de clase en
relacin con la marca de clase. Puede obtenerse conectando los puntos medios
de las partes superiores de los rectngulos del histograrna (vase fig. 3.3). Cabe
sealar que el uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos originales se pierden en el proceso de agrupamiento.
Figura 3.3
El polgono de frecuencias para datos agrupados en clases, o para datos
aislados, se dibuja de la siguiente manera: se marcan en un papel varios puntos
de la forma (1, ni ), esto es, (marca de clase, frecuencia) y se unen con seg
mentos adyacentes usando una regla.
La figura 3.4 ilustra cmo se representan en forma de histograrna las frecuencias de la muestra de 300 nios, en donde se trataba de ver el nmero de
horas semanales que miraban la televisin. Se puede apreciar que esta distribucin de frecuencias tiene sesgo positivo. En la grfica de la figura 3.5, vemos el
polgono de frecuencias superpuesto al histograma.
Figura 3.4
Figura 3.5
Es til y cmodo disponer, aparte de la distribucin de frecuencias, de una
tabla y una grfica que muestren cmo se van acumulando las frecuencias. Por
ejemplo, el clculo de la mediana resulta mucho ms sencillo si se agrega una columna con las frecuencias acumuladas. Para hacer esa columna, basta ir sumando
(o acumulando) frecuencias. Ello se puede realizar fcilmente con Excel. En la
figura 3.6 se ha aadido la distribucin de frecuencias acumuladas del ejemplo de
los nios que ven la televisin un nmero de horas a la semana.
Figura 3.6
Cap. 3. Datos agrupados en clases o intervalos 8 1
Una ojiva es la grfica de una serie de segmentos de recta adyacentes
que ilustra la manera como se van acumulando las frecuencias en los intervalos. Casi siempre las ojivas tienen el aspecto de una "S" acostada. En nuestr
o
ejemplo, la ojiva se dibuja con Excel graficando primero las parejas de puntos
dispersos (diagrama de dispersin) y luego aadiendo la utilera de "lnea sua-

vizada" (fig. 3.7).


Figura 3.7
Con el botn derecho del ratn se le puede dar la forma, el aspecto y el
color que se desee, posicionando el cursor en la parte que se quiera modificar.
En este sentido, el Excel es muy amigable. Cabe sealar que en una ojiva los
puntos se pafican sobre los limites infdores reales de clase y no sobre las
marcas de clase. De esta manera, los datos van desfasados, como se indica en
la figura 3.8. Siguiendo los pasos del Excel se dibuja fcilmente la ojiva correspondiente (fig. 3.9).
Si el lector no tiene mucha prctica con Excel, se le recomienda jugar un
poco con las utileras y con las posibilidades u opciones que surgen al pulsar el
botn derecho cuando se posiciona en distintos lugares del grfico. Ver que es
fcil cambiar los colores, el grosor y el tipo de las lneas, quitar o poner leyenda
s,
etctera.
Cap. 3. Datos agrupados en clases o interualos 83
La desviacin media (o desviacin promedio de la media) se puede calcular
en la misma tabla as:
Con los datos del ejemplo 3.1, hacemos las operaciones en las siguientes
tablas. Recuerde que para usar el valor absoluto en Excel, la sintaxis es ABS(),
y
para el producto se utiliza el asterisco *.
Clases 1 Limites real es 1 x: 1
- - n,
tales / n = 300 1
- x. ni - 4834
X = ~ - - - - 16.113 hom semanales
n 300
dm = d,=
C l xt -xl nt n
2327.73 =7.759i h o m semanales
300
Todos los cuantiles (mediana, cuartiles, terciles o percentiles de cualquier
tipo) se calculan mediante un procedimiento de interpolacin sencillo. Loprimero que se debe hacer es ubicar la clase en la que se encuentra el cuantil corres
pondiente; luego se anota su lmite real inferior y se le suma una cierta fraccin
de la anchura de dicha clase.
Veamos, por ejemplo, cmo calcularamos el primer cuartil Q, en el ejem300
plo 3.1. El 25 % del total de datos es - = 75. Ahora vamos a sumar frecuen4
cias de clases, de manera acumulada, hasta que la suma que llevemos se pase de
75, y en la clase donde eso ocurra nos detenemos, ubicndola como la clase buscada. Obviamente, 44 + 96 = 140 > 75. Por consiguiente, el primer cuartil queda
localizado en la segunda clase, cuyo lmite real inferior es 6.5.
Ahora bien, observamos que la frecuencia de la segunda clase es 96 y su
amplitud es 7. Por consiguiente:
?
Primer cuartil = Q, = 6.5 + '- x 7
96
Lo que debemos anotar en lugar del signo de interrogacin es una cantidad tal
que sumada a las frecuencias acumuladas de las clases anteriores a la clase dond
e
est el primer cuartil, es decir, sumada a 44, nos d 25 % del total de datos, o sea
75. Qu debemos sumar a 44 para que d 75? Desde luego, 75 - 44 = 31. Por

tanto, ? = 31. Entonces tenemos:


3 1
Q, = 6.5 + - x 7 = 8.76 horas semanales
96
Esto significa que 25 % de la muestra de nios ven la televisin desde O hasta 8.76
horas a la semana.
Usemos ahora el mismo procedimiento para calcular el segundo cuartil,
que coincide con la mediana. El trabajo se facilita ms si se usa la columna
de
frecuencias acumuladas:
Clase
-la.
2a.
3a.
4a.
- .. Frecuertcia
acumulada
u .--. 1. 1 [27.5,34.5)
[34.5,41.5)
[41,5,48.5)
Limites reales
- [-OS, 6.5)
[6.5, 13.5)
++
2 8 3
295
300
- - - - .
.
Frecuencia 44
96
[i3.5,20.5)
[20.5,27.5)
Cap. 3. Datos agrupados en clases o intervalos 85
Como 50 % de las observaciones es igual a 150, la mediana debe ubicarse en
la tercera clase, cuyo lmite real inferior es 13.5. Luego:
donde, evidentemente, ? = 150 - 140 = 10. En consecuencia:
Esto se interpreta diciendo que 50 % de los nios de la muestra ven la televisin
de O hasta 14.446 horas a la semana.
Mediante el mismo procedimiento, determinemos ahora el tercer cuartil
Q,. Como 75 % del total de datos es 225, viendo la tabla de frecuencias acumula
das se aprecia que el tercer cuartil queda ubicado en la cuarta clase, cuyo lmite
real inferior es 20.5. As:
225 -214
Q3 = 20.5 +
48
X 7 = 22.104 horas semanales

Interpretamos esto diciendo que 75 % de los nios de la muestra ven la televisin


desde cero hasta 22.104 horas a la semana. (Tambin se puede decir que 25 % de
los nios de la muestra ven la televisin 22.104 horas a la semana o ms.)
Calculemos ahora el noveno decil, esto es, D,. Claramente, 90 % de los datos es 270, por lo que el noveno decil se halla en la quinta clase, cuyo lmite re
al
inferior es 27.5. Entonces:
270 - 262
D, = 27.5+ X 7 = 30.167 horas semanales
21
lo cual quiere decir que s610 10 % del total de nios de la muestra ven televisin
ms de 30.166 horas a la semana.
Por ltimo, calculemos el percentil P,. El 96% de 300 es 288, de manera
que el noveno decil est en la sexta clase, cuyo lmite real inferior es 34.5. Enton
ces tenemos:
P, = 34.5 + 288 -283 x 7 = 37.416 horas a ia semana
12
lo cual implica que 4 % de los nios de la muestra ven televisin ese nmero de
horas o ms a la semana.
A diferencia de lo que se expuso antes para datos aislados, la moda para
datos agrupados en clases es algo ms complicada de definir y de calcular. La
moda es algn punto intermedio de la clase modal, la cual es la clase (o clases)
que tiene(n) el rectngulo ms alto de todos. Por otra parte, la clase menos frecuente se llama antimoda, aunque este parmetro es de escaso valor prctico. En
la figura 3.10 se ilustran la clase antimodal y la clase modal de un histograma.
No
hay que olvidar que puede darse el caso de que hayan dos o ms modas, pero
tambin puede ocurrir que no exista moda. La moda es algn punto de la clase
modal, no necesariamente la marca de clase. Lneas abajo veremos cmo definirla y calcularla.
x, x2 ... Antimoda Moda . . .
Figura 3.1 O
La interpretacin geomtrica de la moda para datos agrupados se aprecia en
la figura 3.11, en la cual se han dibujado la clase modal y las dos clases adyac
entes
a ella. Los segmentos RT y QS unen, respectivamente, los vrtices ms altos del
rectngulo correspondiente a la clase modal (la ms alta) con los vrtices ms
cercanos de los dos rectngulos adyacentes. La proyeccin del punto P en el eje
x es m. y es ese punto precisamente el que se define como la moda.
En principio, obsrvese que los tringulos PQR y PST son semejantes, ya
que tienen sus ngulos respectivamente iguales. De la semejanza de dichos tringulos se sigue la proporcionalidad de sus lados, es decir:
Figura 3.1 I
Por otra parte, L, y U, son, respectivamente, los lmites reales inferior y superior de la clase modal, cuya anchura es c. Si mo es la abscisa que corresponde
a
la proyeccin del punto P, entonces:
donde Al y A2 simbolizan los excesos de frecuencia de la clase modal respecto a
las clases anterior y posterior, respectivamente. Si despejamos m. de la relacin
anterior, se obtiene:
Si ahora sustituimos U, = L, + c en esta frmula, queda:
88 Parte l. Estadstica descriptiva
Esta ltima frmula se adopta para el clculo de la moda:
Apliquemos esta frmula en el ejemplo 3.1, con una muestra de 300 nios:
Horas semanales que
- los niios miran 7V Limites reales l+ecuencia
La clase moda1 es, evidentemente, la segunda. Tenemos Al = 96 - 44 = 52;
A, = 96 - 74 = 22; adems, Al + 4 = 74 (fue slo una casualidad que coincidiera
con la frecuencia de la tercera clase). Por tanto, la moda es:

OBSERVACI~N: Para las distribuciones asimtricas (sesgadas), tenemos las siguientes tres relaciones empricas entre la media, la moda y la mediana (vlidas
tanto para datos aislados como para datos agrupados por clases):
No est dems recordar que la media de una muestra es un estadstico muy
sensible a la presencia de puntuaciones extremas, llamadas puntuaciones aberranres (o anmalas), mientras que la mediana no lo es, ni tampoco la moda. En
estos casos, ninguna de estas medidas es totalmente satisfactoria como medida
de tendencia central. Para datos aislados, una alternativa es una media ajustada
,
la cual se afecta menos por las puntuaciones aberrantes que la media, y an no
tiene la insensibilidad de la mediana. Una media ajustada se encuentra ordenando las observaciones de menor a mayor, borrando cierto nmero de medidas en
Cap. 3. Datos agrupados en clases o intervalos 89
ambos extremos y promediando las medidas restantes; al porcentaje de valores
borrados en cada extremo se le llama porcentaje de ajuste. En las competencias
olmpicas de clavados o gimnasia, siempre se toma una media ajustada de las calificaciones de los jueces, borrando la ms alta y la ms baja. Para datos agrupados
en clases no existe tal cosa como media ajustada; sin embargo, la moda es d
e
mucho mayor utilidad prctica que para el caso de datos aislados.
La desviacin estndar es algo engorrosa de calcular usando slo papel,
lpiz y calculadora, a menos que se trate de slo unas cuantas clases. Por suerte,
contamos con las hojas de clculo de Excel, que permiten hacer el trabajo operativo de modo rpido y preciso.
La desviacin estndar se calcula mediante la frmula siguiente:
donde x, son las marcas de clase y n, las respectivas frecuencias.
Vamos a ver cmo se calcula la desviacin estndar para el ejemplo 3.1.
Abrimos una hoja de clculo de Excel y efectuamos las operaciones de manera
expedita como se presenta en la siguiente tabla:
AJ f UJJ
1 1 ': 1 28772.1467 1
Dividido entre n: 95.9071556
Raz cuadrada: , 9,793219877
As, la desviacin estndar aproximada a tres dgitos decimales es s = 9.793.
Hay otra frmula alternativa y equivalente para el clculo de la desviacin
estndar:
90 Parte l. Gtadktica descriptiva
Es muy fcil comprobar que esta frmula proviene de la conocida igualdad para la varianza poblacionai de una distribucin de frecuencias relati
vas
cualquiera:
donde p, es la probabilidad (o frecuencia relativa) de x,. Para datos agrupado
s,
n
p, = A . Esta igualdad se demuestra fcilmente si se desarrolla (x, - Z)' en la
n
suma del miembro izquierdo.
Ntese tambin que para datos aislados hay una varianza muestra1 y otra
poblacional, las cuales se diferencian porque en el denominador de la primera
aparece n - 1, mientras que en el de la segunda es slo n. Para datos agrupados
no hay tal diferencia.
OB~ERVACI~N I MPO~ANTE: La imprecisin que se introduce en el manejo estadstico de datos agrupados en clases al tomar una marca de clase como representativa del intervalo, hace que algunas de las leyes fundamentales de la estadstic
a
no sean aplicables a datos agrupados. Por ejemplo, para variables aisladas, ya s
ea
discretas o continuas, se puede demostrar con todo rigor que la mediana es el

parmetro que minimiza el error absoluto medio. Para datos agrupados en clases,
la validez de esa ley deja de ser aplicable. Ilustraremos este detalle con nuest
ro
mismo ejemplo del nmero de horas semanales que los nios miran la televisin. Abrimos una hoja de clculo de Excel y planteamos las operaciones que se
indican:
1;
Totales
Las sumas inferiores de las tres ltimas columnas son, respectivamente, la
desviacin promedio de la media (desviacin media), la desviacin promedio
de la mediana y la desviacin promedio de la moda. Como podemos apreciar, la
desviacin promedio de la media result menor que la desviacin promedio de
la mediana, lo cual sera imposible para valores aislados de una variable aleatori
a
discreta o continua, ya que en tales casos se demuestra que la mediana es el parmetro que minimiza el error absoluto medio.
Hay otras medidas de dispersin menos usuales, adems de la varianza, la
Cap. 3. Datos agrupados en clases o intervalos 9 1
desviacin estndar y las tres desviaciones promedio. Por ejemplo, el rango semiintercudirtil Q es la distancia media entre el primer cuartil y el tercero, esto
es:
El rango semiintercuartil se usa como una estimacin rpida y aproximada
de los valores lmites de la variable que abarcan a menudo entre 50 y hasta 70 % d
e
las frecuencias relativas de toda la muestra (dependiendo de que la distribucin
sea simtrica o sesgada).
Para el ejemplo que hemos venido examinando, el siguiente cuadro es un
comparativo de las cinco medidas de dispersin ms usuales (en orden de importancia). Se excluye la varianza porque sta no se expresa en las mismas unidades.
Se indican asimismo los smbolos empleados:
.Los ejemplos que hemos examinado a lo largo de los captulos anteriores
tenan las clases con la misma amplitud o frecuencia. Si las distintas cla
ses (o
intervalos) tuviesen anchuras variables, entonces procedera remplazar el concepto de frecuencia por el de dmi dad defiecuencia. Lo dems se hace de la
misma manera. A continuacin definimos este concepto.
Se llama densidad de frecuencia al cociente de la frecuencia entre la amplitud
de la clase:
- - - . ~e ma c i n estndar (o de%acintpica) - - -Desviacin media (desvjacin promedio de Ia media)
Desviacin promedio de la mediana
--.Desviacin promedio de la moda
Rango semiintercuartil
Densidad de frecuencia =
Frecuencia
Amplitud de clase
En tales casos, el histograma se dibuja de tal manera que la escala del eje vert
ical
es la densidad de frecuencia y no la frecuencia misma. Al calcular la moda, tam
bin se consideran los excesos de densidad de frecuencia, en lugar de los excesos
de frecuencia.
' ' s '
d,

d,
d,
Q
Ejemplo 3.2. En los bosques de llalpan se tom una muestra de 400 abedules y se
midieron sus alturas, redondeando las mediciones al metro ms cercano. Las medicio
nes
de sus alturas se clasificaron en ocho clases con anchuras variables:
> .
r---- 9.79322 '
.-7.75911
7.87027
8.07207
. 6.54687
Se requiere:
92
a) Calcular la densidad de frecuencia de cada una de las clases.
b) Hallar la moda.
c) Afiadir una columna con la distribucin de frecuencias acumuladas.
d ) Dibujar una ojiva que represente la distribucin de las frecuencias acumulada
s.
e) Determinar la mediana de las alturas de esos rboles.
f ) Dibujar un histograma de las alturas de esos abedules (con la densidad de
frecuencia en lugar de la frecuencia).
g) Estimar el nmero de abedules (de la muestra) cuyas alturas miden entre 12 y
25 m, inclusive, redondeando las mediciones al metro ms cercano.
h) Calcular la probabilidad aproximada de que un abedul escogido ai azar mid
a
Altura
(metros)
5-9
ms de 25 metros de altura.
Nm. de
cfrboles
18
Solucin:
a ) Se tiene la siguiente tabla:
10-1: 58
12-1: 62
142t 72
Anchura
17-19
20-22
23-26
27-36
6) La clase modal es la que tiene la mayor densidad de frecuencia (no la m
ayor
frecuencia). Por tanto, la clase modai es la tercera (y no la cuarta), toda vez
que
la tercera clase tiene la mayor densidad de frecuencia de todas.
57
42
36
55
Cap. 3. Datos agrupados en clases o intervalos 93
Entonces se procede en la siguiente forma, El lmite real inferior de la tercera
clase es 11.5. Ahora bien, los excesos de densidad de frecuencia son: A, = 31 29 = 2; 4 = 31 - 24 = 7. La anchura (amplitud) de la clase modal es 2. Por cons
iguiente, se tiene que la moda es:

c) Las frecuencias acumuladas se muestran en la tabla de la figura 3.12, donde


la
distribucin de frecuencias acumuladas se halla sumando a cada frecuencia
la totalidad de las frecuencias anteriores.
Como ya se ha sealado en este libro, el Excel no es propiamente un software
estadstico, sino una hoja de clculo para organizar datos; sin embargo, es de
gran ayuda para aprender y practicar los mtodos estadsticos.
cl ase altura _-lmites . - marcas (xi)_anchuras frecuencias frec. acumulada ,
r
158--4.58.5 7 7 5 18 1 8 1
Figura 3.12
d) Cuando se trata de manejar datos agrupados por intervalos, el usuario d
ebe
realizar una buena parte del trabajo y el Excel efecta la parte operativa. Aqu,
por ejemplo, para trazar el dibujo de la ojiva que representa la distribucin de
frecuencias acumuladas en forma grfica, primero tenemos que elaborar una
tabla como la siguiente, usando la utilera de copiar y de Pegado especial. El
pegado especial nos proporciona una opcin de Pegars6lo los valores, a efecto
de que no se peguen tambin las operaciones o clculos aritmticos implcitos
en los nmeros.
Para dibujar la ojiva con Excel, entonces, se hace una tabla con dos columnas:
Lmites
reales
1
Frecuencia
acumulada
4.5 1 ' o
9.5 1 18 22.5
11.5 1' 76 26.5 345
, 13.5 138 36.5 400
94 Parte l . Estadstica descriptiva
Obsrvese cmo se ha puesto primero el lmite real inferior de la primera
clase (4.5) con frecuencia acumulada de O, y debajo se han puesto todos los
lmites reales superiores de las ocho clases, con sus correspondientes frecuencias acumuladas. Siempre se procede de esta manera para dibujar la ojiva. Esto
significa que si hay n clases, entonces la ojiva se dibuja sobre n + 1 puntos. A
partir del ltimo cuadro se dibuja la ojiva con Excel en la forma que se explic
antes (fig. 3.13).
Figura 3.13
e) La mediana se calcula por el procedimiento usual:
f ) A decir verdad, para dibujar histogramas elegantes, el Excel no es muy bue
no
que digamos, al menos en sus versiones actuales. Hay software alternativo mejor que el Excel para dibujos bonitos y elegantes de histogramas. Si el lect
or
tiene tiempo de sobra, y nada mejor que hacer, entonces puede lograr muy
buenos dibujos de histogramas con Excel, pero slo despus de maquillarlos
mucho con el programa Paint de Microsoft. Por ejemplo, el dibujo de la figura
3.14 est basado en un histograrna de los que grafica Excel.
g) Si las mediciones se toman redondeadas al metro ms cercano, entonces
el
intervalo de 12 a 25 m es de hecho desde 11.5 hasta 25.5 en escala continua. En
la figura 3.15 se muestra esa porcin.
El rea total de la parte oscura es, por tanto:
Por consiguiente, hay 260 abedules (en la muestra de los 400) cuyas alt
uras
oscilan entre 12 y 25 m, redondeando las mediciones al metro ms cercano.
Figura 3.14

Figura 3.1 5
96 Parte l. Estadstica descriptiva
h) Si las mediciones se hacen redondeando al metro ms cercano, entonces e
l
valor puntual 25 equivale al intervalo [24.5, 25.5). La probabilidad de que u
n
abedul mida ms de 25 metros es, en consecuencia, P(X > 25.5). Se divide entonces el rea a la derecha del 25.5 entre 400:
Observe que si no hubiera la condicin de que las alturas de los abedules
se cierran al metro ms cercano, esto es, si se tomara una escala continua,
entonces no habra que hacer la correccin por continuidad, y en tal caso las
respuestas de los dos ltimos incisos habran sido distintas. Es fcil ver que
entonces la respuesta correcta del inciso g habra sido 240 (en lugar de 260),
mientras que la respuesta correcta del inciso h habra sido 0.171 (en vez de
0.160).
Terminamos este captulo con el concepto de densidad de probabilidad, que es
precisamente el cociente de dividir la densidad de frecuencia entre el total de
frecuencias observadas:
Densidad de probabilidad =
Densidad de frecuencia
Total de frecuencias
- Frecuencia de la clase
(Anchura de clase) x (Total de frecuencias)
En nuestro ejemplo de los 400 abedules, la densidad de probabilidad de cada
clase se muestra en la ltima columna de la siguiente tabla:
Clase
1
r ,
Altura del
rbol (m)
5-9
Lmites
reales de
(
Lkmdad
deprobabilidad
Fre0.00900 [4.5, 18 3.6
'
A%
Dm'dad
defrecuencit a cuencia
-&
Adolphe Quetelet (1 796- 1874) y Sir Francis Calton (1 822- 19 1 1). En forma
independiente, realizaron anlisis estadstico en fenmenos relacionados con la bi
ologa
humana y las variaciones genticas. Calton invent la palabra regresin.
Invitamos al estudiante a poner a prueba su aprovechamiento en el estudio del ca
ptulo,
tomando papel y lpiz (y tambin su computadora) para tratar de resolver los siguien
tes
cinco ejercicios en menos de una hora y tres cuartos. Slo despus de resolverlos, d
eber
cotejar sus respuestas con las correctas, las cuales aparecen inmediatamente des
pus de
los ejercicios. La pregunta 2 vale cuatro puntos, y en las dems preguntas se da u

n punto
por cada magnitud acertada de lo que se pregunta. El mximo nmero de aciertos posi
bles es, por tanto, 20. Si obtiene menos de 13 aciertos, entonces debe repasar d
e nuevo
este captulo y el anterior antes de seguir adelante. De 13 a 14 aciertos es regu
lar, de 15
a 17 bueno, 18 o 19 es muy bueno, y 20 aciertos est fantstico y se hace acreedor
a una
calurosa felicitacin.
1. En una hoja de clculo de Excel, haga un comparativo de los errores cuadrticos
medios de la media, la mediana y la moda, para el ejemplo que se manej a lo largo
de
este captulo (ias horas semanales que lo nios ven televisin). Se supone que el erro
r
cuadrtico medio de la media (es decir, la varianza) debe ser el mnimo. Compruebe
si en efecto ocurre as. (Tires puntos)
2. Para el mismo ejemplo del ejercicio 1, compruebe si en efecto ocurre que, a
l trazar
10
una lnea vertical en el histograma, justo en el punto me = 13.5 + - x 7, el rea q
ue
74
queda en el histograma a mano izquierda es 50 % del rea total del histograma. [Su
gerencia: Podra ser ms cmodo para usted emplear fracciones y no aproximaciones
decimales.] (Cuatro puntos por el valor exacto de las reas y slo tres por una apro
ximacin decimal razonable)
98 Parte l . Estadstica descriptiva
3. La siguiente tabla resume el nmero de das de estancia posoperatoria en el Hos
pital
General Manuel Gea Gonzlez al sur de la Ciudad de Mxico, para una muestra aleatoria de 400 pacientes que fueron intervenidos quirrgicamente en ese hospital:
Dtas de
estam'a
: posoperatoria
En una sola hoja de clculo de Excel calcule la media, la desviacin media, la varia
nza y la desviacin estndar. [Sugerencia: En la primera columna anote las marcas de
clase, en la segunda las frecuencias, en la tercera las frecuencias relativas, e
tc.] (Cuatro
puntos)
4. Para los datos del ejercicio 3, calcule:
Nm. de
pacientes
-Dt m ak
estancia
posoperaton'a .
13 a 15
16 a 18
19a21 22 a 24
a) la mediana
b) el cuartil Q,
c) el cuartil Q,
d) el rango semiintercuartil Q

e) el percentil P,,
f) D una interpretacin del percentil P,,
(Seis puntos)
Nm. de
pacientes
22
10 4
2
5. Para los mismos datos del ejercicio 3, calcule:
l a 3
a) la moda
b) 'la desviacin media de la mediana
e) la desviacin media de la moda.
(Tres puntos)
4 a 6
7 a 9
10 a 12
1. Los errores cuadrticos medios de la media, la mediana y la moda, respectivam
ente,
son las sumas que aparecen al final de las tres ltimas columnas en la tabla sigui
ente.
Se comprueba que la varianza, es decir, el error cuadrtico medio de la media (o m
omento central de segundo orden) es la menor cifra de las tres.
- v.
44
1
2. El rea total del histograma (suma de las bases por las alturas) es Z 7 n, =
7 &, = 7 x
300 = 2100 unidades cuadradas. Ahora bien, el rea de la primera barra (primer re
ctngulo) es 7 x 44 y de la segunda barra es 7 x 96. Luego, tenemos una pequea porcin del tercer rectngulo, cuya altura es 74 y de cuya base s610 tomamos m. - 13.5
=
3 1
38
45
Totales
10 10
- x 7 unidades de longitud. Por tanto, el rea de esta pequea franja es x
74 74
7 x 74 = 70. As que la suma de reas que hay a mano izquierda de la recta vertical
que
pasaporl amedi anaes7x44+7x96+7x10=7x(44+96+10)=7x150=1050
unidades cuadradas, que es precisamente la mitad del rea total del histograma.
3. La siguiente tabla proporciona toda la informacin pedida:
21
- 12
5
n = 300
Leemos, entonces que Z = 7.115 das, d, = dm = 2.98305 das, sZ = 14.83178, s =
3.8512 das.
4. La siguiente tabla es til para contestar los incisos de este ejercicio:
0.0700000
0.0400000
0.0166667
1.0000000

' 15.5128991
19.1610471
13.9073252
95.907156
-- 19.1825694 1 26.8393115
22.1917385
15.5591703
98.687336
28.2621549
-18.7948168
117.94468
100 Parte l . Estadistica descriptiva
a) La mediana est en la segunda clase, luego:
200 - 48
m, = 3.5 +
166
x 3 = 6.25 das
b) El cuartil Q, est tambin en la segunda clase:
c) El cuartil Q3 est en la tercera clase:
300 - 214
Q3 = 6.5 +
104
X 3 ~ 8 . 9 8 das
e) El 87 % de 400 es 348. Por tanto, el percentil P,, est en la cuarta clase. L
uego:
348 - 318
P, =9.5+
44
x 3 = 1 1 .g das de estancia
f) Esto significa que 13 % de los pacientes de esa muestra permanecen en el hos
pital 11.3 das o ms, despus de la operacin (o tambin que 87% de los pacientes permanecen 11.3 das o menos).
5. a) La moda es m. = 3.5 + x 3 = 5.46 das de estancia.
118 + 62
Las respuestas de los incisos b y c aparecen en la parte inferior de las ltima
s dos
columnas de la siguiente tabla:
En el siguiente cuadro, anote con lpiz suave sus respuestas. Los procedimientos d
ebe realizarlos en hojas separadas y no en el libro. (En el apndice D aparecen las respues
tas correctas para que las coteje con las suyas.)
1. El nmero de cheques bancarios cobrados diariamente en cinco sucursales de un
banco durante el mes anterior tuvo la siguiente distribucin de frecuencia:
l. i ) ii) iii ) 6 .
Determine:
2. i ) i i ) iii) 7. i )
i i ) iii ) -

L
2Lv-277
400-599
600-799
800.999
i ) la media a) 586.5 b) 587.5 c) 588.5 d) 589.5.
ii) la mediana a) 644.12 b) 645.12 c) 646.12 d)647.12.
iii) la desviacin media. a) 201 b) 202 c) 203 d) 204.
Frecuencia
- - IJ
17
42
18
2. Con respecto a los datos del problema 1, calcule:
3. 8. i )
i i ) i ) el cuartil Q, a) 766.17 b) 767.17 c) 768.17 d) 769.17.
ii) el percentil P,, a) 516.75 b) 517.15 c) 517.95 d) 518.66.
iii) la moda. a) 701.54 b) 702.54 c) 703.54 d) 704.54.
3. Con referencia al ejercicio 1, determine el valor de la desviacin estndar.
4. i ) i i ) iii) 9. i )
ii) iii) i v) 4. En una muestra aleatoria de 80 nios cuyas edades fluctuaban entre los cinco y
los 15
aos de edad, se describi el nmero de horas semanales que ellos jugaban algn tipo
de videojuego (Nintendo o Pkzy Statim), con los siguientes resultados:
5. i ) i i ) iii) 1O. i)ii) iii) Nm. de r
enlamut
Determine:
i ) la media a ) 19.06 b) 20.06 c) 21.06 d ) 22.06.
i i ) la mediana a ) 19.98 b) 20.98 c) 21.98 d) 22.98.
i i i ) la desviacin media. a ) 4.75 b) 5.75 c) 6.75 d ) 7.75.
5. Con respecto a los datos del ejercicio 4, calcule:
i ) el cuartil Q, a) 15.75 b) 16.25 c) 16.5 d ) 16.75.
i i ) el percentil P,, a ) 23 b) 23.25 c) 23.5 d ) 23.75.
i i i ) la moda. a ) 21 b) 21.25 c ) 21.5 d ) 21.75.
6. Con respecto al ejercicio 4, determine el valor de la desviacin estndar.
7. En relacin con el ejercicio 4, seis meses despus se tom otra muestra aleatona d
iferente de 80 nios cuyas edades fluctuaban entre los cinco y los 15 aos de edad,
y
de nuevo se describi el nmero de horas semanales que ellos jugaban algn tipo de
videojuego (Nintendo o Play Stath). Esta vez los resultados fueron los siguien
tes:
Nm. & hora

semanales
que dedican a
videojuegos
Nm. de
nios en ia
muestra
10-14 1 8
15-19
20-24
25-29
30-34
35-39
28
27
- 12
4
1
Cap. 3. Datos agrupados en clases o intervalos 103
Determine:
i ) la media a) 19.69 b) 20.69 c) 21.69 d) 22.69.
ii) la mediana a) 19.24 b) 20.24 c) 21.24 d) 22.24.
iii) la moda. a) 16.26 b) 17.26 c) 18.26 d) 19.26.
8. En relacin con el ejercicio 7, calcule:
i ) el cuartil Q, a) 23.94 b) 24.44 c) 24.94 d) 25.44.
ii) el percentil P,,. a) 17.786 b) 17.998 c) 18.233 d) 18.667.
9. En una competicin de ajedrez magistral participaron 10 jugadores bajo el sis
tema de
todos contra todos. La siguiente tabla es una lista de la duracin (en nmero de mov
imientos) de las 45 partidas que se disputaron:
Para la variable aleatoria X que representa el nmero de movimientos en una partid
a
de este torneo (visto como una poblacin), calcule:
i ) la media a) 36.47 b) 37.47 c) 37.97 d) 38.17.
ii) la moda a) 31 b) 32 c) 33 d) 34.
iii ) la mediana a) 3 1 b) 32 C) 33 d) 34.
iv ) la desviacin estndar poblacional o = on.
10. En relacin con el ejercicio 9, suponiendo que X denota ahora el nmero de juga
das
de una partida de ajedrez magistral (siendo las 45 partidas de este torneo tan sl
o una
muestra de esa poblacin):
i ) Calcule la desviacin estndar muestral, es decir, S = on-,.
ii) Calcule el error tpico de la media.
iii) Cul es el rango?
EJERCICIOS COMPLEMENTARIOS 3.1
1. Especifique los lmites reales de clase de los siguientes intervalos:
Intervalo
Lmites reales
Intervalo
Lmites reales
1.275-1.276
Intervalo
Lmites reales
2.2-2.4
Intervalo
Lmites reales
[NOTA: Cuando se trata de aos cumplidos completos, los intervalos no se rigen po
r
la regla del punto medio. Un nio dir que tiene 12 aos aun el da anterior a su de-

cimotercer cumpleaos. Por tanto, los lmites reales de clase del intervalo 11-13 so
n
11 y 14, etc.]
1.277-1.278
0.93-0.96
e)
2.5-2.7
1
---o
4
2. Exprese con Imites reales el intervalo de estaturas que va desde 165
cm hasta
192 cm, es decir, el intervalo [165, 192), si la graduacin de la escala se mide:
1.279-1.280
0.97-1.00
Edades (arloscumplidoscompletos)
Lmites reales
Pesos (a los 5 kg ms cercanos)
Limites reales
a) al centmetro ms cercano
6) al medio centmetro ms cercano
c) al cuarto de centmetro ms cercano
4 al milmetro ms cercano.
1.281-1.282
2.8-3.0
1 1 3
--4 2 4
3. Suponga que el dinero se considerase como variable continua (que de hecho lo
es),
pero que la mnima moneda que existe para transacciones mercantiles fsicas es la
de cinco centavos, lo cual hace que en la prctica el dinero se comporte en forma
no
continua (es decir, discreta). Segn esto, sixdenota el sueldo que cobra por hora
un
obrero, exprese con lmites reales los siguientes intervalos:
3.1-3.3
1.01-1.04
11-13
0-25
a) Xvale ms de 45 pesos con 55 centavos (es decir, X> $45.55).
6) X vale no menos de 50.50 pesos, pero menos de 88.75 pesos ($50.50 I X <
$88.75).
c) Xvale ms de 55.80 pesos, pero no ms de 99.95 pesos.
1.05-1.08
--1
1 1
1--14 2
14-16
30-50 55-75
23-25
- 17-19
80-100
20-22
Cap. 3. Datos agrupados en clases o internalos 105
4. Suponga que la mnima moneda existente para transacciones mercantiles fs
icas
fuese el centavo (como ocurre en muchos pases, y como era en Mxico hace unos

50 aos). Repita entonces los tres incisos de la pregunta 3 con esta condicin.
5. En las zapateras de Mxico, el calzado se da en tallas y medias tallas, con el
conjunto
(18, 181/z, 19, 191/z, 20, 201/2,. . ., 29, 291/2). Si se quisiera expres
ar este conjunto de
medidas en una escala continua de intervalos mutuamente excluyentes, en los que
esas tallas fuesen los centros de los intervalos, indique cules seran los Imites re
des
de cada clase.
6. Encuentre los lmites reales de clase y las marcas de clase de la siguiente su
cesin de
intervalos:
7. Encuentre los lmites reales de clase, las marcas de clase y la anchura (o amp
litud) de
cada clase en la siguiente sucesin de intervalos, donde las mediciones se hacen a
l
centsimo ms cercano:
Intervalo
Limites reales
Marcas de clase
8. La tabla siguiente muestra la distribucin de frecuencias de las calificacione
s finales
de historia universal para quinto ao de bachillerato en la escuela CEMAC, durante
el segundo semestre de 2004:
1-30
Intervalo
Limites reales
Marcas de clase
Anchura
Para estos datos se requiere calcular:
31-60
2.25-3.38
CaliJicacin
Frecuencia
a) el tercer cuartil
6) la mediana
c) la moda.
Exprese sus respuestas con precisin de cuatro dgitos decimales despus del punto,
con redondeo correcto. [Sugerencia: Empiece por ordenar los datos en la for
ma
usual, esto es, de menor a mayor y en columnas.]
9. En un examen final de redaccin y literatura espaola de un instituto se regist
raron
las siguientes calificaciones, de un total de 120 alumnos que lo presentaron:
61-90
3.39-4.45
94-100
32
91-120
4.46-6.12
87-93
52
CallJcacibn
Frecuencia
6.13-9.99
121-150
90-100
9

151-180
80-86
94
59-65
19
80-89
32
73-79
118
52-58
16
66-72
82
70-79
43
0-51
9
60-69
21
50-59
11
40-49
3
30-39
1
106 Parte l. Estadstica descriptiva
Para estos datos, determine:
a) la media
6) la mediana
c) el percentil P,,.
Proporcione sus respuestas a cuatro dgitos decimales despus del punto, con redondeo correcto.
10. Con respecto a los datos del ejercicio 9, calcule:
a) los cuartiles Q, y Q,
6) la moda
c) la desviacin media.
11. Para los datos del ejercicio 8, obtenga:
a) la media
b) la desviacin media
c) la varianza.
12. La siguiente tabla muestra la distribucin porcentual de sueldos para trabaja
dores mexicanos afiliados al IMSS, en "veces el salario mnimo vigente" (vsm), para el ao 200
4.
~t&kio
{vsm)
1-1.9
Calcule:
a) la media
b) la moda
c) la mediana
d) el cuartil Q?
e) la desviacion media.
13. Los datos siguientes representan la distribucin de carga mxima en toneladas c
ortas
(ton) que pudieron soportar unos cables de acero producidos por una compaa.
&icmtaje de
trabajadores
18.21
(vsm)

6-6.9
7-7.9
. 88. 9
9-9.9
10-20
2-2.9
3-3.9
A
4-4.9 1 7. V1
5-5.9 1 5.50
trabajadores
3.41
1.28
5.37
A
Calga mxima
soportada (ton)
9.3-9.7
9.8-10.2
10.3-10.7
10.8-11.2
Ntm. de
cables
2
L/
''c+ mkcima
soporta& (ton)
11.3-11.7
118-12.2
12.3-12.7
12.8-13.2
~m, ' de
cables
14
6
3
1
Cap. 3. Datos agrupados en clases o interualos 1 07
Calcule:
a) la media
6) la moda
c) el tercer cuartil
4 la desviacin media.
14. Al trmino del campeonato nacional de ajedrez abierto de Mxico, durante a
bril
de 2003, se hizo una encuesta entre los 80 ajedrecistas que ocuparon los primero
s
lugares en la categora de primera fuerza y maestros. Se les pregunt cuntas horas
a la semana haban dedicado al estudio y preparacin para el certamen durante los
meses previos al torneo. Los datos se recogen en la siguiente tabla:
Calcule:
a) la media
6) la moda
c) la mediana
d) el cuartil Q
e) el percentif~,,.
15. En una escuela de Los ngeles, California, Se escogieron al azar 100 estudian
tes varo-

nes y se midi su estatura en pulgadas (redondeando a la pulgada ms cercana), con


los siguientes resultados:
Calcule:
a) la media c) la moda
6) la mediana 4 la desviacin estndar.
108 Parte l. Estadstica descriptiva
16. En una escuela primaria se registraron las estaturas de 125 nios del mismo
grado,
redondeando las mediciones a los 10 centmetros ms cercanos. Los siguientes fueron los resultados:
a) Dibuje un histograma (a mano o con computadora) usando las densidades de
frecuencia.
6) Si se toma un nio al azar de ese grupo, estime la probabilidad de que su esta
tura
oscile entre 112 cm y 128 cm en medicin exacta, esto es, sin hacer correccin
por continuidad.
17. En un examen de matemticas se registraron los siguientes resultados de ca
lificaciones:
Estaturas (cm)
Nm. de nios
Dibuje un histograma (con densidades de frecuencia) y selo para averiguar el nmero de alumnos que obtuvieron entre 43 y 54 (inclusive).
18. Dibuje una ojiva correspondiente a los datos del ejercicio 17.
19. En un estudio del INEGI se tom una muestra de personas al azar en el D. F.
y otra
en Cancn, con los siguientes rangos de edades en aos cumplidos completos:
50-70
18
80-100
24
110-120
23
Distrito Federal
Edad (aos completos)
Nm. de personas
Para cada una de las dos muestras, obtenga una tabla con las respectivas densida
des
de frecuencia y con las densidades de probabilidad de cada clase. [NOTA: Como
se
mencion antes, cuando se trata de aos cumplidos completos, los intervalos no
se rigen por la regla del punto medio. Un nio se dice que tiene 9 aiios aun el da
anterior a su dcimo cumpleaos. Por tanto, los lmites reales de clase del intervalo
0-9 son O y 10, del intervalo 10-19 son 10 y 20, y as sucesivamente.]
20. Con objeto de hacer una estimacin de la temperatura media diaria durante la
primavera en la ciudad de Toluca, se tom el registro de la temperatura media de cada
da durante 150 das al azar en poca primaveral en esa ciudad, con los siguientes
registros, redondeados al grado centgrado ms cercano:
Cancn
Edad(aoscompletos)
Nm. de personas
130-140
33
0-9
440
150-170

27
0-3
54
10-19
480
4-23
180
20-34
630
24-38
291
35-54
440
55-79
150
39-48
315
74-88
90
49-58
360
59-73
384
Dibuje una ojiva (con Excel) y sela para estimar lo siguiente:
El nmero de das en los cuales la temperatura (exacta) fue menor a 19OC. [Cuando se dice exacta, significa que no hay que usar correccin por continuidad.]
El nmero de das en los cuales la temperatura (exacta) oscil entre los lGC y
los 22 OC, inclusive.
c) La temperatura que fue sobrepasada durante los 25 das ms calurosos de
la
muestra.
Con respecto al ejemplo de las alturas de 400 abedules, el cual se examin casi
al
final del captulo, obtenga la distribucin de probabilidad acumulada (es decir, el
cociente de la frecuencia acumulada entre el total de frecuencias), para llen
ar las
entradas que faltan en la siguiente tabla:
22. Un examen de 200 preguntas sobre conocimientos generales, matemticas bsicas
y
redaccin fue presentado por 75 alumnos de preparatoria del Colegio Simn Bolvar
en mayo de 2002. La distribucin de calificaciones que resultaron se muestra en l
a
siguiente tabla:
Altura (m)
Probabilidad
acumulada
Si x denota la marca de clase de un intervalo, considere la nueva variable (cod
ificada) :
9.5
Aciertos
Nm. de
estudiantes
a) Calcule ahora (la media de esta variable codificada) usando la misma distri
bucin de frecuencia.
b) Obtenga ahora la media de x (es decir F) aplicando la transformacin inve
rsa
x = 30u + 75.5.
11.5

1-30
3
31-60
9
13.5
22.5
61-90
20
16.5 26.5
19.5
0.6675
91-120
22
36.5
1
121-150
13
151-180
8
1 10 Parte 1. Estadstica descriptiva
23. Cuando un conjunto de datos aislados se agrupa en clases o intervalos, siem
pre habr
una prdida de precisin al estimar la media y los dems parmetros, pero para compensar esa prdida de precisin, los clculos son ms rpidos y fciles. Suponga que
un grupo de 80 alumnos presentaron un examen de 50 preguntas fciles sobre cultura
general y conocimientos bsicos de aritmtica, pero se perdieron los reportes indivi
duales de las calificaciones y slo se conserv el siguiente registro por intervalos
:
Cul es el mximo valor posible y el mnimo valor posible para la media de calificaciones si se hubiese calculado directamente a partir de los 80 datos originales?
24. Se eligieron al azar las credenciales de 200 socios del club deportivo y fa
miliar Asturiano, con las siguientes edades en aos cumplidos completos:
Aciertos
Nm. de alumnos
Estime la media de la edad de esos socios si se sabe que:
1-10
3
Edad (aos cumplidos)
Nm. de socios
a) la edad media de los que tienen ms de 60 aos es de 68 aos;
b) la edad media de los que tienen ms de 60 aos es de 78 aos.
25. Con respecto al ejercicio 24, si se sabe que la media de las edades de los
200 socios
es de 36.7 aos, estime la edad media de los que tienen ms de 60 aos.
26. Encuentre:
11-20
17
0-20
60
a) la desviacin media
6) la desviacin estndar.
de las calificaciones correspondientes a los datos del ejercicio 22.
27. A un grupo de 250 jvenes egresados de carreras universitarias en Mxico se les
pregunt cuntas semanas haban permanecido desempleados durante los ltimos dos
aos, con los siguientes resultados:

21-30
28
20-40
55
a) Calcule el tiempo medio (en semanas) que los jvenes permanecieron desempleado~.
6) Calcule la desviacin estndar del tiempo de desempleo.
31-40
21
40-60
45
Semanasde desempleo
Nm. de personas
28. En relacin con el ejercicio 27, dibuje un histograma (a mano o con computa
dora)
y estime el tiempo de desempleo que dista de la media no ms de una desviacin
estndar.
29. De las bases de datos de personas afiliadas al Seguro Social en Guanajuato
se seleccion una muestra aleatoria de 200 personas, con la siguiente distribucin de edades, en aos cumplidos completos:
41-50
11
Ms de 60
40
0-2
22
2-4
18
4-8
31
8-13
30
13-26
47
26-52
46
52-104
56
Si x es la edad de una persona, use la codificacin u = - - 45 para calcular l
a me10
Edad
(aos cumplidos)
Nm.depersonas
dia de esta nueva variable u, y despus use la codificacin inversax = 10u + 45 par
a
hallar la media de x. (Es similar al ejercicio 22.)
30. Si x es la marca de clase y f la frecuencia en una distribucin por clases o
intervalos,
y si a y b denotan dos constantes cualesquiera, distintas de cero, entonces se p
uede
usar la codificacin:
En tal caso, si a y b se eligen apropiadamente, se puede simplificar el clculo
de la
desviacin estndar de la variable original (S%) en trminos de la desviacin estndar
de la variable codificada (su) mediante la igualdad:
0-9
5
Calcule de este modo la desviacin estndar de los datos del ejercicio 29, con la co

dificacin indicada.
31. Use el mtodo indicado en el ejercicio 30 para hallar la desviacin estndar de
los
datos del ejercicio 22, con la codificacin usada ah.
32. Los dimetros de unos balines usados en la industria aeronutica se miden con p
recisin hasta el centsimo de milmetro ms cercano. En una muestra de 300 balines se
registraron las siguientes mediciones de los dimetros en milmetros, redondeados
al 0.01 mm ms cercano.
balines
10-19
13
balines
35.46-35.50. '
35.51-35.55 14
Use alguna codificacin apropiada (vanse los ejercicios 22 y 30) para calcu
lar la
media y la desviacin estndar del dimetro de esos balines.
33. Un conjunto de 236 piezas brutas de jade se pesaron con una balanza que no
estaba
bien ajustada, pero la persona que las pes ignoraba eso. Se obtuvo el siguiente r
egistro (en escala continua):
20-29
24
30-39
35
Pesoengramos
Nm. depiezas
40-49
40
10-15
7
50-59
36
15-20
21
70-79
16
60-69
22
4045
18
80-89
9
20-25
38
45-50
2
25-30
46
30-35
50
3540
54
1 12 Parte l. Estadstica descriptiva
Luego se descubri que la balanza daba un peso de 3 g superior al real, pero las p
iezas ya no estaban disponibles para volverse a pesar. Calcule la media verdadera

y la
desviacin estndar verdadera de los pesos de esas piezas de jade.
34. Durante el XL periodo ordinario de sesiones del Congreso en la Ciudad de Mxi
co
hubo 60 diputados que faltaron a su trabajo una o ms veces con el siguiente registro:
Calcule:
a) el rango semiintercuartil
b) la desviacin media
e) la desviacin estndar.
Nm. de imStencias
Nm. dediputados
35. En relacin con los ejercicios 29 y 30, calcule el nmero de personas de la mu
estra
cuyas edades estn a no ms de dos desviaciones estndar alrededor de la media.
1-3
24
4-6
22
7-9
8
19-21
1
10-12
4
13-15
1
16-18
O
Cuando alguna persona hispanohablante aprende el idioma ingls, siempre
llega un momento en que le ensean que el trmino ingls para la expresin
"cuntos.. .?" (o "cuntas.. .?') depende de que se trate de cosas que se pueden
contar (how mny? ) o de cosas que no se pueden contar sino medir (how long?
o how much?). En estadstica se hace la misma distincin cuando se hace referencia a magnitudes variables. Si se trata de magnitudes que se pueden contar
(aunque pudieran quiz ser infinitas) se llaman variables discretas. En cambio, s
i
las magnitudes no se pueden contar, sino que se miden en algn tipo de unidades (centmetros, litros, gramos, unidades de dinero, unidades de tiempo, etc.),
entonces se llaman variables continuas.
Algunos ejemplos de variables aleatorias discretas son: el nmero de huevos
que pone cierta gallina cada semana, el nmero de veces que una moneda cae en
guila al lanzarla 15 veces al aire, el nmero de reos que se escapan cada mes de la
s
prisiones de Mxico, el nmero de votantes que manifiestan preferencia por cierto
partido poltico en una casilla electoral, el nmero de hijos que tiene una seora
cualquiera que lleva 20 aos de casada, etc. Por otra parte, algunos ejemplos de v
ariables aleatorias continuas son: el tiempo que tarda una persona en cobrar un c
heque desde que llega a la sucursal del banco hasta que se lo pagan, la cantidad e
xacta
de sangre que bombea el corazn de un adulto en un latido, la estatura exacta de u
n
soldado elegido al azar, la cantidad exacta de dinero que rene cada ao el gobierno
de un pas (de impuestos y otros ingresos) para ejercer su presupuesto, etctera.
Las variables aleatorias (sean discretas o continuas) tienen siempre una distribucin de frecuencia relativa (o distribucin de probabilidad) asociada; ade-

14 Parte l. Estadstica descriptiva


ms, tal distribucin puede ser terica o emprica. Por ejemplo, si usted lanza un
dado muy bien hecho (dado honrado) muchas veces, en teora deber obtener
1
cualquiera de las caras hacia arriba con una frecuencia relativa de - ; igualmen
6
te, si lanza una moneda al aire muchas veces, en teora la frecuencia relativa de
1
cualquiera de los dos lados (guila o sol) es de - (es decir, 50%). Podra darse
2
el caso de que en un experimento particular con slo 10 lanzamientos de la moneda usted obtuviera, por ejemplo, nueve soles y slo una vez guila (es improbable, pero factible); no obstante, sera absolutamente inverosmil que en 100 lanzamientos usted obtuviera 90 veces sol y nicamente 10 guilas.
A medida que el nmero de ensayos aumenta, las distribuciones empricas
tienden rpidamente a la distribucin terica preestablecida (Ley de los Grandes
Nmeros). Sin embargo, en situaciones prcticas cotidianas, las cosas suelen ser
mucho ms complejas que slo lanzar dados o monedas al aire, por lo que a menudo resulta muy difcil o imposible establecer la distribucin terica y hay que
conformarse con algunos experimentos prcticos que ayuden a estimar de manera emprica la distribucin deseada o, por lo menos, algunos de sus parmetros
importantes.
Las variables aleatorias continuas, por sus caractersticas, requieren un tratamiento especial, el cual consiste en estimar sus respectivas frecuencias relat
ivas
(o probabilidades) por intervalos y nunca de manera aislada. A veces tambin
se usa la clasificacin en intervalos (o clases) para variables discretas, hacien
do
lo que se llama correccin por continuidad, lo que implica remplazar puntos por
intervalos. Por ejemplo, si una variable discretaxslo asume los valores O, 1 y 2
, y
por alguna razn se le desea dar tratamiento de variable continua o bien se desea
dibujar el histograma en escala continua, tomamos el O como el intervalo [-0.5
,
OS), el 1 como el intervalo [OS, 1.5) y el 2 como el intervalo [1.5,2.5), y ento
nces
trabajamos con la variable X como si tuviese una variacin continua desde -0.5
hasta 2.5.
Quiz algunos de los lectores de este libro ya llevaron un curso de clculo
elemental, por ejemplo, en tercer ao de bachillerato (preparatoria o CCH); no
obstante, como se mencion en el prlogo, no se presupone que el lector a
quien va dirigido este libro sepa cmo derivar o integrar algunas funciones elementales, como polinomios, por ejemplo. En esta seccin, daremos una receta
rpida e informal para que el lector pueda, por lo menos, calcular reas bajo funciones del tipo ms elemental.
En primer lugar, tiene que aprender a calcular lo que es la integral indefinida
de una funcin f(x) multiplicada por una expresin diferencial dx, denotada por
el smbolo:
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 1 5
El smbolo dx se llama diferencia de x, e indica adems que la integral se calcula con respecto a la variable independiente x. No importa que el estudiante no
entienda por el momento qu cosa significa eso; basta con que est enterado de
que la integral [l] es un operador Lined, es decir, un operador sobre las funci
ones
de la variable independiente x, que satisface las siguientes dos condiciones de
linealidad:
1. Icfx)dX = c f(x)&, donde c es una constante, esto es, no depende

de x.
I
De acuerdo con esto, la integral de una suma o diferencia de funciones es
igual a la suma (o diferencia) de las integrales respectivas de cada una de
esas
funciones.
Adems, se verifica la siguiente propiedad til:
I
xn+'
3. xndX=- (ms una constante de integracin que se ha omitido),
n +l
siempre que n # -1.
Esta ltima propiedad es vlida aun cuando n no fuese un entero.
Ejemplo 4.1. Evaluar la integral indefinida siguiente:
Solucin: Se obtiene:
donde la C representa una constante de integracin, que no tiene mayor importancia
por
el momento.
Ahora vamos a ver cmo se calcula el rea bajo un tramo continuo de una
funcin y = f (x), comprendida entre las rectas verticales x = a (a la izquierda)
y
x = b (a la derecha), como se ilustra en la figura 4.1.
El rea se calcula mediante la integral definida siguiente:
Figura 4.1
Aqu a y b se llaman limites de integracin, y F(x) sera la funcin que resulta d e la
integral indefinida, como se vio previamente, esto es:
Ejemplo 4.2. Calcular el rea comprendida bajo la grfica de la funcin:
desde el punto de abscisax = 1 hasta el infinito.
Solucin: Este es un ejemplo de una curva asinttica a los ejes; es decir, en este c
aso
los ejes coordenados son asntotas de la curva, ya que sta tiende a acercarse cada
vez ms
a ellos, pero jams los llega a tocar. Sin embargo, la manera como la curva se ap
roxima al
ejeXes mucho ms rpida de como lo hace al eje Y. Debido a esta rapidez de acercamie
nto al eje de las abscisas, el rea comprendida bajo la curva y por encima del eje
X queda
bajo control y no se dispara hacia el infinito. En cambio, el rea comprendida ent
re el eje
Y y la curva no puede controlarse y se hace infinita.
En probabilidad y estadstica es muy comn tratar con curvas que se acercan tan
rpidamente al ejeXque impiden que el rea comprendida se escape de control, a pesar
de que jams hay un punto de contacto entre la curva y el eje X.
En este caso, el rea sombreada de la figura 4.2 se calcula as:
Figura 4.2
Un matemtico que leyera esto, quiz fruncira el ceo ante semejante abuso al escribir que menos uno entre infinito es cero, y nos dira que, a decir verd
ad,
debe ser el lmite de menos uno entre algo (por ejemplo, t) cuando ese algo tiende a infinito. Pero repetimos que slo deseamos dar una regla prctica y sencilla
para aquellos lectores que nunca cursaron clculo.
Lo anterior significa que la cantidad total de rea de la regin sombreada en
la figura 4.2 (a pesar de que no est acotada por la derecha) queda bajo control y
equivale al rea de un cuadrado de lado unitario, esto es, vale una unidad de superficie. Este tipo de integrales (con algn lmite de integracin infinito) se llaman

integrales impropias del primer tipo, y son muy usuales en estadstica.


Cuando la curva que representa una distribucin de frecuencias relativas (o
una distribucin de probabilidad) es asimtrica con respecto a una recta vertical
trazada por la media, se dice que es una distribucihn sesgada, o una curva sesga
da. En la prctica, hay algunos tipos de curvas importantes en estadstica, y casi
todas se pueden clasificar en tres tipos: las curvas que tienen forma acampanada
y simtrica (por ejemplo, la distribucin n o m l y la t de Student), cuyo sesgo
es igual a cero (es decir, no hay sesgo); las curvas que presentan una especie d
e
cola hacia el lado derecho (por ejemplo, la distribucin gama y sus casos particulares, que son la de Erlang y la ji-cuadrada), las cuales tienen sesgopositiuo
; y
1 1 8 Parte l . Estadstica descriptiva
por ltimo, las curvas que presentan una especie de cola hacia el lado izquierdo
(como la distribucin beta, o la distribucin G).'
Hay una magnitud llamada sesgo (o coeficiente de asimetra) que sirve para
medir la asimetra de la que estamos hablando. Si dicha magnitud es positiv
a,
entonces la curva presenta una especie de cola del lado derecho, y en ese caso l
a
moda, la mediana y la media son puntos diferentes que aparecen precisamente
en ese orden: m. < me < p, y casi siempre la distancia entre la moda (m3 y la me
diana (me) es ms o menos dos terceras partes de la distancia entre la moda (m3
y la media (p), aunque tal relacin es slo emprica y aproximada. La curva tpica
con sesgo positivo aparece en la figura 4.3.
Figura 4.3. Ejemplo de una distribucin con sesgo positivo.
Recurdese que en el ejemplo 2.6 (el nmero de artculos llevados por los
clientes de una pequea tienda de autoservicio) la distribucin de frecuencias relativas tena ms o menos el aspecto caracterstico de la figura 4.3. Si hubisemos
calculado su sesgo (con frmula o con Excel), habramos comprobado que resultaba una magnitud positiva. Asimismo, en el resumen de estadstica descriptiva
dado por Excel en la ltima seccin del captulo 2, aparece el coeficiente de asimetra (o sesgo) como 0.1164, lo cual significa que la distribucin de frecuencias
relativas debe tener ms o menos este aspecto tambin.
En la prctica hay muchas variables aleatorias que tienen distribuciones caractersticas con sesgo positivo, como las distribuciones de sueldos (salarios)
de
trabajadores, la distribucin de la edad a la que se casan las mujeres (o los h
ombres), la distribucin de la densidad de trfico en algunas avenidas por la maana,
la distribucin de los tiempos de llegada de los trabajadores a una fbrica o de lo
s
'Los detalles de esta nueva distribucin G, propuesta por los autores, pueden ver
se en el libro Problemurio de probabilidad, por Piotr M. Wisniewski y Gabriel Velasco Sotomayor,
Thomson International
Editores, Mxico, 2001, pp. 249-253.
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 1 9
estudiantes a una escuela, etc. Tambin en la Naturaleza apareren con frecuencia
ese tipo de distribuciones con sesgo positivo, como la distribucin de la energa
cintica de las molculas de un gas ideal.
Por otra parte, las curvas con sesgo negativo (es decir, con cola hacia el lado
izquierdo) son mucho ms raras en la estadstica, pero tambin son importantes.
En tales distribuciones, el orden de aparicin de los parmetros de localizacin
es exactamente al revs, es decir, p < me < mo. En la figura 4.4, podemos ver una

curva tpica con sesgo negativo.


Figura 4.4. Ejemplo de distribucin con sesgo negativo.
Tanto en la Naturaleza como en finanzas y ciencias sociales, hay casos de
distribuciones con sesgo negativo. Algunos ejemplos seran los siguientes: la distribucin de la edad a la que aprenden a andar solos los nios, la distribucin del
tiempo en el que explotan las semillas de maz en el horno de microondas para
convertirse en palomitas (o rosetas), la distribucin del tiempo de devolucin
de dinero prestado o de un libro de la biblioteca pblica, la distribucin de las
fechas en las que se realiza algn trmite engorroso con una fecha lmite (como
el canje de placas o el pago de la tenencia del auto), y algn ejemplo trgico: la
distribucin de probabilidad de que un pasajero de un trasatlntico (como el Titanic) decida arrojarse al agua (en bote, con salvavidas, con una tabla o sin na
da)
desde el momento del impacto del barco contra un iceberg hasta el momento en
que el barco se hunde.
Por ltimo, una curva con sesgo cero es simtrica con respecto a la recta vertical que pasa por la media. Lo ms comn es que semejantes curvas simtricas
sean tambin de forma acampanada.
En estadstica, hay dos distribuciones de enorme importancia terica y prctica con aspecto acampanado y sesgo igual a cero. Una se conoce como la curva
normal de probabilidad, la cual fue descubierta y analizada por Abraham De
Moivre (1667-1754) y Pierre Simon Laplace (1749-1827), de manera independien1 20 Parte l . Estadstica descriptiva
te, aunque a veces se le llama tambin campana de Ga m. La otra curva se llama
distribucin t de Student y fue descubierta y estudiada por el qumico britnico
William S. Gosset (1876-1937). La distribucin t de Student siempre tiene media
igual a cero y adems usa un parmetro entero y positivo v (nu), que se denominagradosde libertad. A medida que dicho parmetro tiende a infinito, la distribucin t de Student se parece cada vez ms a la distribucin normal estndar (con
media cero y varianza uno). De hecho, una distribucin t de Student con grados
de libertad infinitos y una normal estndar vienen siendo la misma curva. En tales
distribuciones acampanadas, la media, la mediana y la moda coinciden en el mismo punto, como se aprecia en la figura 4.5.
Figura 4.5
En la figura 4.6, tenemos tres ejemplos diferentes de curvas de distribucin
normal, con diferentes medias y diferentes varianzas. Sin embargo, con una apropiada traslacin y una amplificacin o reduccin de la escala en cada curva, las tres
curvas podran hacerse coincidir punto por punto. En este sentido, todas las curva
s
de campana con distribucin normal son "semejantes", as como todos los crculos
lo son.
En el caso de variables aleatorias continuas, solamente tiene sentido referirse a probabilidades sobre intervalos, mas no sobre valores puntuales; esto s
e
debe, como veremos ms adelante, a que las probabilidades se representan mediante reas bajo una curva, y para que haya rea se requieren dos dimensiones
(largo y ancho). Por ejemplo, siXes una variable aleatoria continua que represen
ta la estatura de un soldado elegido al azar (en metros), entonces tiene sentido
preguntarse por el valor de P(1.745 c X < 1.755), pero no tiene sentido escribir
P(1.75). De hecho, en trminos estrictamente matemticos, ningn soldado en
el mundo mide exactamente 1.75, y por ello nos referimos a 1.75000.. . (con una
cola infinita de ceros); si hubiese algn dgito distinto de cero, por ejemplo, en e
l

Figura 4.6. Distribuciones acampanadas con distintas medias y desviaciones tp


icas.
lugar 84 de esa expresin decimal infinita, entonces ya no estaramos hablando
de 1.75, sino de otro nmero real diferente. Por tanto, P(1.75) = 0.
En el caso de variables aleatorias discretas, s tiene sentido hablar de una
probabilidad puntual, y entonces se escribe P(X= x) =p(x), o bien f (x). Al est
udiante puede parecerle extraa la notacin anterior: P(X=x), pero con el tiempo
se ir acostumbrando a ella: obsrvese que la X mayscula denota el valor abstracto (o general) de X, mientras que la x minscula denota un valor especfico
O concreto.
Cada variable aleatoria, sea discreta o continua, tiene asociada una distribucin de probabilidad (aunque tal vez sta pudiera ser desconocida), la cual
se expresa generalmente por medio de una frmula o bien por medio de alguna tabla. La distribucin de probabilidad es una especie de ley matemtica que
rige el comportamiento estocstico (o aleatorio) de la variable en cuestin. En
muchos fenmenos naturales (fsicos, qumicos o biolgicos) y econmicos, las
distribuciones de probabilidad de las variables aleatorias que intervienen estn
plenamente identificadas y estudiadas; en otros fenmenos, semejantes distribuciones son desconocidas y suelen manejarse de manera emprica o aproximada;
y todava hay otros fenmenos en los cuales ni siquiera eso es posible, y tales
fenmenos suelen enfocarse por medio de otros mtodos estadsticos llamados
no paramiricos.
122 Parte l. Estadstica descriptiva
En el caso de una variable aleatoria continua, la expresin matemtica para
la distribucin de probabilidad, definida en los nmeros reales, se llama funcin
de densidad de probabilidad (f.d.p.) y suele representarse por medio de f ( x)
(letra
minscula). Para aquellos valores en donde no hay o no tiene sentido hablar de
una probabilidad se asigna f (x) = 0.
Con frecuencia estamos interesados en conocer la probabilidad de que el
valor de una variable aleatoria sea menor o igual que algn nmero real x. De
hecho, casi todas las tablas estadsticas funcionan as. Por tanto, escribiremos la
probabilidad de que X tome un valor menor o igual que x como F(x) = P(X I x) y
denominaremos a esta funcin definida para todos los nmeros reales x como la
funcin de distribucin acumulada (f.d.&), o simplemente distribucin acumulada
para la variable aleatoria X. La siguiente propiedad es vlida tanto para el
caso
discreto como para el caso continuo:
Si a < b, entonces F(a) I F(b).
Para una variable aleatoria continua es irrelevante el uso del smbolo < (menor que) o bien I (menor o igual que). Esto se debe a que al aadir o quitar un
solo punto (o incluso un nmero infinito numerable de puntos) la probabilidad,
de hecho no cambia para nada. As, para cualquier variable aleatoria continua X
se tiene:
5
Lo anterior no es vlido para las variables discretas. Por ejemplo, si una variable aleatoria discreta puede tomar los valores x,, x,, . . . , xn con probabili
dades
respectivas p,, p,, . . . , pn, entonces para cualquier r = 1, 2, . . . , n,
se tiene que:
r r-1
PO~S xr) =Cp( x, ) , pero P(X< xr) =z p(xi)
Esto implica que para una variable aleatoria discreta se verifica que:
Ejemplo 4.3. Una variable aleatoria discretax tiene la siguiente distribucin acum
ulada de probabilidad:
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 23

Calcular:
Solucin:
En cambio, para una variable aleatoria continuax, no tiene sentido la expresin P(X= a), a menos que se tome media unidad al lado izquierdo de a y media
unidad al lado derecho de a , en una escala de unidades previamente acordada,
de tal suerte que el punto x = a se represente mediante el intervalo:
Este procedimiento de remplazar puntos por intervalos de longitud unitaria es un
recurso til para calcular la probabilidad de un valor puntual en una variable ale
atoria continua.
No es inusual en estadstica que una variable aleatoria discreta (o que se maneja como discreta para fines prcticos) se aproxime mediante una distribucin continua. En tales casos se recurre a un ajuste necesario que se llama correccin p
or
continuidad, el cual consiste en sustituir cada valor x de la variable original
por un
intervalo de longitud unitaria con centro en x. De este modo, la variable discre
ta
original se maneja como si fuese continua. Desde luego, la correccin por continui
dad no debe usarse si la variable de trabajo ya es de naturaleza continua. Veamo
s un
caso tpico.
Ejemplo 4.4. Sea X la variable aleatoria discreta que denota el nmero de trabaja
dores inmigrantes indocumentados procedentes de Mxico y Centroamrica que son asesinados por cazadores estadounidenses cada semana. Suponga que la distribucin de
X
puede aproximarse muy bien mediante una variable continua cuya distribucin acumulada de probabilidad es la siguiente:
Calcular la probabilidad de que durante una semana cualquiera, los cazadores est
adounidenses maten:
a) cuando menos cuatro inmigrantes indocumentados;
6) no ms de seis inmigrantes ilegales;
c) exactamente cinco trabajadores inmigrantes indocumentados.
1 24
Parte l. Estadistica descriptiva
a) Como al aplicar la correccin por continuidad el punto x = 4 queda representado por el intervalo [3.5,4.5), se tiene por tanto:
b) El G se convierte en el intervalo [5.5,6.5), luego:
P(X5 6.5) = F(G.5) = 1 - e-(04(6,5) = 0.9257
El siguiente cuadro resume algunas de las propiedades mencionadas:
Ahora, vamos a hablar algo acerca de lo que es la media o valor esperado
(o esperanza) de una variable aleatoriax, discreta o continua.
Originalmente, el concepto de esperanza matemtica surgi relacionado
con juegos de azar y, en su forma ms simple, es el producto de la cantidad que
espera ganar un jugador por la probabilidad de que ganar. Por ejemplo, si tenemos uno de 10 000 boletos de una rifa en la cual el premio mayor es un reloj fin
o
1
Caso discreto
P(X = x) = p(x) = f (x)
o 5f(x) 5 1
valuado en $4800, nuestra esperanza matemtica es 4800 xL= $0.48. Esta
10 O00

Caso continuo
f (x) = expresin matemtica de h f.d.d.p.
'
OSf(x)ll
cifra deber interpretarse en el sentido de un promedio. A decir verdad, este promedio no toma en cuenta el costo del boleto, as que, en sentido ms riguroso, si
X es la variable aleatoria que denota la ganancia (en pesos) en esa rifa, tenemo
s la
siguiente distribucin de probabilidad para X, suponiendo que el costo del boleto
fue de 15 pesos:
~anancia'(x,J &babflidad (p,) '
-15
1
10 o00
999
10 O00
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 25
Vemos entonces que una verdadera esperanza matemtica debera tomar
en cuenta tambin el costo incurrido en comprar el boleto: son 15 pesos que se
pierden, se gane o no se gane el premio. En consecuencia, la esperanza matemtica debera quedar planteada en la siguiente forma:
En general, si X es una variable aleatoria discreta que puede asumir los valores x,, . . . , xn, con probabilidades de p,, . . . , p,, respectivament
e, se define su
valor esperado (o media) de la siguiente manera:
En forma anloga, si Xes una variable aleatoria continua y f (x) es su funcin
de densidad de probabilidad, entonces la media o valor esperado de esta variable
aleatoria es:
p=E(X)= x f ( x ) k
J'
4
Desde luego, en estas definiciones se supone la existencia de la suma o la inte
gral; de lo contrado, no existira la media. Aunque es raro, hay variables aleator
ias
para las cuales no existe media o valor esperado. Un ejemplo tpico es la variabl
e
aleatoria continua con distribucin de Cauchy (o t de Student con un grado de
libertad), cuya forma es acampanada y muy parecida a la forma de la distribucin
normal, y cuya f.d.p. est dada por:
Si uno dibuja la grfica de esta funcin de densidad de probabilidad, sospechara
que la media debe ser cero, pero esto resulta ser falso. A pesar de que el rea to
tal
comprendida bajo la curva (desde -03 hasta +oo) es igual a 1, lo cual indica q
ue
la curva se acerca con bastante rapidez al eje X, las colas contienen demasiad
a
probabilidad como para poder equilibrar toda esa probabilidad desde el origen.
Es como si una persona colgara dos pesadas cubetas con agua en los extremos de
una tabla mucho muy larga, como una balanza, y quisiera equilibrarlas desde el
centro de la tabla. El peso sera enorme.
La media puede aplicarse tambin a una funcin de la variable aleatoria X;
por ejemplo, si tenemos que Y = g(X) es una variable aleatoria que a su vez depende de X, entonces:
126 Parte l . Estadstica descriptiva
para el caso discreto, y:

para el caso continuo.


'Into para las variables aleatorias discretas como para las continuas, la media
es un operador (o funcin) lineal, es decir, satisface las siguientes propiedades:
donde c es una constante.
Adems, para una constante c, se verifica que:
Se llaman momentos a las esperanzas de algunos tipos importantes de funciones. El r-simo momento inicia (tambin llamado r-simo momento airededor
del origen) de la variable aleatoria X, representado por p; es el valor esperad
o
deXr, o sea, y = E(X'), r = 1,2,3, . . . Evidentemente, el primer momento ini
cial
de una variable aleatoria no es otra cosa que su media o valor esperado, esto es
:
p; = E ( . = p. Debemos aclarar que algunos autores usan el trmino momento normal o simplemente momento -que es lo ms usual- para designar esta
cantidad.
El r-bimo momento central (o momento alrededor de la media) de una variable aleatoria X, se denota por p, y se define as: pr = E[(X - p)'] . Los moment
os
centrales pueden expresarse en trminos de los momentos iniciales. Ello se expone con detaile y se demuestra en cursos de estadstica para ingenieros o de
estadstica matemtica.
Si el primer momento central existe, debe ser necesariamente cero; por
otra parte, el segundo momento central de una variable aleatoriax se denomina
varianza (si es que existe), y se denota por cualquiera de los smbolos aZ, V(X)
o
bien Var(X), esto es: o2 = p2 = E[(X- P) ~] . La raz cuadrada no negativa de
lavarianza se llama desviacin tpica (o desviacin estndar) y se denota, naturalmente,
por el smbolo a. Estos dos parmetros (la varianza y la desviacin tpica) sirven
para indicar el grado de dispersin de los datos alrededor de la media, de ah su
gran importancia.
Es muy fcil probar que, tanto para una variable aleatoria discreta como para
una continua, se cumple la relacin: o2 = p2 = p.', - p2. Esto es:
Una condicin necesaria, pero no suficiente, para que la grfica de una funcin de densidad de probabilidad sea simtrica con respecto a la perpendicular
Cap. 4. Variables aleatorias y distribuciones de probabilidad 127
al eje X trazada en la media (es decir, que tenga forma de campana), consiste en
que el tercer momento central sea cero. En otras palabras, si la grfica de f (x
) es
simtrica con respecto a la media, entonces p3 = O, pero lo recproco no siempre
es verdad. Cuando la grfica de f (x) no es simtrica con respecto a la media, entonces se llama sesgada.
Si X es una variable aleatoria, entonces el sesgo (o mirnetrz) de X se denota por cualquiera de los smbolos siguientes: a, = y, y se define en trminos del
tercer momento central:
Si y= O, la grfica de f (x) es perfectamente simtrica con respecto de la media; si yes positiva, la grfica presenta una especie de cola alargada del lado de
recho, mientras que si y es negativa, entonces la grfica presenta una cola notoria
del lado izquierdo. El motivo para definir el sesgo mediante y, en lugar de hace
rlo
directamente con 4, estriba en que yes independiente de las unidades de medicin, en tanto que el tercer momento central p3 no lo es. Algunos autores usan
cualquiera de los smbolos ar o y,. para denotar el cociente delr-sirno momento
central entre la r-sima potencia de la desviacin estndar, esto es:
En particular, siempre va a ocurrir que y, = O y y, = 1. Por otra parte, la mag

nitud y, es el sesgo, mientras que y, = K es la curtosis (tambin llamada exceso).


Este ltimo parmetro se definir a continuacin. De hecho, la curtosis tiene
una interpretacin de dudoso valor, y parar 2 5 no existe ninguna interpretacin
prctica de y,..
La curtosis (tambin llamada kwtosis o exceso) se denota por cualquiera de
los smbolos K = a, = y, y se define por medio de la cantidad siguiente:
Esta magnitud K = a, proporciona un indicador de qu tan picuda es la
grfica de la funcin de densidad f (x), aunque no est claro qu debe entenderse por el adjetivo "picuda". Cuanto mayor sea esta cantidad tanto ms picuda o
pronunciada ser la cresta en la grfica de f (x). Debemos sealar, sin embargo,
que la interpretacin que mucha gente tiene de la curtosis es vaga y de valor dudoso. Por ejemplo, todas las curvas con .distribucin normal tienen el mismo
coeficiente de curtosis, a pesar del hecho de que aquellas con menor desviacin
estndar parecen ser ms picudas. Se puede demostrar que el coeficiente de curtosis de cualquier curva normal es igual a 3 (vase fig. 4.7).
Figura 4.7. Curvas normales con distintas desviaciones tpicas, pero ambas tienen
el
mismo coeficiente de curtosis.
El siguiente cuadro resume las magnitudes anteriores:
Se han sombreado las celdillas de aquellos momentos que carecen de interpretacin estadstica prctica conocida, aunque pudieran tener algn inters
terico en estadstica matemtica. Y ya que hablamos de esto, no est de ms
mencionar de pasada que existe un mtodo matemtico para deducir rpidamente los valores de los momentos centrales de cualquier orden a partir de los
momentos iniciales, y estos ltimos pueden deducirse con relativa facilidad mediante una funcin llamada funcin generatriz de momentos, ideada por Laplace
en 1811. Sin embargo, estos conceptos requieren del conocimiento de clculo
diferencial y adems carecen de aplicaciones prcticas ms all de que permiten
hallar la media y la varianza de una distribucin por mtodos expeditos, si previamente se calcula la funcin generatriz de momentos. El estudiante que domine
el clculo y que est interesado en estos temas tericos, puede consultar libros
de estadstica matemtica.
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 29
Por otra parte, y como se mencion, para las variables continuas, las probabilidades se representan mediante reas, pero de manera adimensional. En el
caso de una variable aleatoria continua, la probabilidad sobre un intervalo [a,
b] ,
o bien (a, b), equivale al rea bajo la curva f (x) y por encima del eje X, entr
e las
ordenadas x = a y x = b. Esto significa que:
Para el caso de una variable aleatoria discreta que asume un nmero finito
de valores x,, x,, . . . , xn, con probabilidades respectivas de p,, p,, . .
. , p,,, cada
punto xi se sustituye por un intervalo de longitud unitaria (con xi en el centro
) y
se forma as una sucesin de rectngulos de bases unitarias que representan x,,
. . . , xn y alturas correspondientesp,, . . . ,pn. El rea del rectngulo de ba
se 1 con
xi en el centro es, por lo tanto: 1 xp, =pi. Entonces, parax, exk, se tiene
que P ( 3
I X 5 x,) es justamente la suma de las reas de los rectngulos comprendidos en
ese intervalo, es decir, del histograma.
Por otra parte, debemos destacar la importancia de la funcin de distribucin acumulada F(x) en estadstica. La mayora de las tablas estadsticas que traen
los libros proporcionan valores acumulados, y por eso es importante que el lector aprenda cuanto antes a obtener probabilidades de valores individuales (o de
intervalos) usando la funcin de distribucin acumulada F(x).
El Excel asigna un valor "verdadero" (o el nmero 1) al valor acumulado de

la probabilidad, y asigna un valor "falso" (o el nmero 0) al valor no acumulado.


Eso lo trataremos cdn mayor detalle en el captulo siguiente. Mientras, veremos
algunos ejemplos para que el lector aprenda a usar bien la funcin de distribucin acumulada F(x).
Ejemplo 4.5. Una variable aleatoria discretaxpuede asumir slo los valores O, 1,
2 y
3, con la funcin de distribucin acumulada F(x) dada as:
Calcular las siguientes probabilidades, a partir de esta tabla:
Solucin: Slo hay que observar y hacer las restas apropiadas:
1 30 Parte l. Estadstica descriptiva
Ejemplo 4.6. Construir una tabla para la distribucin de probabilidad acumulada de
una variable aleatoria discreta X cuya distribucin de probabilidad es la siguient
e:
Solucin: Slo se debe ir sumando las probabilidades de todos los valores anteriores a cada x:
Ejemplo 4.7. Sea T la variable aleatoria continua que representa el tiempo (en m
inutos) que transcurre hasta la llegada del siguiente cliente (o entre dos clientes
sucesivos) en
un puesto de peridicos y revistas. Suponga que T tiene la siguiente funcin de dis
tribucin acumulada de probabilidad:
Calcular la probabilidad de que el tiempo transcurrido hasta la llegada del prxim
o
cliente a ese puesto sea de:
a) menos de dos minutos
6) por lo menos tres minutos
c) cuando mucho un minuto y medio
d) mnimo treinta segundos y mximo un minuto.
Solucin:
Si X es una variable aleatoria con media y y desviacin estndar o, entonces
se puede tipificar (o estandarizar) a una variable 2 mediante la transformacin:
la cual combina simultneamente una traslacin (cambio de origen) con un cambio
de escala (amplificacin o reduccin). Si se trata de datos extrados de una muestra
con media igual a Z y desviacin estndar (muestral) S, entonces cualquiera de los
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 3 1
datos de la muestra, digamos x,, puede tipificarse a un dato z, mediante la tra
nsformacin:
Un valor tipificado de x, se suele llamar tambin puntuacin de xi.
As como el coeficiente de variacin sirve para comparar la dispersin relativa de dos conjuntos de valores, la tipificacin (o puntuacin) de valores individuales de la variable sirve para comparar individuos especficos o valores individuales de dichos conjuntos. Es algo as como uniformizar todos los valores a
una escala comn independiente de las unidades dimensionales.
Ejemplo 4.8. Juan y Pedro son dos estudiantes que siempre han comparado sus
calificaciones de matemticas cuando les toca hacer el mismo examen con el m
ismo
maestro. Pero ahora hicieron exmenes diferentes en grupos distintos con profes
ores
distintos. Juan obtuvo 7.6 de calificacin en un examen en el que la media fue de
7.2 y la
desviacin estndar de 1.23. Pedro obtuvo 8.3 en un examen en el que la media fue 8.
0
y la desviacin estndar de 2.5. Cmo podramos comparar el desempeo relativo de
Juan y Pedro en sus respectivos exmenes?
Solucin: Denotemos por X y Y, respectivamente, a las variables aleatorias q
ue

representan las respectivas calificaciones de alumnos al azar en los grupos


de Juan y
Pedro. Tipificamos las puntuaciones respectivas de estos estudiantes con objeto
de compararlas:
7.6 -px 7.6 -7.2
Calificacin de Juan en escala tipificada:
- = 0.325
Qx 1.23
8.3 - j,tY 8.3 - 8.0
Calificacin de Pedro en escala tipificada: - - = O. 120
Q Y 2.5
Esto significa que en escala absoluta (tipificada) se aprecia que el desempeo de
Juan fue ms meritorio que el de Pedro, a pesar de que ste obtuvo calificacin ms alta
que aqul.
Con esto nos damos cuenta de que los encargados de exigir promedios
mnimos en los alumnos para efectos de becas o admisiones deberan tomar las
calificaciones en escala tipificada. Por supuesto, es mucho ms meritorio obtener
7 cuando todos los dems sacaron menos de 6 que obtener 8 en un grupo en
el que casi todos sacaron 9 o 10. Si las boletas de calificaciones de los alumn
os
indicaran adems cules fueron los promedios y las desviaciones tpicas en cada
examen, sera posible tipificar cada nota para discernir el verdadero mrito de la
misma en una escala absoluta.
Queda claro que al usar escala tipificada la media de la variable siempre se
transforma en cero y la desviacin estndar siempre se convierte en un tramo de
longitud unitaria. Esto se demuestra con facilidad si sustituimos primero x por
p.
y luego x por p + o, respectivamente, en la frmula:
132 Parte l. Estadstica descriptiva
As, vemos que para cualquier variable aleatoriax, la correspondencia entre
la escala real Xy la escala tipificada Z es la siguiente:
Es importante que desde ahora el estudiante se acostumbre a pensar en
unidades de desviaciones estndar alrededor de la media, lo cual es usual en estadstica y en las que ciencias en que se aplica la estadstica, muy especialmente en
aquellas situaciones en que la distribucin subyacente es la llamada distribucin
normal -la cual se examinar en el captulo 6. Por ejemplo, en ciencias de la salud
se considera que un adulto cuyo contenido de colesterol en la sangre (medido en
ciertas unidades) est entre y - o y p + o (es decir, entre -1 y +1 en unidades t
ipificadas) es un adulto con riesgo normal. En cambio, si su contenido de colestero
l
es inferior a p - o (O sea inferior a -1 en unidades tipificadas), se considera
una
persona de "riesgo bajo", pero si es una concentracin de colesterol superior a p
+ o pero inferior a p + 20 (es decir, entre 1 y 2 en unidades de Z), se dice qu
e es
un individuo con "riesgo moderado". Ms de p + 2o pero menos de p + 30 unidades hace que una persona sea calificada como de "riesgo alto", y un contenido de
colesterol de p + 30 o superiorbla hace ser de "riesgo muy alto".
Ejemplo 4.9. Una profesora de estadstica realiz un examen a sus alumnos, y al
calificar, observ que la media del grupo fue de 61.8, con una desviacin estndar de
9.5.
Entonces, decidi hacer un ajuste de las notas de tal manera que la media bajara a

50, y
que la desviacin estndar aumentara a 15. Cmo se transformara entonces la calificacin de un alumno que obtuvo 44 en el examen?
Solucin: Primeramente se tipifica la calificacin de 44 en unidades de puntuacin
estndar:
Ahora, con los nuevos parmetros escogidos (p = 50, 6 = 15), se pasa el valor tipi
ficado a
escala ordinaria usando la frmula x = zo + p. Se obtiene:
Como las distribuciones de probabilidad de las distintas variables aleatorias
generalmente son diferentes, y hay muchsimas formas distintas en que una variable aleatoria se puede distribuir, resulta claro que la cantidad de probabili
dad
en cierto tramo de variacin de la variable (medido en unidades de desviacin
estndar o en unidades tipificadas) depender de cul sea la distribucin exacta
de la variable aleatoria X. Sin embargo, hay algunas reglas empricas prcticas y
tiles que son aplicables en la mayora de los casos con poco margen de error, y
tales reglas permiten al estudiante disponer de una idea ms o menos concreta
del significado prctico de la desviacin estndar como tal.
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 33
Dichas reglas empricas no deberan tomarse muy en serio si existe un sesgo
apreciable en la distribucin de datos. Cuando no hay sesgo o el sesgo es muy
pequeo, estas reglas empricas son buenas y tiles. Su razn de ser se basa en
que en la distribucin acampanada ms famosa de todas (ia distribucin normal),
68.27% del rea bajo la curva se encuentra dentro del intervalo p - o < X< p +
o, 95.45 % del total del rea bajo la curva se encuentra en el intervalo p. - 20 <
X
e p. + 20, y 99.73 % del total de rea bajo la curva se halla en el intervalo p. 36 e
X<p+30.
Tomando la distribucin normal como arquetipo de una distribucin sin
sesgo se han extrapolado las siguientes reglas empricas:
1. Casi 70 % de todas las observaciones se concentran en un tramo comprendido entre f 1 desviaciones estndar alrededor de la media, es decir:
2. Aproximadamente 95% de las observaciones se concentran en un tramo comprendido entre 12 desviaciones estndar alrededor de la media,
esto es:
3. Casi la totalidad de las observaciones (es decir, casi 100% de los datos)
se concentran en un tramo comprendido entre +3 desviaciones estndar
alrededor de la media, es decir:
Desde luego, las cifras anteriores son s610 aproximadas y varan, dependiendo de cul sea la ley de distribucin especfica de la variable aleatoria X en cada
caso concreto, y son cada vez ms inexactas cuando el sesgo en la distribucin es
ms perceptible. Sin embargo, en trminos generales no difieren mucho de los
valores mencionados, y en todo caso, ayudan al estudiante a tener una idea ms
o menos concreta acerca del significado prctico de la desviacin estndar.
Hay una desigualdad famosa, llamada desigualdad de Chdbyshev, que proporciona una cota inferior mnima garantizada para la probabilidad de que cualquier variable aleatoria (discreta o continua) X asuma un valor dentro de k desviaciones estndar alrededor de la media, para cualquier k > 1. La desigualdad (o
teorema) de Chbyshev asegura que:
1 34
Parte l. Estadstica descriptiva
Esta desigualdad es matemticamente exacta y general. Sin embargo, tiene el defecto de que es un poco ms dbil que las consideraciones empricas aproximadas
ya expuestas, las cuales no son matemticamente exactas y ni siquiera se pueden
demostrar, pero son tiles como reglas prcticas aproximadas en la mayora de los
casos. En cambio, el teorema de Chbyshev es totalmente exacto y demostrable.
Ejemplo 4.10. El nmero de licencias de matrimonio expedidas en cierta ciudad
durante el mes de junio puede considerarse como una variable aleatoria discreta

X cuya
distribucin de probabilidad se desconoce, pero se estima que su media es aproxima
damente p. = 124 y su desviacin estndar es o = 7.5. Segn el teorema de Chbyshev, con
qu probabilidad podemos afirmar que se expedirn entre 64 y 184 licencias de matrim
onio en el mes de junio?
Solucin: Planteamos las ecuaciones p. - k o = 64; p + k o = 184, con los valore
s de
p y o dados en el problema. Aunque una sola de estas ecuaciones bastara para hall
ar el
valor de k, debemos hacerlo con ambas para asegurarnos de que el mismo valor de
k se
va a obtener en ambos casos. De lo contrario, no se tratara de un intervalo con
centro
en la media y la desigualdad de Chbyshev no procedera. Hallamos en ambos casos que
k = 8, lo cual confirma que el intervalo dado tiene su centro en la media. As, us
amos la
desigualdad de Chbyshev para hallar que:
Finalizarnos este captulo con algunos ejemplos tpicos explicados con detalle, en los cuales se retoman todas las ideas y conceptos examinados, seguidos d
e
una lista de ejercicios complementarios, para que el estudiante ponga a prueba
su aprovechamiento de este captulo y de los anteriores, y cuyas respuestas se
hallan al final del libro.
Ejemplo 4.1 1. SeaX una variable aleatoria discreta con distribucin de probabilid
ad
dada por la siguiente tabla:
5
Si se sabe que E(X) = 4 , calcular x, yp3.
Solucin: Como la suma de todos los valores de probabilidad, es decir &O,, tiene
que ser igual a la unidad, se sigue que:
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 35
Por tanto:
Ahora bien, por definicin, la media o valor esperado es p = E(X) = I: x,pi, lo cu
al,
5
segn el problema, es igual a - . Luego entonces:
4
Esto es:
De donde se infiere rpidamente que x3 = 8. En consecuencia, la distribucin de prob
abilidad de la variable aleatoria discreta X en este ejemplo es la siguiente:
Ejemplo 4.12. En un conjunto d e n observaciones que se van a ordenar de menor
a
mayor, determinar la posicin de la mediana si:
n +l
Solucin: En cualquier caso, al ordenar los datos, la mediana ser el - -simo
2
elemento. Por consiguiente:
a) La mediana ocupa el lugar 38.
101
b) Se obtiene - = 50.5 ; entonces, la mediana es el promedio aritmtico entre
2
los elementos que ocupan los lugares 50 y 51.
236
e) La mediana es el dato que ocupa el lugar - = 118.
2

Hemos escogido el siguiente ejemplo simple porque se puede resolver por


mtodos de geometra elemental y no se requiere usar integrales. Sin embargo,
tambin es posible calcular estas reas con integrales indefinidas elementales, tal
y como se explic en la seccin 4.2. El lector podra intentar obtener estas reas
mediante integrales definidas para practicar.
1 36 Parte l. Estadstica descriptiva
Ejemplo 4.13. Sea X una variable aleatoria continua con funcin de densidad
de
probabilidad dada por:
para O x I 2.
O en cualquier otro caso.
a) Comprobar que efectivamente es una funcin de densidad de probabilidad vlida.
6) Obtener la moda.
c) Determinar la mediana.
d) Calcular la media de la variable aleatoriax.
Solucin: Claramente la grca de f (x) es un tramo de la recta a travs del origen
1
con pendiente - , como se ilustra en la figura 4.8.
2
Figura 4.8
a ) Para comprobar que en efecto f (x) es una funcin de densidad de probabilida
d
vlida se requieren dos cosas: que f (x) nunca tome valores negativos (lo cual es
claro), y que el rea bajo la curva (en este caso recta) y por encima del eje X se
a
precisamente igual a 1. Como el rea de un tringulo es igual a base por altura
entre dos, entonces el rea bajo la recta en el tramo O I x 2 es igual a 1. Con
esto queda comprobado que f (x) es una f.d.p. vlida.
6) La moda es el valor deX que tenga la mxima densidad de probabilidad, esto es
,
la mxima altura. Obviamente, la moda es m. = 2.
c) Por ltimo, la mediana me es el valor de X tal que el rea comprendida a mano
izquierda de ese valor y bajo la curva sea precisamente ' h. Como en la recta
de
este ejemplo la altura siempre es la mitad de la base para cualquier punto
x,
entonces la mediana se plantea con la ecuacin:
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 37
De donde se sigue que la mediana es:
d) La media o valor esperado de la variable aleatoria X es:
Y se halla rpidamente que:
Ejemplo 4.14. Obtener una frmula para la funci6n de distribucin acumulada F(x)
de la funcin f (x) del ejemplo anterior.
x 1 x2
Solucin: Como j - & = - j xdr = - + C, se sigue que:
2 2 4
En los ejercicios propuestos al final del captulo, hay muy pocos ejemplos de
variables aleatorias continuas, y se han escogido preguntas que se pueden resolv
er
por geometra elemental y sin usar clculo. En todo caso, si llegara a requerirse al
guna integral (por ejemplo, para obtener la media y la varianza, o los momentos)
,
se han escogido nicamente ejemplos que involucran integrales muy sencilllas,
como las que se expusieron en la seccin 4.2 y como la del ejemplo anterior.
Finalizamos el captulo con un par de ejemplos de otros temas de estadstica descriptiva, a fin de que el estudiante no vaya olvidando las lecturas de c
ap-

tulos anteriores.
Ejemplo 4.15 (Poblaciones combinadas). Cuando se conoce la media y la desviacin
tpica de dos (o ms) poblaciones distintas, es posible calcular la media y la desvi
acin estndar de un solo conjunto al combinar todos los datos originales. En tales casos
se emplean
las frmulas siguientes:
(Observe que hemos tomado la desviacin estndar poblacional.)
De las frmulas anteriores se sigue que:
1 38 Parte l. Gtadktica descriptiva
Por ejemplo, suponga que en un club deportivo se tom un conjunto de 60 hombres
y se obtuvo que la media de sus pesos era de 72 kg con una desviacin estndar de 5
kg. En
el mismo club se tom un conjunto de 90 mujeres y se obtuvo que la media de sus pe
sos
era de 58 kg con desviacin estndar de 7 kg. Si se combinan los pesos de las 150 pe
rsonas
(hombres y mujeres) en un solo conjunto de 150 datos, encontrar la media y la de
sviacin
estndar del nuevo conjunto.
Solucin: Se tiene, en el caso de los pesos de los 60 hombres, que:
Para las 90 damas se tiene:
Cx =90~58=5220; cx2 = 90(7' + 582) = 307 170
En consecuencia, para el conjunto combinado de los 150 pesos se tiene:
Ex = 4320 + 5220 = 9540; Exz= 312 540 +307 170 =619 710
Entonces. la media es:
La desviacin estndar se halla as:
Ejemplo 4.16. SiXes una variable aleatoria discreta que puede asumir los valore
sx,,
x,, . . . , x,, con probabilidades respectivas dep,, p,, . . . , p,, y si a
y b son dos constantes,
demostrar las siguientes propiedades de la media y la varianza (mismas que, por
cierto,
tambin son vlidas para variables continuas):
Como Zxp,= E(X) y Cp, = 1, se concluye que E(& + 6) = aE(X) + 6.
Ahora probaremos la segunda frmula (omitimos algunos pasos intermedios obvios):
Var (aX + b) = E[{& + b) - (ap + b)IZ]
= E[{& - ap12]
= E[aZ(X - P) ~]
= a2 Var(X).
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 39
Ejemplo 4.17. Suponga queXes una variable aleatoria discreta cuya distribucin de
probabilidad se da en la siguiente tabla:
a) Obtener una tabla para la distribucin de probabilidad de la variable aleator
ia
siguiente: Y=X3 - 4X2 + 10.
b) Obtener la media y la varianza de la variable Y.
X
Probabilidad
Solucin :
a) Al sustituir cada valor de X en la frmula de Y, se obtiene un correspondie
nte
valor de Ycon la misma probabilidad. Hallarnos que Y(0) = 10; Y(1) = 7; Y(2)
= 2;
Y(3) = 1; Y(4) = 10 tambin. Esto significa que la variable Y toma los valores 1
0,
7,2, 1 y 1'0 con probabilidades respectivas de 0.10,0.20,0.30,0.25 y 0.15. Com-

binando los dos valores de probabilidad de 10 (que sali repetido), hallamos


que la probabilidad de 10 es 0.10 + 0.15 = 0.25. Por tanto, Yslo toma de hecho
cuatro valores con la siguiente distribucin:
o
0.10
b) Para hallar la media y la varianza de Y, usamos las frmulas correspondientes:
Blaise Pascal (1 623- 1662). Cientfico Christiaan Huygens (1 629- 1695). En
francs, contemporneo de Ren Descartes 1657, escribi un libro acerca de la teora
(1 596- 1650). Hizo contribuciones clsica de las probabilidades, basado en
importantes a las matemticas y la fsica. el intercambio de correspondencia que
Tambin dedic un tiempo considerable a haba tenido lugar tres aos antes entre
estudios de filosofa y religin. Pascal y Fermat.
1
0.20
2
0.30
3
0.25
4
0.15
1. Los siguientes datos representan los contenidos exactos (en litros) en una
muestra
aleatoria de 42 envases comerciales de aceite de 1 litro de cierta marca:
Si X representa el contenido exacto de un envase de aceite de esta marca tomado
al
azar, use calculadora cientfica o Excel para hallar lo siguiente:
a) la media muestral 5
6) la desviacin estndar muestral s
c) el error estndar de la media ax.
d ) el coeficiente de variacin
e) el rango
f ) la mediana
g) la moda.
2. Se lanza una moneda una sola vez. Denotemos por X a la variable aleatoria di
screta
que representa el nmero de guilas que salen.
a) Obtenga la distribucin de probabilidad de la variable aleatoria X
6) Determine la media y la varianza de X.
3. SeaX una variable aleatoria discreta con distribucin de probabilidad dada por
la siguiente tabla:
Calcule la media, la varianza y la desviacin estndar para la variable X.
4. Una ama de casa permite a sus hijos pequeos mirar la televisin un mximo de 200
horas al mes (incluyendo sbados y domingos), y slo despus de haber terminado
sus tareas escolares. Ella lleva un control riguroso del tiempo que sus hijos ma
ntienen la televisin encendida cada mes, y ha encontrado que se trata de una variable
aleatoria continua que, medida en unidades de 100 horas, tiene la siguiente func
in
de densidad de probabilidad:
Ix
para 0 5 x c l .
f(x)= 2-x pata 1 5 ~ ~ 2 .
10
en otra parte.
Determine la probabilidad de que durante un mes cualquiera, los nios vean la tele
visin:
Cap. 4. Variables aleatorias y dktribuciones de probabilidad

14 1
a) menos de 120 horas
b) entre 50 y 100 horas.
Calcule:
E) la mediana
d) la moda.
[ S u g m i a : empiece por dibujar una grfica.]
2x
5. Verifiqueque f ( x)
k(k + 1)
parax = 1, 2, 3, . . . , k pueda fungircomoladistribucin de
probabilidad de una variable aleatoria discretax. [Indicacin: Por si no lo recue
rda, la su1
1
made los primeros n nmeros naturales est dada por 1 + 2 + 3 + m - . + n = -n(n
+1).]
2
6. En cada una de las siguientes expresiones, determine el valor de la constan
te k de
manera que la funcin f ( x) pueda servir como la distribucin de probabilidad de
una
variable aleatoria discreta X.
a) f ( x) =kx, parax = 1, 2, 3, 4, 5.
x2
b) f(x)=-,parax=1,2, ... , 6.
7k
[Indicacin: Por si le sirve saberlo, la suma de los cuadrados de los primeros n
1
nmeros naturales est dada por l2 + 22 + 32 + + n2 - = n( n + 1)(2n +1).]
G
7. La probabilidad de que la seora Juanita Godnez venda parte de una propiedad c
on
3
una ganancia de 3 millones de pesos es de - , la probabilidad de que la venda y
20
7'
obtenga una ganancia de 1.5 millones de pesos es - , la probabilidad de que sal
ga
20
7 3
a mano es - , y la probabilidad de que pierda 1.5 millones de pesos es - . Cul
20 20
es su ganancia esperada? [Inicacin: Considere las prdidas como ganancias negativas.]
8. La funcin de densidad de probabilidad de la variable aleatoria continuax est
dada
Por
[ O en otra parte.
a) Demuestre que f ( x) es una f.d.p. vlida.
b) Determine P(3 < X < 5).
142 Parte l . btadstica descriptiva
9. Una variable aleatoria discretax toma los valores O, 1, 2, 3 con probabilida
des respectivas de:
a) Determine E(X) y E( X) .
6) Utilice los resultados del inciso a para obtener E[(3X+ 2)'].
10. Un juego de azar se considera justo, o equitativo, si la esperanza de c

ada jugador es
igual a cero. Si alguien nos paga $10 cada vez que sacamos un 3 o un 4 al tira
r un
dado, cunto debemos pagar a esa persona cuando tiremos cualquiera de los otros
cuatro nmeros para tornar el juego equitativo?
11. Si la densidad de probabilidad de la variable aleatoria continua Y est dada
por:
1 O en otra parte.
Determine:
12. Un seor va a comer en un restaurante de lujo en el Distrito Federal. El
estacionamiento del restaurante le cobra 120 pesos por cuidarle su automvil durante ese la
pso. Si le parece caro, puede optar por estacionarlo en la calle, pero se arriesg
a a que
se lo roben, lo cual estima que ocurra con una probabilidad de 0.02. Sin embargo
,
si se lo roban, el seguro le repone el costo del auto y slo le descuenta un deduc
ible
de 7000 pesos. Decida si le conviene pagar los 120 pesos porque le cuiden su aut
o en
el estacionamiento del restaurante o bien arriesgarse a dejarlo en la calle.
13. Si X es el nmero de mujeres en un comit de 3 personas que se elige al azar de
un
grupo de 4 hombres y 6 mujeres, resulta que la distribucin de probabilidad deX es
la siguiente:
(En el captulo 5, veremos mtodos para obtener semejante distribucin.) Calcule:
a) la media o valor esperado p = E(X)
b) lavananta aZ = E[(X- p)']
e) el tercer momento central CL, = E[(X - P) ~]
1
d) el coeficiente de sesgo (o asimetra) y = -1 .
o3
14. Si X es una variable aieatoria discreta, demuestre directamente que la vari
anza de X
tambin se puede calcular mediante la frmula alternativa:
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 43
15. Suponga queXes una variable aleatoria discreta que slo puede tomar los valor
es O,
1, 2, 3 y 4, y c u y distribucin de probabilidad es la de la siguiente tabla:
a) Halle la cifra faltantep,, as como p y 02.
b) Calcule P(X I 2) y P(X < 2).
16. Considere una variable aleatoria X discreta cuya distribucin de probabili
dad est
dada por:
a) Obtenga la funcin de distribucin acumulativa de la variable X.
b) Calcule P(Xc 3.5) y P(3 I X < 4.5).
17. Sea X una variable aleatoria discreta con distribucin de probabilidad dada
por la
siguiente tabla:
Calcule la media, la varianza y la desviacin estndar de la variable X.
18. Sea X una variable aleatoria discreta con distribucin de probabilidad dada p
or la siguiente tabla:
Calcule el coeficiente de sesgo.
19. Sea X una variable aleatoria discreta con distribucin de probabilidad dada p
or la siguiente tabla:

a) Calcule la constante a.
b) Encuentre la funcin de distribucin acumulativa F(x).
C) Calcule P(X = l), P(X = 2), P(X < 3), P(X 2 O), P(-2 I X ~ 3 ) .
20. Para una variable aleatoria continua X, exprese las siguientes probabilida
des usando
la funcin de distribucin acumulada F(x).
144 Parte l. Estadistica descriptiva
21. SeaX una variable aieatoria discreta cuya distribucin de probabilidad es:
Calculep, yx, si se sabe que E(X) = 5.
22. SeaX una variable aleatoria discreta con la siguiente distribucin de probabi
lidad:
Calculep3, x1 y x2 si se sabe que E(% = 1.9 y Var(X) = 0.69.
23. Sea X una variable aieatoria discreta con la distribucin de probabilidad:
Calcule E(% y verifique que:
24. Una variable aleatoria discretax tiene la funcin de densidad dada por:
1
Encuentrep y S, si se sabe que E(% =l Y Var(X)=-.
2
25. La variable aieatoria discretax tiene la funcin de densidad dada por:
8
Encuentre a y b, si se sabe que E(X) = O y V( 9 = -.
3
26. La variable aieatoria X tiene la funcin de densidad dada por:
1
Encuentrep, de tal manera que se cumpla la siguiente desigualdad E(% < -.
4
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 45
27. Considere una poblacin finita A de slo tres elementos: A = {2,4,6).
a) Calcule la media poblacional y, la varianza (poblacional) 02 y la desviacin
estndar (poblacional) o.
b) Calcule el error estndar de la media oi = para muestras de tamao n = 2
(con remplazo) extradas de A.
4 n
28. En relacin con el ejercicio 27, considere las 9 muestras posibles de tamao
2 con
remplazo, y para cada una de esas 9 muestras, calcule la media muestral F, la v
arianza
muestral s2, la varianza poblacional 02, la desviacin estndar poblacional o y la
desviacin estndar muestral s.
Anote sus respuestas en una tabla, como se indica a continuacin, y ponga resultad
os
exactos (es decir, fracciones o radicales cuando sea necesario), no use aproxima
ciones decimales. Copie la tabla en un cuaderno para no rayar el libro.
Se han llenado algunas entradas al azar.
a) Se requiere como ejercicio que termine de llenar toda la tabla. En la ltima fi
la se
anotan las respectivas medias (promedios) de los nueve datos que estn arriba. Si
la media de un estadstico es igual al valor del parmetro poblacional correspondiente, entonces el estadstico es insesgado. Diga cules de esos cinco estadsticos
resultaron ser insesgados y cules no.
b) Para el conjunto de las 9 medias muestrales, calcule las dos desviaciones tpi
cas (la
muestral y la poblacional) y observe si alguna de las dos es igual al error estnd
ar
de la media en la poblacin original (inciso b de la pregunta 16).
29. Con respecto al ejercicio anterior:

a) Calcule ahora el error estndar de la media Qx para muestras


sin remplazo de tamao n = 2.
146 Parte l. Estadstica descriptiva
6) Haga una lista de las tres muestras posibles sin remplazo y una tabla similar
a la
del ejercicio 17 con estas tres muestras, y conteste para este caso lo mismo que
se
pregunt en el inciso b de la pregunta anterior, para el conjunto de las 3 medias
muestrales ahora obtenidas.
30. Suponga que los editores de una revista desean hacer un mayor acopio de sus
criptores. Para ello envan cartas (o mensajes por e-mil) a un nmero aleatorio de personas, invitndolas a suscribirse con ciertas ventajas. De las personas que reciben
esa
correspondencia, un gran nmero ni siquiera la leen y la tiran a la basura, pero o
tros
la leen y responden. Supongamos que la proporcin de personas que responden a la
invitacin (O= O %, 1 = 100 %) es una variable aleatoria (continua) X, cuya func
in de
densidad de probabilidad est dada por:
2(x +2)
si Ol x l l .
1 O
en cualquier otra parte.
a) Verifique que en efecto, f (x) es una funcin de densidad de probabilidad.
6) Encuentre la distribucin acumulada de probabilidad F(x).
C) Calcule la probabilidad de que entre 30 y 60 % de personas que reciben la co
rrespondencia, la respondan.
4 Encuentre el porcentaje esperado (media) de personas que van a responder la
invitacin.
e) Determine la varianza y la desviacin estndar de la variable aleatoriax.
31. Si X tiene la distribucin uniforme discreta f (x)= '-, para x = 1, 2, . .
. k, demuestre
k
que se verifica lo siguiente:
32. Un joven estudiante obtuvo 91 de calificacin en un examen de matemticas, en
el
que la media del grupo fue 46 y la desviacin estndar 18. El mismo joven obtuv
o
calificacin de 80 en su examen de historia universal, en el que la media de calif
icacin del grupo fue 62, con una desviacin estndar de 7. Tipfique sus calificaciones
obtenidas en ambas asignaturas, para decidir cul de las dos fue ms meritoria.
33. Un profesor de matemticas realiz un examen en el que la media del grupo fue d
e
63 con una desviacin estndar de 10.5. Entonces decidi ajustar las calificaciones de
todos en una nueva escala en que la media fuese 70 y la desviacin estndar fuese 8.
Cmo se transformaran ahora las calificaciones de aquellos estudiantes que hubiesen obtenido inicialmente calificaciones de
Cap. 4. Variables aleatorias y distribuciones de probabilidad 147
34. Una jovencita de segundo ao de bachillerato obtuvo las siguientes calificac
iones en
sus exmenes escolares, en las que aparecen las respectivas medias y desviaciones
estndar del grupo:
lhnsforme cada una de sus calificaciones a escala tipificada y comente acerca de
su

desempeo o mrito relativo en cada asignatura. Cul de las asignaturas es en la que


ella tiene mejor desempeo y cul es en la que muestra mayor deficiencia?
35. Con respecto a los datos del ejercicio anterior, suponga que un jovencito e
st en el
mismo grupo y sac 33 de calificacin en redaccin y 46 en fsica. Cul de las dos
notas tiene mayor mrito relativo?
36. Un maestro de fsica realiz un examen en el que la media de calificacin fue de
42.3
y la desviacin estndar de 15.8. Decidi ajustar las calificaciones a una nueva escal
a
en la que la media fuese 50 y la desviacin estndar 20. Cmo se transformara cada
una de las siguientes calificaciones mediante el ajuste?
37. Considere el siguiente conjunto de nmeros: (3, 14, 15, 9,26, 5).
Anpt urr
Materntic:
Fjsica
a) Tipifique cada uno de los valores para tenerlos en puntuacin estndarz.
b) Encuentre Cz y Cz2 para deducir el valor de la desviacin estndar de las puntu
aciones tipificadas.
c) Reescriba cada uno de los seis nmeros originales en una nueva escala en la qu
e
la media sea 40 y la desviacin estndar 15.
~ e d t a del gntpo
51
LA
Historia
Redaccin
Ingls
-38. La revista Shajovski Inf omt or (Informador ajedrecista) contrat a tre
s famosos
grandes maestros de ajedrez ya retirados, Krpov, Seirawan y Larsen, para que dier
an
una evaluacin en escala del O al 100 sobre las cinco partidas que resultaron
candidatas a la mejor partida magistral jugada en el mundo durante el ao. Al fi
nal se
sumaran las puntuaciones para decidir cules fueron las mejores partidas. Las calif
icaciones que dieron estos jueces fueron las siguientes:
Desviacin estndar
73 50
A2rpov
/ Partida 4 1 68 80
13
Partida 1
Partida 2
Partida 3
Seirawan Larsen Total
50
72
67
Lpanida 5 / 48 1 74
p.
92 - 1 2 1 4 1 lo.
82
75
79 1 198 >.
-

70
40
202
187
20.
40.
148 Parte l . Estadstica descriptiva
a) Qu truco estadstico us Larsen para asegurar, sin conocer las opiniones de sus
colegas, que los lugares finales coincidiran con su propio punto de vista?
6) Haga un cuadro similar en donde las calificaciones sean las puntuaciones t
ipificadas de cada juez. Compruebe que entonces los lugares no sern los mismos y
explique por qu este mtodo sera ms justo que el usado.
39. Considere un conjunto de 10 nmeros (x) tales que Zx = 53, ZxZ = 330.
a) Calcule la media y la desviacin estndar (poblacional) de los datos de ese conju
nto.
6) Suponga que se aaden al conjunto los nmeros 8 y 12. Obtenga ahora los nuevos valores de las sumas Ex y z$ y calcule la media y la desviacin estndar @oblacional) del conjunto de los 12 nmeros.
40. En un club hay 100 hombres y 150 mujeres. Se combinaron las estaturas de
las 250
personas en un conjunto cuya media fue 174 cm y cuya desviacin estndar fue 12 cm.
Si se sabe que las estaturas de los hombres tienen media 178 cm y desviacin estnda
r
10 cm, cul es la media y la desviacin estndar del conjunto de las estaturas de las
mujeres?
41. Una variable aleatoria continua X tiene la siguiente funcin de densidad de p
robabilidad:
h2(1-x) si OI x I 1
de otro modo.
a) Obtenga el valor de la constante k.
6) Calcule P(0.4 S X I 0.6).
42. Suponga que la variable aleatoria continua X tiene la siguiente funcin de d
ensidad
de probabilidad:
k x 3 si O I x I 3 .
de otro modo.
a) Obtenga el valor de la constante k.
6) Halle la moda.
c) Encuentre la mediana.
) Encuentre la posicin del noveno decil, es decir, el valor de a tal que P(X> a) =
0.1.
43. Si la variable aleatoria continua X tiene
k s i OI x I 4 .
O de otro modo.
a) Obtenga el valor de la constante k.
6) Calcule P(2 I X I 3).
Cap. 4. Variables aleatorias y distribuciones
44. Una variable aleatoria continuax tiene la
h si O l x l l .
si 1 c x I 4 .
de otro modo.
Halle:
a) la media
6) la varianza
c) la mediana.
45. Suponga que la duracin de vida de cierto

la siguiente f.d.p.:

de probabilidad 149
siguiente f.d.p.:

insecto, en meses, es unavariable a

leatoria
continua cuya densidad de probabilidad est dada por:
h2( 4- x) s i OI x I 4 .
de otro modo.
a) Halle el valor de la constante k y dibuje un croquis de la grfica de f (x).
6) Encuentre el tiempo ms probable de vida (moda) para este insecto.
c) Halle la probabilidad de que un espcimen de este insecto muera antes de haber
cumplido un mes de vida.
46. La variable aleatoria continua X denota el tiempo (en minutos) que un us
uario del
metro del Distrito Federal tiene que esperar para la llegada del tren, en cierta
estacin por las maiianas, de suerte que su f.d.p. es la de la siguiente figura:
a) Determine el tiempo mximo que el usuario puede esperar.
6) Describa la ecuacin exacta de la f.d.p., de acuerdo con el dibujo.
c) Encuentre el tiempo medio de espera.
4 Encuentre el tiempo por encima del cual se encuentra 40 % de las veces que ms
tiene que esperar (sexto decil).
47. Partiendo del hecho de que eqdx = -e-x + C, calcule el rea por debajo de l
a curva
I
cuya ecuacin esy =eq, desde x = O hasta infinito (vase la siguiente figura).
48. El tiempo (en unidades de 5 minutos) que demora la cajera de una ventanill
a para
atender al cliente en turno, es una variable aleatoria continuaxcuya densidad de
probabilidad es
e* si x 2 0.
f (x) =
O en otro caso.
Qu porcentaje de los clientes ser atendido:
a) en menos de 5 minutos?
6) en ms de 10 minutos?
c) en no ms de dos minutos y medio?
4 Cul es la probabilidad de que la cajera se tarde entre 5 y 10 minutos en atender
a un cliente?
e) A partir de qu tiempo se halla 20% de los clientes que ms se tardan en ser
atendidos por la cajera?
49. Si X es el nmero de tuercas defectuosas en una muestra aleatoria de 5 tuerca
s sacadas de cierta lnea de produccin industrial, se ha determinado que la distribucin
acumulada de probabilidad de la variable aleatoria discretax est dada por la sigu
iente tabla:
Calcule la probabilidad de que al examinar 5 tuercas al azar, el nmero de defect
uosas sea de:
a) cuando mucho 2
b) exactamente 2
e) cuando menos 2
4 menos de 2.
50. Obtenga una tabla para la distribucin de probabilidad (no acumulada) de la v
ariable
aleatoria X del ejercicio 49.
51. Suponga que la distribucin de probabilidad acumulada de la variable aleatori
a disCap. 4. Variables aleatorias y distribuciones de probabilidad 1 5 1
creta X que representa el nmero de veces que una moneda cae con el signo de

guila hacia arriba en 8 lanzamientos, est dada por la tabla siguiente:


Segn esto, si se lanza la moneda 8 veces, calcule la probabilidad de que el nmero
de veces que caer con el signo de guila hacia arriba sea de:
a) menos de 4
b) al menos 4
c) ms de 4
4 al oms4
e) exactamente 4.
52. Con respecto a los datos del ejercicio 51, obtenga una tabla con la distri
bucin de
probabilidad (no acumulada) de la variable aleatoriax.
53. Para la variable aleatoria discretaxcuya distribucin de probabilidad se da e
n la tabla
siguiente, calcule:
a) la media
b) la varianza
c) el coeficiente de sesgo
d) la moda
e) el coeficiente de curtosis.
I
1
54. Partiendo de que e"& = - -e" + C (donde a es cualquier constante # O), c
ona
sidere la variable aleatoria continuax cuya f.d.p. est dada por:
e- si x>O.
O de otro modo.
Obtenga:
4 M(t ) = E(@) (funcin generatriz de momentos).
1 52 Parte l. Estadstica descriptiva
55. Encuentre una frmula para la integral indefinida a& &. (Sugerencia: J;
= xk)
56. Si X es una variable aleatoria continua cuya f.d.p. est dada por:
f(x)={;& Si O<x<l .
de otro modo.
a) Encuentre el valor de la constante c.
6) Evale P(0.2 <X S 0.8).
57. Con respecto al ejercicio 56, encuentre las siguientes esperanzas:
58. Considere la variable aleatoria continuax tal que su f.d.p. es:
lo de otro modo.
a) Compruebe que f(x) satisface las condiciones de una funcin de densidad de
probabilidad.
6) Calcule P(3 e X S 4).
c) Obtenga la expresin matemtica para la distribucin acumulada de probabilidad
F(x).
59. En relacibn con la variable aleatoriax del ejercicio anterior, obtenga E(3X
2 - 5).
60. SeaX la variable aleatoria continua cuya funcin de densidad de probabilidad t
iene la
grfica que aparece en el siguiente dibujo:
Cap. 4. Variables aleatorias y distribuciones de probabilidad 1 53
a ) Encuentre una expresin matemtica para f (x).
b) Calcule los valores exactos de P(y - o I X I y + o) y de P(p - 20 I X I p
+ 20).
c) Encuentre una expresin matemtica para la distribucin acumulada de probabilidad F(x).
61. Un ingeniero trabaja en un despacho que queda ms o menos a unos 30 min
utos
en automvil desde donde l vive. El ha determinado que la variable aleatoria T que

representa el tiempo (en minutos) que hace desde su casa hasta su despacho, en u
n
solo sentido, tiene la siguiente grfica de densidad de probabilidad, con la ecuac
in
que la acompaa abajo:
Se observa que es una distribucin simtrica, en la que la media, la mediana y la mo
da
valen 30 minutos. Adems, el tiempo mnimo posible en el que l podra realizar el
viaje es de 10 minutos, mientras que el tiempo mximo posible es de 50 minutos. El
ingeniero ha determinado que, de acuerdo con esto, la densidad de probabilidad d
e
la variable aleatoria T tiene la siguiente expresin matemtica:
1 O de ouo modo.
a) Compruebe que, en efecto, f (10) = f (50) = 0.
2
b) Verifique que f(30) =& = 0.0375.
c) Compruebe que el rea bajo la curva y por encima del eje T es igual a la unida
d.
d) Calcule la probabilidad de que el ingeniero tarde ms de 40 minutos en llegar a
su
despacho.
e) Obtenga una expresin matemtica para la distribucin acumulada F(t ).
f) Si su hora de inicio de labores es alas 9:00 a. m. y l sale a las 835 todas l
as maanas, qu porcentaje de las veces llega tarde?
g) Si en su despacho se sirven caf y bocadillos de 8:40 a 8:50 a. m., y el ingeni
ero
sale a las 8:30 a. m. de su casa, cul es la probabilidad de que alcance a tomar ca
f
y bocadillos?
62. Con respecto al problema 61, calcule el valor de la desviacin estndar de la v
ariable
aleatoria T, y luego determine el porcentaje de tiempos que distan de la media
menos de una desviacin estndar.
63. Para la variable aleatoria continuaxcuya distribucin de probabilidad acumula
da est
dada por:
Encuentre:
b) la mediana me, es decir, el valor de x tal que F(x) = ' ;
2
3
C) el tercer cuartil Q,, es decir, el valor de x tal que F(x) = -;
4
4 el octavo decil D,, es decir, el valor de x tal que F(x) = 0.8.
64. Considere una variable aleatoria continuax tal que su funcin de distribucin a
cumulada de probabilidad F(x) es la siguiente:
Calcule, en cada caso, el valor de x tal que:
65. Tome una hoja de papel blanco o cuadriculado y dibuje un croquis de la func
in F(x)
del ejercicio 63.
66. SiXes la variable aleatoria discreta que denota el nmero de abortos clandesti
nos que
tienen lugar cada da en la ciudad de Guadalajara, suponga queXse puede aproximar
mediante una variable continua cuya distribucin acumulada de probabilidad es la
siguiente:
Calcule la probabilidad de que en un da cualquiera, el nmero de abortos clandesti-

nos realizados en la ciudad de Guadalajara sea de:


a) al menos 10
6) menos de 10
c) exactamente 10
d ) ms de 10
e) a lo ms 10.
Para motivar este tema, empecemos por exponer los principios de conteo.
Hay dos principios bsicos de conteo, a partir de los cuales se deducen las frmulas y tcnicas del anlisis combinatorio:
Principio multiplicativo: Si una tarea consiste de n pasos distintos y otra
tarea consiste de m pasos distintos, y si ambas tareas no son excluyentes,
sino que se pueden realizar juntas o en sucesin, entonces el nmero total de pasos distintos (o maneras) en que pueden realizarse ambas tareas
es de n x m. Desde luego, este principio se generaliza fcilmente para
ms de dos tareas. Aqu, tarea significa un tipo cualquiera de procedimiento, proceso u operacin.
Principio aditivo: Bajo las mismas premisa5 que en el principio anterior,
si las dos tareas en cuestin no pueden hacerse juntas ni en sucesin,
por tratarse de tareas mutuamente excluyentes (o incompatibles), entonces el nmero total de maneras en las que pueden realizarse ambas
e s d e n +m.
Factorid de un entero no negativo. n! = n( n - 1) 1 para n 2 1; y O! = 1 por
definicin. Por ejemplo, 2! = 2, mientras que 4! = 24.
Combinaciones. Las combinaciones de n objetos (o cosas), tomando r de
ellos a la vez, representan el nmero de subconjuntos diferentes de tamao r que
se pueden formar con esos n objetos. En las combinaciones, el orden de apari1 58 Parte 11. Principales distribuciones estadisticas
cin de los objetos es irrelevante. Las notaciones usuales para combinaciones de
n en r son:
Por ejemplo, si hay un total de 10 personas en un grupo y se desea seleccionar un comit de cinco de ellas para asistir a una exposicin, entonces el nmero de formas diferentes en que ello se puede hacer es de
= 10C5 = 252 (se
( y)
puede sacar con cualquier calculadora).
Es muy sencillo hallar el nmero de combinaciones usando una calculadora
cientfica, para lo cual hay que usar la tecla que dice nCr. Si su calculadora no
trae
esa funcin (lo cual sera raro), puede emplear la siguiente frmula, pero entonces hay que realizar algunas multiplicaciones:
(:) =
n(-l)-.-(n -r +1) - n!
r! r!(n - r)!
Para dos enteros no negativos cualesquiera n y r (n 2 r) se verifica la
igualdad:
La explicacin de esta frmula til es muy sencilla: cada vez que usted selecciona r objetos de un total de n, dej an - r objetos que no tom. El nmero total
de formas en que pudo hacer su seleccin puede contarse de dos maneras: contando las listas de objetos que seleccion, o bien contando las listas de objetos
que no tom. Obviamente, ambas listas deben coincidir en cuanto a nmero.
Ejemplo 5.1. Calcular
(7;).
Solucin: Hacemos:
Muchas calculadoras no tienen incorporada esta identidad, de ah su importancia.
Por ejemplo, en una calculadora modelo Sharp EL-531L, si uno trata de calcul
ar ,,C9,,
aparece mor , a causa de las operaciones monstruosas que se tendran que realizar

en
el mecanismo operacional de la calculadora. En cambio, si uno pone ,,C,, apare
ce en la
pantalla la respuesta correcta: 161 700.
Ejemplo 5.2. Un seor tiene nueve corbatas en su guardarropa y desea elegir tres
para llevrselas a un viaje. De cuntas formas puede realizar su seleccin?
Solucin: Puede hacerlo de 84 maneras distintas.
(3)
Cap. 5. Las distribuciones discretas tericas ms importantes 1 59
Ejemplo 5.3. De un grupo de 10 turistas que visitan la Ciudad de Mxico se desea
escoger un comit de cinco de ellos para hacer un viaje a las pirmides de Teotihuac
an.
De cuntas formas puede seleccionarse el comit si hay dos turistas especficos que no
quieren hacer el viaje?
Solucin :
Ejemplo 5.4. En un cajn hay 13 pilas tamao D para linternas, de las cuales ocho
estn nuevas y las restantes cinco son usadas y no funcionan. Si uno selecciona un
conjunto de cinco pilas (sin remplazo), de cuntas formas nos pueden haber tocado
tres
nuevas y dos usadas?
Solucin: Las tres nuevas nos pudieron tocar de maneras, mientras que las dos
(9 . .
usadas nos pudieron tocar de maneras. Por el principio multiplicativo, el nmero
de
formas en que pueden haber tocado tres nuevas y dos usadas es de:
5.2. EL MUESTRE0 CON REPOSICI~N Y LA DISTRIBUCI~N
BINOMIAL
Si se tiene una urna con esferas de dos colores, y cada vez que se extrae
una esfera, se anota el color y se vuelve a meter la esfera en la urna, se hace
un
ensayo con reposici6n -o con remplazu- (tambin llamado ensayo de Bernoulli).
Este tipo de ensayos representan una amplia variedad de situaciones en las que
se tienen pruebas repetidas independientes con slo dos resultados posibles,
llamados grito y fracaso. Pueden incluso ser esferas de varios colores, y para c
ada
color decimos que hay dos resultados posibles, a saber: "un color particular"
y
"los dems colores".
Los ensayos de Bernoulli se examinaron por primera vez en la obra Ars conjectandi de Jacques (Jacob) Bernoulli (1654-1705), publicada por su joven
sobrino Nicolaus en forma pstuma en Basilea, Suiza, en 1713, y por eso se llaman
ensayos de Bernoulli. Al final del captulo se proporcionan los datos biogrficos
de J. Bernoulli y un facsmil de la portada de su libro. Los ensayos de Bernoul
li
estn estrechamente relacionados (de hecho coinciden) con los coeficientes de la
expansin de un binomio a la potencia n (coeficientes binomiales).
Si un experimento aleatorio consiste de n ensayos repetidos independientes, de los cuales slo hay dos tipos: hi t o (con probabilidad individual igual a
p) y
fracaso (con probabilidad individual igual a q = 1 - p) , entonces la probabil
idad de
que en n ensayos ocurran exactamente k xitos y n - k fracasos est dada por:
1 60 Parte 11. Principales distribuciones estadsticas
La caracterstica de los ensayos de Bernoulli es quep es un valor fijo o constant
e
en cada situacin especfica. Adems, por definicinp + q = 1.
El uso de las palabras &to yfiacaso es slo un eufemismo para distinguir
que se trata de dos tipos distintos de ocurrencia, y por supuesto, no hay ningun

a
implicacin de que se trate de cosas buenas o malas. Es lo mismo que ocurre en
electricidad, por ejemplo: la carga elctrica puede ser negativa o positiva, pero
no hay ninguna implicacin de que la negativa sea mala y la positiva sea buena, o
algo por el estilo.
Ejemplo 5.5. Si se supone que la probabilidad de que un beb que nace sea vardn
1
es de - , calcular la probabilidad de que los siete hijos de un matrimonio sean
dos varo2
nes y cinco mujeres.
Solucic5n: Aplicando la frmula se tendr:
si decimos que Rrito es ser hombre; o bien:
si el xito es ser mujer. Desde luego, ambos enfoques conducen al mismo resultado:
Este esquema de ensayos con reposicin (o muestre0 con remplazo) da
pauta a la llamada distribucin binomiai, la cual es una de las ms tiles en la teora estadstica y se denota por:
donde la variable aleatoria discretax puede tomar cualquier valor, desde O hasta
n, y la probabilidad correspondiente (es decir, la frecuencia relativa terica)
se
calcula con esta frmula.
Las letras de la frmula simbolizan lo siguiente:
n = Nmero de ensayos
p = Probabilidad individual de un xito (es un valor fijo)
q = 1 - p = Probabilidad de un fracaso
x = Nmero de xitos en los n ensayos.
Ejemplo 5.6. Suponga que en una ciudad s610 70% de los automovilistas tiene
n
licencia para conducir. Se requiere calcular la probabilidad de que exactament
e 8 de 12
automovilistas elegidos al azar tengan licencia para conducir.
Cap. 5. Las distribuciones discretas tericas ms importantes 1 6 1
Solucin: Resulta claro que se trata de una distribucin binomial, porque la probabilidad de un xito (en este caso, que el automovilista tenga licencia) es un valo
r numrico fijo: p = 0.7.
Este problema equivale a que en un frasco se tuvieran canicas o pequeas esferas,
de las cuales 70 % fuesen canicas azules y 30 % canicas rojas. Luego escogemos u
na muestra de n = 12 canicas con reposicin; esto es, se van sacando las 12 canicas d
e una en
una, anotando el color en cada caso y regresando cada canica al frasco antes de
sacar la
siguiente. Se requiere calcular la probabilidad de que se hayan anotado 8 azules
(xitos)
y 4 rojas (fracasos).
Volviendo al ejemplo, tenemos que n = 12, p = 0.7, q = 0.3 y x = 8. Luego:
Este resultado se obtiene rpidamente con ayuda de una calculadora de bolsillo.
Ejemplo 5.7. Suponga que un jugador de basquetbol estima, basado en su experiencia, que encestar aproximadamente 70% de
anasta.
Calcular la probabilidad de que en una serie de
dos y cuatro
inclusive.
~oluci6n: Tomemos como xito encestar el tiro;
bilidad de un fracaso). En este caso, n = 6.

los tiros libres que lance a la c


seis tiros libres enceste entre
luego, p = 0.7 y q = 0.3 (probaPor lo tanto, tenemos (usando

el principio
aditivo) :
La moda en la distribucin binomial. En el caso de que (n + 1)p no sea un
valor entero, hay slo un valor ms probable (moda) en la distribucin binomial,
el cual es:
donde los corchetes denotan laparte entera del nmero, es decir, el mayor entero que no excede al nmero. Por ejemplo, [3.27] = 3 o bien [7] = 7.
A decir verdad, antes de realizar la multiplicacin (n + l)p, conviene averiguar si el producto np es entero, en cuyo caso la moda es directamente:
m, = [(n + l)p] = np
Si (n + 1)p es un valor entero, entonces hay dos modas:
Ejemplo 5.8. Calcular la moda en los siguientes casos de distribucin binomial:
1 62 Parte 11. Principales distribuciones estadsticas
Solucin:
1
a) Como 12 X -= 4 es entero, entonces la moda es m, = 4.
3
1
6) En este caso, la moda se halla as: como (15 +1) x y =4 es entero, entonce
s
hay dos modas: 3 y 4.
2
c) En este caso, la parte entera de 10 x - es [2.857.. .] = 2, por lo que
la moda es
7
Media (o valor esperado) en la distribucin binomiai. La media de la distribucin binomial vale siempre p = np. Este valor es muy til y sugerimos al lector
que lo recuerde siempre. Para una demostracin, puede consultar algn manual
de probabilidad y estadstica para ingenieros.
Varianza de la distribucin binomial. La varianza de la binomiai es siempre
u2 = npq. Igualmente, el estudiante interesado puede consultar una demostracin
rigurosa en algn manual de probabilidad y estadstica para ingenieros.' Desde
luego, la desviacin estndar en la distribucin binomial est dada por cr = 6.
Sesgo en la distribucin binomial. El sesgo en la distribucin binomiai
1
depende del valor del parmetrop. Si p =-, entonces el sesgo es cero y la
2
grfica (histograma) es perfectamente simtrica y acampanada. Sin embargo, cuan1
do O < p < y, la distribucin tiene sesgo positivo, y el sesgo es tanto ms acenL
1
tuado a medida quep tiende a cero. En cambio, cuando - < p < 1, el sesgo sera
2
negativo y se acentuar cada vez ms a medida quep tienda a 1. De hecho, en
libros de estadstica para ingenieros se prueba que el sesgo de la distribucin binomial est dado por:
Recurdese que sesgo positivo quiere decir que la asimetra del histograma
(o de una curva) es tal que aparece una especie de cola a la derecha y que
la
'Vase, por ejemplo, el libro Pmbabilidad y estadfsticapara ingeniera y ciencias,
de Gabriel Velasco Sotomayor y Piotr Manan Wisniewski, Thomson International Editores, Mxico,
2000, pp. 115-116.
Cap. 5. Las distribuciones discretas tericas ms importantes 1 63
mayora de las frecuencias relativas acumuladas tienden a concentrarse del lado
izquierdo de la media. En cambio, el sesgo negativo indica que hay una especie
de cola del lado izquierdo y que la mayora de las frecuencias acumuladas se cargan del lado derecho.

Por ejemplo, en la figura 5.1 se tiene el histograrna de b x, 10, - . No hay


:1
sesgo ni positivo ni negativo, porquep = 0.5. Por tanto, la distribucin es de aspecto acampanado. La distribucin de esta figura podra corresponder, por ejemplo, a la siguiente situacin: Se lanza una moneda al aire un total de n = 10 vece
s,
y entonces,x denota el nmero de veces que la moneda cae con el lado del guila
hacia arriba.
1
Figura 5.1. Histograma para la distribucin binomial b(x. 1 O.-).
2
5.3. EL USO DE TABLAS Y DEL ExmEN LA DISTRIBUCI~N
BINOMIAL
Para clculos de probabilidades binomiales resulta muy til tener a la mano
tablas de probabilidades acumuladas, de la forma 2 b(x, n, p). la mayora de los
x=o
libros de estadstica traen tales tablas, ya sea con cuatro o ms dgitos decimales.
Dichas tablas proporcionan un men adecuado de valores dep, desde 0.10 hasta
0.90, y valores de n, desde 1 hasta 18 o 20. Si uno quiere hallar la probabili
dad de
1 64
Parte 11. Principales distribuciones estadlsticas
un valor puntual (no acumulado), por ejemplo, b(r, n, p), se usan las tablas de
la
siguiente manera:
Esto se traduce en restar un valor de la tabla menos el valor que est inmediatamente arriba de l.
Ejemplo 5.9. Supngase que se da por vlido que 90 % de los automovilistas del Distrito Federal intentan darse a la fuga cuando son culpables de algn accidente de
trnsito.
Calcular la probabilidad de que, de un total de 15 accidentes de trnsito elegidos
al azar,
cuando mucho en 12 casos el culpable haya intentado darse a la fuga.
12
solucin: Hay que caicular b(x, 15, 0.90). Se busca en las tablas n = 15,p = 0.
90,
x=o
r = 12, y se halla 0.1841. En tablas con seis dgitos se obtiene la respuesta
ms precisa
0.184061.
Otro mtodo rpido y efectivo para el clculo de probabilidades binomiales
consiste en usar Excel o algn otro software cientfico o de estadstica.
9
Ejemplo 5.10. Con el Excel de Microsoft Office, calcular b(x, 15, 0.7258)
x=o
Solucin: En la barra de iconos se pulsa donde dice& y aparece el cuadro de men
que se aprecia en la figura 5.2. En Categora de la funcin se selecciona Estadis
ticas y en
Nombre de lafuncin se elige DISTR.BIN0M. Luego se pulsa Aceptar. Entonces aparece
un cuadro de dilogo. Donde dice Nmero de &to se escribe 9, donde dice Ensayos se
escribe 15, en Pmbabilihd de hito se pone 0.7258, y donde dice Acumulado, se p
one
verdadero, o simplemente un 1. Si se hubiera puesto falso (o un O) entonces slo
se habra obtenido el valor de b(9,15,0.7258) sin acumular. Otro modo aun ms directo ha
bra
sido escribir directamente esto: =DISTR.BINOM.(9,15,0.7258,1) y dar enter. La

respuesta
aparece instantneamente: 0.20661043.
NOTA: NO es necesario que escriba DISTR.BINOM. con maysculas; puede hacerlo con
minsculas tambin. Lo que s es importante observar es que si el Excel que usted us
a
est en ingls u otro idioma, entonces debe averiguar primero cul es la sintaxis para
la
distribucin binomiai en ese idioma, y lo mismo para las dems utileras estadsticas.
5.4. EL MUESTREO SIN REPOSICI~N Y LA DISTRIBUCI~N
HIPERCEOMTRICA
. - - Los ensayos sin reposicin siguen un modelo o patrn muy distinto a los
ensayos con reposicin, porque las probabilidades van cambiando en cada extraccin. Recurdese que para los ensayos con reposicin, las probabilidadesp y
q se mantenan fijas.
Supngase que se tiene un conjunto de N objetos, al que llamaremos en
ISTR BETA INV
icin binr
Figura 5. 2
forma provisional lapoblacin, el cual consiste de k xitos y (N - k)fracasos, y
del cual extraemos una muestra de n objetos (sin reposicin). No importa si son
extrados de uno en uno o todos juntos, pero no deben regresarse al conjunto
de donde se sacaron. Esta muestra puede contener algunos "xitos" y otros "fracasos". La probabilidad de que en esta muestra de tamao n sin reposicin haya
precisamente x xitos y (n -x) fracasos, est dada por el cociente de casos favorables entre casos totales, es decir:
Este esquema de ensayos sin reposicin da pauta a la llamada distribucin
hipergeomtrica. Las letras usadas en esta frmula simbolizan lo siguiente:
N = Tamao de la poblacin
k = Nmero de xitos en la poblacin
n = Tamao de la muestra (sin remplazo)
x = Nmero de xitos en la muestra.
La variable aleatoria discretax puede tomar cualquier valor, desde O hasta n.
1 66 Parte 11. Principales distribuciones estadsticas
Esta distribucin suele denotarse mediante el smbolo b(x, N, n, k), aunque
tambin algunos autores invierten el orden de los dos parmetros que van en el
centro: h(x, n, N, k). El Excel usa la sintaxis: =DISTR.HIPERGEOM(x,n,k,N).
Ntese que el orden de las letras en Excel es distinto.
Ejemplo 5.11. En un grupo de personas hay cinco mujeres y tres hombres. Si se e
scoge por lista un comit de cuatro personas al azar para acudir a una exposicin, ca
lcular
la probabilidad de que en el comit vayan por lo menos dos mujeres.
Solucin: En este caso tendremos:
Si el tamao de la poblacin (N) es mucho mayor que el tamao de la muestra (n), entonces el muestreo con reposicin o sin ella es virtualmente el mismo.
Por eso, desde el punto de vista prctico, la mayor utilidad de la distribucin hipergeomtrica en estadstica estriba en que tiende a la distribucin binomial con
h?
parmetro P = - a medida que N n.
N
Media (o valor esperado) en la distribucin hipergeom&ca. La media en la
nk
distribucin hipergeomtrica es P= -, lo cual tiende al valor de la media en la
N
binomial p = np si N >> n.
Vatianza de la distribucin hipergeomdtrica. La varianza en la distribu~~ -

k N- k N- n
cin hipergeomtrica est dada por oZ = n - - - lo cual es
N N N- 1 '
ms fcil de recordar si se ve la tendencia al valor 02 = noa de la binomial. donde
A x
k N- k
p = 4 ' N- n
y el ltimo factor N ' N
tiende a 1 cuando N n. Para una
N- 1
demostracin formal de estos hechos, el lector interesado puede consultar la
obra que se cita al calce.2
N- n
En teora del muestreo, el cociente - se suele llamar factor de wrrecN- 1
cin para poblaciones finitas, aunque algunos autores prefieren llamar as
a la
magnitud JE. Es una cuestin de gustos. El primero es el factor de correccin para una varianza; y el segundo, para una desviacin tpica. Lo importante es
que cualquiera de las dos magnitudes tiende a la unidad cuando N n.
Ejemplo 5.12. Suponga que en una caja hay 500 esferas, de las cuales 300 son azu
les
y 200 son blancas. Calcular la probabilidad de que una muestra aleatoria de 1
2 esferas
extradas de esa caja contenga 7 azules y 5 blancas, si el muestreo se hace:
"abnel Velasco Sotomayor y Piotr Manan Wisniewski, Probabilidad y estadstica par
a ingeniera
y ciencias, Thomson International Editores, 2000, p. 121.
Cap. 5. Las distribuciones discretas tericas ms importantes
1 67
a ) con reposicin
6) sin reposicin.
a ) Si el muestre0 es con reposicin, entonces ello significa que se van sacando
las
10 esferas de una en una, y que en cada extraccin se anota el color y se vuelve
a depositar la esfera en la caja antes de sacar la siguiente. En ese caso, si d
enotamos por xito que una esfera sacada sea azul y porfracaso que sea blanca,
tendremos ensayos de Bernoulli con n = 12,p = 0.6, q = 0.4, x = 7. Luego:
(con ayuda de una calculadora de bolsillo).
b) Si la muestra se extrae sin remplazo, entonces:
Como era de esperarse, los resultados de ambos incisos son muy parecidos, porque
500 12.
Muchas de las distribuciones estadsticas importantes involucran al nmero
real e = 2.718281828.. . , que es la base de los logaritmos naturales. En curso
s de
clculo, se define dicho nmero real como cierto lmite especial y tambin se
comprueba que se puede llegar a l mediante una serie infinita simple:
No es necesario que el estudiante conozca las sutilezas de este nmero real,
tan importante en todas las ramas de las matemticas aplicadas y en la estadstica.
Basta con que sepa calcular potencias de dicho nmero con su calculadora de
bolsillo. Para ello obsrvese que la funcin ex = exp(x) es la inversa de la funcin
logaritmo natural lnx. Por tanto, en la parte de afuera de la tecla que correspo
nde
a la funcin ln en su calculadora aparece la funcin ex, as que la puede llamar con

el SHIFT (o 2nd F).


Se dice que la variable aleatoria discretax tiene distribucin de Poisson con
parmetro h > O si su distribucin de probabilidad est dada por:
1 68 Parte 11. Principales distribuciones estadsticas
Esta distribucin fue estudiada por el ilustre matemtico y h'sico francs
Simon Denis Poisson (1781-1840). El trabajo de Poisson donde aparece por primera vez esta distribucin tiene un ttulo bastante raro: Recherches sur la probabilit des jugements en matiere criminelle et en mati&re civile, y aparec
i
publicado en 1837, es decir, tres aos antes de la muerte de este gran cientfico.
Uno de los usos ms importantes de la variable aleatoria con distribucin de
Poisson se encuentra en lo que se conoce como flujo de sucesos de Poisson. Un su
ceso
de Poisson tiene una probabilidad insignificante (virtualmente cero) en un inter
valo
pequeo de tiempo (puede ser tambin de rea o de volumen); sin embargo, en intervalos considerables se puede registrar un promedio estadstico del nmero aproximado de ese tipo de ocurrencias. Por ejemplo, en la Ciudad de Mxico suelen ocurri
r
sismos de vez en cuando, pero la probabilidad de que ocurra un sismo en un inter
valo
de tiempo breve (por ejemplo, una hora o incluso un da) es despreciable. No obsta
nte, podra decirse que ocurren, por ejemplo, tres sismos cada lustro en promedio.
Algunos ejemplos de sucesos de Poisson son: el nmero de llamadas telefnicas que recibe una persona normal por unidad de tiempo (por ejemplo, cada
hora o cada da), el nmero de clientes que visitan una tienda o restaurante cada
cierto tiempo, el nmero de accidentes de trnsito que ocurren en cierto crucero
cada mes, y el nmero de goles que se anotan en cada partido de futbol durante
el tiempo reglamentario. A decir verdad, casi todas las contingencias que ocurre
n
en un partido de futbol (goles, tiros de esquina, saques de banda, jugadores amo
nestados, expulsados, etc.) son sucesos de Poisson.
Ejemplo 5.13. Supngase que el campen mundial de billar, en la modalidad de carambola de tres bandas, registra un promedio de 1.2 carambolas por entrada.' De
terminar
la probabilidad de que en una entrada cualquiera, dicho billarista registre:
a) dos carambolas
b) por lo menos una carambola.
Solucin:
Media y varianza de la distribucin de Poisson. Tanto la media como la varianza de la variable aleatoria discretaxcon distribucin de Poisson son, curiosamente, iguales al parmetro h:
La demostracin de este hecho puede verse en los otros libros de estadstica y de probabilidad del autor, escritos en colaboracin con el doctor Wisniewski,
y que se han citado anteriormente.
Hoy da esos promedios ya han sido superados, gracias a mejores tcnicas y a los nue
vos materiales
y tecnologas.
Casi todos los libros de estadstica traen tablas acumuladas d e la distribu
cin de Poisson, las cuales son de fcil manejo. Para cada valor especfico de r y
d e p se obtiene:
Ejemplo 5.14. Si en una oficina se reciben en promedio 9.5 llamadas telefnicas p
or
hora, determinar la probabilidad de que durante una hora cualquiera se registren
no ms

de siete llamadas.
Solucin: Si asumimos que las llamadas telefnicas que entran a esa oficina son su7
cesos de Poisson, entonces hay que calcular 2 9(x, 9.5). Localizamos en tabla
s el valor
x=o
correspondiente a p = 9.5 y r = 7. La respuesta se lee directamente: 0.26866.
Con Excel, podemos hallar el mismo valor de la siguiente forma. Pulsamos el icon
o
que activa las funciones del Excel y aparece de nuevo el men de la figura 5.3. E
n Categora de lafuncin se elige Estadsticas y en Nombre de lafincin se selecciona POIS
SON. Si se pulsa Aceptar, aparece un cuadro de dilogo, en el que anotamos x = 7,
media
= 9.5 y verdadero en el mbro de Acumulado (o bien un 1). Instantneamente, apare
ce el
mismo resultado que con las tablas: 0.26866.
Categora de la funcin
1
Nombre de la func
Usadas recientemente
Todas PENDIENTE
Financieras
Devuelve ta distribucin de i-u~ssuri
Figura 5.3
1 70 Parte 11. Principales distribuciones estadsticas
Aproximacin de la distribucin binomiai a la distribucin de Poisson. Para
valores de n comparativamente grandes y valores pequeos dep, la distribucin
binomial se aproxima a la de Poisson de la manera siguiente:
Como regla prctica, basta con que se cumpla: n 2 50,p 5 0.1, para que la distribu
cin de Poisson sea una muy buena aproximacin de la distribucin binomial.
La distribucin de Poisson es tambin una distribucin lmite para la hipergeomtrica. En efecto, si se tiene una poblacin de tamao N, compuesta por k
xitos y N - k fracasos, y se extrae una muestra de tamao n sin reposicin, entonces la probabilidad de que la muestra contenga precisamente x xitos y n -x
fracasos, se puede aproximar con una Poisson, siempre y cuando se satisfaga que
N + a, k + m, n + m, y tambin se verifique que k/N + O, nk/N + h Entonces
se tendr:
Ejemplo 5.15. Si la probabilidad de que una computadora sea infectada por un vir
us
ciberntica es de 0.001, determinar la probabilidad de que, de un total de 2000 co
mputadoras de una empresa, exactamente tres se infecten.
Solucin:
Ejemplo 5.16. Supngase que un oficial de la pqlica de trnsito, detiene al 0.04 %
de los automovilistas que pasan por la avenida Miguel Angel de Quevedo, entre la
s 8 y las
11 de la maana, por considerar que han cometido alguna infraccin al reglamento
de
trnsito. Si durante ese lapso pasan por all aproximadamente 15 000 automviles, y e
ste
oficial se embolsa un promedio de 100 pesos por automvil que detiene, hallar la p
robabilidad de que dicho oficial consiga, durante ese lapso, los 500 pesos que neces
ita para
comprarse una botella de tequila, unos tacos y el pago de la "cuota" de su jefe.
Solucin: El nmero esperado de automviles que detiene durante ese lapso es p =
np = 15000 x 0.0004 = 6. Se usa la aproximacin de Poisson y entonces:

Ejemplo 5.17. Se tiene una variable aleatoria discretax, con distribucin de Poiss
on,
en la que se sabe que P(X = 1) = P(X = 3). De acuerdo con esa informacin, se requ
iere
determinar P(X = 5).
Cap. 5. las distribuciones discretas tericas ms importantes 1 7 1
Solucin :
Aqu hemos usado la notacin exp(x) en vez de e', que es una notacin tambin
muy usual.
La moda en la distribucin de Poisson. El valor ms probable (moda) e n la
distribucin d e Poisson es m. = [h] si h no es entero; mientras que si h es ent
ero,
entonces hay dos modas, a saber: h - 1 y h.
Ejemplo 5.18. SiXes una variable aleatoria discreta, con distribucin de Poisson,
tal
que P(X = 0) = 2P(X = l), determinar el valor ms probable de X.
e-xhO . p h l
Solucin : - - 1
*h=-, luegolamodaesm,=[h]=
O! l! 2
Ejemplo 5.19. En un sitio de taxis que son llamados por telfono, se ha observado
que en promedio solicitan un taxi cada seis minutos.
a) Determinar el nmero ms probable de taxis que sern solicitados durante la
prxima media hora.
b) Con ayuda del Excel, o de cualquier otro software para estadstica, dibujar un
histograma para la variable aleatoria X que representa el nmero de taxis solicitados cada media hora.
Solucin :
a) Si solicitan en promedio un taxi cada seis minutos, entonces solicitan en pro
medio cinco taxis cada media hora. Tmese la media hora como unidad de tiempo;
luego, la variable aleatoria X, que denota el nmero de taxis que salen cada media hora, est dada por P(x, 5). Como h = 5 es entero, entonces hay dos modas:
4 y 5. Por consiguiente, lo ms probable es que durante la prxima media hora
soliciten cuatro o cinco taxis. Veamos la comprobacin:
Figura 5.4. Histograma para la distribucin de Poisson Y(x. 5).
b) El histograma (probabilidad de que salgan X taxis durante media hora) se obs
erva en la figura 5.4.
Ejemplo 5.20. El nmero de buques tanque petroleros que llegan cada da al puerto
de Coatzacoalcos, Veracruz, sigue una distribucin de Poisson, con parmetro h = 2.
Las
instalaciones portuarias slo permiten atender a tres buques al da, y en caso de
que lleguen ms de tres en un da, los que estn en exceso se despachan al puerto cercano de
Allende, donde tienen que mantenerse a la espera.
a) Determinar la probabilidad de que en un da cualquiera tengan que enviarse buques al puerto de Allende.
6) En cunto deben aumentarse las instalaciones actuales del puerto de Coatzacoalcos, para permitir la atencin a todos los buques tanque 90 % de los das?
c) Cul es el nmero esperado de buques tanque que llegan al da al puerto de
Coatzacoalcos?
4 Cul es el nmero ms probable de buques tanque que llegan diariamente al
puerto de Coatzacoalcos?
Solucin:
a) Sea X el nmero de buques que llegan cada da al puerto de Coatzacoalcos. La
probabilidad de que no sean suficientes las instalaciones es:

Cap. 5. las distribuciones discretas tericas ms importantes 1 73


6) Si pudieran atender a cuatro buques en lugar de tres, la probabilidad de te
ner
que enviar buques a esperar al puerto de Allende sera de:
y la probabilidad de atender a todos los buques sera, obviamente:
C) E( X) =p=h=2.
d ) Como h = 2 es entero, entonces hay dos modas, a saber: 1 y 2. Por tanto,
lo ms
probable es que lleguen uno o dos buques en un da cualquiera.
Es posible que en una sucesin de ensayos de Bernoulli nos interese no
tanto el nmero de xitos y de fracasos, sino el nmero de intentos que hay que
realizar hasta lograr el k-simo xito.
Se dice que la variable aleatoria discreta X tiene distribucin binomid negativa (o Pasd), con parmetros k y p , donde k = 1, 2, 3, . . . x, y O < p
e 1, si su
distribucin de probabilidad est dada por:
Esta distribucin se refiere al orden de aparicin de los xitos en los ensayos de
Bernoulli, y corresponde a la probabilidad de que el k-simo xito tenga lugar
precisamente en el x-simo intento o ensayo.
Ejemplo 5.21. La probabilidad de que un automovilista que va por cierta aven
ida
tenga la luz roja en el semforo de un crucero, es 0.3. Entonces, podemos expresar
la probabilidad de que el octavo semforo que pasa sea el segundo en estar en la luz roj
a, del
siguiente modo: 6*(8,2,0.3).
Esto se calcula con la frmula as:
Si queremos calcular esto con el Excel de Microsoft Office, entonces vemoslo desde el punto de vista de los fracasos y los xitos requeridos para que ello ocurra.
Si el xito
es la luz roja y el fracaso es la luz verde (despreciaremos la duracin de l
a luz mbar),
entonces para el octavo crucero el automovilista llevara 8 - 2 = 6 fracasos y 2 xi
tos. Entonces, la sintaxis del Excel es esta:
1 74
Parte 11. Principales distribuciones estadsticas
Esto significa que la ocurrencia del ksimo xito en elx-simo intento es equivalente
a la
ocurrencia de x - k fracasos en el momento en que se cumple el k-simo xito.
Ejemplo 5.22. Supngase que Michael Jordan se entrena lanzando una sucesin
indeterminada de tiros libres a la canasta y que la probabilidad de que ence
ste un tiro
cualquiera es de 0.87. Calcular la probabilidad de que el duodcimo tiro que lanza
sea el
dcimo que logra encestar.
Solucin: 6*(12, 10, 0.87) = (0.87)'~(0.13)~ = 0.2309.
Con Excel tenemos entonces: =NEGBINOMDIST(2,10,0.87), que da el mismo resultado.
Media y varianza de la distribucin binomial negativa. La media y la varianza de la distribucin binomial negativa estn dadas, respectivamente, por
:
La distribucin binomial negativa y la binomial se relacionan mediante una
frmula que es muy fcil de demostrar y an ms fcil de recordar:
Un caso particular de esta distribucin es cuando k = 1, lo que produce la
llamada distribucin geomtrica con parmetrop, y suele escribirse de la siguient e manera:
Se llama as, porque su forma coincide con la del x-simo trmino de la progresin geomtrica dada por: p, pq, pqZ, pq3, . . .

Media y varianza en la distribucin geomuica. La' media y la varianza de la


distribucin geomtrica se calculan, respectivamente, en la siguiente forma:
Como la suma de los primeros n trminos de la progresin geomtrica:
P, pq, pqZ, pq3, - -. , pqn-' ,
..
est dada por:
Cap. 5. Las distribuciones discretas tericas ms importantes 1 75
ello nos proporciona una frmula sencilla para la distribucin acumulada de probabilidad en la distribucin geomtrica, a saber:
Ejemplo 5.23. Si vale 0.15 la probabilidad de que una persona encuentre un medic
amento que necesita en cualquier farmacia donde pregunte por l, calcular la probab
ilidad
de que tenga que preguntar por el medicamento en cuando mucho tres farmacias an
tes
de conseguirlo.
Solucin :
Ejemplo 5.24. Con ayuda de Excel o de cualquier otro software de estadstica, dibu
jar el histograrna correspondiente a la distribucin binomial negativa b*(x, 4,
0.42), para
lo cual se debe hacer primero una tabulacin de valores numricos, por ejemplo, desd
e
x=4hast ax=21.
Solucin: En una hoja de clculo de Excel se escribe en la celdilla Al el nmero 4,
en la A2 el 5, y as sucesivamente hasta llenar los valores numricos de la columna
A, desde 4 hasta 21. En la celdilla B1 se escribe: =NEGBINOMDIST(A1-4,4,0.42), se pul
sa enter
y luego dos clics rpidos con el botn izquierdo del muse en la parte inferior derec
ha de
la celdilla B1. Las celdilla de la columna B se llenarn como se muestra a continu
acin:
La figura 5.5 muestra el histograma.
Escriba correctamente el planteamiento algebraico con la frmula apropiada, pero r
ealice
tas operaciones con Excel, escribiendo con claridad la sintaxis requerida para l
a ejecucin
de la orden por el Excel y anotando la respuesta que aparece. Luego compare
con las
soluciones que se proporcionan. Menos de nueve aciertos significa que su ap
rovechamiento ha sido deficiente y arnerita repasar el captulo de nuevo. Ms de 12 acierto
s es
excelente. Recuerde que antes de escribir la orden de ejecucin para el Excel se r
equiere
que anote el planteamiento tambin con smbolos matemticos. Sugerimos que resuelva
esros ejercicios en dos sesiones de dos horas cada una, con un breve receso inte
rmedio.
Figura 5.5. Histograma de la distribucin binornial negativa bx( x, 4, 0.42).
Su esfuerzo ser una buena inversin para un ptimo aprendizaje.
1. Un seor fabrica piezas de ajedrez de plstico con calidad de exportacin. La mquin
a
que las produce saca 20 % de piezas defectuosas, las cuales tienen que ser tirad
as a la basura. Si se toma aieatoriarnente una muestra de seis piezas producidas por esa mq
uina,
determine la probabilidad de que por lo menos la mitad de ellas tengan defectos.

2. Si una moneda ordinaria se lanza ocho veces consecutivas, calcule la probabil


idad de
que resulten:
a) todas guilas
6) cuatro guilas y cuatro soles.
3. En un cibercafk hay 19 computadoras para uso del pblico. A pesar de que les da
n
mantenimiento regular, la encargada del lugar airma que siempre hay 10 % de probabilidad de que cualquiera de ellas tenga virus. Hallar el nmero ms probable de
computadoras que estn libres de virus.
4. Un embarque de 80 alarmas contra robo contiene cuatro que son defectuosas. S
i del
embarque se seleccionan ai azar tres y se envan a un cliente, encuentre la probab
ilidad de que el cliente reciba una unidad mala.
5. El nmero promedio de servicios (corridas) que hace un taxista desde que sale
a trabajar en la maana hasta la hora de su almuerzo al medioda, es de 12. Los servic
ios
que l hace son aleatorios e independientes. Cul es la probabilidad de que en un da
cualquiera el taxista haga menos de nueve servicios antes de la hora de su almue
xzo?
6. Resuelva este ejercicio relativo a la distribucin binomiai, por medio de la a
proximacin de Poisson. Los registros muestran que 0.0012 es la probabilidad de que un
a
persona se intoxique con alimentos si pasa el da en cierta feria estatal. Encuent
re la
probabilidad de que, entre 1000 personas que asisten a la feria estatal, cuando
mucho
dos se intoxicarn por alimentos.
7. Use la aproximacin de Poisson para resolver este problema relativo a la distr
ibucin
binomial. La seora Garca est encargada de los prstamos en un banco, y con base
Cap. 5. Las distribuciones discretas tericas ms importantes 1 77
en sus aos de experiencia, estima que la probabilidad de que un solicitante no se
a
capaz de pagar oportunamente su prstamo es de 0.025. El mes pasado realiz 40
prstamos. Cul es la probabilidad de que:
a) tres prstamos no se paguen de manera oportuna?
b) al menos tres prstamos no se liquiden a tiempo?
8. El promedio de llamadas telefnicas que entran en un conmutador es de dos llam
adas
cada tres minutos, y se supone que el flujo de llamadas sigue un proceso de Pois
son.
Cul es la probabilidad de que entren precisamente dos llamadas durante los pr6x.imos tres minutos?
9. Un futbolista sudamericano convierte en gol 40 % de los tiros de castigo con
barrera
que ejecuta. Determine la probabilidad de que el dcimo tiro libre con barrera qu
e
ejecute en un torneo sea el tercero que convierta en gol.
10. En una mquina copiadora de una papelera, 5 % de las copias salen defectuosas.
Si
un cliente va a fotocopiar un trabajo de cientos de pginas, determine la probabil
idad
de que antes de la decimosexta copia ya haya salido la primera defectuosa.
11. Un catador de vinos afirma que 90% de las veces puede distinguir entre

un vino
fino y uno corriente con slo degustar un sorbo de una muestra. Para comprobar o
desmentir su afirmacin, se le aplicar una pequea prueba consistente en degustar
nueve muestras de vino y decidir en cada caso si se trata de vino fino o corrie
nte.
El criterio para aceptar o rechazar su afirmacin es que si el individuo acierta
por lo
menos en seis de las nueve muestras, se aceptar su afirmacin, y en caso contrario,
se rechazar como falsa.
a) Determine la probabilidad de que si el sujeto no conoce nada de vinos y slo es
t
adivinando, logre pasar esa prueba.
6) Calcule la probabilidad de que aun suponiendo que es cierto lo que afirma (q
ue
es capaz de acertar 90 % de las veces), no logre pasar la prueba.
12. Un sujeto afirma que es capaz de distinguir a simple vista entre una perla a
utntica
y una falsa 75 % de las veces. Para comprobar si es cierto, se le muestran una p
or una
seis perlas diferentes escogidas al azar, y se aceptar lo que afirma si logra est
ablecer
la autenticidad (o falsedad) en por lo menos cinco casos; de lo contrario, se re
chazar.
a) Cul es la probabilidad de que se acepte su afirmacin, si realmente no sabe nada
y slo est adivinando?
6) Suponga que en efecto es cierto lo que afirma. Cul es la probabilidad de que
rechacen su afirmacin?
U 'Iies amigos han bebido cervezas en un bar y al final deciden lanzar una moned
a al
aire cada uno, simultneamente, para que aquel que obtenga signo distinto sea el
que pague la cuenta. Si las tres monedas salen del mismo signo, se lanzan de nue
vo.
Calcule la probabilidad de que se requieran ms de dos lanzamientos.
U ia Cruz Roja de Len, Guanajuato, recibe un promedio de 13 pacientes diarios pic
adas por algn alacrn. Determine la probabilidad de que tengan que atender ms de
11 casos diarios de picadura de alacrn:
1) en al menos tres de los siguientes siete das
H por primera vez en una semana el da mircoles
d por tercera vez en una semana el da viernes.
: mi d e r e el lunes como el primer da de la semana.]
~ PLJ ES TAS DE LOS EJERCICIOS DE AUTOEVALUACIN 5.1
2. Tomamos guila como xito. Entonces n = 8, p = 0.5. Luego:
3. Hay dos modas: 17 o 18 computadoras estn libres de virus, y son los nmeros c
on
ms alta probabilidad.
4. Sea xito = alarma no defectuosa. Luego h(2, 80, 3, 76) = p. para plantearlo
con Excel, se abre el men de funciones estadsticas, se busca la hipergeomtrica y se
siguen las instrucciones o, directamente:
Con Excel se escribe: =1-POISSON(2,1,1) = 0.0803.
8. 9(2,2). Con Excel se escribe: =POISSON(2,2,0). La respuesta es 0.2707.
9. b* (10,3,0.4). =NEGBINOMDIST(7,3,0.4) = 0.064497.
15
10. x?( x, 0.05) =1- (0.95)" = 0.5367- El Excel no tiene opcin acumulativa par
a la distribucin binomial negativa, y la distribucin geomtrica no la considera en su men.

Por tanto, la nica forma rpida de resolverlo con Excel es sta: = 1 - (0.95A15)
=
0.5367.
x=o
13. Como cada moneda puede salir de dos maneras distintas, hay Z3 = 8 formas di
stintas
en las que pueden resultar los lanzamientos, a saber: (m), (saa), (m), (ssa),
(am),
(m), (ass) y (sss). Slo en dos de ellas hay empate. Por consiguiente, si el xito
es resul6 3 2 1
tado decisivo y el fracaso es empate, entonces se tiene que p = - = - y q = - =
-.
8 4 8 4
La probabilidad de ms de dos intentos para el primer xito es, por tanto:
Con Excel: =0.25A2 = 0.0625.
14. La probabilidad de ms de 12 picaduras reportadas en un da es
Con Excel, la sintaxis para esto es:
a) Que ocurra eso en al menos tres de los siguientes siete das es:
b) Que ocurra lo mismo por primera vez el mircoles, equivale a tener el prime
r
xito en el tercer intento: g(3, 0.5369) = b*(3, 1, 0.5369). Con Excel es: =NEGBINOMDIST(2,1,0.536895). La respuesta es 0.115146.
c) Finalmente, la probabilidad de que pase lo mismo por tercera vez en una sema
na el da viernes, equivale a tener el tercer xito en el quinto intento. En co
nsecuencia: b*(5, 3, 0.5369). Con la sintaxis y la interpretacin del Excel, qued
a:
NEGBINOMDIST(2,3,0.536895) = 0.19915. Casi 20% de probabilidades de que
semejante cosa ocurra.
DST SOBRE DISTRIBUCIONES DISCRETAS
En el siguiente cuadro, anote con lapiz suave sus respuestas. Los procedimientos
debe realizarlos en hojas separadas, y no en el libro. (En el apndice D se dan las respuest
as correctas
para que las coteje con las suyas.)
1. Segn declaraciones del procurador de Justicia del D. E, Bernardo Btiz (Metrpo
lis,
19 de febrero, 2001), "por cada asalto o robo que es denunciado ante las autorid
ades
mexicanas, hay otros cuatro delitos de ese tipo que no fueron denunciados por la
vctima". Si en una tarde ocumeron nueve delitos de ese tipo en una colonia del Di
strito
Federal, encuentre la probabilidad de que:
i) Exactamente tres de ellos hayan sido denunciados.
ii) iii) 7 .
ii) Ninguno haya sido denunciado.
4 .
iii) No ms de siete hayan sido denunciados.
1 . i ) 2 . i ) 3 .
ii) 8 .
2. Segn el fabricante de un lquido quitamanchas, ste tiene un grado de efectividad
de
0.8, es decir, elimina en promedio ocho de cada 10 manchas. Para comprobar si lo

que
afirma es cierto, se usar el producto en 15 manchas elegidas al azar, bajo el ent
endido
de que si desaparecen por lo menos 11 de ellas, y slo en ese caso, se dar por vlida
la
afirmacin del fabricante.
9 .
5 .
1 0 . 1 1 . 1 2 . i) Calcule la probabilidad de que la aseveracin del fabricante sea rechazada cua
ndo
en realidad es cierta.
6. ii) Determine la probabilidad de que por error se acepte lo que sostiene el fab
ricante,
cuando la efectividad de su producto es en realidad de 0.6.
3. El 90 % de los fusibles fabricados en una lfnea de produccin pasan la prueba
de control
de calidad. De 15 fusibles elegidos al azar, halle el nmero ms probable de ellos
que
pasarn la prueba de control de calidad.
4. Segn el gerente de la compaia Avianca, 20% de las personas que hacen reservaci
ones por telfono para un vuelo, finalmente no acudirn a comprar el boleto. Determin
e
Cap. 5. las distribuciones discretas tedricas ms importantes 1 8 1
la probabilidad de que el sptimo individuo que haga resewacin por telfono un da
cualquiera, sea el segundo que no se presentar a comprar su boleto.
5. En una lotera realizada para beneficio de la compaa de bomberos local, se ven
den
ocho mil boletos a cinco pesos cada uno. El premio es un reloj fino, valuado en
30 mil
pesos. Si Juan compra dos boletos, icul es su ganancia esperada!
6. Si X denota el nmero de guilas en tres lanzamientos sucesivos de una moneda,
calcule
la media de la distribucin de probabilidad de la variable aleatoria X.
7. Si la probabilidad de que a cualquier persona no le guste el sabor de una nu
eva pasta
dental es de 0.20, icul es la probabilidad de que a cinco de 18 personas elegidas
al azar
no les guste?
8. En cierto distrito urbano, la necesidad de obtener dinero para comprar droga
s (narcticos) se supone como el motivo de 75 % de todos los robos ocurridos. Evale la pr
obabilidad de que, entre los siguientes cinco casos de robo reportados en ese distr
ito, a lo
ms tres resulten de la necesidad de adquirir narcticos.
9. Un fiuticultor afirma que dos terceras partes de su cosecha de duraznos estn
contaminadas por la mosca de la fruta. Encuentre la probabilidad de que, entre cuatro d
uramos
inspeccionados al azar por el fruticultor, estn contaminados entre uno y tres i
nclusive.
10. Para evitar la deteccin en las aduanas, un viajero ha colocado en una maleta
seis paquetes de cocana junto con otros nueve paquetes de harina de mafz para buuelos con
una apariencia casi idntica a aquellos, y los 15 paquetes vienen sellados con el

mismo
logotipo comercial. Si el vigilante aduana1 selecciona tres de los paquetes al a
zar para
su anlisis, icul es la probabilidad de que el viajero sea arrestado por posesin il
egal
de narcticos?
11. Cul es la probabilidad de elegir, al azar y en forma sucesiva, cuatro litros
buenos de
leche de una nevera que contiene 20 litros, de los cuales cinco estn en mal estad
o?
1 82 Parte 11. Principales distribuciones estadsticas
12. Si suponemos que vale 0.51 la probabilidad de que un beb recin nacido sea v
arn,
qu porcentaje de los matrimonios con cuatro hijos se espera que tengan tres hi
jos
varones y una mujer?
5.8. &SUMEN DE F~RMULAS: MAS EJEMPLOS Y MAS EJERCICIOS
Para finalizar este importante captulo, se presenta un resumen de las frmulas esenciales, seguido de una serie de 60 ejercicios complementarios, que a su
vez son precedidos por 25 ejemplos ilustrativos resueltos con todo detalle. Par
a
una mejor comprensin, los separarnos por temas especficos.
Formulario de la distribucin binomiai
donde:
n = Nmero de ensayos independientes
p = Probabilidad individual de cada xito
q = 1 -p = Probabilidad individual de cada fracaso
x = Nmero de xitos en los n intentos (x = 0, 1, . . . , n).
Media o vaior esperado: p = np
Vari- oZ = npq
Desviacin estndar: a = &
Moda: m, =[(n+l )p], si (n +1)pe Z;pero si ( n +1)p E, Z hay dos modas: (mo), = (n + l)p y (mJ, = (n + 1)p - 1.
(El smbolo [r] denota la parte entera de un nmero real r; por ejemplo,
[2.23] = 2.)
Tercer momento central: & = npq(1- 2p)
Para clculos en Egcel: =DISTR.BINOM(x,n,p,O)
Distribucin acumulada: B(r, n, p) =A b (x, n, p). (Se halla en tablas.)
%=o
Distribucin acumulada con Excel: =DISTR.BINOM(r1n#,1)
En qu casos se usa. Se usa cuando se trata de pruebas repetidas independientes con slo dos resultadosposibles (xito y fracaso). Se identifica fcilmente
porque se conoce un valor de probabilidad fijo ( p) para la ocurrencia de un xi
to,
y otro valor fijo (n) que representa el nmero de ensayos o pruebas independientes realizadas.
Ejemplos interesantes de la distribucin binomial
Ejemplo 5.25. Cuntas veces se tiene que lanzar un parde dados para que la probabilidad de obtener el doble seis por lo menos una vez sea superior a l/z?
Solucin: Etiquetemos como xito que salga el doble seis en un lanzamiento de los
1 2<
l. J J
36, 36 . Nues- dos dados y como fracaso que salga cualquier otra cosa. Enton
ces: P = ' P = tra incgnita aqu es n, y para calcularla, consideremos el caso de que en n ensayos
no salga
jams el doble seis. De esta manera:
Ahora tomamos logaritmo natural a ambos miembros de la ltima desigualdad @odra ser logaritmo de cualquier base). Como ambos son nmeros positivos menores que
uno, sus respectivos logaritmos tendrn signo negativo:

Es decir:
Multiplicamos ambos miembros por -1 e invertimos el sentido de la desigualda
d para
obtener:
Por lo tanto:
Esto significa que hay que lanzar el par de dados 25 veces o ms veces para que se
tenga
una probabilidad superior a lh de que salga el doble seis por lo menos una vez.
Ejemplo 5.26. Cuntas pruebas independientes se deben realizar, con la probabilidad de que un xito ocurra en cada prueba igual a 0.4, para que el nmero ms probable
de xitos en esas pruebas sea igual a 25.
Solucin: Si k, es el nmero ms probable de xitos, entonces:
o lo que es lo mismo:
'FUENTE: V E. Gmurman, Problema de Teora de las Probabilidades y de Estadstica
Matemtica,
mducido del niso por el ingeniero Akop Grdian, problema 152, Mir, Mosc, 1975, p.
71.
1 84
Parte 11. Principa/es distribuciones estadsticas
De acuerdo con nuestros datos: p = 0.4, k, = 25, q = 0.6. As, debemos resolver la
s
desigualdades:
La primera desigualdad da como resultado n 164, y la segunda n 2 61.5. Ello i
mplica
que buscamos un nmero entero positivo n que satisfaga 61.5 I n I 64. Por tanto
:
Cualquiera de esos tres valores satisface las condiciones del problema.
Ejemplo 5.27. Dando por sentado que, en la distribucin binomial b(x, n, p),
el
tercer momento central est dado por j$ = npq(1- 2p), obtener el coeficiente de
sesgo
y = %, e indicar el tipo de sesgo para los casos en que:
Solucin: El coeficiente de sesgo y es el cociente del tercer momento central
Y
entre el cubo de la desviacin estndar. Sesgo negativo indica que la grfica (en este
caso
el histograma) presenta una especie de cola del lado izquierdo, y sesgo positi
vo indica
una especie de cola del lado derecho. Recordemos que en la distribucin binomial,
la desviacin estndar es o =& mientras que el momento central de orden 3 es, segn se
nos dice, p3 = npq(1- 2p).
Por tanto:
Resulta claro, entonces, que:
1
c) sip=-, entonces y=O.
2
El siguiente ejemplo es muy interesante, y para entenderlo slo hay que
saber (o recordar) que dos eventos E y F son independientes si y slo si la probabilidad de que ocurran ambos es igual al producto de la probabilidad de que
ocurra E por la probabilidad de que ocurra F.
Cap. 5. Las distribuciones discretas tericas ms importantes 1 85
Ejemplo 5.28. Dos amigos A y B juegan al boliche (bolos) en carriles contiguos
, y
cada uno har dos intentos por derribar todos los pinos (chuza), con el acuerdo de
que
quien haga menos chuzas en esos dos intentos, invitar una cena al otro. Supnga
se

que las probabilidades de hacer chuza paraA y B son 0.6 y 0.7, respectivamente.
a) Hallar la probabilidad de que empaten y la probabilidad de que B tenga que p
agar la cena de A.
b) Repetir el inciso a pero con la condicin de que ahora cada quien tiene tres
intentos.
c) Muestre que el bolichista ms dbil incrementa su probabilidad de ganar
la
apuesta si juegan a tres intentos. Cmo explica usted este hecho paradjico y
contrario al sentido comn?
Solucin :
a) Como las chuzas que hagan uno y otro son independientes, usamos la propiedad
del producto de probabilidades para eventos independientes. La probabilidad de
que empaten es, por lo tanto:
La probabilidad de que el ms dbil de los dos gane la cena est dada, entonces,
por:
b) Para el caso de tres intentos, se debe elaborar primero una tabla de ambas d
istribuciones, la cual podemos obtener fcilmente a partir de una tabla de valores
de la binomial acumulada. Hemos puesto s610 tres dgitos despus del punto,
porque el cuarto dgito es cero en todos los casos.
En este caso, la probabilidad de empate es:
Uno de los bolichistas puede ganar por cualquiera de los tanteos 1-0, 2-0, 3-0,
2-1, 3-1 y 3-2.
1 84
Parte 11. Principales distribuciones estadsticas
De acuerdo con nuestros datos: p = 0.4, k, = 25, q = 0.6. As, debemos resolver
las
desigualdades:
JA primera desigualdad da como resultado n I 64, y la segunda n 2 61.5. Ello i
mplica
que buscamos un nmero entero positivo n que satisfaga 61.5 I n 1 64. Por tanto:
Cualquiera de esos tres valores satisface las condiciones del problema.
Ejemplo 5.27. Dando por sentado que, en la distribucin binomial b(x, n, p), e
l
tercer momento central est dado por p., = npq(1- 2p), obtener el coeficiente de
sesgo
y = a,, e indicar el tipo de sesgo para los casos en que:
Soluc26n: El coeficiente de sesgo y es el cociente del tercer momento central
CL,
entre el cubo de la desviacin estndar. Sesgo negativo indica que la grfica (en este
caso
el histograma) presenta una especie de cola del lado izquierdo, y sesgo positiv
o indica
una especie de cola del lado derecho. Recordemos que en la distribucin binomial,
la des7
viacin estndar es O = Jnpq mientras que el momento central de orden 3 es, segn s
e
nos dice, y, = npq(1- 2p).
Por tanto:
Resulta claro, entonces, que:
1
c) sip = -, entonces y = O.
2
El siguiente ejemplo es muy interesante, y para entenderlo slo hay que
saber (o recordar) que dos eventos E y F son independientes si y slo si la pro-

babilidad de que ocurran ambos es igual al producto de la probabilidad de que


ocurra E por la probabilidad de que ocurra F.
Cap. 5. Las distribuciones discretas tericas ms importantes 1 85
Ejemplo 5.28. Dos amigos A y B juegan al boliche (bolos) en carriles contiguos
, y
cada uno har dos intentos por derribar todos los pinos (chuza), con el acuerdo de
que
quien haga menos chuzas en esos dos intentos, invitar una cena al otro. Supng
ase
que las probabilidades de hacer chuza para A y B son 0.6 y 0.7, respectivamente
.
a) Hallar la probabilidad de que empaten y la probabilidad de que B tenga que pa
gar la cena de A.
b) Repetir el inciso a pero con la condicin de que ahora cada quien tiene tres i
ntentos.
c) Muestre que el bolichista ms dbil incrementa su probabilidad de ganar
la
apuesta si juegan a tres intentos. Cmo explica usted este hecho paradjico y
contrario al sentido comn?
Solucin:
a) Como las chuzas que hagan uno y otro son independientes, usamos la propiedad
del producto de probabilidades para eventos independientes. La probabilidad de
que empaten es, por lo tanto:
La probabilidad de que el ms dbil de los dos gane la cena est dada, entonces,
por:
b) Para el caso de tres intentos, se debe elaborar primero una tabla de ambas d
istribuciones, la cual podemos obtener fcilmente a partir de una tabla de valores
de la binomial acumulada. Hemos puesto slo tres dgitos despus del punto,
porque el cuarto dgito es cero en todos los casos.
En este caso, la probabilidad de empate es:
Chuzas x
Uno de los bolichistas puede ganar por cualquiera de los tanteos 1-0, 2-0, 3-0
,
2-1,3-1 y 3-2.
Probabilidades -A 1- B
1 86 Parte 11. Principales distribuciones estadsticas
Luego, la probabilidad de que el jugador ms dbil de los dos (A) gane la cena
est dada por:
lo cual da un resultado de 0.2430.
c) Puede parecer paradjico y contrario al sentido comn que el jugador ms dbil
de los dos tenga mayor probabilidad de ganar la competencia si juegan a tres i
ntentos que si juegan a slo dos intentos, pero esto no significa que al ms dbil
le convenga jugar a tres intentos, ya que aunque su probabilidad de ganar es ma
yor, tambin su probabilidad de perder es mayor con tres intentos que con dos
(porque disminuye la probabilidad de empate). Esto se aprecia claramente en el
siguiente cuadro:
wte
LaA (el m:
-Resultado 1 2 intentos 3 intentos
E ~ I 5 Gan 3

Gana B (el ms fuerte) 1 0.3808 0.43624


is dbil)
Ejemplo 5.29. En cierta lnea area comercial han observado que aproximadamente
5 % de las personas que reservan un vuelo no se presentan al momento de abordar
. Por
esa razn, han adoptado la poltica de vender 100 boletos en un vuelo que slo tiene c
apacidad para 95 lugares. Calcular la probabilidad de que haya lugar disponible p
ara todas
las personas que se presenten a abordar un vuelo.5
Solucin: SeaX la variable aleatoria discreta que representa el nmero de personas
con reservacin que no se presentan a abordar el avin. Entonces, X sigue una distri
bucin binomial con parmetros n = 100 y p = 0.05. Queda claro que habr lugar para to
dos
en el avin si y slo si ocurre que X 2 5. Por consiguiente:
Esto es relativamente fcil de resolver con calculadora cientfica, pero es mucho
ms rpido y fcil con Excel, mediante la sintaxis:
Desde luego, por las caractersticas de los parmetros n yp, se poda aproximar mediante una distribucin de Poisson, y aunque no sera una aproximacin excelente, sera
razonablemente buena. En efecto, tomamos como parmetro h = p = np = 100 x 0.05 =
5.
Luego:
IEste ejemplo viene planteado como ejercicio en el libro de T. Cacoullos, Exer
cMes in Probability,
Springer Verlag, 1989, ejercicio 84, captulo 2, p. 20. Sin embargo, la respuesta
que trae ese libro al final es
incorrecta.
Cap. 5. Las distribuciones discretas tericas ms importantes 1 87
Con ayuda de tablas de Poisson acumulada (p = 5, r = 4), o directamente con hcel
,
se halla entonces el valor 0.5595 - 0.56, que no est mal como aproximacin.
Un conocido libro de texto de probabilidad propone el siguiente ejercicio,
pero no trae la solucin, por l o que varios estudiantes me han preguntado acerca
de cmo podra r es ol ver ~e. ~
Ejemplo 5.30. En un pas se sabe que 7 % de los paquetes que se envan por correo
se pierden (o se los roban) y el servicio postal no se hace responsable. Un seor
tiene dos
libros que valen 20 dlares cada uno y desea enviarlos por correo a su hermano que
vive
en otra ciudad. Si los enva juntos en un solo paquete, el costo es de 5.20 dlares,
pero si
los enva en paquetes separados, le costara 3.30 dlares cada uno. Si el seor desea mi
nimizar el valor esperado de su desembolso (gasto del correo ms posible prdida), qu es
preferible: enviarlos juntos en un paquete o en paquetes separados?
Solucin: SeaX la variable aleatoria discreta que denota el desembolso de este seor (gasto del correo ms posible prdida del material). Si manda los libros juntos e
n un
solo paquete, la distribucin de probabilidad de Xes la siguiente:
En este caso, el valor esperado de su desembolso es:
No se pierde
Se pierde
E(X) = A x p(x) = (5.20)(0.93) + (45.20)(0.07) =8.00 dlares
Por otra parte, si decide enviarlos en paquetes separados, la distribucin de la v
ariable Xque representa su desembolso es la siguiente:

$5.20
$45.20
0.93
0.07
El valor esperado de su desembolso es, en este caso:
Paquetes pedi dos
E(X) = (6.60)(0.8649) + (23.30)(0.1302) + (46.60)(0.0049) = 8.97 dlares.
Por tanto, le conviene ms enviar ambos libros juntos en un solo paquete.
Ejemplo 5.31. Un supuesto conocedor de cafs finos Arma que es capaz de distingui
r
entre el caf tipo Caracolillo, el Planchuela o el Marago en 70 % de las veces, ta
n slo con
oler el aroma que desprende una taza de caf recin hecho con alguna de estas tres v
ariedades de caf mexicano. Para comprobar si lo que afirma es cierto o falso, se pre
pararon
20 tazas de caf con algunas de estas variedades de caf (al azar), que el sujeto ob
viamente
desconoce y tratar de identificar, oliendo el aroma que desprende la taza y anota
ndo en un
x
$6.60
$23.30
$46.60
6S. Ghahramani, Fundamentak of Pmbability, Prentice-Hall, 1996.
P(x>
b(0,2,0.07) = 0.8649
b(l,2,0.07) = 0.1302
b(2,2,0.07) = 0.0049
1 88 Parte /l. Principales distribuciones estadsticas
papel C, P o M en cada caso. Si acierta a 12 o ms de los intentos, se aceptar lo q
ue afirma;
en caso contrario, se rechazar.
a ) Calcule la probabilidad de que se rechace su afirmacin cuando en realidad es
cierta.
6) Calcule la probabilidad de que se acepte su afirmacin, si es falsa y en verda
d l
slo es capaz de acertar 50 % de las veces.
c ) Calcule la probabilidad de que se acepte lo que afirma, si en realidad el s
ujeto no
sabe nada de cafs y s610 est tratando de adivinar al tanteo.
Solucin :
a ) Sea X el nmero de aciertos. Si lo que afirma el sujeto es verdad, X sigue u
na
distribucin binomial con parmetros n = 20, p = 0.70. Su afirmacin ser rechazada por el examinador si ocurre que X I 11. Entonces:
11
P(X I 1 1 ) z b(x, 20, 0.70) = 0.1133 (directamente de tablas, o con Exceg
b) Bajo las condiciones de este inciso, los parmetros son ahora n = 20, p = 0.50
. Su
afirmacin ser aceptada si ocurre que X 2 12. Luego:
1
c ) Si s610 trata de adivinar, entonces P = -; luego:
3
Ejemplo 5.32. Juan y Mara se acaban de casar y planean tener al menos una hija y
al
menos un varn. Cuntos bebs deben "encargar a la cigea" para tener una probabili-

dad de 0.95 de que suceder lo que planean?


Solucin: Sea n el nmero de hijos y X el nmero de varones. Resulta claro que la
1
I
variable aleatoria discreta X sigue una distribucin binomial con parmetros n YP =
y.
Juan y Mara tendrn al menos un varn y al menos una hija si y slo si 1 I X I n - 1
. As:
Por tanto, el problema se reduce a resolver la desigualdad
Se halla fcilmente que n 2 5.3219. En consecuencia, Mara y Juan debern encargar
al menos 6 bebs a la cigea.
1. Segn declaraciones del Regente de la Ciudad de Mxico (12 de diciembre de 2000),
70% de las discotecas y antros nocturnos de la Ciudad de Mxico carecen de salida
s
de emergencia. Si se inspeccionan 15 antros nocturnos al azar en dicha ciudad, d
etermine la probabilidad de que:
a) al menos 12 carezcan de salidas de emergencia
6) cuando mucho seis carezcan de salidas de emergencia
c) exactamente 10 de ellos no dispongan de salida de emergencia.
2. Un estudiante trata de resolver un examen de cinco problemas. Suponga que ha
y una
?,
L
probabilidad de - de que logre resolver cualquiera de ellos y que los problemas
son
3
independientes. Calcule la probabilidad de que resuelva correctamente por lo men
os
tres de los cinco problemas.
3. Un vendedor de productos domsticos estima que tiene una probabilidad de 0.3 d
e
lograr una venta en una visita a un domicilio cualquiera. Si una maana planea vis
itar
nueve domicilios, calcule:
a) la probabilidad de que logre por lo menos cuatro ventas
6) el nmero ms probable de ventas que lograr realizar
E) la probabilidad del nmero ms probable de ventas que har.
4. Con respecto al vendedor del problema 3, calcule el nmero de domicilios que d
ebe
visitar para que la probabilidad de realizar como mnimo una venta sea mayor que:
2
5. SiXes una variable aleatoria discreta distribuida binomialmente con n = 50 y
p = -,
5
encuentre 02.
2
6. Si X es una variable aleatoria distribuida binomiaimente tal que p = 2 y oZ=
-, en3
cuentre P(X= 1).
7. Cuntos ensayos de Bernoulli deben realizarse, para que el valor ms probable sea
51, si se sabe quep = 0.64?
8. Un estudio realizado en cierta universidad revel que aproximadamente 40 % de
los
alumnos de maestra estn casados. Si X es el nmero de alumnos de maestra casados, para una muestra aleatoria de 100 estudiantes de maestra, obtenga la media y
la

desviacin tpica de X.
9. Segn el ingeniero Jorge Cameras de Editorial Planeta, 20% de los libros public
ados
por esa empresa son pegados con goma en el lomo y no son cosidos, por lo que se
deshojan pronto con el uso. De una muestra aleatoria de 15 libros editados por d
icha
empresa, cul es la probabilidad de que exactamente dos libros se deshojen en poco
tiempo?
10. Segn el fabricante de un lquido quitamanchas, ste tiene un grado de efectivida
d
de 0.8, es decir, elimina en promedio ocho de cada 10 manchas. Para comprobar si
lo que afirma es cierto, se usar el producto en 15 manchas elegidas ai azar, bajo
el
1 90
Parte 11. Principales distribuciones estadsticas
entendido de que si desaparecen por lo menos 11 de ellas, y slo en ese caso, se d
ar
por vlida la afirmacin del fabricante.
a) Calcule la probabilidad de que la aseveracin del fabricante sea rechazada cuan
do
en realidad es cierta.
6) Determine la probabilidad de que por error se acepte lo que sostiene el fabri
cante, cuando la efectividad de su producto en realidad es de 0.6.
11. Un individuo afirma que es capaz de distinguir a simple vista entre una perl
a autntica
y una falsa en 75 % de las veces. Para comprobar si lo que afirma es cierto, se
le muestran una por una seis perlas diferentes escogidas al azar y se aceptar lo que afi
rma si
logra establecer la autenticidad (o falsedad) en por lo menos cinco de las perla
s.
a) Cul es la probabilidad de que el individuo pase la prueba, si slo est adivinando?
6) Suponga que en efecto es cierto lo que afirma. Cul es la probabilidad de que no
logre pasar la prueba?
12. Una compaa espaola de vinos de uvas selectas produce vinos de mesa de alta cal
idad y ha solicitado catadores expertos que sean capaces de distinguir entre un
vino
fino y uno ordinario en 90% de las veces, con slo degustar un sorbo de cada tipo
.
Todos los aspirantes realizan una prueba consistente en probar nueve tipos de v
ino
(con intervalos de un minuto entre un ensayo y el siguiente) y decidir slo si se
trata
de vino fino o corriente. La compaa ha determinado que aquellos aspirantes que
acierten por lo menos en seis de los nueve ensayos sern contratados.
a) Determine la probabilidad de que un individuo que no conoce nada de vinos y
slo est tratando de adivinar al tanteo logre pasar la prueba
6) Calcule la probabilidad de que un catador experto (que
z de
acertar en 90 % de las veces) no logre pasar la prueba.
13. Una mquina produce piezas metlicas, de las cuales 5%
nte.
Cuntas piezas debern producirse para que la probabilidad de

y ser contratado.
en efecto es capa
son de calidad excele
que haya por lo me-

1
nos una de calidad excelente sea mayor a - ?
2
14. Una variable aleatoria discreta X tiene distribucin binomial con media 6 y
varianza
3.6. Calcule P(X= 4).
15. Suponga que los miembros de un jurado toman decisiones independientes y cua
lquiera de ellos toma la decisin correcta con probabilidadp, donde O cp e 1. Si la dec
isin del jurado es definitiva, demuestre que un jurado de tres personas toma
una
1
decisin ms correcta que un jurado de una sola persona sip > -, pero ocurre lo
2 1 1
contrario sip c -, mientras que si p = -, da lo mismo un jurado de tres miembr
os
2 2
que uno de un nico miembro. [Sugerencia: Sea X el nmero de personas que toman la decisin correcta en un jurado de tres miembros. Por supuesto, la decisin de
l
jurado de tres miembros ser la correcta si y s610 si X 2 2.1
16. Segn reportes del diario La jornada (22 de mayo de 2004), 26% de los prisi
oneros
iraques sometidos a torturas y humillaciones por los militares estadounidenses n
o
lograron soportar las torturas y fallecieron. De una muestra aleatoria de 249 ci
udadanos iraques apresados por los invasores, calcule el nmero ms probable de los que
fallecieron al no soportar las torturas. [Suponga que todos los prisioneros fue
ron sometidos a torturas por igual.]
Cap. 5. Las distribuciones discretas tericas ms importantes 1 9 1
17. En problemas sobre la distribucin binomial, los trminos &to yJTacaso son m
eros eufemismos y pueden intercambiarse para usar la probabilidad complementaria
cuando ello sea ms ventajoso. Ello se aprecia en los ejercicios 18 al 20. En est
e sentido, las siguientes identidades son tiles; demustrelas:
n-k
b) Z b ( x , n, P) =E b(x, n, 1 -P)
x =k x=O
18. Use la siguiente tabla de para contestar las preguntas que se indican:
x=o
Si dos terceras partes de las semillas de cierta planta lograran germinar, calcu
le la probabilidad de que de seis semillas elegidas al azar, las que logren germinar, sea
n:
a) cuando mucho 3
b) no menos de 3
e) exactamente 4
4 exactamente 3.
19. Use la siguiente tabla de para contestar las preguntas que se planx=o
tean:
4
Si - partes de los grandes maestros de ajedrez usan gafas, calcule la probabili
dad de

7
que de ocho grandes maestros elegidos al azar en un torneo, los que usen gafas s
ean:
a) al menos 5
b) menos de 5
c) a lo ms 5
4 exactamente 5
e) entre 4 y 6 inclusive.
1 92 Parte 11. Principales distribuciones estadsticas
20. Use la siguiente tabla de para contestar las preguntas que se planx=o
tean:
Si tres cuartas partes de los automovilistas del Distrito Federal ponen bastn co
ntra
robo al estacionar su coche, calcule la probabilidad de que de siete autos estac
ionados en la calle, los que tengan bastn contra robo, sean:
a) cuando menos 6
6) menos de 6
C) exactamente 6
d) cuando ms 6
e) ms de 6
f ) entre 2 y 4 inclusive.
Formulario de la distribucin binomiai negativa
donde:
r = Nmero ordinal de xito deseado7
p = Probabilidad individual de cada xito
q = 1 - p = Probabilidad individual de cada fracaso
x = Nmero de intentos (xitos ms fracasos) para lograr el r-simo xito.
r
Media o valor esperado: p = P
r-1+p r-1
Mo& m.= [ ]=[? +l] (El corchete denota la parte entera.) Al igual que en la binomial, si la parte dentro del corchete ya fuese
entera, entonces habra dos modas, que seran ese nmero y el anterior.
varianza: 02 = Tq
p2
'Anteriormente se us la letra k en lugar de r. La razn de usar la letra r ahora
es para que el estudiante pueda ms adelante (cap. 6) observar la fuerte analoga entre esta distribucin
y la distribucin gama
(cuyo parmetro de forma es r). En cierto modo, la g q a es una analoga continu
a de la binomial negativa.
Del mismo modo como la distribucin geomtrica es un caso particular de la binomial
negativa para r = 1,
tambin la distribucin exponencial ser vista como un caso particular de la distrib
ucin gama para r = 1.
dr9
Desviacin estndat: O = P
Tercer momento centra: pg =
rq(2 - P)
p3
Para clculos en Excel: = NEGBINOMDIST(x-r,r,p)
Distribucihn acumulada:
b* (x, r, p) = 1 b(x, n, p)
x=r x=o
En q d casos se usa. Cuando en una sucesin de ensayos de Bernoulli se

trata de averiguar la probabilidad de que el r-simo xito ocurra precisamente en


el x-simo intento. Se identifica fcilmente por la presencia de adjetivos o pronombres ordinales (tercero, quinto, dcimo, etc.). Tambin puede verse como
una espera discreta hasta lograr por fin r xitos (junto con x - r fracasos) en un
a
sucesin de ensayos de Berno~l l i . ~
Formulario de la distribucin geomtrica
(Es un caso particular de la binomial negativa, para r = 1.)
1
Media o vaior esperado: p. = P
Moda: m, = 1
2- 9
Varianza: O - ,P
J4
Desviacin estndar: CJ = P
Tercer momento central: p., = 4(2 - P)
p3
Para clculos en Excel: =NEGBINOMDIST(x-1,1@)
n
Distribucin acumulada: 2 g(x, p) = 1 - q"
x=1
En qu casos se usa. Cuando en una sucesin de ensayos de Bernoulli se
trata de averiguar la probabilidad de que elprimer xito ocurra precisamente en
el x-simo intento.
8Exactamente del mismo modo, la distribucin gama (o Erlang) que veremos en el ca
ptulo 6, rige el
tiempo (variable continua) de espera hasta que se acumulen r sucesos de Poisson.
Ejemplos de la distribucin binomina negativa
y la distribucin geomtrica
Ejemplo 5.33. Supngase que vale 0.60 la probabilidad de que Pancho Godnez logre encestar un tiro libre en un juego de basquetbol. Calcular la probabilidad d
e que:
a ) el octavo tiro que lanza sea el quinto que logra encestar
b) el tercer tiro libre sea el primero que logra encestar.
Solucin:
Ejemplo 5.34. La probabilidad de que la seora Lbpez logre encontrar pazidex (un
ungento oftlmico que ella necesita) en una farmacia cualquiera es de 0.15. Calcula
r la
probabilidad de que ella:
a ) tenga que recorrer tres farmacias para poder hallar trazfdex
6) se vea obligada a recorrer ms de tres farmacias para poder encontrar trm'dex.
Solucin:
Ejemplo 5.35. Sea X una variable aleatoria discreta cuya distribucin de probabili
dad es:
Para esta variable aleatoria se requiere calcular:
a) la moda
b) la media
c) P(X I 18).
Solucin :
(Es decir, lo ms probable es que el quinto xito ocurra en el decimocuarto
intento.)
(Es el nmero esperado de intentos para que ocurra el quinto chito.)
(Es la probabilidad de que el quinto xito ocurra a ms tardar en el decimoctavo
intento.)
Ejemplo 5.36. Un nio recibir un juguete como premio si, al lanzar un dado un

mximo de 20 veces, obtiene cuatro veces el 6.


a) Calcular la probabilidad de que se gane el juguete.
6) Calcular el nmero ms probable de intentos que requerira el nio para obtener cuatro veces el 6.
c) Calcular el valor esperado y la desviacin estndar del nmero de intentos requeridos para obtener cuatro veces el 6.
Solucin: SiXes el nmero de veces que se tiene que lanzar el dado para obtener
cuatro veces el 6, entonces la distribucin de X es binomial negativa con parmetr
os
1
L
r=4, p=- . Por tanto:
6
Esto se calcula fcilmente con Excel as: =1-DISTR.BINOM(3,20,1/6,1).
Se halla entonces 0.43345. ro, hay dos modas: 19 y 18. Por tanto, lo ms probable es que se requiera lanzar
el dado 18 o 19 veces para que aparezca el 6 cuatro veces. Es fcil calcular que
en ambos casos la probabilidad es 0.040866.
r 4
c) La media es p = - = - = 24 lanzamientos.
P 1
5
4 x - J =10.954 iammientos.
La desviacin estndar es 0 = - P 1
Ejemplo 5.37. Supngase que el nico modo en el que un marchista olmpico puede ser expulsado de la competicin es mediante acumulacin de amonestaciones. La dis
tancia a recorrer es de 50 kilmetros y cada 5 km hay un juez que puede o no amo
nestar
al marchista, segn lo observado en ese tramo de 5 km. A la tercera amonestacin
que
1 96 Parte 11. Principales distribuciones estadsticas
reciba ser expulsado. Si el marchista recibe una amonestacin con probabilidad de 0
.08
cada vez que pasa frente a un juez, calcular la probabilidad de que sea expulsad
o.
Solucin: El marchista pasar en 10 ocasiones por donde hay jueces, y podr ser
expulsado por el x-simo juez (x = 3, 4, . . . , 10). La probabilidad de obte
ner su tercera
amonestacin en un mximo de 10 intentos es, por tanto:
Ejemplo 5.38. Un estudiante nunca falta a clases, pero 40 % de las veces llega t
arde.
Si el profesor tiene la poltica de que por cada tres retardos acumulados de un
alumno
se anota una falta, y a las siete faltas acumuladas el alumno pierde el derecho
al examen
final, calcular la probabilidad de que ese estudiante pierda su derecho a examen
final por
acumulacin de faltas, si el curso consiste de 50 sesiones.
Solucin: El estudiante perder su derecho a examen si acumula su vigesimoprimer retardo a ms tardar en la quincuagsima sesin. Entonces se trata de una binomial
negativa donde la variable X denota el nmero de clases requeridas para acumular r
= 21
retardos.
Esto no se puede calcular con tablas (ni con calculadora), pero es muy fcil con E

xcel:
Se halla la respuesta 0.438965 = 0.4390.
Ejemplo 5.39. En un lejano pas, hace mucho tiempo, haba un rey que casi no saba
nada de estadstica, pero estaba interesado en incrementar gradualmente la propor
cin
de mujeres en su reino. As, promulg un decreto que obligaba a las parejas casadas
a seguir teniendo hijos hasta que naciera el primer varn, y slo entonces estaban oblig
ados
a parar. Es decir, todos los matrimonios estaban obligados a tener un nico h
ijo varn
y todas las hembras que fuesen necesarias hasta el nacimiento del primer varn.
El rey
observ que los tipos posibles de familias que podan surgir eran de los siguientes
(h =
hombre, m = mujer): h, mh, mmh, mmmh, mmmmh, etc., y se le figur que con este decreto podra incrementar, a largo plazo, la proporcin de mujeres en su reino.
Demostrar que el rey estaba totalmente equivocado. Cul cree usted que sera la
distribucin por sexo a largo plazo: mayora de hombres o igualdad aproximada de hom
bres y mujeres?
Sol uci h: El nmero de intentos (hijos) hasta la ocurrencia del primer varn sigu
e
l
una distribucin geomtrica con parmetro P =T; es decir, si X es el nmero de hijos
en una familia al azar en ese reino, la distribucin de X es g x, - . La me
dia (nme[ :)
1 1
mero esperado de hijos) es p = - = - = 2 (una hembra y un varn) y adems 50 % de
P 1
L
las familias van a consistir de un hijo nico (un varn), y el restante 50% de las
familias
tendrn una o ms hembras. A la larga, la proporcin va a ser la misma que si no hubi
era
Cap. 5. Las distribuciones discretas tericas ms importantes 1 97
tal decreto, es decir, los hombres y las mujeres estarn en la razn 1 a 1. En
efecto, si
sumamos la proporcin de mujeres (con respecto al total de personas) que produc
irn
familias de dos, tres, cuatro, . . . , hijos, se obtendr la serie:
Lo nico positivo que quiz lograr ese rey con su decreto ser reducir la tasa de na
talidad.
Ejemplo 5.40. El famoso matemtico polaco Stefan Banach9 (1892-1945), quien fumaba pipa incesantemente, plante el siguiente problema original, el cual se resue
lve mediante la distribucin binomial negativa. Supngase que el profesor Banach lleva sie
mpre
una caja de fsforos en cada uno de los dos bolsillos de su saco. Cada vez que enc
iende su
pipa, elige uno de los dos bolsillos al azar y saca un fsforo de la cajetilla cor
respondiente.
Suponga, adems, que al principio cada caja tena n fsforos, y considere el momento e
n
que al tratar de encender la pipa, Banach se lleva la mano al bolsillo, saca una
cajetilla de

fsforos y por primera vez descubre que est vaca. Encontrar la probabilidad de que
la
otra cajetilla tenga an r fsforos.
Sducidn: Consideremos primero como xito que el profesor Banach elige el bolsi1
I
110 izquierdo de su saco; entonces, p = - En el momento en que descubre que una
ca2
jetilla est vaca, la cajetilla del otro bolsillo debe contener r fsforos, donde O
5 r I n. La
cajetilla del bolsillo izquierdo estar vaca en el momento en que la cajetilla del
bolsillo derecho contenga r fsforos si y slo si n - r fracasos precedieron al xito nmero n + l.
Por tanto, en el momento justo en que descubre que una cajetilla est vaca, el nmero de intentos (xitos ms fracasos) es: n + 1 + n - r = 2n - r + 1. En otras pa
labras, el
xito nmero n + 1 ocurre precisamente en el intento nmero 2n - r + 1. La probabili
dad de que esto suceda es, naturalmente, b* 2n - r +1, n +1, . Por consiguien
te:
Sin embargo, este valor es slo para el caso en que la cajetilla del bolsillo izqu
ierdo
haya sido la que se encontr vaca por primera vez. Otro valor igual ser para el caso
en
que el bolsillo derecho haya sido el que contena la cajetilla que por primera ve
z se descubri vaca. Por el axioma de la suma de probabilidades para la unin de eventos mutu
amente excluyentes, tendremos:
9Banach es considerado, junto con Waclaw Sierpinski, uno de los dos matemticos po
lacos ms notables de todos los tiempos. Banach naci en Lwow y fue profesor de matemticas en e
sa universidad. Fue
el descubridor del llamado espacio de Banacb, el cual es un cierto tipo de espac
io vectorial ms abstracto,
especcamente, es un espacio lineal normado que es completo en la mtrica determinada
por la norma, y
del cual el espacio de Hilbert es s610 un caso particular. Algunos historiadores
piensan que el problema de
las cajas de fsforos no fue planteado por Banach, sino por Hugo Steinhaus (1887-1
972), otro distinguido
matematico polaco, quien era amigo y colega de Banach y que siempre haca mofa del
hbito que tena ste
de fumar pipa incesantemente.
1 98 Parte 11. Principales distribuciones estadisticas
Ejemplo 5.41. En la distribucin geomtricag(x,p), dado un nmero P tal que O e
P c 1, cuntos intentos se requieren para lograr finalmente el primer xito con prob
abilidad mayor o igual que P?
Solucin:
Por consiguiente, dividiendo todo entre ln q = ln(1 - p) , que es una cantidad
negativa,
queda:
Ntese que esta frmula es la misma que se haba obtenido antes, en relacin con los ensayos de Bernoulli (distribucin binomial), para el nmero de ensayos requeridos ha
sta
obtener al menos un xito con probabilidad igual a P.

Ejemplo 5.42. Si 42% de los paquetes de un cereal traen cupones de premio


, y
con cuatro cupones ms 50 pesos el consumidor se gana un juego de cubiertos de ace
ro
inoxidable:
a) Calcular el nmero esperado de paquete en el que saldr el cuarto cupn.
b) Determinar el nmero ms probable de paquete en el que saldr el cuarto cupn.
c) Dibujar un histograma para la distribucin de la variable aleatona X que es
el
nmero de paquete comprado en el que saldr el cuarto cupn.
d ) Calcular la probabilidad de que se requieran cuando mucho ocho paquetes.
Solucin: La variable aleatoriax tiene distribucin b*(x, 4,0.42).
a) La media es:
r 4
p = - = - = 9.52 paquetes
p 0.42
6) La moda es:
c) El histogmma se aprecia en la figura 5.6. Puede dibujarse con algn otro tipo
de
software, porque las versiones actuales de Fxcel todava no sirven para dibujar
un buen histograma; pero tambin puede dibujarse a mano, con lpices de colores, a partir de los siguientes datos, los cuales s pueden obtenerse fcil y rpidamente con Excel:
Figura 5.6
d ) La probabilidad de que se requieran cuando mucho ocho paquetes est dada
por:
Esto se halla con Excel escribiendo =1-DISTR.BINOM (3,8,0.42,1). El resultado
es 0.4527.
1. Segn un estudio, 30% de los adultos mayores de 50 aos sufren de insomnio. Si se
realiza una encuesta a un grupo de adultos mayores de 50 aos, seleccionados al az
ar,
cul es la probabilidad de que:
200 Parte 11. Principales distribuciones estadsticas
a) el sexto entrevistado sea el primero en padecer insomnio?
6) el quinto entrevistado sea el tercero en sufrir insomnio?
2. En una mquina copiadora de una papelera, 5 % de las copias salen defectuosas.
Si
un cliente va a fotocopiar un trabajo de cientos de pginas, determine la probabil
idad
de que antes de la decimosexta copia ya haya salido la primera defectuosa.
3. En el tren subterrneo (metro) de la Ciudad de Mxico, en teora los trenes de
ben
detenerse slo unos cuantos segundos en cada estacin, pero por razones misteriosas a menudo se detienen por intervalos de incluso varios minutos. Si la probabi
lidad
de que el metro se detenga en una estacin ms de tres minutos es de 0.20, halle la
probabilidad de que se detenga ms de tres minutos por primera vez:
a) en la cuarta estacin desde que un usuario lo abord
b) antes de la cuarta estacin desde que un usuario lo abord.
4. Suponga que la probabilidad de que un producto o artefacto falle lax-sima vez
que
se utiliza, est dada por f (x). Entonces se define el indice de falla Z(x) (ta
mbin Ilamado rapidez de falla) como:
donde F(x) es la distribucin acumulada correspondiente. Demuestre que siXes una
variable aleatoria discreta con distribucin geomtrica g(x, p), su rapidez de fall
a es

constante y el valor que toma es precisamente p. [Indicacin: Denote como xito


que el artefacto falle.]
5. En una fiesta infantil de cumpleaos hay varios nios de entre tres y cinco aos
de
edad, que se turnan para tratar de romper una piata llena de fruta y golosinas. S
upngase que la probabilidad de que un nio cualquiera rompa la piata en un intento
es igual a 0.10.
a) Cuntos nios han de pasar a pegarle a la piata para que la probabilidad de que
sta se rompa sea superior a 0.95?
6) Cul es la probabilidad de que la piata sea rota por algn nio de los que estn
en los lugares del cuarto al dcimo de la fila, inclusive?
c) Qu probabilidad tiene la nia anfitriona de romper la piata, si se encuentra en
el tercer lugar de la fila?
6. Con respecto al ejemplo 5.40, suponga que las cajetillas de fsforos que us
aba el
profesor Banach tenan, inicialmente, 50 fsforos cada una. Supngase, adems, que
es igualmente probable que escoja cualquiera de los dos bolsillos del saco. Si e
n un
momento dado mete la mano a uno de los bolsillos y encuentra, por primera vez, q
ue
una cajetilla est vaca, encuentre la probabilidad de que la otra cajetilla conteng
a:
a) ningn fsforo
6) tres o cuatro fsforos
E) no ms de cuatro fsforos
4 al menos un fsforo.
7. Tres amigos juegan al "disparejo", es decir, cada uno lanza una moneda al ai
re y el que
obtiene signo distinto paga las cervezas. Si las tres monedas resultan con el mi
smo
Cap. S. las distribuciones discretas tericas ms importantes 20 1
signo (empate), se repite el lanzamiento. Calcule la probabilidad de que se requ
ieran
ms de dos lanzamientos. [Sugerencia: Empiece por averiguar cul es la probabilidad
de empate en un lanzamiento cualquiera de las tres monedas.]
8. En cursos de lgebra bsica se prueba que la suma de los primeros n trminos de la
progresin geomtrica a , ar , a*, a@, . . . , arn-' est dada por:
A partir de ese hecho, pruebe la frmula que hemos estado usando:
9. Para tratar a un paciente de una afeccin de pulmn han de ser operados, en oper
aciones independientes, sus cinco lbulos pulmonares. La tcnica que se va a utiliz
ar
7
es tal que si todo va bien, lo que ocurre con probabilidad de -, el lbulo qued
a
11
definitivamente sano, pero si no es as, se deber esperar el tiempo suficiente para
intentarlo posteriormente de nuevo. Se practicar la ciruga hasta que cuatro de sus
cinco lbulos funcionen correctamente. Cul es el valor esperado de intervenciones
que se espera que deba padecer el paciente? Cul es la probabilidad de que se necesiten 10 intervenciones?1
10. Juanito es un nio de 8 aos que quiere vender bolsas de dulces en las casas de
su
vecindad para juntar algo de dinero y ayudar a su mam en los gastos. Hay 30 casas

en su vecindad, y su madre le dijo que no regresara hasta que hubiese vendido ci


nco
bolsas de dulces. La probabilidad de que le compren una bolsa en cualquier casa
es
de 0.4, y de que no le compren nada es de 0.6.
a) Cul es la probabilidad de que termine precisamente en la dcima casa que visita?
6) Cul es la probabilidad de que termine antes de visitar la octava casa?
c) Antes de la decimoquinta casa?
d) Cul es la probabilidad de que le toque visitar todas las casas del vecindario?
11. Un atleta olmpico logra saltar la varilla a 2:28 m de altura en 60 % de las v
eces. En una
competencia dispone de tres intentos, y si logra salvar esa altura, ganar medalla
de
oro. Se requiere determinar la probabilidad de que este atleta gane la presea ure
a.
12. Demuestre que en la distribucin binomial negativa b*(x, r, p) , el coefici
ente de sesgo es:
[Sugerencia: Parta del hecho de que el tercer momento central es y, =
-P) .]
p3
'OManual de la Universfdad de Mlaga: Bioestadstica: Mbtodos y Aplicaciones, Facult
ad de Medicina de la Universidad de Mlaga, Esparia.
202 Parte 11. Principales distribuciones estadsticas
13. Demuestre la siguiente relacin entre las distribuciones binomial negativa y b
inomial:
14. Una joven apuesta 100 pesos a que si extrae sucesivamente una carta con repo
sicin
de un mazo bien barajado de 52 cartas ordinarias, lograr sacar cinco veces una ca
rta
de corazones en un mximo de 20 intentos.
a) Le conviene la apuesta? Cul es la probabilidad de ganarla?
6) En qu nmero de intento es ms probable sacar por quinta vez una carta de corazones?
Formulario de la distribucin hipergeomtrica
donde:
N = Tamao de la poblacin
n = Tamao de la muestra sin reposicin
k = Nmero de xitos en la poblacin
x = Nmero de xitos en la muestra.
k
Media o vdor esperado: = n- = np, dondep = - .
N N
Moda: mo= 1 (" ' 1 Al igual que en la binomial y en la binomial
negativa, si ! a parte dentroJdel corchete ya es entera, entonces hay dos
modas, que son ese nmero y el anterior.
Varim d =n- 1- k
[ ~ ) ( ~ ~ ; ) = n M ( ~ ) , &ndep=- y
N N
q = 1 - p
Para clculos en Ekcel: =DISTR.HIPERGEOM(x,n,kJV)
Distribucin acumulada: Desafortunadamente no existe una forma compacta o sencilla para el clculo de probabilidades acumuladas y tampoco
hay valores tabulados. Con hojas de clculo de Excel es casi instantneo,
pero si no se dispone de computadora, es una labor muy engorrosa, aunque el trabajo se puede hacer un poco menos fastidioso con la siguiente

frmula recursiva:
Cap. 5. Las distribuciones discretas tericas ms importantes 203
En qu casos se usa La distribucin hipergeomtrica se aplica cuando se
toma una muestra sin reposicin de una poblacin que tiene slo dos tipos de
objetos: xitos y fracasos.
Aproximacin a binomiai. Si la poblacin es muy grande en comparacin
con la muestra, es decir, si N >> n, entonces la hipergeomtrica tiende como
lmite a la binomial:
Esta aproximacin suele ser muy til cuando no se dispone de computadora.
Ejemplos de la distribucin hipergeomtrica
Ejemplo 5.43. En una caja hay 13 canicas, de las cuales ocho son blancas y cinco
son
negras. Se extrae una muestra aleatona de seis canicas. Calcular el nmero ms proba
ble
de canicas blancas en la muestra, as como la probabilidad correspondiente a ese nm
ero
de canicas blancas.
Solucidn: Se tiene N = 13, k = 8, n = 6. La moda es:
Por tanto, el nmero ms probable de canicas blancas en la muestra es de cuatro. La
probabilidad de que la muestra tenga exactamente cuatro canicas blancas se calcula
rpidamente con Excel:
Se obtiene la respuesta 0.4079. Tambin puede hallarse fcilmente con calculadora ci
entfica:
Ejemplo 5.44. Una bolsa contiene ocho plumones, de los cuales cuatro son nuevos
y los otros cuatro estn muy usados. Si se toma una muestra de tres plumones
al azar,
calcular el nmero ms probable de plumones nuevos en la muestra.
Sol uci h: En este caso, N= 8, k = 4, n = 3. La moda es:
204
Parte 11. Principales distribuciones estadsticas
Como se trata de un nmero entero, entonces hay dos modas: 2 y 1. Por tanto, lo
ms probable es que la muestra contenga uno o dos plumones usados. Es fcil calcu
lar
3
que en ambos casos la probabilidad correspondiente es de -.
7
1. Entre los 120 solicitantes para un trabajo, slo 80 son realmente aptos. Si ci
nco de
los solicitantes se seleccionan al azar para una entrevista ms extensa, encuentre
la
probabilidad de que slo dos de los cinco sern aptos para el trabajo. Para ello use
:
a) la frmula de la distribucin hipergeomtrica
b) la frmula para la distribucin binomial con p = 80 como aproximaci6n.
120
2. Un profesor tiene un conjunto de 15 preguntas de opcin mltiple, referentes a
distribuciones de probabilidad discretas. Cuatro de estas preguntas tratan de la di
stribucin hipergeomtrica.
a) Cul es la probabilidad de que al menos una de estas preguntas acerca de la distribucin hipergeomtrica aparezca en un examen de cinco preguntas elegidas al
azar?
6) Cul es el nmero ms probable de preguntas acerca de la hipergeomtrica que
contendr el examen?
3. Una caja con 24 calculadoras contiene cuatro que estn defectuosas. Si

se eligen
cuatro al azar de esa caja, calcule la probabilidad de que:
a) tres estn defectuosas
b) a 10mucho una resulte defectuosa
C) las cuatro estn defectuosas.
4. En una caja hay 25 discos compactos de msica, cinco de los cuales son copias
pirata
y los otros 20 son originales. Si se escoge al azar un conjunto de 10 discos de
la caja,
calcule:
a) la probabilidad de que a lo mucho dos de ellos sean piratas;
6) el nmero ms probable de discos originales en la muestra.
5. De un total de 20 alumnos que presentaron un examen de estadstica, tres de el
los
olvidaron anotar el nombre. Si se selecciona al azar una muestra de cinco exmenes
,
cul es la probabilidad de que todos tengan anotado el nombre?
6. De una caja con 24 tomates, 50 % estn podridos. Cul es la probabilidad de que u
na
cocinera escoja al azar ocho tomates y que todos sean frescos?
7. Un seor tiene una hija que estudia en la secundaria, y le da una cantidad var
iable de
dinero para llevar cada da a la escuela. El pap desea que dicha cantidad la decid
a la
suerte. Para esto, mete en una caja ocho pequeos papeles doblados, de los cuales
cinco dicen "20 pesos" y tres dicen "10 pesos". Cada maana, y en presencia de su
pap, la hija mete la mano a la caja y extrae al azar tres papeles sin reposicin. L
a canCap. 5. las distribuciones discretas tericas ms importantes 205
tidad que sumen los tres papeles ser lo que su pap le dar ese da para sus gastos
en la escuela. SiX denota dicha cantidad (en pesos):
a) encuentre la distribucin de probabilidad de X en forma de tabla (aproxime
a
cuatro dgitos decimales);
6) calcule la media y la moda de X.
8. Se cuenta que hace muchos aos hubo un noble ingls (el Conde de Yarborough)
que ofreci la siguiente apuesta a quienquiera que aceptara tomarla: de un juego d
e
naipes bien barajado, usted escoga 13 cartas sin reposicin (es lo que se llama un
a
mano de wbist, o de bridge) y al mismo tiempo usted pagaba al Conde una guinea.
Si
la mano que usted haba escogido no tena ninguna carta con valor superior al nueve,
entonces el Conde le devolva a usted 1000 guineas. Explique qu tan ventajosa o
desventajosa era la apuesta ofrecida por el Conde de Yarborough. (El valor ascen
dente de las cartas es 2, 3, . . . , 10, J, Q, K, A.)"
9. Al examinar el equipaje de un turista en la aduana, el vigilante hall6 un f
rasco con 20
tabletas blancas de apariencia sospechosa.
"Qu tipo de tabletas son stas?" -pregunt el vigilante.
"Son vitaminas" -repuso el viajero.
En verdad eran slo 12 tabletas de vitaminas. Las otras ocho eran de una droga pr
ohibida, pero eran notablemente similares a aqullas. El vigilante decidi tomar tre
s
tabletas al azar y las envi al laboratorio de la aduana para su anlisis.
Cul era la probabilidad de que el viajero fuese arrestado por posesin ilegal d
e

droga?
10. De un conjunto de nueve pilas slo seis son tiles y las otras tres son inservi
bles. Se
escogen tres al azar para el control de la T\5 el cual s6l0 funciona si las tres
pilas estn
en buen estado. Calcule la probabilidad de que el control no funcione al ponerle
las
pilas.
11. En la caja de un supermercado hay una pequea urna con 50 esferas, de las c
uales
45 son rojas y cinco son verdes. Por cada 200 pesos de mercanca el cliente tie
ne
derecho a sacar una esfera al azar (sin reposicin) y hasta un mximo de cinco extracciones por cliente. Si le sale alguna verde, el cliente se lleva gratis sus
mercancas.
Una seora compr mercancas por 1000 pesos. Cul es la probabilidad de que su
cuenta le salga gratis?
Formulario de la distribucin de Poisson
Media o d o r esperado: p = h
Moda: m. = [h] . Si ocurre que h es entero, entonces hay dos modas: h y
h- l.
Varianza: oZ = h
Desviacihn estndar: o = Jh
"D. Stinaker, An introduction topbability, ejercicio 13, Oxford University Pr
ess, 1998, p. 127.
206 Parte 11. Principales distribuciones estadsticas
Tercer momento central: p3 = h
Para clculos en Excel: =POISSON(x,h,O)
Disaibuadn acumulada: 2 9( x, p). Con tablas o con Excel: =POISSON
x=o
(r,CL, 1)
Aproximacin de binomid con Poisson. La distribucin binomial b(x, n, p)
tiende a la de Poisson con parmetro h = np a medida que n aumenta y p disminuye. Para valores muy grandes de n y valores muy pequeos dep, ambas distribuciones son casi idnticas.
En qud casos se usa. Es una distribucin para eventos independientes poco
probables. Puede verse como distribucin lmite de la binomial cuando n + m
y p + O. Tambin se aplica en elflujo de sucesos de Poisson, que son eventos
inesperados, independientes y poco probables, en los cuales h es un promedio
conocido de ocurrencias por unidad de tiempo, rea o volumen.
Ejemplos de la distribucin de Poisson
Ejemplo 5.45. La peluquera "El Rizo de Oro" en Tlalpan, Distrito Federal, es aten
dida por cuatro damas que tienen bastante habilidad para el corte de cabello. Se h
a observado que los sbados llegan en promedio 11 clientes por hora a esa peluquera. Calcu
lar
la probabilidad de que lleguen ms de 10 clientes en una hora cualquiera, dura
nte un
sbado.
Solucibn:
Ejemplo 5.46. Una variable aleatoria discreta X sigue una distribucin de Poiss
on,
cuya media es p = 9. Calcular el valor de P( p - 20 < X < p + 20), y tambin el va
lor aproximado que se obtendra con la desigualdad de Chbyshev.
Solucidn: Se tiene p = oZ = 9 o = 3. Luego:
La garanta que proporciona la desigualdad de Chbyshev es de slo:
Ejemplo 5.47. Se tiene una variable aleatoria discreta X, con distribucin de Po
is-

son, en la que se sabe que P(X = 1) = P(X = 3). De acuerdo con esa informacin, ha
llar
P(X= 5).
Cap. S. Las distribuciones discretas tericas ms importantes 207
Solucin:
Ejemplo 5.48. Supngase que X tiene distribucin de Poisson tal que P(X = 0) =
2P(X = 1). Determinar el valor ms probable de X.
Solucin:
Luego, la moda es:
Ejemplo 5.49. En un sitio de taxis que son llamados por telfono, se ha observado
que en promedio solicitan un taxi cada seis minutos.
a) Determinar el nmero ms probable de taxis que sern solicitados durante la
prxima media hora.
b) Dibujar un histograma para la variable aleatoriax que representa el nmero de
taxis solicitados cada media hora (usar Excel).
Solucin: Si solicitan en promedio un taxi cada seis minutos, entonces solicitan e
n
promedio cinco taxis cada media hora. Tmese la media hora como unidad de tiempo;
as, la variable aleatoria Xque denota el nmero de taxis que salen cada media hora,
est
dada por B(x, 5). Como h = 5 es entero, entonces hay dos modas: 4 y 5.
Por consiguiente, lo ms probable es que durante la prxima media hora soliciten
cuatro o cinco taxis. Veamos la comprobacin:
El histograma (probabilidad de que salgan X taxis durante media hora) se obser
va
en la figura 5.7.
i
Figura 5.7
Jacob (Jacques) Bernoulli ( 1 654- 1 705).
En 1685, escribi un importante libro de
probabilidad cuyo ttulo era Ars Conjectandi
( El arte de adivinar). Adems, enunci la
llamada ley de los grandes nmeros.
Facsmil de la portada del libro de Berno~
,'
JACOBI BERNOULLI,
AdilCM.&
G i c %
-wr.+mk
Cs&&
~ 1 i n r r r r i c i C i i i r ~ u i w ~
OPUS WI T H V Y U ~
i
ARS CONJECT'ANDI, 1
T R A C T A T V S
DE SERIEBUS INFINITIS,
i
fiErinor&&4bhip
D B L D n O P l L d B
I E T I C U L A R I I
1
B A S I L E B ,
a o pa t i i THVRNI S1 0 RVA4 , km~~
da bcc xi i t .
1. El promedio de llamadas telefnicas que se reciben en un despacho de abogados
es
de 12 por hora. Determine la probabilidad de que en una hora determinada del da:
a) se reciban ms de 12 llamadas
b) entren exactamente 15 llamadas

c) se reciban de 10 a 15 llamadas inclusive.


2. El nmero de buques tanque petroleros que llegan cada da al puerto de Coatzacoa
lcos, Veracruz, sigue una distribucin de Poisson, con parmetro h = 2. Las instalaci
ones portuarias slo permiten atender a tres buques al da, y en caso de que lleguen
ms de tres buques en un da, los que estn en exceso se despachan al puerto cercano de Allende, donde tienen que mantenerse a la espera.
a) Determine la probabilidad de que en un da cualquiera tengan que enviarse buques al puerto de Allende.
b) En cunto deben aumentarse las instalaciones actuales del puerto de Coatzacoalcos, para permitir la atencin a todos los buques tanque en 90 % de los das?
c) Cul es el nmero esperado de buques tanque que llegan al da al puerto de Coatzacoalcos?
d) Cul es el nmero ms probable de buques tanque que llegan diariamente al
puerto de Coatzacoalcos?
[FUENTE: Adaptado de problemas similares en Derman y Klein, 1959; Paul Meyer,
1973; y otros.]
2
3. SiX es una variable aleatoria con distribucin de Poisson tal que P(X= 2) = - P
(X=
l), halle: 3
a) el valor ms probable de X
b) la probabilidad del valor ms probable de X
c) P(X = O).
4. Es relativamente fcil demostrar que, en la distribucin de Poisson, los momen
tos
centrales de segundo, tercero y cuarto orden son: p, = h, CL, = h y p4 = h + 3h
2. Usando
esta informacin, determine:
c1
a) el coeficiente de asimetra o sesgo: y = 2
o3
P
b) la curtosis: K = 3.
o4
C) Qu ocurre con el sesgo de la distribucin de Poisson a medida que h + m?
5. Se informa que aproximadamente uno de cada 400 neumticos Firestone fabricados
en una planta durante el ao en curso tuvieron fallas que hacen que puedan reventarse en cualquier momento. Si en total fueron 6000 neumticos los que se fabricar
on
en esa planta durante ese lapso, cul es la probabilidad de que ms de 15 fallen?
6. Si en 2 % de los garrafones retomables de agua Electmpura se detectan fisura
s antes
de ser llenados, use la aproximacin de Poisson para determinar:
2 1 0 Parte 11. Principales distribuciones estadsticas
a) la probabilidad aproximada de que ms de 10 de los prximos 450 garrafones que
se intenten llenar presenten fisuras
6)' la media y la varianza del nmero de garrafones con fisuras en esa muestra
de
450.
C) Use la desigualdad de Chbyshev y las aproximaciones del inciso b para hallar
un
3
intervalo en el que se tenga una probabilidad de por lo menos - del nmero es4
perado de garrafones con fisuras en esa muestra de 450.

7. Se estima que vale 0.02 la probabilidad de que se reciba la seal de ocupado e


n cualquier llamada telefnica que entra al nmero telefnico de emergencias. Si un da se
hicieron 800 llamadas a dicho nmero, use la aproximacin de Poisson para estimar:
a) la media y la varianza del nmero de llamadas que recibieron seal de ocupado
ese da
6) la probabilidad de que menos de 14 llamadas hayan recibido seal de ocupado es
e
da.
c) Aplique los resultados del inciso a y la desigualdad de Chbyshev, para hallar
un in8
t e d o en el cual se tenga una probabilidad de por lo menos - del nmero de Il
a9
madas telefnicas al servicio de emergencias que recibieron seal de ocupado ese da.
8. Se considera que aproximadamente tres de cada 500 nios son alrgicos a la lacto
sa. Para una muestra aleatoria de 6000 nios, mediante la aproximacin de Poisson
halle:
a) la media y la desviacin estndar del nmero de nios de esa muestra que son
alrgicos a la lactosa
6) la probabilidad de que cuando mucho 30 de esos nios sean alrgicos a la lactosa
.
c) Aplique la desigualdad de Chbyshev y las estimaciones del inciso a para halla
r un
intervalo en el cual se tenga una confianza de por lo menos 0.96 del nmero de
nios alrgicos a la lactosa en esa muestra de 6000 nios.
En los siguientes ejercicios hay que aplicar dos distribuciones distintas: puede
ser primero Poisson y luego binomial, o primero Poisson y luego binomial negativa o geomt
rica.
1. Segn el programa Impacto (9 de marzo de 2001), en la Ciudad de Mxico hay un pr
omedio de 3.5 perros callejeros por cada cuadra en las zonas proletarias o margi
nadas
de la ciudad. Suponiendo que los perros son independientes unos de otros, d
etermine la probabilidad de que en una zona proletaria de la ciudad se encuentre ust
ed
cuatro o ms perros callejeros por cuadra:
a) en una cuadra cualquiera
6) en al menos tres de las siguientes cinco cuadras que recorra
c) por primera vez en la tercera cuadra que recorra
d) por segunda vez en la cuarta cuadra que recorra
e) por quinta ocasin antes de la octava cuadra que recorra.
[Suponga que el tamao de las cuadras es irrelevante.]
Cap. 5. Las distribuciones discretas tericas ms importantes 2 1 1
2. Todas las maanas la seora Godnez compra un panqu con pasas. Suponga que la
distribucin del nmero de pasas dentro de un panqu es Poisson con parmetro
h = 15. Calcule la probabilidad de que el panqu que ella compra tenga ms de 15
pasas:
a) en un da cualquiera
6) en dos de los siguientes tres das
c) por primera vez en el mes de mayo el da 4
d) por tercera ocasin en el mes de junio antes del da 6.
3. Segn el noticiario Hechos, conducido por el periodista Javier Alatorre (13 de
febrero
de 2001), en Mxico se fugan un promedio de 10 reos al mes de las prisiones de tod

o
el pas. Determine la probabilidad de que el ao prximo se fuguen ms de 12 reos al
mes, por segunda vez:
a) en el mes de junio
6) antes del mes de junio.
4. Las ventas de impresoras en la tienda Ofice Mm siguen una distribucin de Po
isson,
con una media de 3.5 impresoras vendidas al da. Cul es la probabilidad de que se
vendan por lo menos tres impresoras diarias:
a) durante cinco das consecutivos?
6) por primera vez en una semana a ms tardar el mircoles?
c) por tercera vez en una semana a ms tardar el viernes?
d) Cul es el da de la semana que tiene mayor probabilidad de registrar la tercera
vez
que se vendieron por lo menos tres impresoras diarias durante esa semana?
[Considere el lunes como primer da de la semana.]
5. El gerente de una empresa recibe en su oficina un promedio de 6.5 visitas al
da. Calcule
la probabilidad de que dicho gerente reciba en su oficina no ms de cinco visitas
diarias:
a) por lo menos en tres de los cinco das de la semana que trabaja
6) por primera vez en una semana a ms tardar el jueves
c) por segunda vez en una semana el da viernes
d) por segunda vez en una semana a ms tardar el viernes.
6. Una secretaria comete en promedio 2.5 errores de ortografa por pgina. Si los e
rrores
de ortografa son independientes y siguen una distribucin de Poisson, calcule la pr
obabilidad de que esa secretaria cometa no ms de 2 errores de ortografa por pgina:
a) en por lo menos tres de las siguientes seis pginas que escribe
6) por primera vez en la tercera pgina que escribe
c) por tercera vez antes de la quinta pgina que escribe.
d) Qu nmero de pgina escrita por ella tiene la ms alta probabilidad de ser la tercera pgina en la que ella cometi no ms de dos errores de ortografa?
7. En observaciones hechas por el famoso fsico britnico Ernest Rutherford (1871-1
937)
en Manchester, en 1911, se registr que el elemento radiactivo Polonio emita en pro
2 1 2 Parte 11. Principales distribuciones estadsticas
medio 3.87 partculas a durante un lapso de 7.5 segundos. Determine la probabilida
d
de que dicho elemento emita por lo menos una partcula a por segundo:
a) en un segundo cualquiera
6) en tres de los siguientes seis segundos
E) por tercera vez antes de haber transcurrido ocho segundos.
d) En qu nmero de segundo es ms alta la probabilidad de registrar por tercera vez
al menos una partcula a en un segundo?
(NOTA: Rutherford identific las partculas a como ncleos de helio que se emitan espontneamente a grandes velocidades.)
S aistribuciones
ntinuas tericas 4-=
La distribucin normal N (p., 02), que ya mencionamos de pasada en captulos anteriores, es un pilar fundamental en el edificio de la estadstica moderna
.
Apareci por primera vez en 1738, en la segunda edicin del libro Tbe Doctrine
of Chances del matemtico francs (radicado en Londres) Abraham de Moivre
(1667-1754). Sin conocer an los trabajos de De Moivre, el cientfico francs
Pierre Simon Laplace (1749-1827) explor a fondo esta distribucin en su clsico
libro Tborle analytique desprobabilitits, publicado en 1812.
La forma de la distribucin normal, la cual corresponde a una variable alea-

toria continua es acampanada, como se muestra en la figura 6.1. La media es p, l


a
varianza es 02 y la desviacin estndar es o, pero es posible transformar cualquier
caso particular en el caso ms general en el que la media es O y la desviacin estndar es 1, mediante la frmula:
que se llama tipificacin de la variable.
Al disminuir el valor de la desviacin estndar, la forma de la grfica se vuelve ms estrecha, como se aprecia en la figura 6.2: la curva B tiene menor d
esviacin estndar que la curva A. Algn estudiante pregunt una vez que si ello
significa que la curtosis de la curva B es mayor que la de la curva A. La respu
esta
es negativa. Cualquier curva de campana normal tiene curtosis igual a 3, como se
mencion en el captulo 3.
Figura 6.1. Distribucin normal.
Figura 6.2. La curva B tiene menor desviacin estndar que l a curva A.
Cap. 6. Las distribuciones continuas tericas ms importantes 2 1 5
Cuando la media es O y la varianza 1, se obtiene la llamada distribucin normal estndar, la cual se ilustra en la figura 6.3. En la figura se aprecian las c
aractersticas principales de la distribucin normal estndar o distribucin nomal tipificada (algunos autores la llaman campana de Gauss). La altura mxima de la curva
1
vale, J27c
que es casi 0.4 (a cinco dgitos decimales es 0.39894). En el intervalo
-1 < x < 1 la curva es cncava hacia abajo, mientras que fuera de ese intervalo l
a
curva es cncava hacia arriba. El valor esperado es igual a cero, lo mismo que la
moda y la mediana, mientras que la varianza es 1. Por supuesto, esto implica que
tambin la desviacin estndar es 1.
Figura 6.3. Grfica de la distribucin normal estndar.
En las distribuciones de variables aleatorias continuas, como es el caso de la
distribucin normal, las probabilidades se representan mediante tramos de rea
bajo la curva de densidad por encima del eje y entre dos lneas verticales que
representan los extremos de algn intervalo.
La distribucin nomd estndar acumulada @(e) la proporcionan reas (es
decir, probabilidades) bajo la curva normal estndar, a mano izquierda de cualquier abscisa z (fig. 6.4).
La grfica de la funcin @(x) tiene ms o menos el aspecto de la figura 6.5.
Los valores de esta funcin se calculan con Excel usando la siguiente sintaxis:
- .
Figura 6.4. Distribucin normal estndar acumulada.
Figura 6.5
6.2. EL. USO DE TABLAS Y DEL EXCEL EN LA DISTRIBUU~N NORMAL
Aunque las probabilidades para variables aleatorias continuas se calculan
como tramos de rea bajo la respectiva curva de densidad, por suerte en la mayora de los casos se dispone de tablas o de software apropiado, lo cual permite
Cap. 6. Las distribuciones continuas tericas ms importantes 2 1 7
que dichas reas se aproximen de manera sencilla y rpida, sin tener que calcular
integrales. Por cierto, en muchos casos, como en el de la distribucin normal, las
funciones de densidad ni siquiera tienen antiderivada algebraica, por lo que e
l
uso de tablas o de computadora no s61o es un lujo sino una necesidad.

Para cualquier nmero real c, suele denotarse por Q>(c) a la cantidad total
de rea bajo la curva normal estndar a mano izquierda de c. Dicho valor de rea
se puede buscar en tablas, pero entonces hay que redondear la parte decimal del
nmero c a un mximo de dos decimales despus del punto, lo cual implicar a
menudo una pequea imprecisin en los resultados de las tablas, en comparacin
con los resultados del Excel u otro software estadstico. La tabla 6.1 presenta
un
fragmento de las tablas tpicas de reas acumuladas bajo la curva normal estndar.'
Tabla 6.1. h a s bajo la curva normal estndar a seis dgitos decimales. Los dos dg
itos de la
primera fila son los centsimos de cada valor de z.
'Las tablas completas fueron generadas usando Fxcel, y se pueden consultar al f
inal del libro.
2 1 8 Parte 11. Principales distribuciones estadsticas
Por ejemplo, para calcular el rea bajo la curva a la izquierda de -3.26, es
decir, a(-3.26), buscamos -3.2 en la columna de z, y luego nos remitimos a l
a
columna donde dice 0.06. Hallamos entonces que @(-3.26) = 0.000557. En realidad, con el Excel podemos descubrir que @(-3.26) = 0.00055712, o tomar una
precisin aun mayor. En Excel se usa el men de la figura 6.6 o bien se escribe
directamente usando la sintaxis:
Figura 6.6
El Excel tambin tiene la opcin de calcular la distribucin normal estndar inversa, as como la distribucin normal inversa para cualquier caso especfico. La normal estndar inversa W1( p) devuelve el percentil zp sobre el eje,
para una probabilidadp, esto es, devuelve el valor de zp tal que @(zp) =p . So
n
raros los libros que incluyan tablas de la normal estndar inversa al final. El e
studiante puede confeccionar sus propias tablas estadsticas usando Excel, para
no depender de las tablas que traen los libros, adems de que lo puede hacer
a su gusto particular y con la precisin que necesite. Le aseguramos que es un
pasatiempo placentero para los das en los que no tenga nada mejor que hacer
(por ejemplo, durante la Semana Santa o "puentes" vacacionales). As aprender
a usar la utilera estadstica del Excel y adems tendr sus propias tablas hechas
a la medida.
Una probabilidad para valores aislados de la variable aleatoria slo tiene
sentido en el caso de variables discretas, mas no en el caso de variables contin
uas.
Por tanto, en la distribucin normal y en todas las distribuciones de variables
aleatorias continuas, las probabilidades se calculan slo para intervalos de
variacin de la variable y se representan mediante reas bajo la curva. Si hay
que calcular la probabilidad de un valor puntual, entonces dicho punto se convierte artificialmente en un intervalo, aadiendo media unidad (de la escala que
se maneja) a cada lado del punto. Por ejemplo, si hay que calcular la probabilid
ad
de que una persona mida 1.78 m de estatura y por convencin las estaturas se
redondean al centmetro ms cercano, entonces se calcula la probabilidad dentro
del intervalo [1.775, 1.785). Por convencin se toman intervalos cerrados por la
izquierda y abiertos por la derecha.
Algunas variables son continuas por naturaleza (como las edades de las personas, sus estaturas y sus pesos, las calificaciones promediadas de todo un curs
o
o los salarios de trabajadores) y, sin embargo, se suelen manejar como si fuese
n
discretas para efectos prcticos derivados de nuestra cultura. Por ejemplo, la cal

ificacin de un examen o el promedio de calificaciones de todo el semestre para


un alumno pueden tomar en teora cualquier valor continuo en escala del O al 10
(o del O al 100). No obstante, la mayora de las escuelas exigen que las notas
entregadas sean redondeadas a enteros. As, una calificacin de 7.786, por ejemplo,
ser registrada como 8. En todos estos casos, es menester realizar un pequeo
ajuste llamado correccin por continuidad. Por ejemplo, si se trata de determinar
el porcentaje de calificaciones que fueron inferiores a 8, se toma el intervalo
[O,
7.5), o si se trata de calcular el porcentaje de calificaciones mayores de 6 pe
ro
menores de 9, se toma el intervalo [6.5,8.5).
El estudiante no debe pensar que siempre tiene que aplicar correccin por
continuidad. En realidad, s610 es necesario hacerlo en alguno de los siguiente
s
casos: i ) cuando la variable de trabajo es continua por naturaleza (como las c
alificaciones), pero se redondea al final con una escala discreta para ser presenta
da,
ii) cuando se usa la distribucin normal como una aproximacin de la binomial,
la cual es discreta. Ello se ver en la seccin 6.5, pero antes ilustraremos algunos
ejemplos prcticos del uso de la distribucin normal.
Ejemplo 6.1. Un empleado de oficina entra a trabajar a las 9 de la maana todos l
os
das hbiles y hace un promedio de 28 minutos desde que sale de su casa hasta que ll
ega
a su oficina, con una desviacin estndar de o = 6 minutos. Supngase que la distribuc
in
de los tiempos de viaje es aproximadamente normal.
a) Si siempre sale de su casa a las 8:40 a. m., qu porcentaje de las veces llegar
tarde?
b) Cul es la probabilidad de que un viaje le tome menos de 20 minutos?
c) A partir de qu tiempo de viaje (en minutos y segundos) se encuentra 10 % de
los viajes ms demorados para este oficinista?
0.0 t
0.06 -t
0.05 -:
0.04 -i
0.03 -!
l
0.02 -:
0.01 -:
1
l
15 20 25 p 30 35 40 Minutos
i
I
Figura 6.7
Solucin: Conviene dibujar primero una grfica rpida, con objeto de tener una
idea ms clara de lo que se est haciendo (fig. 6.7).
Sea T la variable aleatoria que denota el tiempo (en minutos) empleado por el of
icinista, desde que sale de su casa hasta el momento en que entra a su oficina. Par
a tipificar
una abscisa t, se hace:
a) Por la hora en que el oficinista sale de su casa, le quedan 20 minutos antes
de registrar retardo. Tipificarnos el valor t, = 20, para obtenerz, = -1.33 (se redo

ndea
a dos dgitos despus del punto decimal, para poder usar las tablas). Entonces:
De aqu que 91 % de las veces el oficinista llegar tarde a su trabajo.
6) Se tipifica primero el valor t , = 20, y se obtiene z, = -1.33 (correcto a
dos dgitos). Entonces:
c) El percentil correspondiente para P(z >p) = 0.10 (esto es, el decil Dd se
denota
por el smboloz,,, = O-'(0.90) = 1.2815508 (se usa la tabla de la normal estndar
inversa). Entonces:
t = zo + p = 1.2815508 X 6 + 28 = 35.69 minutos
(equivale a 35 minutos con 41 segundos).
Cap. 6. Las distribuciones continuas tericas ms importantes 22 1
Ejemplo 6.2. En cierto lugar, la estatura de los varones adultos es una variable
aleatoria continua que sigue una distribucin normal, con media p = 1.69 m y
desviacin
estndar de a = 0.03 m.
a ) Obtener las estaturas correspondientes a los deciles D, y D, y a los cua
rtiles Q,
Y Q3.
6) A partir de qu estatura se encuentra 5 % de los hombres ms altos? El 2.5 %
de los hombres ms altos?
Solucin:
a) En la distribucin normal tipificada, se tiene (vase la tabla correspondiente)
:
D, =zo,,, = @-'(0.10) = -1.2815508; luego, zo,,oo + p = (-1.28155)(0.03) +
1.69 =
1.6516 m.
D, =z0,,, = @-'(0.30) = -0.5244010; luego, zo,,a + p = (-0.52440)(0.03) + 1.
69 =
1.6743 m.
Ql = zo,z5 = a-l(0.25) = -0.6744904; luego, z,,,o + p = (-0.67449) (0.03) +
1.69 =
1.6698 m.
Q3 = z,,,~ = a-l(0.75) = 0.6744904; luego, zO,,,o + p = (0.67449)(0.03) + 1.6
9 =
1.7102 m.
Por consiguiente, 50% de la poblacin considerada tiene estaturas que oscilan
entre 1.6698 y 1.7102 metros.
6) La estatura a partir de la cual se encuentra 5 % de los hombres ms altos en e
sa
poblacin es el percentil correspondiente a z,,, = @-'(0.95) = 1.6448530 (en
unidades tipificadas), lo cual se transforma como zo, a + p = (1.644853)(0.03)
+ 1.69 = 1.7393 m. Por otra parte, la estatura a partir %e la cual est 2.5% de l
os
ms altos es z0,,,o + p = (1.9599611)(0.03) + 1.69 - 1.7488 m.
Algunas variables aleatorias discretas pueden seguir una distribucin aproximadamente normal, a pesar de que la normal es una variable continua. En tales
casos, los puntos se cambian por intervalos, tomando media unidad a sendos
lados de cada valor puntual (correccin por continuidad).
Ejemplo 6.3. Supngase que el nmero de huracanes anuales que azotan una isla
sigue una distribucin aproximadamente normal con media p = 4.5 huracanes al ao y
desviacin estndar a = 1.3 huracanes al ao. Calcular la probabilidad de que durante
un
ao cualquiera ocurran en esa isla:
a ) entre dos y cuatro huracanes, inclusive;

6) exactamente tres huracanes.


Solucin: En ambos casos debemos usar correccin por continuidad, porque la
variable aleatoriax que representa el nmero de huracanes al ao es discreta, y la d
istribucin que sigue dicha variable (normal) es continua.
a) Tomamos 2 como representativo del intervalo [1.5,2.5) y 4 como representati
vo
del intervalo [3.5, 4.5). Entonces, tipificamos el extremo izquierdo del primer
intervalo (1.5) y el extremo derecho del segundo intervalo (4.5). Tenemos:
Luego:
b) Tipificamos los extremos del intervalo [2.5,3.5), el cual corresponde al val
or
X = 3.
Luego:
Recurdese que anteriormente se vio cmo un histograma para la distribucin binomial tiende a ser simtrico y acampanado cuando su parmetrop tiende
a 0.5. Esto hace que, para valores d e p cercanos a 0.5 y para valores de n ms
o
menos grandes, las probabilidades acumuladas de una distribucin binomial se
parezcan mucho a los valores que se obtendran si se usa la distribucin normal y
se aplica la correccin por continuidad. Si n es grande y p est lejos de 0.5, per
o
es prximo a O o a 1, entonces la distribucin de Poisson es una aproximacin
ms razonable.
La distribucin normal es a menudo una buena aproximacin a una distribucin discreta cuando esta ltima toma la forma de campana simtrica. Desde
el punto de vista terico, algunas distribuciones convergen a normales a medida
que sus parmetros se aproximan a ciertos lmites. La distribucin normal es una
distribucin de aproximacin conveniente, porque su distribucin de probabilidad acumulada se tabula de manera sencilla. La distribucin binomial se aproxima bastante bien con la normal en problemas prcticos cuando se trabaja con la
funcin de distribucin acumulada. Por regla general, si tanto np como nq son
mayores que 5, se recomienda la aproximacin, lo cual permite un considerable
ahorro de trabajo y de tiempo.
Ejemplo 6.4. Se lanza una moneda 12 veces. Sea X el nmero de guilas que salen.
Para x = 0,-1, 2, . .., 12 se requiere hacer un comparativo de los valoresde
probabilidad
de que salgan exactamente x guilas usando la distribucin binomial y la normal com
o
aproximacin. Mostrar grficamente la curva normal y el histograma (diagrama de barr
as)
de la binomial.
Solucin: Usarnos p = np = (12) (0.5) = 6; o = 6 = 6 = 1.732. Para cada punto x, usamos el intervalo completo que va desde x - 1/2 hasta x + lh. Por eje
mplo, para
Cap. 6. las distribuciones continuas tericas ms importantes 223
obtener la probabilidad de que salgan cuatro guilas en los 12 volados por medio
de la
normal, tomamos como "cuatro" a todo el intervalo desde 3.5 hasta 4.5. Entonces
se tipifican los extremos:
Luego:
Este nmero es una aproximacin razonable del valor exacto, el cual se calcula con l
a tabla
de la distribucin binomial:
En la tabla 6.2 se pueden comparar las probabilidades binomiales y normales pa
ra
todos los valores de X desde O hasta 12. Desde luego, n = 12 no es un nmero muy g
ran-

de. Si fuese mayor, la aproximacin sera obviamente mucho ms precisa, pero siempre
con la condicin de quep sea razonablemente prximo a 0.5.
En la figura 6.8 se aprecia esto de manera grfica. Obsrvese que los pequeos pedazos de histograma que salen arriba de la curva (excesos) son ms o menos iguales e
n rea
Tabla 6.2
X
O
1
2
Intervalo
[-0.5,0.5] '
[0.5,1. 51
[1.5,2.5]
Exfremo
derecho
tipiftcado
( 4
-3.18
-2.59
-2.02
3
4
5
6
7
8
9
10
Extremo
izquierdo
t@$cado
( 4
-3.75
-3.18
-2.59
@(b) - @(a)
(nol-ma6)
0.0007
[2.5,3.5]
[3.5,4.5]
11 [IO.~, 11.51
12 / 111.5, 12.51
-2.02
-1.44
-0.87
-0.29
0.29
0.87
1.44
-1.44
-0.87
Valor real
(binomial)
0.0002
[9.5,10.5] i 2.59 / 2.02 / 0.0169 .
t- 3.75 3.18 0.0007 1 0.0002 1 0.0005
3.18
Di$erencia
0.0005

0.0161 1
l
0.0008
[4.5,5.5]
[5.5,6.5]
[6.5,7.5]
17.5,8.5]
2.59 1 0.0041 j 0.0030 1 o.0011
-0.0005
-0.0035
0.0003
0.0026
: 0.0011
0.0008
0.0532
0.1173
0.1937
0.2282
0.0041 1 0.0030
-0.29
0.29
0.87
1.44
0.0537
0.1208
0.1934
0.2256
0.0169
[8.5,9.5] 1 2.02
0.0161
0.1937
0.1173 .
0.0532
O. 1934
1 0.1208
0.0537
0.0003
-0.0035
-0.0005
Figura 6.8. Aproximacin de la binomial con una curva normal.
a los pequeos huecos en blanco que quedan bajo la curva (defectos). Sin embargo,
queda
claro que sin hacer cuentas podemos concluir que la suma de todos los excesos es
igual a la
suma de todos los defectos o, dicho en otras palabras, que la suma algebraica de
todas las
diferencias de la ltima columna en la tabla debe ser necesariamente cero (por qu?)
.
Observacin sobre el significado de la curtosis. Aunque el coeficiente de curtosis indica qu tan picuda es la grfica de una distribucin continua, resulta muy
comn que la gente malinterprete ese concepto, porque en realidad es un concepto ms complejo. Para evaluar en forma numrica el coeficiente de curtosis K
de una distribucin cuya funcin de densidad de probabilidad es f (x) y en la cual
p y o denotan, respectivamente, la media y la varianza, se requerira plantear y
resolver cierta integral, lo cual se hace en cursos de estadstica para ingenieros
o
de estadstica matemtica.
En el caso de la distribucin normal se obtiene el valor de K = 3, no importa

cules sean los valores numricos particulares de p y o. Esto quiere decir que no
es correcto pensar que algunas curvas normales son "ms picudas o menos picudas que otras". A decir verdad, todas son igualmente picudas, en el sentido de q
ue
se pueden superponer punto por punto mediante una adecuada traslacin y una
reduccin (o ampliacin) de la escala. Ello es claro por el hecho de que todas las
curvas normales se reducen a la normal estndar mediante la transformacin:
lo que representa precisamente una traslacin seguida de una amplificacin (o
reduccin).
Figura 6.9. Curvas normales con desviaciones tpicas diferentes. pero todas con la
misma
curtosis.
En la figura 6.9, tenemos tres curvas normales con distintos parmetros
(media y desviacin tpica), pero que esencialmente tendran idntica forma en
dibujos separados; es decir, todas se reduciran a la curva normal estndar mediante una traslacin y una ampliacin (o reduccin) apropiada de la escala.
Ejemplo 6.5. Con Excel, calcular las posiciones exactas de cada uno de los nu
eve
deciles D,, D, ,. . ., D, en la distribucin normal estndar.
Solucin: Con la sintaxis = D1STR.NORM.ESTAND.INV se pueden obtener rpidamente los siguientes valores:
En la figura 6.10 se aprecia esto de manera grfica.
Figura 6.10. Los nueve deciles en l a distribucin normal estndar.
La distribucin exponenciai, definida parax 2 0, con parmetro de escala h >
O, tiene la siguiente funcin de densidad de probabilidad:
En la figura 6.11, aparecen las grficas superpuestas de dos distribuciones
exponenciales, con parmetros de escala 112 y 1, respectivamente.
La media y la varianza de la exponenciai estn dadas, respectivamente, por:
La distribucin acumulada de probabilidad est dada por:
F(x) =P( X 5 x) = 1 -e-""
Figura 6.1 I
Una generalizacin de la exponencial es la llamada distribucin de Erlang:
1 0 en otra parte.
donde r e s un entero positivo, que se llama patmetm de forma, y h es un nmero
real positivo, que se llama parmetro de escala. Cuando r = 1, la distribucin de
Erlang coincide con la exponencial. Esta distribucin fue estudiada por el cientfico dans A. K. Erlang (1878-1929) a principios del siglo xx, en conexin con
problemas de trico de lneas telefnicas.
Para t > O, la funcin de densidad de probabilidad de la distribucin de
Erlang adopta precisamente la forma de la distribucin de la variable discreta de
Poisson, con variable aleatoria discreta x = r - 1 y con ht ocurrencias en prom
edio por unidad de tiempo, pero multiplicada por el parmetro de escala h. En
efecto, si hacemos x = r - 1 (para r = 1, 2, 3, 4, . . .), se tiene:
9(x, ht) = P( r -1, ht)=
@t)"e-u
(r -l)!
h
Por consiguiente, para x = r- 1, se tiene h 9(x, ht) = - (ht)r+e-b,
(r -l)!
lo cual coincide con la distribucin de Erlang para t 1 0.
228 Parte 11. Principales distribuciones estadsticas
En cursos de probabilidad y estadstica para ingenieros (o de estadstica
matemtica) se demuestra que la distribucin acumulada de probabilidad es, en
este caso:
r-l
k=O
La distribucin de Erlang es slo un caso particular de otra distribucin
estadstica ms importante y general que se llama distribucin gama (o gamma),

en la cual el parmetro de escala r puede tomar cualquier valor real positivo (no
nicamente valores enteros). En tales casos, el valor de (r - l)! se remplaza por
una funcin matemtica de r que se llama funcin gama (o gamma), denotada
por T(r), que aqu no expondremos, porque rebasa el nivel de presentacin de
este curso. La figura 6.12 ilustra la forma tpica de la distribucin gama, que tien
e
ms o menos la misma forma que la distribucin de Erlang.
Figura 6.12. Grficas tpicas para la distribucibn gama.
La media, la varianza y la moda de la distribucin gama (y, por tanto, de la
distribucin de Erlang) estn dadas, respectivamente, por:
La distribucin de Erlang (o de manera ms general, la distribucin gama)
es la contraparte continua de la distribucin binomial negativa (o Pascal) b*(x,
k,
Cap. 6. Las distribuciones continuas tericas ms importantes 229
p), la cual rige la probabilidad del nmero de ensayos requeridos hasta completar el k-sirno xito en los ensayos de Bernoulli. En forma anloga, la distribucin
de Erlang rige la probabilidad del tiempo requerido hasta completar el r-simo
acontecimiento de Poisson. Por ejemplo, para calcular la probabilidad de q
ue
alguien que lanza una moneda al aire obtenga la tercera guila antes del quinto
intento, se usa la binomial negativa. Pero si queremos calcular la probabilidad
de
que un taxista desocupado logre su tercer servicio antes de que pase una hora,
usamos la distribucin de Erlang.
El estudiante har bien en observar ms detalles de esa analoga: la distribucin geomtrica es a la binomial negativa como la exponencial es a
la de Erlang (o a lagama). Incluso podr observar en las grficas que el histograma de una distribucin geomtrica es de la misma forma que la curva de
densidad de una distribucin exponencial. Asimismo, el histograma de una
binomial negativa es de la misma forma sesgada que la curva de densidad de
probabilidad de la distribucin de Erlang (o gama). Incluso las medias y las
varianzas respectivas tienen un gran parecido, cada una con sus respectivos
parmetros. En el cuadro 6.1 se comparan las similitudes entre la geomtrica
y la exponencial.
= probab
hasta
. . 1 Media o v
Cuadro 6.1. Similitudes entre la distribucin geomtrica y la distribucin exponencia
l.
Varianza:
Caso discreto
bucin geomt&a
De lo que aparece en el cuadro 6.1, no hemos descrito an un par de cosas:
la prdida de la memoria y la rapidez de falla. Explicaremos rpidamente estas
propiedades en forma ms bien intuitiva y no analtica (matemtica). Suponga
que lanza una moneda al aire muchas veces y desea que la moneda caiga con
guila hacia arriba (xito), pero ya lleva dos lanzamientos y todava no aparece el
xito. La lanza por tercera vez y de nuevo sale sol. Una persona que no conozca
la propiedad de prdida de la memoria podra sospechar que para el cuarto lanzamiento debera haber una alta probabilidad de que por fin llegue el primer xito
(guila), porque de algn modo pensamos que ya es justo que esa racha de soles
Caso continuo
(dlsnibuci&n exponencial)
Ni :nsayos requeridos Tiempo transcurrido hasta que ocurra
que ocurra el primer xito (ensayos ae el primer acontecimiento (sucesas de
Bernoulii) Poisson)

Parmetro:~ L.----- Parmetro: h = promedio de xito l ; t e c To ; ; unidad de tiempoMedia o valo


Varianza: o2 =
nica distribucin discreta con la nica distribucin continua con la
propiedad de prdida de la memoria propiedad de prdida de la memoria
nica distribucin discreta con rapidez nica distribucin continua con
de falla const rapidez de falla constante
Histograma: Curva de densidad: montoi
decreciente
1
230 Parte 11. Principales distribuciones estadisticas
termine. (Como se dice coloquiaimente: ya le toca salir al signo de guila.) Pero
esto es inexacto. En realidad, la moneda no tiene memoria (obviamente!) y no
puede apresurarse a "compensar" esa racha de soles con una pronta aparicin
de su primer guila (en esa serie), pero la distribucin de probabilidad que rige
el nmero de lanzamientos necesarios para que ocurra el primer xito (guila)
itampoco tiene memoria! (es la distribucin geomtrica), as que no importa qu
tan larga ha sido la racha de soles, la probabilidad de que salga el primer sign
o de
guila en el siguiente ensayo es la misma que cuando se inici la serie de lanzamientos o que en cualquier momento.
Lo mismo pasa con la distribucin exponencial (que rige el tiempo transcurrido hasta el primer acontecimiento de Poisson). Supngase, por ejemplo, que a la
orilla de un lago est pescando un seor apaciblemente, que lleg desde las nueve
de la maana y que una hora despus an no ha pescado nada. De pronto llega
un compaero a las 10 de la maana y se pone a pescar tranquilamente junto a l.
Uno podra pensar que "por derecho de antigedad el primer pez que muerda
debe corresponder al hombre que lleva ms tiempo esperando, como si los peces
dijeran: "Pobrecito, lleva ms de una hora esperando, mientras que el otro apenas
acaba de llegar, as que nos corresponde picar primero en el anzuelo de aquel paciente hombre." Esto es falso e inexacto desde el punto de vista probabilstico, a
unque quiz sea correcto desde el punto de vista cultural (como dicen los ingleses:
first comefirstserved). De hecho, la probabilidad de que cualquiera de ellos at
rape
su primer pez antes de los prximos 10 minutos, por ejemplo, es exactamente la
misma para ambos. Y no es que los peces no tengan memoria (en realidad, ni les
interesa quin o quines los quieren atrapar), lo que pasa es que la distribucin que
rige el tiempo hasta la ocurrencia del primer acontecimiento de Poisson (el acto
de
atrapar un pez) es una distribucin carente de memoria probabilstica.
La formulacin y demostracin matemtica precisa de la propiedad de prdida de la memoria, as como otras formulaciones matemticas alternativas originales del autor, pueden consultarse en el libro Problernario de probabilidad
,
por Piotr M. Wisniewski y Gabriel Velasco Sotomayor, p. 236 y ejercicios 1391 y
1392, pp. 262 y 263.
Lo de la rapidez de faiia es otra cosa diferente. Se trata de una propiedad importante en teora del control de calidad y productividad. Es un atributo estadstico que slo lo tienen las distribuciones geomtrica y exponencial, y analizarlo
en este momento nos alejara y distraera del tema central. El lector interesado
puede consultar la formulacin rigurosa de este concepto de rapidez de falla en
el libro citado (Probleman'o deprobabilidad), ejercicio 1407 (resuelto con todo
detalle) y ejercicio 1411, as como el ejercicio 1050, p. 177; todos ellos son eje
rci-

cios relacionados con el tema del control de calidad.


Veamos algunos ejemplos concretos del uso de la distribucin exponencial
como regidora del tiempo de espera hasta el primer suceso de Poisson.
Distribucin de probabilidad acumulada en la exponencid. Resulta fcil demostrar que para la distribucin exponencial:
Cap. 6. Las distribuciones continuas tericas ms importantes 23 1
la probabilidad de que la variable X asuma un valor menor (o menor o igual) que
una constante a > O est dada por:
Asimismo, la probabilidad de que X asuma un valor dentro de un intervalo
[a, b] (puede ser un intervalo abierto o semiabierto tambin) est dada por:
El estudiante observador tal vez note cierto parecido entre estas dos frmulas y las frmulas anlogas para la probabilidad acumulada en la distribucin
geomtrica, mas no es nuestro deseo distraer su atencin con estos detalles por
ahora. Es slo un comentario. Lo importante es que estas dos frmulas nos permiten resolver rpidamente problemas de espera de este tipo con ayuda de una
simple calculadora cientfica, aunque el Excel es incluso ms rpido y cmodo.
Procedimiento para resolver problemas de espera con la distribucin exponencid. Lo primero que se debe hacer es definir la unidad de tiempo que se va a us
ar
(puede ser cualquier unidad de tiempo, pero es ms fcil si se escoge una unidad
razonable). El parmetro h de la distribucin ser el nmero de acontecimientos
de Poisson en esa unidad de tiempo. Esto quiere decir que dos personas que
resuelvan un mismo problema pueden elegir distintas unidades de tiempo y as
tendrn distintos valores para h y diferentes ecuaciones, pero al final van a lleg
ar
a respuestas idnticas.
Ejemplo 6.6. En una oficina se reciben en promedio seis llamadas telefnicas po
r
hora. Si suponemos que el flujo de llamadas telefnicas que entran es una variable
aleatoria discreta que sigue una distribucin de Poisson, obtener la distribucin de proba
bilidad
de la variable aleatoria continua T que denota el tiempo transcurrido entre dos
llamadas
consecutivas que entran ( T1 O), suponiendo que la unidad de tiempo que se usa
es:
a) la hora
b) el minuto
c) el lapso de 10 minutos
d) el cuarto de hora.
be-' si t 2 0. O. le"." si t 20.
si t <O.
si t < 0.
Ejemplo 6.7. Con referencia al ejemplo anterior, determinar la probabilidad de q
ue
transcurran ms de 10 minutos pero menos de media hora entre dos llamadas telefnica
s
consecutivas que entran.
232 Parte 11. Principales distribuciones estadsticas
Solucin: Escogemos como unidad de tiempo el intervalo de 10 minutos. Luego:
Ejemplo 6.8. Si suponemos que en un partido de futbol los tiros de esquina son s
ucesos de Poisson que ocurren a un ritmo promedio de uno cada seis minutos, deter
minar
la probabilidad de que transcurran ms de cinco minutos para que ocurra el siguien
te tiro
de esquina, dado que:
a) precisamente acaba de ocurrir un tiro de esquina
6) el ltimo tiro de esquina ocurri hace seis minutos
c) el espectador acaba de llegar al estadio y no sabe cundo tuvo lugar el ltimo

tiro de esquina.
Solucidn: La respuesta es la misma para los tres incisos:
(por la propiedad de prdida de la memoria).
Ejemplo 6.9. Durante la poca de lluvias (meses de mayo a octubre), el suministro
de energa elctrica en la colonia Pedregal de las Aguilas en el Distrito Federal se
interrumpe con mucha frecuencia, lo cual causa bastantes molestias a las personas. Supnga
se que
las interrupciones del suministro de energa elctrica ("apagones"), en esa zona y d
urante
la poca mencionada, siguen una distribucin de Poisson con promedio de 0.8 apagones
al da. Si una persona necesita de slo tres horas para terminar un trabajo en compu
tadora, calcular la probabilidad de que pueda lograrlo antes de que un apagn int
errumpa
ab~pt mI ent e su trabajo.
Solucin: Tmese la hora como unidad de tiempo. Si hay 0.8 apagones en un lapso
0.8 1
de 24 horas, entonces h = - = -. Dentese por T al tiempo transcurrido hasta
el
24 30
primer apagn (el prximo). As, se tendr:
Ejemplo 6.10. En un puesto de peridicos, los clientes independientes que llegan
a comprar un diario o una revista lo hacen a un promedio de 1.6 clientes po
r minuto.
Calcular la probabilidad de que se registre un tiempo de menos de dos minutos an
tes de
que llegue el prximo cliente.
Solucin: Sea X el tiempo (en minutos) transcurrido hasta la llegada del primer
(o
del prximo) cliente. Entonces, X tiene distribucin exponencial con parmetro h = 1.6
.
Luego:
Ejemplo 6.11. En un negocio de comida rpida, atienden en promedio a un cliente
cada cinco minutos. Cul es la probabilidad de que un mismo cliente haya sido atend
ido
en ese lugar en un tiempo inferior a los tres minutos en al menos cuatro de las
seis veces
que comi ah?
Solucin: Tomemos el minuto como unidad de tiempo. Como despachan a un
cliente cada cinco minutos (en promedio), entonces atienden a 0.2 clientes cada
minuto.
Luego, h = 0.2. SiXes el tiempo en minutos que pasa hasta que despachan al prime
r (o al
Cap. 6. Las distribuciones continuas tericas ms importantes 233
prximo) cliente, entonces X sigue una distribucin exponencial con parmetro h = 0.2.
La probabilidad de que se tarden menos de tres minutos en despachar a un client
e una
sola vez, est dada por:
y de que ocurra eso mismo en al menos cuatro de seis intentos est dada por:
Esto lo podemos calcular rpidamente con tablas o con Excel. Tendremos as:
Distribucin de probabilidad acumulada en la de Erlang. Para la distribucin
de Erlang (que es el anlogo continuo de la binomial negativa), la distribucin
de probabilidad acumulada es muy similar a la de la exponencial, excepto que en
lugar de e-" se toma la de Poisson acumulada (hasta r - 1) con parmetro ha. La
demostracin rigurosa puede verse en otros de los libros del autor, escritos con
la colaboracin del doctor Wisniewski:
. ?

P(X <a ) =l - x 9 ( k J ha)


De aqu se sigue que la probabilidad de que la variable X asuma un valor
dentro del intervalo [a, b] (puede ser abierto tambin, o semiabierto) se calcula as:
r-1 r-1
P(a < X < 6) = z 9 ( k J ha) - x 9 ( k , hb)
k=O k=O
Procedimiento para resolver problemas de espera con la distribucin de Erlang. Al igual que con la exponencial, se empieza por definir la unidad de tie
mpo que se usar. El parmetro de escala h de la distribucin ser el nmero de
acontecimientos de Poisson en esa unidad de tiempo. Entonces, la distribucin
del tiempo transcurrido hasta lograr la r-sima ocurrencia de Poisson es precisamente Erlang con parmetro de forma r y parmetro de escala h.
Ejemplo 6.12. Un transbordador llevar pasajeros al otro lado de un ro cuando 10
automviles estn a bordo. Supngase que por experiencia se sabe que los automviles
llegan al transbordador como ocurrencias de Poisson independientes, a un ritmo
promedio de siete por hora. Obtener la probabilidad de que el tiempo entre dos salid
as consecutivas del transbordador sea no mayor que una hora.
234
Parte 11. Principales distribuciones estadsticas
Solucidn: Tomamos 1 hora como unidad de tiempo. Entonces, r = 10 automviles,
h = 7 automviles por hora; y as se tendr:
Hallamos este valor rpidamente con Excel as:
Ejemplo 6.13. Varios amigos estn en una cantina tomando cervezas y jugando domin alegremente. El tiempo (en minutos) que uno de ellos tarda en acabarse cada
cerveza es una variable aleatoria con distribucin exponencial, cuya varianza es de 25
. Adems,
por cada cuatro cervezas que se toma debe ir urgentemente al bao a deshacerse del
exceso de agua acumulada en su organismo. Calcular la probabilidad de que demore e
ntre
15 y 20 minutos, entre dos visitas consecutivas al bao.
1 1
Solucin: Si o2 = - = 25, entonces h = - . Ahora bien, si a la cuarta cervez
a
hZ 5
acumulada tiene que ir al bao, entonces la distribucin del tiempo entre dos visita
s consecutivas al bao es la distribucin del tiempo transcurrido hasta completar la cuar
ta cer1
veza, la cual es Erlang con parmetros r = 4, h = -. Por tanto:
5
Esto se calcula rpidamente con Excel as:
6.7. LA DISTRIBUCI~N JI-CUADRADA (xZ)
CON V GRADOS DE LIBERTAD
Un tercer caso especial de la distribucin gama (aparte de la exponencid
y la de Erlang), que reviste importancia fundamental en la estadstica, es la Il
amada distribucin ji-cuadrada (o ji-dos) con v grados de libertad (v es la letr
a
griega nu equivalente a la n). En estadstica se usa mucho el trmino grados
de libertad, que significa el nmero de observaciones independientes menos el
nmero de parmetros desconocidos que se trata de estimar con base en dichas
observaciones.
La distribucin ji-cuadrada ( ~ 3 con v grados de libertad (V entero positivo)

es slo una distribucin gama con


1
L
cda h = - . Resulta fcil ver que
2
Mencionamos esta frmula slo a
estudiante no debe preocuparse si

parmetro de forma r = ?, y parmetro de essu densidad de probabilidad se simplifica como:


guisa de informacin general, pero el
no la entiende, ya que, a fin de cuentas, todo

lo que va a requerir de la ji-cuadrada es cmo calcular percentiles de esta distr


ibucin, lo cual se hace cmodamente con tablas o con Excel.
En cierto modo, la distribucin ji-cuadrada viene siendo el cuadrado de la
distribucin normal estndar; ms especficamente: si Z es una variable aleatoria
continua que tiene distribucin normal tipificada, entonces ZZ tiene distribucin
ji-cuadrada con un grado de libertad. Por otra parte, si Z,, Z,, . . . , Zn so
n variables
aleatorias que tienen la distribucin normal estndar (media p = O y varianza o2 =
l ), entonces la variable aleatoria Zt + Z: + . a + 2: tiene distribucin ji-cu
adrada
con n grados de libertad.
Es fcil comprobar que el valor esperado de la distribucin ji-cuadrada con v
grados de libertad es precisamente p = V, mientras que la varianza es u2 = 2v.
Para valores grandes de v, los percentiles X; de la distribucin ji-cuadrada
con v grados de libertad pueden calcularse con una exactitud razonable por medio de la expresin dada por , donde zp es el percentil corres2
pondiente de la distribucin normal estndar. Por ejemplo, en la tabla de percentiles de la distribucin ji-cuadrada con v grados de libertad, hallamos que x&, c
on
150 grados de libertad es 179.58061, mientras que con la aproximacin mencionada se obtiene:
Esta es una buena aproximacin y para casos prcticos es ms que suficiente, ya que en inferencia estadstica los percentiles de la ji-cuadrada no necesita
n
ser demasiado exactos, pues a menudo slo se usan para comparar con otro valor
numrico calculado y decidir si se acepta o se rechaza cierta hiptesis relativa a
una varianza, o bien para construir un intervalo de confianza relativo a alg
una
desviacin estndar (desconocida) de una poblacin. En ninguno de estos casos
se requiere un valor numrico demasiado preciso para ese percentil.
Aunque la distribucin gama (y por tanto, la ji-cuadrada y la de Erlang) nunca puede tomar valores negativos, mientras que la distribucin normal s puede
hacerlo, cuando r tiende a infinito se aprecia, incluso grficamente, cmo la forma de la grfica de la distribucin gama (o la ji-cuadrada) se parece cada vez ms
a la forma acampanada de la distribucin normal (vase fig. 6.13).
En cursos de estadstica matemtica terica se demuestra con rigor por qu
todas estas curvas tienden a parecerse a la normal bajo ciertas condiciones. Fue
ron los grandes estadsticos rusos del siglo m, Alexander Lyapunov, Andri Kolmogrov y Boris Gnedenko, quienes llevaron la estadstica matemtica terica a
su mximo grado de perfeccin y belleza lgica, con la formulacin rigurosa de
Figura 6.13. Tendencia de la distribucin de Erlang a perder el sesgo cuando r
+ 03.
una serie de teoremas sobre lmites de distribuciones. Por desgracia, todo eso
queda muy por arriba del nivel de presentacin matemtica de estas modestas
lecciones.
6.8. LA DISTRIBUCI~N T DE STUDENT CON
V GRADOS DE LIBERTAD

Esta distribucin es muy importante en estadstica y fue propuesta por el


cientfico ingls W: Gosset (1876-1937), quien trabajaba en la compaa productora de cerveza Guinness en Dubln, Irlanda, y que escriba sus trabajos bajo el
seudnimo de Student (el estudiante). Si T es una variable aleatoria continua con
distribucin t de Student, su f. d.^.^ est dada por:
En cierto modo, la distribucin t de Student resulta ser una especie de versin generalizada de la distribucin normal estndar, la cual es precisamente una
distribucin t con m grados de libertad. En la figura 6.14, la curva ms alta es el
2fdp, o bien f.d.p. abreviatura de funcibn de ciemhkddepmbabilidad.
Cap. 6. Las distribuciones continuas tericas ms importantes 237
lmite al que tiende la distribucin t de Student conforme el nmero de grados
de libertad v tiende a infinito (es precisamente la normal estndar). En la curva
que sigue hacia abajo v = 5, en la que sigue (hacia abajo) v = 2, y en la ms baja
de todas v = 1.
En la figura 6.14, generada por el popular programa MathematicaB, la al1
tura de la grfica ms baja (1 grado de libertad, o Cauchy) es - = 0.3183, mien' Jr
tras que la altura de la grfica ms alta de todas (a grados de libertad, o normal
1
El valor esperado y la varianza de la distribucin t de Student son, respectivamente, los siguientes:
0 2 = - con (v > 2)
v - 2
La distribucin t de Student con un grado de libertad se reduce a la llamada
distribucin de Cauchy, la cual no tiene valor esperado, y cuya funcin de densidad de probabilidad est dada por:
10 en otro caso.
Figura 6.14. Grficas tpicas de la distribucin t de Student.
238 Parte 11. Principales distribuciones estadsticas
En cursos ms avanzados de probabilidad se demuestra que si Z es una variable aleatoria con distribucin normal estndar, y si X es una variable aleatoria
cuya distribucin es ji-cuadrada con v grados de libertad, entonces la variab
le
aleatoria definida por:
tiene distribucin t de Student con v grados de libertad.
En cualquier libro de estadstica hay tablas de percentiles de la distribucin
t, pero tambin se pueden hallar con alguna computadora. El Excel es magnfico
para ello. Al estudiante le sera muy til ejercitarse en el uso de Excel para calcu
lar
percentiles crticos d e la distribucin ji-cuadrada y de la distribucin t de Studen
t.
Desde luego, tambin puede consultar tablas en cualquier libro d e estadstica,
pero siempre resulta ms divertido generar nuestras propias tablas estadsticas
con ayuda de la computadora.
Ejemplo 6.14. Usando Excel, calcular el percentil g.025;12 lo cual es una maner
a abreviada de decir "el percentil0.025 de la distribucin ji-cuadrada con 12 grados de
libertad".
Algunos autores prefieren escribirlo as: x:,~,, (12). Cualquiera de las dos not
aciones es
buena.
Solucin: Antes que nada haremos una aclaracin. Varios autores usan la notacin
g,025 no con el significado de percentil0.025, sino con el significado de valo
r crtico de
prueba de ji-cuadrada, lo cual significa que lo toman como un punto tal que a

mano
derecha del mismo y bajo la curva hay un rea de slo 0.025 (es decir, 2.5%). Se d
ebe
tener mucho cuidado con esas interpretaciones. Incluso el Excel no tiene ningun
a opcin
para calcular percentiles directos de la ji-cuadrada, pero tiene la opcin para ha
llar elvalor
crtico de prueba. En ese caso, hay que tomar en cuenta que el percentilp corresp
onde al
valor crtico de prueba 1 -p (y viceversa).
Por ejemplo, en este caso, escribimos lo siguiente:
y aparece instantneamente el valor 4.4037775. Esto significa que a mano izquierda
de ese
punto hay 2.5 % de rea bajo la curva y a mano derecha hay 97.5 % de rea.3
Ejemplo 6.15. Usando Excel, calcular t,, ;,,, es decir, el percentil 0.95 de l
a distribucin t de Student con 20 grados de libertad. Jgunos autores lo escriben as: to,95(2
0). Esto
significa que buscamos un punto en el eje tal que a mano izquierda del mismo y
bajo la
curva haya 95% del rea total. De nuevo, debemos hacer una aclaracin semejante.
Si
usted quiere usar el Excel para hallar la posicin del percentilp en la t de Stude
nt con v
grados de libertad, debe escribir lo siguiente:
Por tanto, en este caso la sintaxis es =DISTR.T.INV(O.1,20), lo cual da 1.72471
8.
3EI autor acostumbra sugerir en sus clases una nueva notacin para evitar todas
estas confusiones:
escribirpx2 si es un reap a mano izquierda bajo la curva; y escribir xi si es u
n reap a mano derecha bajo
la curva.
Cap. 6. Las distribuciones continuas tericas ms importantes 239
Si al estudiante le parece extraa esta complicacin, piense que el Excel lo
considera desde el punto de vista de la inferencia estadstica (intervalos de confianza y pruebas de hiptesis). En el captulo 8, veremos que es ms til buscar
valores en trminos de una magnitud pequea positiva que se llama a (nivel de
significacin), en donde el valor del percentilp y a se relacionan por medio de la
a
frmula 1 - - =p. Por supuesto, de aqu se sigue que a = 2(1 - p) .
2
En la tabla 6.3, transcribimos slo una parte de una tabla de percentiles de
la distribucin t de Student, generada por computadora y usando Excel. La tabla
completa puede verse en el apndice B.
Tabla 6.3. Percentiles de la distribucin t de Student con n grados de libert
ad. El ltimo
rengln (m grados de libertad) corresponde a la distribucin normal estndar. Para
percentiles simtricos a la izquierda del origen se usan los mismos valores pero con
signo
Abraham de Moivre ( 1 667- 1 754). En su libro The Doctrine
o/ Chances. publicado en Londres en 1 7 18, sent las
bases cientficas de la estadstica moderna. Introdujo la
distribucin normal.
Pierre-Simon Laplace ( 1 749- 1827). En su libro
Theorie Analytique des Probabilits, publicado en
18 12, expuso la distribucin normal y tambin
sent las bases de la regresin al establecer el

mtodo de mnimos cuadrados.


Para poner a prueba su aprovechamiento de este captulo, se le invita a resolver
los siguientes 26 ejercicios en dos sesiones. Por ejemplo, puede resolver la mitad de
ellos un
da y la otra mitad al da siguiente, tomndose su tiempo pero sin exagerar. Al final
debe
cotejar sus respuestas con las que se dan ms adelante. Algunos ejercicio
s contienen
varios incisos, pero son sencillos. Use tablas, calculadora y Excel si lo desea,
pero puede
resolverlos nicamente con calculadora y tablas, aunque con Excel ser ms cmodo y
rpido. No consulte notas ni apuntes mientras los resuelve. Cada ejercicio vale un
punto
si tiene correctas todas las respuestas de los incisos. Pero si slo acierta en la
s respuestas
de dos incisos en una pregunta de tres incisos, por ejemplo, debe abonarse 0.67.
Al final
sume todos los puntos de los aciertos obtenidos y multiplique la cantidad obteni
da por
cuatro; esa ser su calificacin en escala del O al 100. Si obtiene menos de 70, le
sugerimos
que, en lugar de seguir adelante, vuelva a estudiar con ms detenimiento todo el c
aptulo
durante sus ratos libres de una semana y pruebe suerte ms adelante. De 70 a 79 pu
ntos
es regular, de 80 a 90 puntos es bueno, de 91 a 95 es muy bueno, ms de 95 es exce
lente
y 100 o ms est fabuloso. La mxima puntuacin posible es 104. Mucho xito!
1. Dada una variable aleatoria continua Z, con distribucin normal estndar, encue
ntre
las siguientes probabilidades, usando tablas o Excel:
Exprese sus respuestas con precisin de slo cuatro dgitos decimales, pero redondeando correctamente el nmero.
Cap. 6. Las distribuciones continuas tericas ms importantes 24 1
2. Por comodidad, si X es una variable aleatoria continua que tiene un
a distribucin normal con media p y varianza 02, escribimos N(p, 02). Dada X con distribucin N(p, c2), use las tablas para encontrar el valor de P( p - 20 < X < p + 20
).
3. Si X es una variable aleatoria con distribucin N(25,25), halle:
a) el rea bajo la curva normal a la izquierda de x = 20
6) el rea bajo la curva normal a la derecha de x = 15
e) el rea bajo la curva normal comprendida entre x = 12 y x = 24.6
d) el percentil x que tiene un rea de 0.1075 bajo la curva, a mano izquierda.
4. En relacin con el ejercicio anterior, determine:
a) los cuartiles Q, y Q3
6) el rango semiintercuartil Q = Q - Q,)/2.
5. Si X es una variable aleatoria continua cuya distribucin de probabilidad es
N(18,
6.25), obtenga:
a) el valor de c tal que P(X < c) = 0.2236
b) el valor de a tal que P(X 2 a) = 0.1814.
6. Dado un conjunto de observaciones (o datos) que se presume siguen una distri
bucin normal, determine qu porcentaje de dichos datos dista de la media:
a) en ms de 1.280
6) en menos de 1.50.
7. Una moneda se lanza 300 veces. Empleando la aproximacin normal a la distribuc
in

binomial, encuentre la probabilidad de obtener:


a) entre 155 y 165 guilas inclusive
6) exactamente 150 guilas
e) menos de 140 o ms de 160 guilas.
8. El encargado de un negocio de tortas (emparedados) ha determinado que el nme
ro de tortas que puede vender al da es una variable aleatoria con distribucin apro
ximadamente normal. Segn sus registros de contabilidad, 9 % de los das ha vendido
70 tortas o ms, y slo 3 % de los das ha vendido 73 tortas o ms. Calcule:
a) el nmero esperado de tortas que vender en un da cualquiera
6) la probabilidad de que venda cuando mucho 50 tortas en un da cualquiera
e) el octavo decil, es decir, el nmero de tortas vendidas a partir del cual est 2
0%
de los das que mejor le va en las ventas.
9. La empresa La Central fabrica pequeas cajetillas de cerillos llamados Clsicos
, las
cuales traen en promedio 56 unidades. La compaa tiene por norma realizar un ajuste de sus mquinas empacadoras cada vez que la desviacin estndar del nmero de
cerilios por cajetilla excede el valor 3.5. Tras un estudio de inventario, se h
a116 que
slo 4 % de las cajetillas contenan menos de 50 ceriilos. Suponiendo una distribucin
normal, determine si es procedente realizar un ajuste en las mquinas empacadoras.
10. En un examen de admisin que se realiz para ingresar a una escuela, las calif
icaciones de los aspirantes slo se registraron en nmeros enteros en escala del O al 10
0,
pero la calificacin media fue de 63.8 puntos, con una desviacin tpica de 10.23 puntos. El director decidi aprobar a todos aquellos que obtuvieron calificacin superi
or
242
Parte 11. Principales distribuciones estadisticm
a 50 puntos. Si se supone una distribucin normal y se sabe que nueve alum
nos
reprobaron, cuntos fueron los que presentaron el examen?
11. Supngase que la vida til de cierta marca de refrigerador es una variable ale
atoria
con media igual a 12 aos y con una desviacin tpica de dos aos. Asmase que la
distribucin de dicha variable aleatoria es aproximadamente normal. Si el fabrican
te
piensa reponer slo 3 % de los refrigeradores que fallen (dentro del uso ordinario
),
por cunto tiempo debe estipular la garanta?
12. En una compaa empacadora de azcar refinada, los paquetes del producto dicen
"contenido neto aproximado: 4 kg". Supngase que la distribucin del contenido
neto en kilogramos es una variable aleatoria con distribucin normal cuya desviacin
estndar es o = 0.04 kg. Si slo 2 % de los paquetes contienen menos de 4 kg, cul
es la media de los paquetes que se han llenado?
13. Si Z es una variable aleatoria continua que tiene distribucin normal estndar
y k > O
es cualquier nmero real positivo:
a) resuelva para k la desigualdad P( 1 Z 1 < k) 1 0.90, usando el Excel o bien
una tabla de la distribucin normal estndar inversa. [Nota: Puede resolver la desigualdad y sea de manera algebraica o geomtrica, pero es ms sencillo de manera
geomtrica. El siguiente dibujo puede darle una idea.]

En forma anloga, resuelva para k las desigualdades siguientes:


b) P ( I z I <k)10. 95
c) ~ ( 1 ~ 1 <k)20. 99
4 P( I Z 1 < k) 1 1 - a , donde O < a < 1; exprese su respuesta (en este
inciso) en
trminos de la distribucin normal estndar acumulada inversa e'.
14. Un seor est un poco enfermo de tos y gripe, por lo que tiene accesos espordico
s
6
de tos, a un promedio de - = 1.2 accesos de tos cada minuto. Calcule la probabi
li5
dad de que, en un momento dado, transcurra ms de un minuto hasta el siguiente
acceso de tos, dado que el ltimo acceso ocurri:
a) justo hace un instante
b) hace dos minutos.
Suponga que los accesos de tos son acontecimientos de Poisson.
Cap. 6. l as distribuciones continuas tericas ms importantes
243
15. Suponga que la vida til, en meses, de una lmpara de radio es una variable ale
atoria
continua con distribucin exponencial, cuyo parrnetro es h = 0.02. Por cuntos
meses de vida debe el fabricante garantizar sus lmparas, si desea que la probabil
idad
de que la lmpara cumpla la garanta sea de 0.80?
16. En una fbrica se trabaja seis das a la semana (de lunes a sbado). Los registr
os estadsticos de muchos aos indican que ah tienen lugar en promedio 0.2 accidentes
por semana, la mayora de ellos sin mayores consecuencias. Calcule la probabilidad
de que el prximo accidente ocurra antes de que pasen 10 das laborales a partir de
ahora, si el ltimo accidente tuvo lugar hace 10 das laborales. [Suponga que los ac
cidentes siguen una distribucin de Poisson.]
17. Un seor sali a pescar a la orilla de un lago y empez a hacerlo a las 9:00 a.
m. Si el
tiempo que tarda en atrapar un pez se distribuye exponencialmente con parmetro
1
h = - (en horas), determine la probabilidad de que:
3
a) atrape el cuarto pez antes de las 10:OO a. m.
6) consiga su quinto pescado entre las 9:40 a. m. y las 10:20 a. m.
E) saque su primer pez antes de las 10:OO a. m., si hasta las 9:40 a. m. an no
haba
logrado atrapar ninguno.
18. En una caseta de cobro de la autopista Quertaro-Celaya, los automviles lleg
an a un
ritmo promedio de 2.4 automviles por minuto (los camiones pasan por otra caseta). Cada automvil paga una cuota de $62.50. Determine la probabilidad de que, a
partir de un momento dado, el encargado de esa caseta logre recolectar 1000 peso
s
en menos de cinco minutos.
19. a) A qu distribucin conocida se reduce la distribucin ji-cuadrada con dos grado
s
de libertad?
6) Cuntos grados de libertad tiene una distribucin ji-cuadrada cuya moda es l?
20. Si el nmero de horas diarias que duermen los adultos, dentro de cierto rang
o de
edades, sigue una distribucin ji-cuadrada con ocho grados de libertad, calcule:
a) el tiempo por debajo del cual est 10 % de los adultos que menos duermen

b) el tiempo por encima del cual se encuentra 10% de los adultos que ms duermen
(d las respuestas hasta el segundo ms cercano)
c) el porcentaje de adultos que duermen menos de ocho horas al da.
21. Dada una distribucin ji-cuadrada con 10 grados de libertad, halle el valor d
el percenti1 xi tai que:
a) el rea a la derecha de X; sea 0.05
b) el rea a la izquierda de X; sea 0.99
c) el rea a la derecha de X; sea 0.025.
22. Para una variable aleatoria continua X que tiene distribucin ji-cuadrada co
n 12 grados de libertad, encuentre todo lo siguiente:
a) P(3 < X < 5)
6) la moda
c) la media
d) el primer decil
e) el percentil x2 tal que el rea a la izquierda de X; sea 0.99
P
f) el percentil x,, tal que el rea a la derecha de ~i sea 0.025
244
Parte 11. Principales distribuciones estadsticas
g) la probabilidad de que X asuma un valor mayor que la moda, pero menor que la
media.
23. Dada una distribucin t de Student con 15 grados de libertad, encuentre el va
lor de
to tal que:
a) el rea bajo la curva a la derecha de to sea de 0.05
b) el rea a la izquierda de to sea de 0.40
c) el rea a la derecha de to sea de 0.90
4 el rea conjunta a la derecha de t,, y a la izquierda de -to sea de 0.01
e) el rea bajo la curva comprendida dentro del intervalo de -to hasta to sea de
0.95.
24. Para una distribucin t de Student, encuentre el valor crtico tc para que el re
a bajo
la curva a mano derecha de tc sea 0.01, si el nmero de grados de libertad es de:
25. Para una distribucin t de Student con n grados de libertad, determine la po
sicin
del percentil tc, si se sabe que:
a) n = 25 y el rea bajo la curva comprendida entre -tc y t es 0.90
b) n = 20 y la probabilidad acumulada a mano izquierda de tc es 0.025
C) n = 5 y adems el rea conjunta que est a la izquierda de -tc y a la derecha de
tc
es 1 % del rea total bajo la curva
4 n = 16 y adems P(X> tc) = 0.55.
26. Suponga queXes una variable aleatoria continua que tiene distribucin t de St
udent
con 10 grados de libertad. Calcule el valor de k tal que:
RESPUESTAS DE LOS EJERCICXOS DE AUTOEVALUACI~N 6.1
2. Al tipificar, usando la frmula Z = (X- p)/(~, se obtiene p = O, (T = 1. En
escala tipificada tenemos:
Cap. 6. Las distribuciones continuas tericas ms importantes 245
3. Tenemos p = 25, o = 5.
a) El valor tipificado de x = 20 es (20 - 25)/5 = -1, luego O(-1.00) = 0.1587
b) El valor tipificado de x = 15 es (15 - 25)/5 = -2, luego 1 - O(-2.00) = O
(2.00) =
0.9772
c) 'Iipificamos los extremos del intervalo y obtenemos O( 4. 08) - m(-2

.60) =
0.4634
d) En la tabla de la normal estndar, hallamos que O(-1.24) = 0.1075, lue
go x =
(-1.24) x 5 + 25 = 18.8.
4. a) Los cuartiles Q, y Q, se hallan con mayor precisin en la tabla de la
normal estndar inversa: (9-'(0.25) = -0.6744904 y, por la simetra, O-l(O.75) = 0.6744904
.
Entonces:
Q, = -0.67449 x 5 + 25 5 21.62755
Q3 = 0.67449 x 5 + 25 - 28.37245
b) Q = 3.37245.
5. a) c = 16.1 b) a = 20.275.
6. a) 20.06% b) 86.64%.
7. Primeramente determinamos los parmetros media y varianza de la distribucin:
1 1 1
p = np = 300 x - = 150; 02 = npq = 300 x - x - = 75, de donde o = 8.660254.
2 2 2
a) En primer lugar, hay que tipificar el extremo izquierdo de 155 (es decir, 154
.5) y
el extremo derecho de 165 (es decir, 165.5):
Entonces: a(1.79) - a(0.52) = 0.963273 - 0.698468 = 0.2648. Como curiosidad,
mencionamos que el valor exacto, calculado con la distribucin binomial pem usando Excel, es de 0.265047, lo cual significa que la apmxhacin result excelente.
b) 'Iipificamos los extremos de 150 (los cuales son 149.5 y 150.5):
Luego: O(0.06) - O( 4. 06) = 0.523922 - 0.476078 .; 0.04784. 'ILimbin aqu es interesante comparar con la respuesta exacta, calculada segn la distribucin binomial, pero usando Excel: 0.046028. La aproximacin tambin result muy buena,
aunque no tanto como la del inciso a.
c) El extremo izquierdo de 140 es 139.5, mientras que el extremo derecho de 16
0
es 160.5. Obviamente, por la simetra de la curva con respecto a la media, el rea
bajo la curva a la izquierda de 139.5 es exactamente la misma que el rea a la der
echa de 160.5. Por tanto, slo calculamos el valor de la primera y lo multiplicamos
por dos:
As: 2O(-1.21) = 2 x 0.113140 = 0.22628. Por curiosidad, comparamos con el valor exacto calculado con la distribucin binomial, evaluado por la computadora:
0.225286. Vemos que la aproximacin result ser tambin bastante buena.
246
Parte 11. Principales distribuciones estadsticas
8. Aplicando correccin por continuidad (ya que el nmero de tortas vendidas es u
na
variable discreta), se obtiene:
69'5 - p. = W( 0. 91) = 1.34075;
72.5 o a
= Q1(0.97) = 1.88079
De aqu se halla que o = 5.56, p. = 62 tortas. Por consiguiente:
a) El nmero esperado de tortas vendidas es de 62 en un da cualquiera.
6) Tenemos:
c) La posicin del octavo decil en la normal estndar es 2-'(0.80) = 0.84162, lue
go
(0.84162)(5.56) + 62 = 66.68. El entero que tiene 20% de rea a mano derecha
es 66 y no 67; por tanto, a partir de 66 tortas est 20% de los das de mejores
ventas.
9. a =

49.5 - 56 - 6'5
= 3.713. S procede realizar ajustes en las mquinas.
<f>1'(0.04) -1.7507
. .
10. 93 alumnos presentaron el examen.
11. 8.24 aos de garanta (= 8 aos, 2 meses y 26 das), aunque semejante garanta parecera sospechosa. En tal caso, el fabricante podra redondear a s610 ocho aos de
garan tia.
12. 4.082 kg.
13. a) k 2 Qr1(0.90 + 0.05) = W( 0. 95) = 1.644853 = 1.645
6) k 2 2-'(0.975) = 1.9599611 = 1.96
C ) k 2 2-'(0.995) = 2.5758345 = 2.576
a
4 k 2 @-y1 --).
2
14. Ambos incisos tienen la misma respuesta: e-',2 = 0.3012 (por la propiedad
de prdida
de la memoria).
15. 11 meses.
16. 1 - e-* = 0.28347 (propiedad de prdida de la memoria).
17. Por comodidad, tomemos como unidad de tiempo el intervalo de 20 minutos
. De
acuerdo con esta unidad, la distribucin del tiempo requerido para atrapar el prximo pez es exponencial con h = 1.
a) Si X es la variable aleatoria que denota el tiempo requerido para atrapar cua
tro
peces, entonces X tiene distribucin gama con parmetros h = 1, r = 4. As, con
ayuda de las tablas de Poisson, hallamos que:
6) Si Yes la variable aleatoria que representa el tiempo requerido para atrapar
cinco
peces, entonces Y tiene distribucin gama con h = 1 y r = 5. En este caso, determinamos que:
Cap. 6. las distribuciones continuas tericas ms importantes 247
c) Si T es la variable aieatoria que representa el tiempo transcurido hasta atr
apar el
primer pez, entonces T tiene distribucin exponencial con parmetro h = 1. Por la
propiedad de prdida de la memoria de la exponenciai, los primeros 40 minutos
en los que no pesc nada son irrelevantes; es lo mismo que si acabara de llegar a
pescar. Por tanto:
P(T < 1) = 1 - e-' = 0.6321
1
19. a) A la exponencial con parmetro h = 2
b) "Bes grados de libertad.
20. a) 3 horas, 29 minutos y 22 segundos de sueo al da
b) 13 horas, 21 minutos y 42 segundos de sueo ai da
c) 56.65%.
21. a) 18.307 6) 23.209 c) 20.483.
22. a) 0.037565 6) 10 c) 12 d) 6.3038
e) 26.217 f) 23.3367 gj 0.170281
23. a) 1.7530 6) -0.2579 c) -1.3406 d) 2.9467
e) 2.13145.
24. a) 2.7638 6) 2.4851 c) 2.4033 d) 2.3338.
25. a) 1.7081 b) -2.086 c) 4.0321 d) -0.12767
26. a) 1.8125 b) 2.7638 c) -0.8791 d) -1.3722
En el siguiente cuadro, anote con lpiz suave sus respuestas. Los procedimientos d
ebe reali-

zarlos en hojas separadas, y no en el libro. (En el apndice D se dan las respues


tas correctas
para que las coteje con las suyas.)
iii) 10. 1. Tres jvenes estn reunidos alegremente en una cantina, jugando a las cartas y t
omando cerveza. Acuerdan sacar una moneda cada uno y jugar al "disparejo", para dec
idir
quin paga la siguiente ronda de cervezas. El disparejo consiste en que aquel que
saque
signo diferente paga las cervezas, pero si salen todas las monedas con signos ig
uales, se
repite el lanzamiento, tantas veces como sea necesario. Determine la probabilida
d de
que se requieran:
i) menos de cuatro lanzamientos
a) 0.954 b) 0.964 c) 0.974 d) 0.984
ii) ms de dos lanzamientos.
a) 0.625 b) 0.0625 c) 0.265 d) 0.0265
2. Como requisito para ser admitido en la maestra en administracin en las univers
idades de Estados Unidos de Amrica, un estudiante presenta el GMAT (General Mana248
Parte 11. Principales distribuciones estadsticas
gement Admission Test), tantas veces como sea necesario (sin lmite, pero hay que
pagar
en cada caso) hasta obtener la puntuacin requerida. Si la probabilidad de que ci
erto
estudiante la obtenga en cualquier intento es de 0.8 y las pruebas son independi
entes,
calcule la probabilidad de que obtenga la puntuacin requerida en el tercer intent
o.
3. Suponga que la probabilidad de que un producto o artefacto falle la x-sima ve
z que se
utiliza est dada por f(x). Entonces se define el ndice de falla Z(x) (tambin llama
do
rapidez de falla) como:
donde F(x) es la distribucin acumulada correspondiente. Demuestre que si X es una
variable aleatoria discreta con distribucin geomtrica g(x, p), su rapidez de fall
a es
constante. Cul es dicho valor constante? [Indicacin: Denote como xito que
el
artefacto falle.]
4. Un ingeniero de control de calidad inspecciona una muestra tomada al az
ar de dos
calculadoras manuales, de cada lote que llega de tamao 18, y acepta el lote si a
mbas
estn en buenas condiciones de trabajo; de otra manera, se inspecciona todo el lot
e y
el costo se carga al vendedor. Determine la probabilidad de que un lote se acept
e sin
inspeccin adicional, si el nmero de calculadoras que no estn en buenas condiciones
de trabajo es de:
i ) cuatro a) 0.5948 b) 0.5959 c) 0.5969 d) 0.5979
ii) ocho a) 0.2741 b) 0.2841 c) 0.2941 d) 0.3041
iii) 12 a) 0.1942 b) 0.2042 c) 0.0980 d) 0.2242
5. Aproximadamente 1.4 veces al ao se registra en alguna escuela primaria o secu
ndaria

de Estados Unidos un incidente de algn nio que dispara armas de fuego contra sus
compaeros y10 maestras. Determine el nmero ms probable de nios estadounidenses que dispararn armas de fuego contra sus compaeros y10 maestras durante l
os
prximos cinco aos.
6. El delantero paraguayo del equipo de futbol Toluca, Jos Saturnino Cardozo, re
aliza un
promedio de 10 disparos a la portera contraria en cada partido, de los cuales ap
roximadamente 10% son goles. Calcule el nmero ms probable de goles que anotar este
jugador en el siguiente partido.
7. Los integrantes de una peligrosa banda de asaltantes a mano armada que o
peran en
el Distrito Federal son capturados por las autoridades en promedio 4.5 veces al
ao y,
como es costumbre, a las pocas horas son puestos en libertad. Por cada tres vece
s que
Cap. 6. Las distribuciones continuas tericas ms importantes
249
son capturados reciben, con la debida cortesa, una llamada de atencin (amonestacin) verbal. Calcule la probabilidad de que pase ms de medio ao entre dos amonestaciones sucesivas que reciben [tome 1 mes = 30 das].
8. Segn las bases de datos del IMSS para el ao 2001, de todos los trabajadores qu
e cotizaban al Seguro Social, la mayora de ellos ganaba alrededor de dos salarios mnimos
al
mes, pero el sueldo promedio era de tres salarios mnimos. Adems, se estableci una
distribucin de Erlang. Cules son los valores de los parmetros de forma y de escala
de dicha distribucin?
9. En una caja hay 15 piezas, de las cuales 10 estn pintadas. Un montador extra
e al azar
tres piezas. Halle la probabilidad de que las piezas escogidas resulten pintadas
.
10. En un taller trabajan seis hombres y cuatro mujeres. Segn el nmero de ficha s
e han
escogido al azar siete personas de este grupo. Calcule la probabilidad de que en
tre las
personas seleccionadas resulten tres mujeres.
En el siguiente cuadro, anote con lpiz suave los incisos que considere correctos.
Los procedimientos puede efectuarlos en hojas de papel, no en el libro.
1. Suponiendo que 20 personas acuden a una fiesta y cada una saluda con un apre
tn de
mano a cada una de las dems, cuntos apretones de mano habr en total?
a) 190 b) 380 c) 200 d) 220
2. Al conjunto de todos los resultados posibles de un experimento aleatorio se
le llama:
a) muestra
b) evento
250 Parte 11. Principales distribuciones estadsticas
c) espacio muestra1
d) desviacin estndar.
3. En un conjunto de datos u observaciones, al valor que tiene la mayor frecuen
cia relativa se le llama:
a) mediana
b) moda
c) varianza
d) desviacin tpica.

4. Suponiendo que una moneda ha sido lanzada al aire nueve veces seguidas y
por casualidad han salido las nueve veces con el signo de guila hacia arriba, enton
ces la
probabilidad de que en el dcimo lanzamiento salga el signo de sol hacia arriba es
:
1 1 1
a) b) mayor que - c) menor que - d) 1
2 2
5. El juego de disparejo consiste en que tres personas lanzan una moneda al air
e, y quien
obtiene resultado diferente gana. En caso de salir los tres iguales, se decla
ra empate
y se repite el lanzamiento. Es fcil ver que la probabilidad de que ocurra emp
ate en
cualquier lanzamiento es:
6. Una variable aleatoria se llama discreta cuando:
a) es muy callada y circunspecta
b) trata de cosas que se pueden medir
c) trata de cosas que se pueden contar
d) nunca avisa cundo va a aparecer.
7. Cul de las siguientes variables aleatorias es continua?
a) El nmero de tacos que vende un taquero cada da
b) La cantidad de mujeres que hay en un saln de clases
C) El nmero de accidentes que ocurren en un crucero cada ao
d) El tiempo que hace un estudiante en ir desde su casa hasta la escuela cada d
ia.
8. En cualquier distribucin de probabilidad se denota por la letra griega p o ta
mbin por
el smbolo E( X) a:
a) la media
b) la vananza
c) la desviacin tpica
d) el grado de verosimilitud.
9. La grfica de la llamada dismbucin normal tiene forma de:
a) campana b) crculo c) huevo d) escalera
Cap. 6. Las distribuciones continuas tericas ms importantes 25 1
10. Cul de los siguientes parmetros es una medida de la dispersin relativa de los d
atos
con respecto a su valor promedio?
a) La media
b) La moda
C) La media ponderada
d) La varianza.
11. Si X es una variable aleatona, icul de los siguientes parmetros es el nico que
no se
mide en las mismas unidades en las que se mide X?
a) La desviacin promedio de la mediana
b) La desviacin promedio de la moda
c) El rango semiintercuartil
d) La vananza.
12. Cul de los siguientes nombres de personas no est asociado con la estadstica ni
con
la teora de las probabilidades?
a) Thomas Bayes
b) Jacob Bernoulli
C) Abraham de Moivre
d) Ruslam Ponomariov.
13. La distribucin ji-cuadrada con v grados de libertad es un caso particular de
:

a)
b)
c)
d)
14.
a)
b)
c)
d)
15.

la distribucin normal
la distribucin exponencial
la distribucin gama
la distribucin t de Student con v grados de libertad.
Quin de las siguientes personas cre la distribucin t de Student?
B O ~ S Gnedenko
R. A. Fisher
W. S. Gosset
Un estudiante del Trinity College de Cambridge.
En la distribucin ji-cuadrada con v grados de libertad, la media es igual a:

16. La distribucin del tiempo transcundo hasta la ocurrencia del k-simo su


ceso de
Poisson es:
a) binomial negativa b* ( x, k, P)
b) hipergeometrica h( x, N, n, k)
C) normal N(k, oZ)
d) de Erlang.
252 Parte 11. Principales distribuciones estadsticas
17. La ley estadstica que establece que, bajo ciertas condiciones, la dismbucin d
e una variable que es igual a la suma de un nmero muy grande de variables aleatorias (dif
erentes o iguales) tiende siempre a una distribucin normal estndar, es:
a) la Ley Dbil de los Grandes Nmeros
b) la Ley Fuerte de los Grandes Nmeros
C) el Teorema Central del Lmite
d) el Teorema de De Moivre-Laplace.
18. La ley estadstica que proporciona una cota inferior (o valor mfnimo) para l
a probabilidad de que una variable aleatoria cualquiera asuma un valor en un intervalo de
ntro
de k desviaciones estndar alrededor de la media, es:
a) la Ley de los Grandes Nmeros
b) la Ley de los Nmeros Pequeos
C) el Teorema de Chebishev
d) la Ley del talin.
19. Si un evento tiene una probabilidad muy pequea de ocurrir en un intervalo de
tiempo
relativamente breve y adems ocurre de manera inesperada, entonces se trata de un
evento relacionado con la distribucin:
a) binomial
b) binomial negativa
c) geomtrica
d ) de Poisson.
20. La distribucin hipergeomtrica h(x, N, n, k) tiende como lmite a la distribucin
binomial dada por t (x, n, p), con p = klN, siempre que:
a) n sea grande y p sea muy pequea
b) N sea muy grande
c) N sea mucho mayor que k
d) N sea mucho mayor que n.
21. Cuando un parmetro poblacional cualquiera 8 se trata de estimar usando un es
tadstico 8, de tal forma que el valor esperado (o promedio) de dicho estimador es prec
isamente el valor de 8, entonces se dice que se trata de un estimador:
a) eficiente b) consistente c) ponderado d) insesgado
22. Un jugador de basquetbol sabe por experiencia que falla aproximadamente 2
5 % de los

tiros libres que lanza a la canasta desde cierto punto. Si se pone a lanzar una
serie de tiros
libres, la probabilidad de que el octavo tiro sea el quinto que encesta es igual
a:
23. El cociente de inteligencia de 600 solicitantes para ingresar a una u
niversidad tiene
aproximadamente distribucin normal con media 115 y desviacin estndar de 12. Si
la institucin exige un coeficiente mnimo de 95, cuntos estudiantes sern rechazaCap. 6. Las distribuciones continuas tericas ms importantes 25 3
dos con base en esto, independientemente de otras calificaciones? [Redondee la r
espuesta al entero ms cercano.]
24. En una estacin de vehculos colectivos del tipo combi, el cupo de las unidades
es de
10 pasajeros, aparte del chofer. El reglamento de la Secretara de Vialidad estipu
la que
dichos vehculos deben salir de la base con un lapso no mayor a 10 minutos entre
dos
salidas consecutivas. Empero, los conductores hacen caso omiso del reglamento y
en
su lugar proceden como sigue: esperan tranquilamente hasta que la unidad se llen
e, y
s610 entonces emprenden la salida. Si los pasajeros llegan a abordar el vehculo c
omo
sucesos de Poisson, a un ritmo promedio de siete pasajeros cada 10 minutos, qu por
centaje de las veces estarn los conductores de combis violando el reglamento?
a ) Menos de 50 %
b) Ms de 50%, pero menos de 60 % de las veces
C ) Ms de 60 % de las veces, pero menos de 80 %
d) Ms de 80%.
25. En una encuesta realizada entre 4372 familias elegidas al azar, se pregunt c
ul era la
edad de la cabeza de la familia (es decir, la persona que aportaba el ingreso pr
incipal),
con los siguientes resultados:
Ednd de ?a cabeza de familia (aos) 1 Nmero
'enos de 2
I
-,22
7
Segn estos datos, la mediana para la edad de una cabeza de familia es:
a ) Ms de 35, pero menos de 38 aos
b) Ms de 38, pero menos de 40
C) Ms de 40, pero menos de 45
d) Ms de 45, pero menos de 50
muestrales
La llamada Desigualdad (o Teorema) de Chebishev -o Chdbyshev- establece
que para cualquier variable aleatoria (discreta o continua) X con media p y desviacin tpica o, y para cualquier nmero real k > 1, se verifica que:
Esta desigualdad proporciona una garanta mnima acerca de la probabilidad
de que X asuma un valor en un intervalo centrado en la media, y a ko unidades a
sendos lados de sta. De hecho, la desigualdad es vlida para cualquier k 2 0, pero
para valores menores o iguales a uno lo nico que dira la desigualdad es que ese
valor de probabilidad no puede ser negativo, lo cual se saba de antemano. La figura 7.1 ilustra de manera elocuente el enunciado de la desigualdad de Chebishev
Pafnuti Lvvich Chebishev (1821-1894) fue un clebre estadstico y matem-

tico ruso. Aparte de esta conocida desigualdad, propuso varios teoremas interesantes sobre estadstica matemtica, los cuales se tratan en libros ms avanzados.
Sin embargo, esta desigualdad es quiz la ms conocida de todas sus aportaciones en estadstica y es una de las ms tiles tambin. Un uso directo de esta desigualdad se aplica en el clculo de intervalos de confianza para una media.
Ejemplo 7.1. Aproximadamente uno de cada 500 neumticos (llantas) para automvil de cierta marca tienen defectos serios de fabricacin que podran provocar un ac
cidente. Si se tienen almacenados 10 000 neumticos de esa marca que se van a distribui
r en
Figura 7.1. Teorema de Chebishev.
todo el pas, con la desigualdad de Chebishev hallar un intervalo en el cual se te
nga una
probabilidad de por lo menos 0.80 del nmero de neumticos defectuosos entre eso
s
10000.
Solucin: Como la probabilidad de hallar un neumtico defectuoso es muy pequea
y el nmero de neumticos es muy grande, aproximamos lo que sera una binomial con
n = 10000,p = 1/500 (se toma como kxito que un neumtico est defectuoso) por medio
de una Poisson con p = np = 20 = o2 (recurdese que la Poisson aproxima a la binom
ial
cuando n es grande y p es pequea). Por lo tanto, tendremos una desviacin estnd
ar
igual a o = 6 = 2 6 . Luego entonces, de acuerdo con la desigualdad de Chebish
ev:
As, el intervalo buscado va desde p - ko hasta p + ko; es decir, el intervalo es:
0, equivalentemente:
Este resultado lo interpretamos desde el punto de vista estadstico: Hay pQr I
n menos
80 % de probabilidades (o de confianza) de que entre 10 y 30 llantas (de e
sas 10 000)
tengan defectos.
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 259
Se tuvo suerte de que el intervalo qued comprendido entre dos nmeros
enteros, mas esto no es indispensable. Igual habra sido vlido si el intervalo hubiera sido, por ejemplo, desde 9.43 hasta 31.15.
Lo que se calcul con este ejemplo fue un intervalo de conjanza de 80%
de un parmetro, aunque en este caso se trataba de un parmetro conocido (p =
20). Hay procedimientos estadsticos para determinar intervalos de confianza de
80% o en general de 100(1- a) %, donde O < a e 1, para parmetros poblacionales desconocidos (por ejemplo, la media, la desviacin tpica, la varianza, una
proporcin, etc.). De eso tratar precisamente el captulo 8.
Dos notables cientficos franceses de los siglos XVII ~XVI I I : Abraham de Moi
vre
(1667-1754) y Pierre Simon Laplace (1749-182i), son considerados los padres de
la estadstica moderna y de la teora moderna de las probabilidades. Ambos descubrieron en forma independiente la distribucin normal y adems exploraron
sus implicaciones estadsticas. No existe evidencia histrica de que Laplace hubiese conocido o estudiado la obra de De Moivre, aunque de hecho transcurrieron casi 100 aos entre las investigaciones de ambos.
En 1718, fecha en la que ni siquiera los trabajos de Poisson haban visto la
luz, Abraham de Moivre demostr que, para una variable aleatoria discreta X con
distribucin binomial b(x, n, 1/2), la forma lmite de la distribucin probabilstica
1
X - l n
para la variable definida por Z =- , cuando n tiende a infinito, es preci'J
2

samente la distribucin normal estndar. Es posible que en 1812, Laplace hubiese


reconocido la importancia y trascendencia de tal proposicin desde la perspectiva de la estadstica terica, y as este notable matemtico francs logr demostrar
que para cualquier parmetrop sigue siendo vlido ese resultado:
r
1
!
Teorema de De Moivre-Laplace: Si Xes una variable aleatoria binomial con
media p. = np y varianza oZ = npq, entonces la forma de lmite de la distribucin
de:
X- np - x- P
-z= JZGT
o
es precisamente la distribucin normal estndar.
De hecho, en el captulo anterior tuvimos la oportunidad de emplear este
teorema de manera informal, cuando examinamos la aproximacin de la binomial
con la curva normal, usando correccin por continuidad. Sabemos que cuandop
est prximo al valor 1/2, el histograma de la distribucin binomial es ms o menos acampanado, y que cuandop = 1/2, es perfectamente simtrico y acampana260 Parte 111. Inferencia estadstica
do. Laplace reconoci que el sesgo que se produce en el histograma de la distribucin binomial cuandop se aleja de 1/2 puede compensarse con grandes valores
de n, para que la aproximacin siga siendo vlida. En la prctica se considera que
si p 5 1/2 y np > 5, o bienp > l/z y nq > 5, la aproximacin es bastante buena.
Sin
embargo, para valores muy grandes de n y valores d e p muy prximos a O o a 1,
resulta mejor usar la aproximacin de Poisson con parmetro 3L = np.
La Ley de los Grandes Nmeros es el ms antiguo teorema estadstico sobre
lmites que se conoce. Esta ley fue descubierta y demostrada por Jacob Bernoulli
(1654-1705) en su libro Ars Conjectandi (El arte de adivinar), pero el trmino
Ley de los Grandes Nmeros fue introducido por Poisson en 1837. Para Bernoulli
fue no slo una ley estadstica, sino adems una fuente de aparentes paradojas.
Bernoulli realiz un experimento imaginario consistente en lanzar una moneda
al aire n veces y supuso que haba cado con el signo de guila hacia arriba k veces. De acuerdo con su razonamiento, si la moneda est bien hecha, entonces la
frecuencia relativa k/n con que la moneda cae con el signo de guila hacia arriba
debe tender necesariamente a l/2, en el sentido de que la diferencia 1 k/n - 1/2
1 puede hacerse menor que cualquier nmero positivo E, no importa qu tan pequeo,
con probabilidad cada vez ms cercana a la unidad. Hay personas (especialmente
apostadores) que a veces malinterpretan esta ley creyendo que lo que dice es que
,
a la larga, la diferencia entre el nmero de guilas y el nmero de soles puede hacerse tan pequea como se quiera. Esto es inexacto, por no decir otra cosa.
A decir verdad, ni esta ley ni ninguna otra pueden regular la diferencia cuantitativa entre el nmero de guilas y el nmero de soles que van a salir a largo plazo.
Lo que dice esta ley es que el cociente del nmero de guilas entre el nmero de
lanzamientos tiende a 1/2 con probabilidad cada vez ms cercana a 1, lo que equiv
ale
a decir que el cociente del nmero de guilas entre el nmero de soles que van a
salir tiende a 1 cuando n se hace tender a infinito. Si se quiere hablar de dife
rencia, entonces slo se puede argumentar que la diferencia entre el logaritmo del
nmero de veces que sale guila menos el logaritmo del nmero de veces que
sale sol se aproxima a cero cuando n tiende a infinito. Esto explica la ocurrenc
ia de
rachas (apariciones consecutivas del mismo signo dos o ms veces), las cuales son

consecuencia natural de la propiedad de prdida de la memoria en la distribucin


geomtrica. Si fuese verdad que la diferencia del nmero de guilas menos el nmero de soles se pudiese hacer tender a cero a la larga, ello ira en contradiccin
con la propiedad de prdida de la memoria de la distribucin geomtrica, y la
aparicin de largas rachas de un mismo signo sera una paradoja inexplicable.
Aunque Jacob Bernoulli formul y demostr correctamente la Ley de los
Grandes Nmeros, hubo un detalle, al parecer paradjico, que siempre le caus
incomodidad y que slo pudo ser resuelto y explicado muchos aos despus por
Abraham de Moivre. Ciertamente, Bernoulli hubiera tenido que anticiparse mucho a su poca para poder explicar satisfactoriamente esta aparente paradoja que
le incomodaba: si de acuerdo con la Ley de los Grandes Nmeros, el cociente del
nmero de guilas entre el nmero de soles tiende a 1 cuando n tiende a infinito,
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 26 1
por otra parte es claro que la probabilidad de que el nmero de guilas que salen
sea exactamente igual al nmero de soles tiende a O. Por ejemplo, la probabilidad de obtener exactamente cinco guilas y cinco soles en 10 volados est dada
por b(5, 10, 0.5), lo cual tiene un valor de 0.2461, pero la probabilidad de sa
car
exactamente 50 guilas y 50 soles en 100 lanzamientos es b(50,100,0.5) = 0.0796,
y de sacar exactamente 500 guilas en 1000 lanzamientos es b(500, 1000, 0.5) =
0.025225. En realidad, se puede demostrar que:
Lo que a Bernoulli le pareci paradjico fue que, por un lado, la probabilidad de que el nmero de guilas sea aproximadamente igual al nmero de soles
tiende a 1, pero que, por otro lado, la probabilidad de que el nmero de guilas
sea exactamente igual al nmero de soles tiende a O. Es como decir que una cosa
A se parece cada vez ms y ms a otra cosa B, pero que, al mismo tiempo, y cuanto ms se van pareciendo, es cada vez ms improbable que A sea exactamente
igual a B. Es posible que Abraham de Moivre haya enunciado y probado su famoso teorema de distribuciones lmite al tratar de explicar esta aparente paradoja.
En trminos sencillos, lo que establece la Ley de los Grandes Nmeros de
Bernoulli (actualmente llamada Ley Dbil de los Grandes Nmeros, para diferenciarla de otra ley ms general y compleja llamada Ley Fuerte de los Grandes Nmeros, enunciada y demostrada por el ruso A. Kolmogrov) es que la frecuencia
relativa de un evento converge siempre a su probabilidad terica.
Pero en qu sentido se usa el trmino converger en probabilidad y estadstica? Se dice que una sucesin arbitraria de variables aleatoriasX,,X,, . . . conv
erge
(estocsticamente) a otra variable aleatoria X, si la probabilidad de que I n
- XI
se pueda hacer menor que cualquier nmero E > 0, por pequeo que este sea,
tiende a 1 cuando n tiende a infinito.
Aunque parezca paradjico, es totalmente vlido que una sucesin de variables aleatorias X,, X,, . . . pueda tender a 0, aun cuando su media aritmtic
a
- 1
X= - (X, +X, + ... +Xn) no tienda a O.
n
7.4. EL BOREMA CENTRAL DEL LMm Y
LA DI!XRIBUCIN DE MEDIAS
El Teorema Central del Lmite es uno de los teoremas ms importantes y
trascendentes de toda la teora estadstica, pero al mismo tiempo es uno de los
teoremas ms complejos y cuya demostracin final requiri de un sofisticado
aparato matemtico de alto nivel. La versin definitiva de ese teorema fue enunciada y demostrada en 1901 por el notable matemtico y estadstico ruso A. M.
Lyapunov (1857-1918). En 1929, se reconoci universalmente que, de todos los
teoremas de lmite que hay en estadstica terica, este teorema era precisamente
el ms importante, o el central, as que George Plya lo bautiz como Teorema
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 26 1
por otra parte es claro que la probabilidad de que el nmero de guilas que salen
sea exactamente igual al nmero de soles tiende a O. Por ejemplo, la probabili-

dad de obtener exactamente cinco guilas y cinco soles en 10 volados est dada
por b(5, 10, OS), lo cual tiene un valor de 0.2461, pero la probabilidad de sac
ar
exactamente 50 guilas y 50 soles en 100 lanzamientos es b(50,100,0.5) = 0.0796,
y de sacar exactamente 500 guilas en 1000 lanzamientos es b(500, 1000, 0.5) =
0.025225. En realidad, se puede demostrar que:
Lo que a Bernoulli le pareci paradjico fue que, por un lado, la probabilidad de que el nmero de guilas sea aproximadamente igual al nmero de soles
tiende a 1, pero que, por otro lado, la probabilidad de que el nmero de guilas
sea exactamente igual al nmero de soles tiende a O. Es como decir que una cosa
A se parece cada vez ms y ms a otra cosa B, pero que, al mismo tiempo, y cuanto ms se van pareciendo, es cada vez ms improbable que A sea exactamente
igual a B. Es posible que Abraham de Moivre haya enunciado y probado su farnoso teorema de distribuciones lmite al tratar de explicar esta aparente paradoja.
En trminos sencillos, lo que establece la Ley de los Grandes Nmeros de
Bernoulli (actualmente llamada Ley Dkbil de los Grandes Nmeros, para diferenciarla de otra ley ms general y compleja llamada Ley Fuerte de los Grandes Nmeros, enunciada y demostrada por el ruso A. Kolmogrov) es que lafrecuencia
relativa de un evento converge siempre a su probabilidad terica.
Pero en qu sentido se usa el trmino converger en probabilidad y estadstica? Se dice que una sucesin arbitraria de variables aleatoriasX,,X,, . . . con
verge
(estocsticamente) a otra variable aleatoria X, si la probabilidad de que (xn XI
se pueda hacer menor que cualquier nmero E > 0, por pequeo que este sea,
tiende a 1 cuando n tiende a infinito.
Aunque parezca paradjico, es totalmente vlido que una sucesin de variables aleatorias X,, X,, . . . pueda tender a 0, aun cuando su media aritmtic
a
1
X= - (X, +X, + +Xn) no tienda a O.
n
El Teorema Central del Lmite es uno de los teoremas ms importantes y
trascendentes de toda la teora estadstica, pero al mismo tiempo es uno de los
teoremas ms complejos y cuya demostracin final requiri de un sofisticado
aparato matemtico de alto nivel. La versin definitiva de ese teorema fue enunciada y demostrada en 1901 por el notable matemtico y estadstico ruso A. M.
Lyapunov (1857-1918). En 1929, se reconoci universalmente que, de todos los
teoremas de lmite que hay en estadstica terica, este teorema era precisamente
el ms importante, o el central, as que George Plya lo bautiz como Teorema
262 Parte 111. Inferencia estadstica
Central o Teorema Central del Lmite. Hay que mencionar que lo que es central
es el teorema, no el lmite (hay lmites centrales?), por lo que es una inadecuada traduccin referirse a este teorema como el "Teorema del Lmite Central".
En esencia, el Teorema Central del Lmite establece que bajo ciertas condiciones, una variable aleatoria que sea igual a la suma de un gran nmero de variables aleatorias diferentes tender a seguir una distribucin normal. Pongamos
como ejemplo el caso del consumo de energa elctrica por cada familia en alguna ciudad o en una zona de una gran ciudad. Es evidente que la mayora de las
familias consumen electricidad en forma relativamente desordenada y aleatoria.
As, para cada familia k, puede haber una variable aleatoriax, que rija el consum
o
particular de energa elctrica, con su respectiva distribucin de probabilidad y
sus respectivos parmetros (media y varianza). Distintas familias pueden consumir energa elctrica de modo muy diferente y con distintas distribuciones de
probabilidad. Sin embargo, gracias al Teorema Central del Lmite, se puede asegurar que la cantidad total de energa elctrica consumida en esa ciudad o en esa
zona de la ciudad, producto de la suma total de las contribuciones individuales
de numerosas familias, puede aproximarse mediante una distribucin normal.
De manera anloga, los pesos y tamaos de seres vivos, incluyendo a los

humanos, as como las distintas concentraciones de azcar o vitaminas en frutas,


y en general casi todo lo que pertenece a la biologa, son el reflejo macroscpico
de un trabajo realizado por un gran nmero de clulas diminutas, en donde cada
una realiza su pequea contribucin. Por tanto, es slo una consecuencia del
Teorema Central del Lmite que los fenmenos biolgicos estn regidos por la
distribucin normal.
Una de las caractersticas de los errores de medicin, cuando una cantidad
es la suma de un gran nmero contribuciones pequeas, consiste en que la contribucin individual de cada trmino es despreciable, y la probabilidad de que
cualquier error en una medicin individual pueda afectar a la suma resultante es
prcticamente cero.
La forma ms fuerte y general del Teorema Central del Lmite puede verse en libros avanzados o tratados de estadstica matemtica superior. Nosotros
enunciaremos una versin muy simplificada, que daremos sin prueba:
Teorema Centrai del Lmite. Sea Y= X, +X, +X, + + Xn, donde X,, X,, . . .
, Xn son variables aleatorias independientes (cuyas distribuciones de probabili
dad pueden ser arbitrarias o incluso desconocidas). Supngase que los valores
esperados y las varianzas de tales variables aleatorias X, son, respectivamente
,
E(X,) = p,, Var(X,) = o:. Entonces, bajo ciertas condiciones generales,' la va
riable aleatoria:
'Dichas condiciones generales establecen de alguna manera que los trminos X,, t
omados e n forma
individual, contribuyen cada uno con una cantidad despreciable a la varianza de
la suma de todos los trminos (cuando stos son muchos) y hay entonces una probabilidad muy pequea (virtualm
ente cero) de que
un solo trmino pueda realizar una contribucin significativa a la suma.
tiene una distribucin de probabilidad fn(z) que se aproxima a la distribucin
normal estndar cuando n tiende a infinito; o en trminos ms especficos,
si F, es la distribucin acumulada de probabilidad de la variable aleatoria Zn,
entonces:
1 donde @(z) es la distribucin normal estndar acumulativa.
1
En una formulacin ms restringida, el Teorema Central del Lmite establece que si las variables aleatorias X,, X,, . . . , X, estn igualmente distr
ibuidas y
tienen, por consiguiente, una misma media p y una misma varianza 02, entonces
la variable aleatoria definida por:
tiene una distribucin de probabilidad que se aproxima a la distribucin normal
Fn(z) - .
estndar, en el sentido que lm - n-tm @(z)
Si hacemos:
entonces:
o
donde 2 es la media aritmtica muestral, mientras que - - - ox es el error esJn
tndar de la media. Por lo tanto, esta forma restringida del Teorema Central del
Lmite establece que si X,, X,, . . . , X, son n variables aleatorias independie
ntes
igualmente distribuidas, cada una de ellas con media 11 y varianza 02,
enton- . .
X - p
ces la variable aleatoria 2, = - tiene una distribucin de probabilidad con
o?i
264 Parte 111. Inferencia estadstica

tendencia asinttica a la distribucin normal estndar conforme n + co, donde


0
0- =6'
Otras variantes ligeramente distintas y ms sofisticadas del Teorema Central
del Lmite fueron enunciadas y probadas en la dcada de los veintes, en el siglo
pasado (especficamente entre 1922 y 1929), por Aleksander Y Khinchin, J. W
Lindeberg y i? Lvy.
La primera versin que se propuso sobre el Teorema Central del Lmite (cuando an no se llamaba as) fue enunciada y probada por Laplace en 1812. Laplace
se dio cuenta de que si una poblacin se distribuye normalmente con media p y
varianza 02, entonces la distribucin muestral de medias de tamao n, extradas al
azar de dicha poblacin, sigue una distribucin normal con media p, = p y desvia(3
cin estndar = - . Por ejemplo, para una poblacin normal con media 3 y
Jn
varianza 1, la distribucin muestral de las medias de muestras aleatorias de tamao
n = 10 es tambin normal, con media 3 y desviacin estndar 1 / 410 . La figura 7.2
ilustra la curva de distribucin de la poblacin y la distribucin muestral de las X
para n = 10.
Las aportaciones de Lyapunov, Khinchin, Lindeberg, Levy y otros famosos
estadsticos de la primera mitad del siglo xx consistieron en dar condiciones mucho ms generales y fuertes para el Teorema Central del Lmite. Entre otras cosas, se hall que la hiptesis de que la poblacin se distribua normalmente era
innecesaria. En 1929, Khinchin prob que ni siquiera hace falta suponer que la
varianza sea finita.
i
1
1.2
-I
I
I
i
1
-i de tamao n = 10
i
i 0.8
-I
i
i
I
1
r
Distribucin de la
I
I
Figura 7.2
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 265
Como la desviacin estndar d e la distribucin muestra1 de medias, es decir,
C T ~ mide el grado d e concentracin de las X muestrales con respecto a p, re
sulta, por tanto, que CTE es la magnitud indicada y ms apropiada para medir qu
tan precisa es la estimacin d e p por medio d e x. Por eso se le ha dado a
ox
el nombre d e error estndar de la media (o error tpico de la media). Obsrvese
q u e R tiene & ms precisin al estimar p de lo que tendra una sola observacin, y si quisiramos duplicar el tamao de la muestra, tomando ahora muestras

d e tamao 2n, veramos que la precisin con que X estima al parmetro p aumenta tan s61o de & a&, lo cual implica un incremento d e precisin apenas superior a 40 %.
Ejemplo 7.2. Varios miles de aspirantes presentaron examen de admisin para
ingresar a una gran universidad. Denotemos por X a la variable aleatona que repr
esenta
la calificacin de un estudiante extrado ai azar. Se desconoce cul pudiera ser la di
stribucin de X, pero por informacin histrica de la que se dispone, se presume que X tien
e
una media de 68.3 y una desviacin estndar de 8.4. Si se toma una muestra aieatoria
de
n = 36 exmenes para ser calificados, cul es la probabilidad de que el promedio de c
alificaciones de esos 36 exmenes sea inferior a 70?
Solucin: El desconocimiento de la forma como se distribuyen las calificaciones e
s
irrelevante. El error estndar de la media es:
Al tipificar 70, se obtiene:
Por tanto:
P(X < 70) = P(Z < 1.2143)
Usando Excel hallamos:
=DISTR.NORM.ESTAND(1.2 143) = 0.88768
Ejemplo 7.3. Supngase que se extraen muestras aieatorias de tamao n = 15 de
cierta poblacin que est distribuida mediante una ley matemtica que no es normal, y
en
3
donde se halla que P = 0 , ~ ~ = - . Encontrar la probabilidad de que X no se
a menor que
5
0.03 ni mayor que 0.15.
Solucin: Primeramente se calcula el error estndar de la media:
266 Parte 111. Inferencia estadstica
Ahora tipificamos los extremos del intervalo:
Luego:
Con ayuda de tablas de la normal estndar acumulada, hallamos:
Con Excel:
Ejemplo 7.4. El nmero de semillas por limn, en cierta variedad de limones agrios
de Veracruz, sigue una distribucin de Poisson con parmetro h = 5. Para una muestra
de
n = 125 limones de dicha variedad, determinar la probabilidad de que el nmero pro
medio de semillas por limn sea menor que 5.5.
Solucidn: El error estndar de la media es:
Por consiguiente:
Para ilustrar la forma en que una distribucin muestral de medias tomada de
cualquier poblacin adquiere rpidamente la tendencia a una campana normal
0
con media p, y desviacin tpica- , en la figura 7.3 se ilustran tres casos disJn
tintos: en el primer caso (inciso a), la poblacin sigue una distribucin rectan
gular (o uniforme continua); en el segundo caso (inciso b), la poblacin se distr
ibuye en forma extraa; y en el ltimo caso (inciso c), tenemos una poblacin que
se distribuye a manera de una J invertida. Son poblaciones que se distribuyen de
modos muy diferentes a una normal, y sin embargo, en los tres casos se observa

la tendencia rpida a una normal en la distribucin muestral de medias.


En situaciones prcticas cotidianas de la estadstica es ms comn trabajar
con proporciones que con medias. Si usted ha observado, casi siempre los reDistribucin de X
(poblacin)
Distribucin de X
(poblacin)
I
Distribucin de X
(poblacin)
Distribuciones muestrales de X
para muestras de tamao n
,A , n *
Distribuciones muestrales de X
para muestras de tamao n
P; PF cL,b) I
r
Distribuciones muestrales de X
para muestras de tamao n
Figura 7.3. Apreciacin del Teorema Central del Lmite.
268 Parte 111. Inferencia estadstica
sultados de encuestas tienden a mostrar algn porcentaje de la poblacin que
opina de cierta manera o que hace o deja de hacer algo. Por ejemplo, qu porcentaje de los automovilistas usan consistentemente el cinturn de seguridad,
qu porcentaje de los compradores de supermercados prefieren adquirir marcas reconocidas en lugar de las marcas libres del mismo supermercado o qu
porcentaje de la gente est a favor o en contra de alguna propuesta poltica.
Se ha hecho costumbre que, a falta de un mtodo ms eficaz para medir el
rating de una empresa televisiva, algunos locutores y directores de noticiar
ios
inviten al teleauditorio a llamar por telfono a un nmero gratuito para contestar cualquier pregunta que se les formule. Al final se seala cmo estuvieron los
porcentajes de cada alternativa en las respuestas del pblico. Un porcentaje en
ese sentido no es otra cosa que una proporcin o fraccin de los encuestados que
opinan de tal o cul manera. Por ejemplo, un porcentaje de 75 % se representa mediante la proporcinp = 0.75, o un porcentaje de 5% se escribe comop = 0.05.
En la frmula de aproximacin del Teorema de De Moivre-Laplace:
X
puede resultar conveniente trabajar con la proporcin de xitos P =- de una
n
muestra de tamao n, en vez de trabajar con x, que es el nmero de xitos en
la muestra. Si se dividen ambos miembros de la ecuacin anterior entre n, se
llega a la siguiente expresin:
la cual se puede expresar tambin as:
Por tanto, de acuerdo con el mismo Teorema de De Moivre-Laplace, la distribucin muestral de una proporcin tiende a la distribucin normal estndar
cuando n se hace ms y ms grande. La media de la distribucin muestral de una
proporcin es p, = p , y la desviacin estndar (llamada tambin error estndar
de la proporcin) est dada por:
Obsrvese que el estadsticop es un estimador insesgado dep, porque su
valor esperado coincide con el valor dep.
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 269
Ejemplo 7.5. En la direccin escolar de una universidad se hall que 75% de los
estudiantes de nuevo ingreso que aprobaron el primer examen parcial de matemtica
s
terminaron por aprobar el curso correspondiente. Si este semestre hay 340 alumn
os de

nuevo ingreso que aprobaron el primer examen parcial de matemticas, cul es la probabilidad de que por lo menos 80 % de ellos terminen el curso respectivo con cal
ificacin
aprobatoria?
Solucin: El error estndar de la proporcin es:
Luego:
En consecuencia:
Con Excel la sintaxis es:
Ejemplo 7.6. Se considera que aproximadamente 8 % de las personas que reciben
cierto tipo de vacuna presentan una reaccin alrgica perniciosa. Si la Secretara de
Salud
va a vacunar a 400 individuos, calcule la probabilidad de que cuando mucho 10 %
presenten tales reacciones.
Solucin: De nuevo, empezamos por calcular el error estndar de la proporcin:
De aqu que:
Por consiguiente:
Finalmente, con ayuda de Excel se halla:
=DISTR.NORM.ESTAND(l.4744) = 0.9298
Esto significa que se puede tener una confianza de casi 93 % de decir lo correct
o, si
se asegura que no habr ms de 10 % de los vacunados con alguna reaccin alrgica.
7.6. EJEMPLOS DIVERSOS
Finalizaremos esta leccin con algunos ejemplos interesantes d e los temas
que se expusieron e n la misma, y e n la seccin siguiente propondremos los ejercicios d e autoevaluacin.
Ejemplo 7.7. Suponga que el tiempo requerido para atender a un cliente en la ca
ja
1
rpida de un supermercado sigue una distribucin exponencial con parmetro 1 = 3
(en minutos). Haga uso del Teorema Central del Lmite para calcular la probabili
dad de
que el tiempo total requerido para atender una muestra aleatoria de n = 16 clien
tes en la
caja rpida sea mayor que 1 hora.
Solucin: Si X = Xl + X, + + Xn es una suma de n variables aleatorias, tal que
todas las X, tienen la misma media p y la misma varianza 02, como en este caso,
entonces
se puede escribir
En este caso particular, se trata de 16 variables aleatorias X, , X, , . . .
, X,,, cada una
1
de las cuales tiene distribucin exponencial con h = (es decir, p = 3 minutos y o
= 3
3
minutos para cada una de las 16 variables). Si definimos X = Xl + X, + + X,,,
entonces
la media de X es
E(X) = ZE(X,) = 16 x 3 = 48 minutos
y la varianza de X es:
Var (X) = x ~ a r (X,) = 16 x 9 = 144
Segn el Teorema Central del Lmite, X sigue una distribucin normal estndar;
luego:
de las tablas de la distribucin normal estndar acumulada. O con Excel, la sintaxis
es la
siguiente:
Ejemplo 7.8. El tiempo (en segundos) que cierto ajedrecista tarda en ponderar

un
movimiento cualquiera durante una partida relmpago de ajedrez (a ritmo de 5 minut
os
para todo el juego) sigue una distribucin ji-cuadrada con cinco grados de libert
ad. Use el
Teorema Central del Lmite para estimar la probabilidad de que en una partida relmp
ago
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 27 1
(blitz) ese ajedrecista no logre realizar 50 movimientos sin rebasar el lmite de
tiempo
reglamentario de cinco minutos.
Solucin: Sea X = X, + . . . + X, la variable aleatoria que expresa el tiempo re
querido por el ajedrecista para efectuar 50 movimientos, donde X, es el tiempo inver
tido en la
i-sima jugada (i = 1, . . . , 50). CadaX, tiene una distribucin ji-cuadrada con 5
grados de
libertad (tiempo medido en segundos). Por tanto, para toda i se tiene E( 4) = 5
, Var(Xf) =
10. De acuerdo con el Teorema Central del Lmite, la variable aieatoria
tiende a la distribucin normal estndar. Adems, el tiempo lmite reglamentario d
e reflexin termina a los 5 minutos (300 segundos) a cargo de cada jugador. En consecu
encia:
Carl Friedrich Causs ( 1 777- 1855). Es considerado uno
de los cinco matemticos ms distinguidos de todos
los tiempos. Aunque sus ms valiosas aportaciones
fueron en la teora de nmeros. tambin hizo
contribuciones importantes en muchas otras ramas de
las matemticas. En 1823 y 1828, aplic los resultados
estadsticos de Laplace al investigar la distribucin
de los errores en las observaciones astronmicas,
y tambin contribuy al desarrollo de l a teora de
regresin por el mtodo de los mnimos cuadrados,
aunque la palabra "regresin" fue acuada mucho
despus por Francis Calton.
Sirnon Denis Poisson (1 78 1 - 1840). Public casi
400 trabajos importantes, entre ellos su notable obra
Recherchs sur la probabilit des jugements (1 83 7), en
donde por primera vez apareci la distribucin que hoy
lleva su nombre.
Lleg el momento de poner a prueba el aprendizaje del captulo con un autoexamen de
10
problemas fciles. Como siempre, use tablas, calculadora y Excel si lo desea, aunq
ue todos
estos ejercicios se pueden resolver slo con calculadora y tablas. Usted dispone
de slo
dos horas cuando mucho para resolver los 10 ejercicios. Recuerde que no se vale
consultar
notas ni apuntes mientras resuelve el examen, para que ello no enturbie su verda
dero diagnstico del aprendizaje. Para autocalificarse, slo tome en cuenta las respuestas nu
mricas
finales. Si coinciden las respuestas es acierto; si no, es falla. No hay medios
puntos por procedimiento, ya que por lgica si la respuesta est equivocada es porque el procedi
miento
est equivocado, aunque puede haber ligeras diferencias entre su respuesta y la qu
e damos,
debido a los distintos grados de precisin numrica que se usen en las operaciones a

ritmticas; en tales casos regstrese un acierto. Si obtiene menos de siete aciertos, h


ay que dar
marcha atrs y volver a estudiar con ms detenimiento toda la leccin antes de probar
su
suerte de nuevo con el autoexarnen, en otra oportunidad. Siete aciertos es regul
ar, ocho es
bueno, nueve muy bueno y 10 excelente. Suerte, y recuerde que el esfuerzo es el
secreto
del xito.
1. Una variable aleatoria X tiene media igual a 12 y varianza igual a 9. Hacien
do uso de
la desigualdad de Chebishev, estime el valor mnimo de P(3 < X < 21).
2. Suponga que la probabilidad de que un avin comercial experimente algn tipo de
problema al aterrizar es de 0.002. Si entre los siguientes 2000 vuelos que llegu
en al
aeropuerto, Xes el nmero de ellos que experimentarn dificultades al aterrizar, use
la aproximacin de Poisson para obtener la media y la varianza de X, y luego apliq
ue
el Teorema de Chebishev para encontrar un intervalo en el cual se tenga una prob
abilidad de por lo menos 0.75 del nmero de vuelos que experimentarn problemas
al aterrizar entre esos 2000.
3. Si aproximadamente uno de cada 1000 pasaportes que se expiden tiene un error
en
el nombre o apellido del interesado, y si X es el nmero de pasaportes con algn
error de ese tipo entre los siguientes 10000 que se van a expedir, calc
ule con la
aproximacin de Poisson la media y la varianza de X, y luego determine por medio
del Teorema de Chebishev un intervalo en el cual se tenga una probabilidad de po
r lo
8
menos - del nmero de pasaportes con el nombre mal escrito entre esos 10 000.
9
4. Si hacemos ko = c en el Teorema de Chebishev, qu nos dice este teorema acerca
de
la probabilidad de que una variable aleatoria tome un valor entre p - c y p + c?
5. El nmero de licencias de matrimonio expedidas en cierta ciudad durante el me
s de
junio puede considerarse como una variable aleatoria cuya distribucin de probabi
lidad se desconoce, pero se estima que su media es aproximadamente p = 124 y su
desviacin estndar o = 7.5. Segn el Teorema de Chebishev, con qu probabilidad
podemos afirmar que se expedirn entre 64 y 184 licencias de matrimonio en esa
ciudad durante el mes de junio?
6. Si X,, X2, . . . , X,, es una muestra aleatoria de tamao 20, tomada de u
na poblacin
1
en la cual se sabe que el valor esperado de cada X, es E(Xi) = - y la varian
za de
2
1
cadaX, es Var(X,) =-, para i = 1, 2, ... , 20, y si se defineX=X, +X2 + ...
+X,,,
12
calcule P(8.5 I X I 11. 3.
8 8

7. Para cierta poblacin se sabe que p = - y o2 = -. Si X denota la media de


una
5 75
muestra aleatoria de tamao n = 25 extrada de esta poblacin, calcule P(1.5 I FI
1.65).
Cap. 7. Teorema Central del Lmite y distribuciones muestrales 273
8. ~ e a g l a media de una muestra aleatoria de tamao 36 tomada de una poblac
in que
se distribuye de manera exponencial con media 3. Encuentre un valor aproximado
para ~(2.5 I ~ I 4).
9. El 2 % de las piezas metlicas producidas por cierta mquina son defectuosas. Ca
lcule
la probabilidad de que de un lote de 400 piezas elegidas al azar, el porcentaje
de piezas defectuosas sea de:
a) por lo menos 3 %
b) cuando mucho 2 %.
10. En unas elecciones para gobernador, el candidato de cierto partido poltico
obtuvo
46% del total de votos. Calcule la probabilidad de que en una muestra de n votan
tes
elegidos al azar se hubiese registrado una mayora de votos a favor de dicho candi
dato, si n vale:
(Indicacin. Use aproximacin normal y no olvide la correccin por continuidad.)
1. p-ko=12-3k=3;p+ko=12+3k=21.Enamboscasosseobtienek=3.
1 8
Deaquque: P( p- ko<X<p- ko) = P(3 <X<21) 2 1 --=-.
kZ 9
2. p = o2 = 4. El intervalo es desde O hasta 8 vuelos con algn problema al mo
mento de
aterrizar.
3. p = o2 = 10. El intervalo es desde 0.51 hasta 19.49 pasaportes con el nomb
re mal escrito.
o2
4. P(p-c<X<p+c)21--.
c2
63
5. Con probabilidad de por lo menos - = 0.984.
64
BSTS GENERALES DE DIAGN~JTICO (cAPTULOS 1 AL 7)
Los siguientes dos tests de opcin mltiple se deben r e z e r sin consultar el li
bro, es decir, slo recordando lo que se ha estudiado en el material expuesto en los primer
os siete
captulos. Puede usar calculadora o Excel libremente si lo desea, aunque tambin pue
den
resolverse usando calculadora y tablas estadsticas solamente.
274 Parte 111. Inferencia estadstica
Test 7.1
En el siguiente cuadro, anote con lpiz suave sus respuestas. Los procedimientos d
ebe realizarlos en hojas separadas, y no en el libro. (En el apndice D se dan las respues
tas correctas
para que las coteje con las suyas.)
1. En un negocio de hot dogs y hamburguesas, se ha determinado que el nmero de
hamburguesas que pueden vender al da es una variable aleatoria con distribucin aproxi
-

madamente normal. Segn sus registros de contabilidad, 9 % de los das han vendido
70 hamburguesas o ms, y slo 3 % de los das han vendido 73 hamburguesas o ms.
Determine:
i ) el nmero esperado de hamburguesas que vendern en un da cualquiera
i i ) i i i ) 6. i i ) la probabilidad de que vendan cuando mucho 50 hamburguesas en un da cualquiera
1 . i ) 2 . i ) 3 .
i i ) 7 . - 8. i i i ) el octavo decil, es decir, el nmero a partir del cual est 20% de los das q
ue mejor
les va en las ventas de hamburguesas
2. Una mquina produce esferas de metal, cuyos dimetros siguen una distribucin nor
mal con media p = 5 cm y desviacin tpica o = 0.2 cm. Para los usos que tiene desti
nados, la esfera se considerar inservible si su dimetro cae fuera del intervalo [4.
8,5.2]
(en centmetros).
4 . i ) 5 . i i ) i i i ) 9. i ) QuC porcentaje de esferas defectuosas produce la mquina?
10. i i ) Cul es la probabilidad de que entre 10 esferas escogidas al azar haya
cuando
mucho dos inservibles?
3. El mecanismo interno de un refrigerador marca Acros de cierto tipo tiene
una vida
cuya distribucin es aproximadamente normal, con media de 12 aos y con desviaCap. 7. Teorema Central del Lmite y distribuciones muestrales
275
cin estndar igual a 4.863 aos. El fabricante asume la responsabilidad de reponer (o
en su caso reparar gratuitamente) aquellos refrigeradores que estn dentro de la g
aranta. Si piensa reponer slo 5 % de las unidades, por cunto tiempo debe estipular
la garanta?
a) 2 aos b) 3 aos c) 4 aos d) 5 aos
4. Suponga que en un pas la edad promedio a la que se casan los hombres por prim
era
vez es de 32 aos, pero la mayora de ellos lo hacen a los 28 aos. Si se supone u
na
distribucin de Erlang, encuentre el porcentaje de hombres cuyo (primer) matrimoni
o
tiene lugar:
i) antes de los 24 aos
ii) despus de cumplir los 36 aos
iii) entre los 28 y los 32 aos
5. Sea X una variable aleatoria continua con distribucin de Erlang, cuyo parmetro
de
1
forma es r = 2 y cuyo parmetro de escala es h = - . Cul es la probabilidad de que
50

X asuma un valor mayor que la moda, pero menor que la media?


6. Segn el Teorema de Chebishev, la probabilidad de que cualquier variable al
eatoria
8
asuma un valor dentro de tres desviaciones estndar de la media es, por lo menos,
-.
9
Si adems se sabe que dicha variable aleatoria sigue una distribucin normal, icul es
el val ordeP(p-30<X<p+30)?
7. Una compaa estadounidense paga a sus empleados un salario promedio de 9.25 dlares por hora, con una desviacin estndar de 60 centavos de dlar. Si los salarios sig
uen
una distribucin aproximadamente normal, qu porcentaje aproximado de trabajadores reciben un salario de entre $8.75 y $9.69 incluso, por hora?
8. Un conferencista cuenta un promedio de cuatro ancdotas en cada conferencia qu
e
imparte. Determine la probabilidad de que cuente menos de tres ancdotas por confe
rencia, durante tres de las siguientes siete conferencias que imparta.
276 Parte 111. Inferencia estadstica
9. Calcule la probabilidad de que una persona que lanza al aire una moneda, log
re obtener su cuarta guila en el sptimo lanzamiento.
10. Las hogazas de pan de centeno distribuidas a las tiendas por una panadera, t
ienen una
longitud promedio de 30 cm y una desviacin estndar de 2 cm. Suponiendo que las
longitudes de estos panes se distribuyen normalmente, qu porcentaje de las hogazas
tiene una longitud entre 29.3 cm y 33.5 cm?
Test 7.2
En el siguiente cuadro, anote con lpiz suave sus respuestas. Los procedimientos d
ebe realizarlos en hojas separadas, y no en el libro. (En el apndice D se dan las respues
tas correctas
para que las coteje con las suyas.)
1. Un compositor de msica para piano lanza un nuevo CD al mercado tan pronto com
o
logra componer 14 melodas nuevas. El tiempo que tarda en componer una meloda
1
nueva (en aos) sigue una distribucin exponencial cuya varianza es -. Calcule la
3 6
1 .
6 . probabilidad de que el tiempo entre dos CDs consecutivos que graba sea menor qu
e
dos aos y seis meses.
2. En un establecimiento de lavado de automviles, tienen una promocin que
dice:
"Conserve su comprobante; con cinco el siguiente lavado es gratis." Si un seor
lleva
su automvil a lavar a ese sitio un promedio de 1.8 veces por semana, calcule la
probabilidad de que el tiempo transcurrido entre dos lavados gratis que obtenga sea m
enor
que cinco semanas. [Suponga que el nmero de veces que el seor lava su coche a la
semana sigue una distribucin de Poisson.]
2 .
7 .

3. Use la aproximacin de la curva normal para resolver este problema. Un fa


bricante
de calzado para nio sabe por experiencia que 4% de su produccin es rechazada por
3. 9 .
ii) iii) 4. - 5. 10.Cap. 7. Teorema Central del Lmite y distribuciones muestrales 277
defectos de fabricacin. Si un nuevo lote de 800 pares de zapatos se presenta a in
speccin, qu tan probable es que se rechacen menos de 36 pares?
4. En una papelera se venden en promedio 3.5 diskettes sueltos por hora. Cada ve
z que
se venden 10 unidades, la seorita encargada tiene que abrir una caja nueva. Si la
encargada abri una caja a las 10:OO a. m., determine la probabilidad aproximada de
que
abra la siguiente despus del medioda.
5. Una variable aleatoria discreta X sigue una distribucin de Poisson, cuya medi
a es p = 9.
Calcule el valor de P( k - 20 < X < p + 20).
6. Sea X una variable aleatoria discreta, con distribucin de Poisson, en la que s
e sabe
que P(X = 1) = P(X = 3). De acuerdo con esa informacin, se requiere determinar
P(X = 5).
7. Los siguientes datos aparecieron en elJoumal of the American Statistical As
sociatiun, vol.
31, pp. 376-380. Durante un periodo de 96 aos se registraron las vacantes para em
pleo en la Suprema Corte de Justicia de Estados Unidos, ya sea por muerte o renu
ncia
de alguno de sus miembros. El tamao de muestra es n = 96.
Para aproximar estos datos mediante un proceso de Poisson, el parmetro h se t
oma
como la media aritmtica ponderada de esta distribucin emprica, esto es:
k=nmo 1
de vacantes
durante el
ao
O
1
2
3
ms de 3
n, = nmero
de aos con k
vacantes
59
27
9
1
O
278 Parte 111. Inferencia estadstica
Haga ahora un comparativo del modelo terico (o esperado) 969 (k, 0.5), con respe
cto
a los valores observados en la tabla sealada.
a)

k =n mm
de vacantes
durante el
ao
O
1
m-, ,, ,
ao
o
k = nmero
de vacantes
durante el
ao
O
1
2
3
ms de 3
% = n m
de aos con
k vacantes
(observado)
59
27
9
1
O
1 1 1.210
m s de 3 O 0.163
n =nmero
h aos con
k vacantes
(esperado) 59.224
28.117
8.977
1.210
0.173
=nmero
de aos con
k vacantes
rdo)
-.
9 1
1 I
k = nmero
de vacantes
n =nmero
be aos con
k vacantes
(esperado)
58.227
29.113
7.278
1.2 13
durante el k vacart-- '- vacantes
psperado)
- - -

58.224
27
- L
%;.=-me; '
O
%= n m '
aos con
0.168
8. Cada sucursal del banco llamado Serfin en Mxico cuenta con 15 cajas para ate
nder
al pblico, pero normalmente slo unas pocas funcionan (a menudo slo una o dos) y
las dems tienen un letrero que dice "cerrada". Suponga que si X es el nmero de caj
as
que funcionan en dicho banco en un da cualquiera, la distibucin de probabilidad de
X est dada por la siguiente tabla:
d)
i ) Encuentre la probabilidad de que 60% o ms de las cajas funcionen en u
n da
cualquiera.
ii) Qu porcentaje de las cajas funcionan la mayora de las veces?
2
= nmero
aos cm
k vacantes
(esperado)
k =nmero ' n = ncrnero
iii) Cul es el nmero promedio de cajas que funcionan en un da cualquiera?
de vacantes
durante el
9. Si el conjunto de calificaciones de un examen de estadstica tiene una
distribucin
normal, con media de 74 y desviacin estndar de 7.9, obtenga la calificacin aprobatoria ms baja, si a 10% de los exmenes con ms bajas calificaciones se les pone NA
(no acreditado).
-- chaos cm
k vacantes
(observado)
2
10. El dimetro interior de un anillo para mbolo se distribuye normalmente, con una
media de 10 cm y una desviacin estndar de 0.03 cm. Debajo de qu valor de dimetro
interior caer 15 % de los anillos?
59
27
59.224
27.117
3
I
1
mas de 3 1 O
9 1 9.277
1.2 10
0.173
Para calcular un intervalo de confianza de 100(1 - a) % relativo a la media
desconocida de una poblacin, primero debemos preguntarnos si la muestra de la
que disponemos es grande (n 1 30) y si conocemos o no el valor de la desviacin

estndar o de la poblacin. De las respuestas de estas preguntas depende el procedimiento a seguir. A decir verdad, si no se conoce el valor de la media, es po
co
verosmil que podamos conocer el valor de la desviacin estndar, pero a veces
este ltimo parmetro se conoce por la experiencia previa, o tal vez se tienen fuertes sospechas de su valor aproximado. Sin embargo, en la mayora de los casos,
cuando se desconoce la media p., tambin se desconoce la desviacin estndar o,
por lo que debe utilizarse la desviacin estndar muestra1 s como sustituto de o.
Para una muestra grande, o para una muestra pequea en la que se conoce
el valor de la desviacin estndar poblacional, es necesario buscar en tablas de la
normal estndar inversa (o en tablas de valores crticos de la distribucin normal
estndar) el percentil crtico para un intervalo de confianza de 100(1- a) %. Dicho percentil crtico se calcula de la siguiente manera:
z crtico = z,,~ =a-' 1 - ( :i
En la figura 8.1 se localiza la ubicacin de z, y de -2, en la curva normal estndar.
Figura 8.1
En la prctica, los valores ms usuales para el nivel de confianza son 95%
y 99%. En el primer caso, el valor del percentil crtico es (P-'(0.975) = 1.9599
6 .1.96, mientras que en el segundo caso es @-'(0.995) = 2.57583 = 2.576. Incluso
vale la pena aprenderse de memoria estos dos percentiles crticos, que son los
ms usuales. Si la muestra es pequea, pero la poblacin es aproximadamente
normal y se desconoce el valor de o, entonces se usan percentiles crticos de la t
de Student con n - 1 grados de libertad. Recomendamos aprenderse de memoria
el esquema que aparece en la figura 8.2.
Si no se dispone de tablas de la normal estndar inversa, ni tampoco se conocen de memoria los valores crticos z,, se puede usar una tabla de percentiles de
la distribucin t de Student, de la cual la ltima fila (m grados de libertad) corr
esponde precisamente a los respectivos percentiles de la normal estndar.
Si t, es el percentilp en una tabla de percentiles de la distribucin t de Student, entonces el valor crtico t , se halla buscando el percentil del sig
uiente
valor dep:
El Excel de Microsoft Office es un programa muy cmodo y tiene una utilera estadstica que proporciona directamente el valor crtico t , para el nivel de
confianza 100(1- a) %, pero eso lo veremos con ms detalle en la seccin 8.3,
que tratar del caso de muestras pequeas en las que se desconoce el valor de la
desviacin estndar poblacional.
Ejemplo 8.1. Confeccionar con el Excel una pequea tabla de valores crticos z, ,
para intervalos de confianza relativos a la media p, con niveles de confianza
desde 99 %
hasta 90 %.
Aumentar el tamao
de la muestra o usar
1 mtodos de
1 estadstica no
Figura 8.2. Esquema para intervalos de confianza relativos a la media de una po
blacin.
Solucin: En una celdilla cualquiera de la hoja de clculo, por ejemplo, en la celdi
lla
B2, anotamos 0.01, que es el valorde a, y como encabezado de esa columna escrib
imos
Alfa en la celdilla B1. Luego escribimos 0.02 en la celdilla B3, seleccionamos

ambas celdil l a~ (B1 y B2) y nos posicionamos con el cursor en la parte inferior derecha
de la celdilla
B2, para arrastrar hacia abajo, sin dejar de oprimir el botn izquierdo del
ratn, hasta
llegar al nmero 0.1. Enseguida nos posicionamos en la celdilla C2 y escribimos:
y damos enter. Por ltimo, se da un clic en la celdilla B2 y sta aparecer rodeada po
r una
lnea gruesa con un pequeo punto en la parte inferior derecha, en el cual damos
dos
clics con el ratn (botn izquierdo) y aparecen los nmeros buscados. Como encabezado
de la segunda columna escribimos ya sea "z crtico" o bien "z alfan":
Resulta muy fcil deducir la frmula para el intervalo de confianza correspondiente
a una media poblacional; cuando a uno se le olvida una frmula, lo ms fcil (y divert
ido)
es volverla a deducir. Recurdese que en el captulo anterior vimos que la distribuc
in
muestral de medias para muestras de tamao n (grandes o pequeas) provenientes d
e
una distribucin normal, o bien para muestras grandes provenientes de una distribu
cin
que no es normal, tender en cualquier caso a la distribucin normal estndar, con med
ia
0
px = p. y desviacin tpica =- . Luego, la variable:
J
tiene distribucin normal estndar. Como hay una probabilidad 1 - a de que una vari
able
aleatoria con distribucin normal estndar asuma un valor entre -2, y z,, se tend
r
entonces:
Usando algo de lgebra elemental se despeja fcilmente p. de la desigualdad anterior, para obtener:
Ejemplo 8.2. Una muestra de 36 sbanas tamao king size de cierta marca dio como
resultado el siguiente promedio de longitudes: X = 2.60 m, con desviacin tpica (mu
estral)
S = 0.3 m. No se tiene idea de cui pudiera ser la distribucin de probabilidad deX=
longitud
de las sbanas de esa marca y tamao. Construir un intervalo de confianza de:
con respecto a p., que es la media de X.
Cap. 8. Estimacin de parmetros 285
Solucin :
a) El intervalo es 2.60 t (l.%)%, es decir: 2.502 m < p < 2.698 m
J36
O" , esto es: 2.471 m c p < 2.729 m. b) El intervalo es 2.602(2.576)J36
Obsrvese que a mayor nivel de confianza el intervalo se vuelve ms amplio,
mientras que a menor nivel de confianza ser un intervalo ms estrecho o preciso.
Por ejemplo, si nos hubisemos conformado con una confianza de 10 % (esto es,
a = 0.9), entonces el valor crtico sera W'(0.55) = 0.12566, y el intervalo de con
fianza sera 2.60 f 0.006 m. En el otro extremo de la escala, si hubisemos exigido
una confianza tan alta como 99.9999 % (o sea, a = 0.000001), tendramos que usar
el valor crtico siguiente:
lo cual de acuerdo con el Excel es 5.06639. (Qu rpido se acerca la campana
normal al ejeX!) En tal caso, el intervalo de confianza sera tan vago como 2.60
f
0.25332, es decir, un margen de error de ms de medio metro al estimar la longitud promedio de las sbanas.
Ejemplo 8.3. Los bilogos saben que el contenido de vitaminas en las frutas siempr

e
sigue una distribucin normal (por razones que se explicaron en el captulo anter
ior).
Supbngase que se analizan las cantidades de vitamina C (en miligramos) en una m
uestra
aleatoria de 10 naranjas de cierta variedad, con los siguientes resultados: 96.4
,86.3,102.6,
99.0, 107.9, 84.9, 92.5,97.2, 101.2, 105.0. Si se sabe que la desviacin estndar de
l contenido de vitamina C en esa variedad de naranjas es de 7 mg, con s610 una calcul
adora y
tablas estadsticas construir un intervalo de confianza de 95 % con respecto al co
ntenido
promedio de vitamina C en esa variedad de naranjas.
Solucin: Slo hay que calcular el promedio de esos datos, el cual es jc =97.3 mg.
Luego:
As que hay una probabilidad de 0.95 de que el verdadero valor de p (contenido med
io de
vitamina C) est comprendido en el intervalo 92.96 mg < p < 101.64 mg.
Por qu no convena resolver este ejemplo con Excel? Por una razn muy
sencilla: el Excel no puede saber lo que saben los bilogos (que el contenido de
vitaminas en las frutas se distribuye de modo normal con desviacin tpica conocida). Por consiguiente, al resolver este ejemplo con Excel (usando el me
n
Hewamientas, Anlisis de datos, Estadistica descriptiva), por default el Excel
presupone que se desconoce la desviacin tpica poblacional de donde se extrajo
la pequea muestra, y por tanto, evala el intervalo usando valores crticos de la
t de Student con nueve grados de,libertad, adems de que emplea la desviacin
tpica de la muestra, la cual es algo mayor de 7.575.
8.2. CULO DEL T&O DE MUESTRA EN LA ESTIMACI~N
DE UNA MEDIA
En la frmula para el intervalo de confianza relativo a la media:
hemos denotado con E al error en la medicin del intervalo, es decir:
Es muy fcil despejar n de esta igualdad, con lo cual se obtiene la frmula
para el tamao mnimo de muestra:
Con esto vemos que para averiguar el tamao mnimo de muestra, en problemas donde se trata de estimar la media de la poblacin, se necesita conocer la des
viacin estndar de la poblacin. Cuando a usted le pregunten: "Cul es el tamao
de muestra que debe tomarse al estimar la media de la poblacin?', entonces puede responder en tono de broma: "Si la desviacin estndar de la poblacin es cero,
entonces el tamao de muestra es n = 1, es decir, islo hay que tomar un dato!"
En problemas prcticos es muy comn que el valor de la ltima ecuacin no
resulte entero, en cuyo caso hay que sumar 1 y tomar la parte entera, esto es:
donde el uso de corchetes significa la parte entera del nmero, o sea, el mayor
entero que no excede a ese nmero.
Ejemplo 8.4. Se desea hacer una estimacin de la edad promedio (en das a partir
de la fecha de nacimiento) en que le brotan los primeros dientes a un beb ("dient
es de
leche"). Aunque se desconoce cul sea la distribucin de probabilidad de dicha varia
ble,
algunos estudios previos confirman que la desviacin tpica es aproximadamente o = 2
8
das. Se va a tomar una muestra aleatoria de n historiales de bebs de muchos pediat
ras,
con objeto de estimar la media de esa variable. Si se desea que el error en dich
a estimacin sea de cuando mucho 12 das, con una confianza mnima de 95 %, cul debe ser el
tamao de la muestra?
Solucin:

Cap. 8. Estimacin de parmetros 287


Luego, se requieren por lo menos 21 historiales peditricos de bebs (es decir, n =
21),
para cumplir con las especificaciones del problema.
Lo anterior significa que si se toman 21 datos aleatorios de las edades en que b
rotaron los primeros dientes en los infantes, y se calcula el promedio aritmtico de
dichos
datos, entonces el valor que se obtenga, ms o menos 12 das, ser el intervalo donde
se
encuentre el promedio real, con una probabilidad de 0.95.
Ejemplo 8.5. Para una nueva marca de cigarrillos que sali al mercado, denotemos
conXal contenido promedio de alquitrn (en miligramos) por cada cigarrillo. No se
tiene
idea de cul pudiera ser la distribucin de probabilidad de X, pero se estima que e
l valor
de la desviacin estndar es aproximadamente o = 0.3 mg. si X es la media del conten
ido
de alquitrn de una muestra aleatofia de n cigarrillos de esa marca, se requiere c
alcular
el tamao de la muestra, para que X + 0.10 sea un intervalo donde se encuentre el
valor
verdadero de p =E(&), con una confianza mnima de 99 %.
Solucin:
Por tanto, se requiere una muestra de n = 60 cigarrillos.
Si la muestra es pequea, entonces se siguen las instrucciones del esquema de la figura 8.2, pero es necesario que la poblacin se distribuya de manera
normal o aproximadamente normal. Si se desconoce la desviacin estndar de la
poblacin, entonces se usan valores crticos de prueba de la distribucin t de Student, con n - 1 grados de libertad. Si slo se tiene a la mano tablas de percenti
les
t, de la distribucin t de Student, es fcil hallar el valor crtico t , si se recue
rda la
N
igualdad p = 1 - 2, que equivale a la igualdad a = 2(1 - p) .
2
La mayora de los libros de estadstica traen tablas de percentiles o de valores crticos (o ambas tablas) para algunas opciones selectas. Tal vez las tablas e
stadsticas que vienen al final de los libros (y que ocupan muchas pginas) desaparezcan poco a poco, gracias a la alta calidad de las nuevas calculadoras cientfic
as
de bolsillo y a la proliferacin de software estadstico barato y fcil de usar. Seguramente, cuando sus hijos estudien estadstica algn da, las tablas estadsticas
sern tan obsoletas como lo es hoy, por ejemplo, la regla de clculo. Los usuarios
de algunos modelos de calculadoras cientficas HP pueden hallar intervalos de
confianza de manera expedita y fcil, sin recurrir a tablas ni a Excel ni a nada d
e
eso, pero esas calculadoras todava no son tan baratas como uno quisiera.
Ejercicio 8.1. Con la utilera estadstica del Excel, confeccione una pequea tabla de
valores crticos t, de la distribucin t de Student con v grados de libertad, para
valores de
a (en orden descendente) desde 0.1 hasta 0.01 (columnas) y valores de v desde 1
hasta
30 (filas). Al final aada una fila correspondiente a grados de libertad, la cua
l le servir
288 Parte 111. Inferencia estadstica
como referencia para valores crticos de la distribucin normal estndar. Recuerde que

la
sintaxis es la siguiente:
Cuando termine este ejercicio, compare con la tabla que hemos confeccionado (tabla 8.1). Si le toma menos de cinco minutos hacer esa tabla y concuerda con la
que damos, su manejo del Excel es bueno.
Tabla 8.1. Valores crticos t , para la distribucin t de Student con v grados de
libertad.
Cap. 8. Estimacin de parmetros 289
Ejemplo 8.6. En el rea de juegos infantiles de un restaurante, una seora maquilla
las caras de los nios, pintndoles en forma artstica figuras de gatos, tigres o pa
yasos.
La seora no cobra tarifa fija por su trabajo, pero los padres de las criaturas l
e pagan una
contribucin voluntaria. Si X es la cantidad que recibe por cada nio que pinta, se
desconoce la media y la varianza de X, pero se puede presuponer que sigue una distrib
ucin
ms o menos normal. Las siguientes cantidades (en pesos) fueron dadas a la seora p
or
los padres de nueve nios elegidos al azar: 12, 10,15, 20, 15, 18, 13, 15 y 10. Co
nstruir un
intervalo de confianza de 90 % para la media de X.
Solucin: Con ayuda de una calculadora de bolsillo, hallamos que X = 14.22 y s =
on-, = 3.383. El valor crtico t , lo buscamos en la misma tabla que acabamos
de confeccionar: para a = 0.1, v = 8 grados de libertad, hallamos elvalor 1.85955. En co
nsecuencia,
el intervalo de confianza queda as:
es decir:
Esto significa que podemos tener una confianza de 90 % de que se dice la verdad
al afirmar que la seora recibe en promedio alguna cantidad dentro de ese intervalo,
como
pago por sus servicios.
Con Excel se puede encontrar este intervalo rpidamente si se usa el men
Herramientas, Anlisis de datos, Estadistica descriptiva. Basta con anotar los
nueve datos de la muestra en una columna, activar dicho men y seleccionar la
opcin Nivel de confianza: 90 %. En forma automtica, aparece el nmero 2.0969,
que es el margen de error en la medicin del intervalo con centro en 14.22. Este
ltimo dato tambin aparece en el resumen de estadstica descriptiva del Excel.
8.4. INTERVALOS DE CONFIANZA PARA LA VARIANZA
POBLACIONAL Y PARA LA DESMACI~N ES T~ DAR
Para el clculo de intervalos de confianza relativos a la varianza (o a la desviacin tpica) de una poblacin, se requiere usar una tabla de valores crticos X:
de la distribucin x2 con v = n - 1 grados de libertad. En la figura 8.3 se il
ustra
la posicin del valor crtico x:. Como se aprecia en la figura, el valor crtico e
s
precisamente el percentil 1 - a, es decir, el punto sobre el eje X tal que a m
ano
izquierda hay un rea de 1 - a bajo la curva.
Con Excel es fcil localizar los valores crticos x: usando la siguiente sintaxis:
=PRUEBA. CHI. INV(a,v)
2

Por ejemplo, para hallar el valor crtico X0.06 Con V = 8 grados de libertad, e
scribimos:
Figura 8.3. Distribucin x2 con v grados de libertad.
y se obtiene al instante 14.956, lo cual significa que en una curva que tenga d
istribucin ji-cuadrada con 8 grados de libertad, a mano derecha de la abscisa x =
14.956 y bajo la curva de densidad de probabilidad, habr un rea de 6 % del rea
total y, lgicamente, a mano izquierda habr 94 % del rea total.
En forma alternativa, se puede hallar un valor crtico X: con el men de funciones de Excel (fig. 8.4). Al picar aceptar, el usuario es guiado paso a paso
para
introducir los valores necesarios.
Por qu el Excel escribe "chi" en vez de "ji"? Lo que sucede es que la letra
j en alemn es cb, como en Bach, mientras que en ingls el sonido de la j es la
combinacin kb. Por ejemplo, el hmoso estadstico ruso Khinchin (o Khinchine)
(1894-1959) se pronuncia "Jinchin", as como Alekhine (famoso ajedrecista de la
primera mitad del siglo m) se pronuncia 'Niojin". El trmino ji-cuadrada (tambin Ilamadaji-cuadrado o jidos) fue inventado por el gran estadstico britnico
Karl Pearson (1857-1936).
En cursos de estadstica terica (estadstica matemtica) se demuestra el siguiente teorema notable:
Teorema. Si X,, X,, . . . , Xn es una muestra aleatoria de tamao n tomada
de una poblacinx que se distribuye normalmente, con media p y varianza 02,
entonces la variable aleatoria:
1 sigue una distribucin ji-cuadrada con n grados de libertad.
1
Figura 8.4
Por otra parte, recurdese que la varianza muestral:
es un estimador insesgado de la varianza poblacional 02.
n- 1
Si multiplicamos ambos miembros de la ecuacin 2 por - , se obtiene:
c2
Por ltimo, obsrvese que los miembros derechos de las ecuaciones 1 y 3
son casi idnticos, excepto porque aparece X en lugar de p. Esto nos hace sospechar que el lado izquierdo de la ecuacin 3 debe seguir una distribucin ji-cuadrada, lo cual es verdad y puede probarse con todo rigor, pero con cuntos grados
de libertad? Notamos que en la ecuacin 1 no hay ningn parmetro desconocido, mientras que en la 3 hay un parmetro de la poblacin que se desconoce
292 Parte 111. Inferencia estadstica
y que se desea estimar mediante la muestra de las X,, X2, . . . , Xn. Entonc
es, de
acuerdo con la definicin de grados de libertad, sospechamos que la variable
aleatoria definida por la ecuacin 3 debera seguir una distribucin ji-cuadrada
con n - 1 grados de libertad. Efectivamente, as es y ello puede demostrarse con
toda formalidad, aunque no lo haremos aqu. Slo nos interesa enunciar y aplicar
el hecho mismo:
Teorema Si se extrae una muestra aleatoria de tamao n de una poblacin normal con varianza o', entonces el estadstico:
(n - 1)s'
o2
i41
tiene una distribucin ji-cuadrada con n - 1 grados de libertad.
La primera consecuencia de este notable teorema es que nos permite idear
un mtodo para construir un intervalo de confianza de 100(1- a) % relativo a la
varianza poblacional.
1
En efecto, sea O < a < -. Entonces 100(1- a) % de los valores de probabi2
lidad de la distribucin ji-cuadrada con n - 1 grados de libertad estn compren-

didos entre los valores crticos &, yxcln, esto es, hay una probabilidad de
1 - a de obtener un valor de x2 tal que:
Con un poco de lgebra elemental se puede despejar 02en la desigualdad 5,
de donde se deduce que hay una probabilidad de 1 - a de que la varianza de la
poblacin se encuentre dentro del siguiente intervalo:
Intervaio de confianza de lOO(1 - a) % para la varianza poblacionai
Para hallar un intervalo de confianza relativo a la desviacin tpica o de la
poblacin, basta con extraer raz cuadrada positiva a los tres miembros de la desigualdad 6, ya que se trata de cantidades positivas. En la figura 8.5 se muest
ran
las posiciones de los valores crticos x:-(,, y XL , para la distribucin ji-cuadr
ada
con n - 1 grados de libertad.
Ejemplo 8.7. En una muestra de 58 focos (bombillas de luz) se hall que la desvi
acin estndar muestra1 de su duracin era de s = 98 horas. Si se supone que la duracin
Figura 8.5
de esos focos sigue una distribucin normal, encontrar un intervalo de 90% de conf
ianza
para la desviacin estndar o de la duracin de esos focos.
Solucin: Primeramente hay que calcular los valores crticos x:,, y , ambos con
57 grados de libertad. Por tanto, usando el EXcel escribimos:
As, se halla el intervalo siguiente:
Si se efectan las operaciones indicadas y luego se extrae raz cuadrada a todo, se
obtiene:
85.08 horas I o I 116.05 horas
Esto significa que hay una probabilidad de 0.9 de decir lo correcto, si se afirm
a que la desviacin estndar de la duracin de todos los focos de esa marca se encuentra dentro es
e
intervaio de valores.
Ejercicio 8.2. Use Excel para disear una tabla de parejas de valores crticos XL
y x : - ~ ~ para los intervalos de confianza relativos a una varianza poblaci
onal, con niveles
de confianza de 90 %, 95 %, 98 % y 99 %. Use grados de libertad desde 1 hast
a 30, y luego
de 40,50 y 60. Calcule con una precisin de cuatro dgitos decimales. Cuando termine
de
elaborar su tabla, compare con la que damos enseguida. Si se tarda ms de diez min
utos,
es que hay algo que no est haciendo correctamente.
1 90% de confianza 1 95% de canfianza f 98% de confianza 1 99% dewnfia
nza 1
Cap. 8. Estimacin de parrnetros 295
Ahora, con la proliferacin de computadoras cualquiera puede hacer tablas
de valores crticos de la distribucin ji-cuadrada, as como de otros valores estadsticos, en slo unos minutos. Hace varios aos, todos los libros de estadstica
reproducan las tablas originales hechas por Karl Pearson en 1930 con papel y 1piz, las cuales fueron las primeras tablas en confeccionarse. Por supuesto, fue
un
gran mrito por parte del famoso estadstico britnico.
8.5. INTERVALOS DE COIWMNZA PARA UNA PROPORCI~N
POBLACIONAL
En el captulo 7, vimos que el estimador j , que es la proporcin muestral,
es un estimador insesgado de la proporcin poblacionalp. Vimos tambin que si
n es grande, entonces la distribucin de P tiende a la distribucin normal estndar. En la figura 8.6 se aprecia dicha distribucin y su desviacin estndar ( Sa.
Hay una gran analoga entre los intervalos de confianza para la media pobla-

cional y para una proporcin poblacional (en el fondo se habla de una misma
cosa). En el caso de proporciones, la magnitud z,cr: es el margen de error en la
estimacin de la proporcin p. Al igual que en la estimacin de la media poblacional, aqu usaremos tambin los valores crticos z, de la distribucin normal
estndar.
El intervalo de confianza de 100(1- a) %, para estimar una proporcin poblacionalp, est dado por:
Figura 8.6. Distribucin rnuestral de p.
296 Parte 111. Inferencia estadtica
Ejemplo 8.8. Se desea estimar qu porcentaje (proporcin) de las familias del Distrito Federal tienen vivienda de su propiedad (no se consideran predios irregula
res invadidos como vivienda propia). Se toma una muestra aleatoria de n = 120 famil
ias de
distintas partes del D. F. y se encuentra que 40 % de ellas tienen vivienda de
su propiedad. Calcular un intervalo de confianza de 90 % para la proporcin (porcentaje) r
eal de
familias del D. F. 'que tienen vivienda propia.
Solucin: El valor crtico z, para el intervalo de confianza de 90 % es:
Por tanto, el intervalo de confianza buscado es:
Esto es:
Ello significa que podemos afirmar que entre 32.6 % y 47.4 % de las familias del
D. F.
tienen vivienda propia, a sabiendas de que hay 90 % de confianza en que se est di
ciendo
la verdad.
8.6. CALCULO DEL TMO DE MUESTRA EN LA ESTIMACI~N
DE UNA PROPORCI~N
Antes de empezar este tema, lo invitamos a que elija mentalmente cualquier
valor de probabilidadp que se le ocurra (O I p I 1) y su correspondiente val
or
complementario q = 1 -p. Multiplquelos y le aseguramos que su respuesta ser
menor o igual que 0.25. Lo vio? No se trata de magia ni nada por el estilo, sino
de
un problema elemental de mximos y mnimos que podra formularse as: Hallar
dos nmeros positivosx yy, tales que su suma sea 1 y su producto sea el mximo
posible. Esto equivale a calcular el valor mximo de la funcin f (x) =x( l -x).
Un
estudiante de bachillerato o de los cursos remediales hallara rpidamente la solucin: x = l / ~ , y = '/2, y el valor mximo del producto es 1/4.
De acuerdo con esto, ahora podemos comprobar con facilidad la siguiente
desigualdad:
Si se retoma ahora la frmula para el intervalo de confianza de 100(1- a) %
de una proporcin poblacional p , y se toma en cuenta la frmula 7, se halla que
el margen de error en la estimacin es:
Dicho en otras palabras, 2 J n
es una cota superior del mayor error posible al estimar una proporcin poblacional. Al despejar n se obtiene una cota superior para el tamao de muestra:
La frmula 8 nos proporciona una cota superior para el tamao de muestra,
pero bajo la hiptesis de que somos pesimistas y no sabemos nada acerca de la
proporcin poblacionalp que deseamos estimar. En tal caso, lo peor que puede
pasar es quep =q = 1/2, y cometeramos el mximo error posible en la estimacin.
En la prctica, sin embargo, no hay razones para ser tan pesimistas, ya que se pue
de sospechar acerca de cul es, ms o menos, el valor de p o bien se puede hacer

una pequea prueba piloto con una muestra pequea, para hallar una estimacin
provisional dep. Si no se sabe nada acerca de ese parmetro, y la prueba piloto e
s
inviable o muy costosa, entonces no hay ms remedio que tomar el peor valor de
p, es decir, 1/2, y calcular el tamao de muestra de acuerdo con la expresin 8.
Por ejemplo, si se trata de tomar una muestra aleatoria de hombres adultos
(sanos) para estimar qu porcentaje de la poblacin de hombres adultos sanos
son desempleados, podemos usar cifras de aos anteriores de la tasa de desempleo abierto, y si dichas cifras han oscilado alrededor de 15 %, por ejemplo,
no
tenemos por qu suponer que de pronto se hubiese disparado esa cifra a 50%,
as que podemos tomar, de manera conservadora, una proporcin de cuando
muchop* = 0.2 para estimar el tamao de muestra. Recurdese que cuanto ms
cercano seap* a 112 tanto mayor ser el tamao de muestra requerido. Todo esto
lo resumimos en la siguiente regla.
Procedimiento para calcular el tamaiio de muestra ai estimar una proporcin.
Primero se debe establecer el margen mximo de error E que uno est dispuesto
a tolerar. Si dicho margen de error est en porcentaje, debe expresarse en fraccin
de la unidad; por ejemplo, 9% = 0.09. Despus se tiene que convenir en un nivel
de confianza en la estimacin, lo cual no tiene nada que ver con el margen de erro
r
acordado. Por ejemplo, se puede elegir una confianza de 80%, 90% o 98%, por
mencionar algunas posibilidades, aunque lo usual es tomar 95 % o 99 %. Sea 100(1
- a) % el nivel que usted escogi. Enseguida, de acuerdo con el nivel de confianz
a
elegido, se procede a hallar el valor crtico z, con tablas o con Excel. Si lo h
ace
con Excel. la sintaxis es:
A continuacin, y ya teniendo a la mano los datos numricos de E (error) y
2% (valor crtico), se da una estimacin subjetiva (o sospecha) p* de la proporcion que se desea estimar, ya sea por datos histricos de aos anteriores o por
298 Parte 111. Inferencia estadstica
medio de alguna prueba piloto que se haya hecho previamente con una muestra
pequea. Hay que tomar en cuenta que cuanto ms cercano seap* a 0.5 tanto
mayor ser el tamao de muestra que se va a requerir. Si no es viable hacer esa
prueba piloto y no se tiene ni una idea remota, entonces tomep* = 0.5. Calcule
por ltimo q* = 1 -p*. Entonces, ya se tienen a la mano todos los valores numricos de los smbolos que intervienen en la siguiente frmula:
Frmula para hallar el tamao de muestra a i estimar una
proporcin poblaciond:
Ejemplo 8.9. Una institucin financiera otorga crditos o prstamos a sus clientes.
Seap la proporcin de prstamos que no fueron pagados por el deudor en la fecha aco
rdada y que ocasionan un quebranto financiero a la institucin. El nombre que se le
da a p
en la jerga econmica es el de cartera vencida. Se desea tomar una muestra aleator
ia de
n clientes que recibieron algn prstamo, para hacer una estimacin de la cartera ven
cida. Supngase adems que en aos anteriores (o en instituciones similares) las cifras
de
cartera vencida estaban cerca de 8%. Calcular el tamao de la muestra, si la esti
macin
debe tener un margen de error de cuando mucho 2 % con una confianza de 90 %.
Solucin: Hacemos acopio de los datos: E = 0.02, a = 0.1, z, = 1.64485 (con tabla
s
o con Excel). Adems, se nos dice que en instituciones o bancos similares (o en aos
anteriores) la cifra de cartera vencida estaba cerca de 8 %. As,p* = 0.08. Por cons

iguiente:
Debido a la incertidumbre, podemos tomar n = 500 casos de crditos otorgados a
clientes. Es un tamao de muestra adecuado para hallar qu porcentaje (o proporcin)
de esos crditos no fueron pagados a tiempo. La cifra resultante ser un indicativo
de la
cartera vencida real, con un margen de error de 35.2 % y una confianza de 90 % d
e que se
est diciendo la verdad.
Ejemplo 8.10. Un agricultor desea saber qu porcentaje de semillas de cierta plan
ta
lograrn germinar. En una pequea prueba piloto realizada en macetas se haii que 80
%
de las semillas lograron germinar. Sin embargo, l desea averiguar la proporcin r
eal p
de semillas que germinan, mediante un muestre0 de n semillas que sern sembradas
en
el campo en condiciones naturales. El agricultor desea que el porcentaje de sem
illas que
logren germinar sea un indicativo real del parmetro buscado con un error de 15 %
y una
confianza de 93 %. Cul es el tamao de la muestra de semillas que debe tomarse?
Solucin: En primer lugar, se debe calcular el valor crtico z, para un intervalo d
e
confianza de 100(1- a) % = 93 %. Con tablas (o con Excel) hallamos que z,,, =
1.81191.
Se puede encontrar ese dato de varias formas; por ejemplo, en la tabla de valor
es crticos
para la t de Student (ya la hicimos) se busca el valor correspondiente a a = 0.0
7 con m grados de libertad. O tambin, de manera directa se escribe en Excel:
Cap. 8. Estimacin de parmetros 299
De acuerdo con la pequea prueba en macetas (prueba piloto), podemos tomar
p* = 0.80, q* = 0.20. En consecuencia, el tamao de la muestra es de:
Ello significa que si el agricultor siembra 211 semillas de esa planta @ajo cond
iciones usuales de riego y todo), el porcentaje de las que logren germinar ser un ind
icativo
del porcentaje real de semillas que germinan, con un margen de error de f5% en l
a estimacin y una confianza de 93 % de que se est diciendo la verdad.
Con esto terminamos este captulo, uno de los ms importantes de todos
por su utilidad prctica, y procedemos a la autoevaluacin, con algunos problemas sencillos aue le darn al estudiante la ~osibilidad
de autocalifilarse y hacer un diagnstici d e cmo
va su aprovechamiento del material que ha estuThomas Bayes ( 1 702- 176 1 ) . Ministro
presbiteriano inglts y aficionado a la
estadstica. De joven recibi clases
particulares de Abraham de Moivre, de
donde naci su aficin por la estadstica. El
ttulo de su trabajo revolucionario fue Essay
towards solving a problem in the doctrine of
chances.
Pafnuti Lvvich Chebishev ( 1 82 I - 1894). Fue
uno de los ms distinguidos matemticos y
probabilistas rusos del siglo xix. ~nri~uecib
la estadstica terica con una serie de
desigualdades importantes que involucran la
media y la desviacin estndar de una variable

aleatoria.
Es importante que cada captulo finalice con un autodiagnstico del estudiante
, en el
cual pueda comprobar si ha entendido y asimilado bien lo que ha estudiado. Hay d
os recomendaciones al respecto que nos atreveramos a sugerir. En primer trmino, convie
ne
hacer del estudio un hbito. Algn filsofo defini al ser humano como un animal con
hbitos, y tal vez hay algo de verdad en esa aseveracin. Las personas que quieren
hacer
ejercicio se levantan a correr todas las maanas una misma distancia y hacen de el
lo un
hbito, que al principio parece desagradable, pero que poco a poco se le va tomand
o gusto. Lo mismo pasa con el estudio. En segundo trmino, es importante estar solo, en
una
habitacin bien iluminada y sin distracciones, sin msica ni nada. Se recomienda hac
er un
hbito del estudio, aunque sea slo una o dos horas diarias, pero de preferencia sie
mpre
en el mismo lugar, a la misma hora y bajo las mismas condiciones. Desconecte su
celular
y deje indicaciones de que si le hablan por telfono no est para nadie. Con el tiem
po se
ir acostumbrando a esa rutina y le ir tomando gusto.
Cada ejercicio vale un punto si est correctamente resuelto. Si acierta slo a uno d
e dos
incisos, se abona slo medio punto, etc. Al final, multiplique el total de puntos
obtenidos
por 5 y as obtendr su calificacin en escala del O al 100. Si obtiene menos de 70 d
e calificacin, su aprovechamiento es deficiente; de 71 a 79 es regular, de 80 a 89 es b
ueno, de
90 a 95 es muy bueno y de 96 a 100 es excelente y amerita una felicitacin caluros
a por
parte del autor. Mucha suerte!
1. Se desconoce la distribucin de probabilidad de cierta variable aleatoriax, y t
ampoco
se tiene idea de cul sea el valor de su media (p); no obstante, hay motivos para
asegurar que la desviacin tpica deXes aproximadamente o = 3. iDe qu tamao debe
ser una muestra aleatoria de valores de X, para tener una confianza mnima de 95 %
de que la discrepancia entre la media muestral y la media verdadera de la pobla
cin
ser menor que 0.3?
2. Suponga que acerca de una variable aleatoria X, slo se sabe que la desviacin tp
ica
es o, pero no se tiene idea de cul sea la media ni de cul sea su distribucin de pro
babilidad. Con objeto de poder tener una estimacin razonable del valor de la medi
a
p., se toma al azar una muestra de n observaciones de dicha variable. Qu tan grand
e
debe ser el valor de n, para tener una confianza mnima de:
de que la discrepancia entre la media muestral X y la media verdadera p ser menor
que cierto nmero k?
3. Un general desea estimar la aptitud fsica promedio (medida a travs de cierta p

rueba) de miles de soldados que tiene a su cargo, con base en una muestra aleat
oria
de ellos. El general desea que tal estimacin tenga un error de cuando mucho dos
puntos de la prueba, con una confianza mnima de 99 %. Si sabe por experiencia qu
e
el valor de la desviacin estndar para esta prueba es de o = 15.0, icul es el tamao
mnimo de la muestra de soldados a quienes debe aplicar la prueba?
4. Una nutriloga estima, basada en anlisis previos, que la desviacin estndar del co
ntenido de protenas por cada lata de atn de cierta marca es de aproximadamente
o = 3.2 g. Qu tan grande debe ser el tamao de la muestra de latas de atn que
debe analizar, para que el error en la estimacin del parmetro que desconoce (p)
sea de cuando ms 1.5 g, con una confianza mnima de:
Cap. 8. Estimacin de parmetros 30 1
5. Las mediciones de la presin sangunea de 25 mujeres de edad avanzada tienen una
media de 2 = 140 mm de mercurio. Si estos datos se pueden considerar como una mues
tra
tomada al azar de una poblacin normal con o = 10 mm de mercurio, calcule un inter
valo de confianza de 95 % de la media de la poblacin p.
6. Durante varios aos, se haba aplicado una prueba de nivel de matemticas a todos l
os
alumnos de primer ingreso de cierta universidad. Si 64 estudiantes, selecciona
dos al
azar en ese periodo, tardaron en promedio 28.5 minutos en resolver la prueba co
n una
varianza de 9.3, construya un intervalo de confianza de 99 % del tiempo promedio
verdadero que tarda un alumno de primer ingreso en resolver el examen.
7. Un experto en eficiencia desea determinar el tiempo promedio que tarda el pe
rsonal
de un foso de reparaciones en cambiar un conjunto de cuatro neumticos a un auto
de carreras. ~et er mi ne el tamao de la muestra requerido para poder afirmar,
con
95 % de confianza, que la media de la muestra difiere de la media real en cuando
mucho dos segundos. Por estudios realizados antes, se sabe que la desviacin estndar
de la poblacin es 12 segundos.
8. La longitud de los crneos de 10 esqueletos fsiles de una especie de ave extinta
tiene
una media de X = 5.68 cm y una desviacin estndar des =o"-, = 0.29 cm. Suponiendo que estas mediciones estn normalmente distribuidas, obtenga un intervalo de
confianza de 95 % para la longitud media de los crneos.
9. Un inspector de alimentos, que examin 12 frascos de cierta marca de mantequi
lla
de cacahuate (man), obtuvo los siguientes porcentajes de impurezas: 2.3, 1.9,2.1
,
2.8, 2.3, 3.6, 1.4, 1.8, 2.1, 3.2, 2.0 y 1.9. Suponiendo que estas mediciones es
tn normalmente distribuidas, construya un intervalo de confianza de 99 % del porcenta
je
promedio de impurezas que hay en esta marca de mantequilla de cacahuate.
10. Repita el ejercicio 9, pero considerando que el valor de la desviacin estndar
poblacional es aproximadamente o = 0.5.
11. En un laboratorio se midi el contenido, en litros, de cada uno de nueve env

ases de
un litro de leche de cierta marca, con los siguientes resultados: 1.02,0.96, 1.0
3,0.94,
1.00, 0.92, 1.01, 0.97, 1.02. Encuentre un intervalo de confianza de 98% para la
desviacin estndar poblacional o, de donde se extrajo la muestra.
12. La desviacin tpica de la duracin de una muestra aleatoria de 10 focos (bombillo
s)
de cierta marca result ser S = 120 horas. Halle los lmites de confianza de:
para la desviacin tpica de la duracin de todos los focos de esa marca.
13. Un especialista en gentica est interesado en la proporcin de hombres african
os
que presentan un desorden sanguneo leve. En una muestra aleatoria de 100 de ellos
,
se encontr que 24 presentaban dicho desorden. Calcule un intervalo de confianza
de 99 % para la proporcin de hombres africanos con este desorden sanguneo.
14. Un fabricante de bateras para automvil asegura que sus bateras duran, en prome
dio, tres aos con una varianza de un ao. Si seis de estas bateras tienen duraciones
de 1.9, 2.0,4.0,3.0,3.5 y 4.2 aos, determine un intervalo de confianza de 95 % p
ara
la varianza e indique si es vlida la afirmacin del fabricante de que la varianza e
s igual
a 1. Suponga que la poblacin de las duraciones de las bateras se distribuye aproxi
madamente en forma normal.
15. Un ingeniero civil est probando la resistencia compresiva de concreto. Real
iza una
prueba con 16 especmenes y obtiene los siguientes datos: 2216,2237, 2249,2204,
2225,2301,2281,2263,2318,2255,2275,2295,2250,2238,2300,2217. Construya un
intervalo de confianza respecto a la resistencia media. Suponga que la distribuc
in de
la resistencia compresiva es aproximadamente normal.
302 Parte 111. Inferencia estadstica
16. Cierto porcentaje de estudiantes de una universidad considera que hay que ca
mbiar
el diseo de las evaluaciones de profesores, porque el formato actual las ha conve
rtido en concursos de popularidad y adems se presta a venganzas recprocas. Suponga
que se lleva a cabo una pequea encuesta piloto en la cafetera y se observa que 30
%
de los encuestados manifestaron estar a favor de una modificacin en el diseo de
las evaluaciones a docentes. Determine el tamao de la muesti-a de estudiantes que
se deben encuestar, para tener una confianza de 95 % de que el estadstico j estim
a
al parmetrop con un margen de error de cuando mucho 10%.
17. Suponga que en el ejercicio 16 no se realiza ninguna encuesta piloto, y que
se desea
calcular directamente el tamao de la muestra, bajo las mismas condiciones.
18. Un grupo de cirujanos dentistas de la Asociacin Dental Mexicana A. C. desea
averiguar el porcentaje de adolescentes que requieren trabajos de ortodoncia. Calcule
una
cota superior para el tamao de una muestra de adolescentes que deben examinarse,
con objeto de que el porcentaje registrado en esa muestra sea representativ
o del
porcentaje verdadero de toda la poblacin de adolescentes, con un margen de error
de r18 % y un nivel de confianza de 96 % en la estimacin.

19. En un plebiscito realizado entre los habitantes del D. F., se realiza una e
ncuesta cuyo
objetivo es averiguar la proporcin (o porcentaje) p de habitantes de esa ciudad
que
estn a favor de que se mande c o n s t ~ r un segundo piso en el Viaducto y el
Perifrico. Qu tan grande debe ser la muestra de personas que respondan a esa encuesta,
si se desea que el mximo error en la estimacin dep sea igual a:
q) 0.03 con 95 % de confianza?
6) 0.02 con 95 % de confianza?
c) 0.03.con 90% de confianza?
20. En una sucursal bancaria se tom un registro del tiempo que los clientes per
manecan en la ventanilla, para una muestra aleatona de ocho clientes, con los siguien
tes
resultados:
2 min 55 s 3 min 5 s 2 min 38 s
4 min 39 s 3 min 34 s 1 min 44 s
4 min 16 s 7mi n2s
Se requiere calcular:
a) la varianza muestra1 9
6) un intervalo de 95 % de confianza para la desviacin tpica de la poblacin
c) un intervalo de 95 % de confianza para la media de la poblacin.
Suponga que la distribucin del tiempo de permanencia de los clientes en la ventanilla es normal.
RESPUESTAS DE LOS EJERCICIOS DE AUTOEVALUACIN 8.1
1. Sea Iamedia de una muestra de tamao n. Se requiere resolver la desigualdad:
o 3
El error tpico de la media es oi = - = J J
. Entonces, usamos la frmula:
Luego, n = 385.
3. n 2 373 soldados.
4. a) n 2 13 latas de atn b) n 2 31 latas de atn.
5. 136.08 < p < 143.92.
6. 28.5 k2.57583 X esto es: 27.52 < p < 29.48.
7. n = 139.
&8. Para a = 0.05, buscamos t , con n - 1 = 9 grados de libertad en la tabla
de valores crticos de la distribucin t de Student. Hallamos el valor 2.26216. Por tanto, el in
tervalo
buscado es:
Se halla entonces que 5.47 cm < p < 5.89 cm, con 95% de confianza.
0.624985
7. 2.2833 I 3.10582 X
Jiz
, esdecir, 1.723<p <2.844.
0.5
10. 2.2833 Ic 2.57583 X Jiz
, es decir, 1.91 < p < 2.66.
11. Los valores crticos X; Y x:-(@) con 8 grados de libertad son, respec
tivamente
20.0902 y 1.6465 (vase la tabla). Adems hallamos con la calculadora que s = 0.0394
;
o sea, la varianza muestra1 es s2 = 0.001553. Entonces, el intervalo para la var
ianza es
el siguiente:

(n - l)s2 (n - l)s2 8 X 0.001553 8 X0.001553


<o2< , es decir: I o21
X& XI-(W) 20.0902 1.6465
Al extraer raz cuadrada se determina, finalmente, que 0.025 litros 5 o 5 0.087 l
itros.
12. a) 82.54 horas I o 1219.07 horas b) 74.12 horas I o 5273.3 horas.
13. 0.13 < p < 0.35, es decir, entre 13% y 35%.
14. 0.377 5 o2 I 5.823. S es vlida su afirmacin, porque es un valor dentro del in
tervalo.
15. 2239.36 < p < 2276.14.
16. n 2 (STX 0.30 X 0.70 =8OH debe realizar la encuesta a 81 estudiantes al az
ar.
.,
.
304 Parte 111. Inferencia estadstica
17. n ( ~ 1 0.25 = 96.04. Se debe aplicar la encuesta a 97 estudiantes al az
ar.
2'053748
x 0.25 = 164.76. Se deben examinar las bocas de 165 adolescentes.
l 8 ( 0.08 J
1.618726
C) Intervalo para p: 3.7354 2 2.36462 X
6; portanto:2min23s<p<5min5s.
TEST SOBRE ESTIMACI~N DE P-OS, INTERVALOS
DE CONFIANZA Y T u 0 DE MUESTRA
En el siguiente cuadro, anote con lpiz suave sus respuestas. Los procedimientos d
ebe realizarlos en hojas separadas, y no en el libro. (En el apndice D se dan las respuest
as correctas
para que las coteje con las suyas.)
1. Los contenidos de cido sulfrico de siete recipientes similares (en litros) son
: 9.8, 10.2,
10.4,9.8, 10.0, 10.2 y 9.6 litros. Obtenga un intervalo de confianza de 95 % pa
ra la media de todos los recipientes, suponiendo una distribucin aproximadamente normal.
2. A una muestra aleatoria de 16 seoritas egresadas de una escuela para secre
tarias se
les practic una prueba mecanogrfica para tomar el tiempo empleado en escribir un
dictado en la computadora, y en cada caso se registr el nmero de palabras escrit
as
por minuto, con los siguientes resultados:
Suponiendo una distribucin normal, obtenga un intervalo de confianza de 95 % para
el
nmero promedio de palabras escritas por minuto por todas las egresadas de la escu
ela.
Cap. 8. Estimacin de parrnetros 305
3. Repita el ejercicio 2, pero adems considere que la desviacin estndar de la pobl
acin
de donde se sacaron los datos es de o = 4.5.
4. De una mquina automtica expendedora de refresco gaseoso se tom6 una muest
ra
aleatoria de 12 s e ~ c i o s y se midi cuidadosamente el contenido neto servid
o en cada
caso, con los siguientes resultados (en decilitros):
Obtenga un intervalo de confianza de 95 % para el contenido promedio real de la
cantidad de refresco que contienen los vasos servidos por esa mquina (en decilitros

), si
se supone que la poblacin de donde provienen esos datos se distribuye normalmente
,
con varianza de 0.01.
5. Repita el ejercicio 4, considerando que la varianza de la poblacin es descono
cida,
6. Se desconoce la distribucin de probabilidad de cierta variable aleatoria X, y
tampoco
se tiene idea de cul sea el valor de su media (p); no obstante, hay motivos para
asegurar que la desviacin tpica de X es aproximadamente o = 3. De qu tamao debe
ser una muestra aleatoria de valores de X, para tener una confianza mnima de 95 %
de
que la discrepancia entre la media muestra1 y la media verdadera de la poblacin s
er
menor que 0.3?
7. A una muestra aleatoria de 36 estudiantes de los ltimos semestres de una univ
ersidad
se les proporcion una encuesta para que contestaran con franqueza cuntas ho
ras
en promedio dedicaban semanalmente al estudio de sus asignaturas, en casa o en
la
306 Parte 111. Inferencia estadstica
biblioteca. Al analizar los datos de la encuesta se hall que la media era de 2 ho
ras 36
minutos, con una desviacin tpica de 18 minutos. Obtenga un intervalo de confianza
de 99% para el tiempo promedio real que dedican al estudio los alumnos de ltimo
s
semestres de esa universidad.
8. En relacin con el ejercicio 7, ia cuntos estudiantes de los ltimos semestre
s se les
debe aplicar la encuesta, si se desea tener una confianza de 95 % de que el erro
r en la
estimacin de la media sea menor que 0.05?
9. La vida til (duracin) de los focos fabricados por una empresa sigue una distr
ibucin
aproximadamente normal, con desviacin estndar de 40 horas. Se tom una muestra
aleatoria de 30 focos y se hall que su vida promedio era de 780 horas. Construya
un
intervalo de confianza de 96% para la duracin media (en horas) de todos los f
ocos
producidos por esa compaa.
10. Repita el ejercicio 9, pero tomando en cuenta que la muestra aleatoria es d
e 20 focos
(en lugar de 30).
11. En relacin con el ejercicio 9, qu tan grande debe ser la muestra, si se desea
tener
una confianza de 96 % de que la media de la muestra est dentro de 10 horas de la
media verdadera?
12. Una muestra aleatoria de ocho cigarrillos de determinada marca tiene un
contenido
promedio de nicotina de 2.6 mg por cigarrillo, con una desviacin estndar de 0.9 m
g.
Obtenga un intervalo de confianza de 99% para el contenido medio verdadero
de
nicotina (en mg) por cigarrillo (de esa marca), suponiendo que el contenido
de ese
alcaloide se distribuye normalmente en los cigamllos.
9.1. HIP~TESIS ESTAD~STICAS, ERRORES

Y GLOSARIO DE TRMINOS
La teora de pruebas de hiptesis (tambin llamadas ensayos de hiptesis,
contraste de hiptesis opruebas de signzj?cacin) es una parte fundamental de
la inferencia estadstica, creada y desarrollada por Jerzy Neyman (1894-1981), un
estadstico y matemtico de origen polaco, naturalizado ciudadano estadounidense y considerado uno de los ms grandes exponentes en estadstica de todos
los tiempos.
Una prueba de hiptesis es un procedimiento estadstico simple cuya finalidad es corroborar o desmentir alguna afirmacin que se hace en relacin con
un parmetro poblacional. Para hacer esto, se toma una muestra aleatoria de la
poblacin y se calcula el valor de un estadstico deprueba, el cual debe obedecer
ciertas leyes estadsticas comprobadas. Segn como resulte o se comporte el estadstico de prueba, se podr aceptar o rechazar alguna hiptesis previamente
establecida. Al emitir la decisin final de rechazar o aceptar la hiptesis origi
nal,
uno corre el riesgo de equivocarse y darle un valor significativo errneamente a
algo que slo ocurri de manera fortuita. Esto es inevitable, porque el azar siempre est presente y es como un pequeo demonio que a veces nos trae buena
suerte, pero otras veces nos juega tretas y nos conduce al error.
Imagnese, por ejemplo, que de pronto nos visitaran unos seres extraterrestres y lo primero que viesen en nuestro planeta fuese a dos nios jugando a lanzar al aire una moneda y ver si cae guila o sol (juego de volados). Supongamos
que esos seres estn escondidos y toman nota de una serie de 10 volados, de los
cuales siete cayeron con el lado de guila hacia arriba. Al regresar a su planet
a,
308 Parte 111. Inferencia estadstica
podran informar que los terrcolas tienen un pasatiempo curioso que consiste
en lanzar al aire unos pequeos discos metlicos que 70 % de las veces caen con
el lado del guila hacia arriba. Nosotros sabemos que esa conclusin es errnea,
producto de la extrapolacin de un hecho fortuito, y que en general 50 % de las
veces las monedas tendern a caer con el signo de guila hacia arriba, porque
hay un principio estadstico @y de los Grandes Nmeros) que lo respalda. No
necesitamos ir tan lejos para comprobar extrapolaciones equivocadas de hechos
casuales.
A decir verdad, los humanos somos proclives a generalizar sin fundamento.
Por ejemplo, algn da alguien vio un loco que sali cuando haba luna llena y entonces concluy que "cuando hay luna llena, salen los locos a la calle" y hasta le
s
llam lunticos. Aunque parezca chiste, esto es cierto. Hace muchos aos un regente (alcalde) del Distrito Federal que tena pereza de hacer un censo estadstico
de la poblacin, tom la primera muesu-a de personas que vio a su alrededor y la
extrapol, tras lo cual anunci con toda seriedad un dato estadstico que se hizo
muy famoso en su tiempo y que todava muchos creen: "En el Distrito Federal, por
cada hombre hay siete mujeres, dos generales y un afeminado." Es autntico.
Al realizar una prueba de hiptesis, podemos cometer dos tipos de error,
llamados universalmente error de tipo I y error de tipo II, los cuales definimos
a
continuacin, junto con otros trminos usuales.
Error de tipo 1. Consiste en rechazar una hiptesis que es cierta y debera
haberse aceptado. Por ejemplo, cuando un instructor pone calificacin reprobatona a un estudiante que entendi y asimil todo el contenido del curso perfectamente, pero que por mala suerte fall en los exmenes, se comete un error de
tipo 1; o cuando se rechaza la alegada inocencia de un acusado, que en realidad
es
inocente pero que no pudo dar pruebas suficientes a su favor, tambin se comete
un error de tipo 1.
Error de tipo 11. Consiste en aceptar como vlida una hiptesis que es falsa
y debera haberse rechazado. Esta es, como se dice, "la otra cara de la moneda".
Si un jurado acepta la supuesta inocencia de un acusado que en realidad es cul-

pable, pero que por falta de pruebas en su contra se acepta la hiptesis de que es
inocente, entonces se comete un error de tipo 11. O tambin, cuando un instructor acepta la hiptesis de que un alumno entendi y asimil el curso, pero que en
realidad tuvo suerte o logr copiar a sus compaeros sin saber casi nada, entonces el instructor comete un error de tipo 11 al ponerle calificacin aprobatoria.
Hiptesis nula. Se llama as a una suposicin inicial que sirve para echar a
andar el procedimiento de una prueba o verificacin de una hiptesis estadstica
relativa a algn parmetro de una poblacin. Por lo general se usa el smbolo H,
para denotar la hiptesis nula.
Es importante sealar que una hiptesis nula siempre debe estar expresada
mediante alguna igualdad (=: igual a) o cuando mucho un signo de I (menor
o igual que) o de 2 (mayor o igual que). No se puede establecer una hiptes
is
nula que involucre'slo un signo de desigualdad del tipo e (menor que) o bien >
(mayor que). Adems, la hiptesis nula debe ser en principio inocua o inofensiva.
Por ejemplo, si se sospecha que el seor que vende quesos y fruta en la esquina
ha alterado su balanza para dar en realidad menos de lo que la gente pide,
al
Cap. 9. Pruebas de hiptesis paramtricas 309
elaborar una hiptesis nula, sta no puede consistir en suponer que el seor nos
engaa y nos ofrece menos de lo que supuestamente da. Tenemos que suponer
que l es honesto y que nos entrega el peso exacto de la mercanca que pedimos
(o aun ms). Ya ser el procedimiento estadstico de prueba el que se encargar
de desmentir o rechazar esa suposicin.
Hiptesis aiternativa. Establece lo contrario de la hiptesis nula. Si sta es
rechazada, entonces ser la hiptesis alternativa la que se tome tentativamente
como vlida, y viceversa. Y decimos "tentativamente" porque de ninguna manera se acepta de manera tajante y concluyente, pues quiz alguna prueba futura,
realizada con mayor precisin, podra ponerla en tela de juicio. Una hiptesis
alternativa se denota por el smbolo Ha, o tambin por el smbolo H,.
Por ejemplo, en nuestra sociedad se ha aceptado la hiptesis de que el humo
del cigarro provoca cncer, debido a que un gran nmero de pruebas estadsticas
realizadas con muestras de fumadores, y bajo la suposicin de que el humo del
cigarro era inofensivo, fueron rechazadas. Pero ello no quiere decir que se est
100 % seguro de que el humo del cigarro ocasiona cncer. Todos conocemos muchos casos de personas que fumaban constantemente y llegaron a vivir casi cien
aos sin haber padecido jams ninguna forma de cncer; por otra parte, tambin
conocemos innumerables casos de personas que tuvieron cncer y jams en su
vida fumaron ni un solo cigarrillo. Las pruebas estadsticas slo han servido para
concluir que "es probable que el cigarro provoque cncer". Qu tan probable?
Quiz haya una probabilidad superior a 0.8 o aun mayor en la validez de esa afirmacin, como muestran los ensayos estadsticos. Pero siempre hay una pequea
probabilidad de que tal vez esa afirmacin sea falsa. Asimismo, podramos argumentar que el estar tendido en una cama es sumamente peligroso, porque 80 %
o ms de las personas que han muerto lo hicieron estando tendidas en una cama.
Nivel de significacin de una prueba. Se llama as a la probabilidad mxima de
cometer un error de tipo 1, y dicha probabilidad se suele denotar universalmente
por la letra griega a. Lo ms usual es que al principio uno establezca cul es el
valor de a que desea aplicar en la prueba. Resulta comn tomar los valores a =
0.05 o bien a = 0.01.
A la probabilidad mxima de cometer un error de tipo 11se le denota por la
letra griega P. Y aunque p no tiene ningn nombre especial, el nmero 1 - B se
llama potencia de la prueba. Si la hiptesis alternativa es vaga, en el sentido q
ue
involucra un signo e o >, entonces no se puede cuantificar el valor de p. P
ara
poder calcular un valor numrico de fl se necesita que la hiptesis alternativa sea

especfica, esto es, que involucre el signo =.


Estadstico de prueba Es una magnitud calculada mediante una muestra
aleatoria y que involucra algn estadstico o combinaciones de estadsticos, y
cuyo valor se usar finalmente para contrastar con algn valor estadstico tabulado, y entonces decidir si procede o no el rechazo de la hiptesis nula.
Por eso una prueba de hiptesis se llama tambin contraste de hiptesis,
porque a fin de cuentas el momento de decidir si se rechaza o no la hiptesis
nula, ocurre al contrastar el valor numrico de un estadstico de prueba con otro
valor numrico, usualmente tabulado, que rige el comportamiento hipottico
de la poblacin de donde se extrajo la muestra, de acuerdo con la distribucin
supuesta y con la Ley de los Grandes Nmeros. Esta es una ley fundamental en
3 10 Parte 111. Inferencia estadktica
estadstica que establece que si los supuestos de distribucin son correctos, entonces los estadsticos observados en diferentes muestras tienden como limite a
losparmetros tericos correspondientes cuando el tamao de muestra tiende
a injinito; en particular lasfrecuencias relat?vas observadas tienden a las p
robabilidades tericas como lmite.
Regla de decisin. Es una especificacin clara de cunio se rechazar la hiptesis nula y cundo no se rechazar. La regla de decisin siempre est relacionada con el nivel de significacin a de la prueba, en el sentido de que si a se
conoce de antemano, entonces la regla de decisin se deduce de manera nica,
y recprocamente: si slo se dispone de una regla de decisin al principio, entonces no se debe establecer ningn valor para a , ya que ste quedar determinado
en forma automtica, de acuerdo con la regla de decisin elegida. No se deben
especificar ambas cosas de antemano, el valor de a y la regla de decisin, ya que
podran ser contradictorios. En la mayora de los casos, se acostumbra especificar
el valor de a al principio, y entonces la regla de decisin se deduce o se infiere
,
de acuerdo con el modelo. Pero no hay nada de malo en hacerlo al revs.
Casi todo mundo lisa cotidianamente reglas de decisin en su vida. Por
ejemplo, si usted va de compras y desea adquirir una calculadora cientfica o un
libro que le interese, entonces pondra una regla de decisin ms o menos as: "Si
cuesta cuando mucho 200 pesos, entonces la compro, pero si cuesta ms, no comprar nada." O bien, cuando se hace un examen de admisin para ingresar a una
escuela, los que lo elaboran ponen una regla de decisin: "Si un aspirante obtiene
ms de 65 puntos, entonces ser aprobado, de lo contrario ser reprobado."
9.2. EJEMPLOS DE PRUEBAS DE HIP~TESIS
Y ERRORES DE TIPOS 1 Y 11
En esta seccin se examinan algunos ejemplos ilustrativos simples. En el
primer ejemplo, la regla de decisin est dada y slo se debe hallar el valor de a.
En el segundo se da de antemano el valor de a, y entonces hay que determinar
cul es la regla de decisin.
Ejemplo 9.1. Una persona, llammosla A, le entrega dos tarjetas a su amigo B, l
as
cuales son de distintos colores, y afirma que es capaz de adivinar el color de u
na tarjeta
escondida por lo menos 75 % de las veces. Entonces B propone la siguiente prueba
para
comprobar o desmentir la supuesta habilidad de A: Va a esconder una tarjeta al
azar 12
veces, sin queA vea, y si ste logra adivinar el color correcto en por lo menos nu
eve de las
12 veces, entonces aceptar tentativamente que A tiene esa habilidad de la que pre
sume,
pero de lo contrario la rechazar. Se requiere calcular la probabilidad de que la
afirmacin

sea rechazada cuando en realidad es cierta.


Solucin: Seap la probabilidad de que A acierte el color de una tarjeta. Si es ve
rdad
lo queA afirma (hiptesis nula), entoncesp = 0.75 (o bienp 2 0.75). La afirmacin s
er
rechazada si A acierta en menos de nueve de los 12 intentos (regla de decisin). L
a probabilidad de que ello ocurra es, por tanto:
Cap. 9. Pruebas de hiptesis paramtricas 3 1 1
Un valor tan grande para a como en este ejemplo no es conveniente. Ello se
debe a que la regla de decisin establecida es demasiado estricta para un error de
tipo 1, y para un tamao de la muestra que no es suficientemente grande (slo n =
12 intentos). El valor de a slo puede reducirse si se aumenta el tamao de muestra n o bien si se pone una regla de decisin adecuada a ese tamao de muestra,
o ambas cosas. El inconveniente de manipular la regla de decisin radica en que,
si bien se lograr reducir la probabilidad del error de tipo 1 (a), el costo ser
un
incremento en el error de tipo 11(B). Comprobemos esto: la probabilidad de que
la afirmacin sea aceptada cuando en realidad es falsa (esto es, cuandop = 0.5,
porque A slo est adivinando) est dada por:
lo cual es un valor pequeo y aceptable. Si B decidiera hacer menos rigurosa su
regla de decisin y dijera que la afirmacin ser aceptada si A logra atinar el color
en por lo menos siete de los 12 intentos, el valor de a (probabilidad de cometer
error de tipo 1) sera, entonces:
x-o
el cual es un valor bastante aceptable (casi 5 %). Sin embargo, ahora la magnit
ud
de B (probabilidad de cometer error de tipo 11) ser:
Entonces nos damos cuenta de que no se puede ganar nada mientras no
se aumente el valor de n. Al principio se tena un valor aceptablemente pequeo
para j3, pero un valor demasiado grande para a, y al manipular la regla de deci
sin
se logr disminuir mucho el valor de a, pero entonces aument el valor de P a
un tamao inadecuado.
Supongamos que ahora la persona B aumenta el tamao de n y propone
una regla de decisin razonable: Esconder una tarjeta al azar n = 120 veces y decidir que se acepta la afirmacin de su amigo A, si ste acierta por lo menos 82
de los 120 intentos. Entonces, los valores de a y B sern los siguientes:
Resulta claro, entonces, que la nica forma de reducir simultneamente las
probabilidades de errores de tipo 1 y de tipo 11 consiste en aumentar el tamao
de la muestra, lo cual es adems una consecuencia de la Ley de los Grandes Nmeros de Bernoulli.
Ejemplo 9.2. Retomando el caso de los dos amigos A y B del ejemplo anterior, su
pngase ahora que B desea disear una regla de decisin, con n = 120, de tal manera qu
e
a = 0.05, o en todo caso lo ms cercano posible a 0.05. Cul debe ser entonces la re
gla
de decisin?
Solucin: Usemos la aproximacin normal para la binomial. El valor de Z que tiene
5 % de rea bajo la curva a mano izquierda es:
Por otra parte, tenemos:
Por tanto, se tiene:
Esto significa que con 82 aciertos como tope para la regla de decisin nos acerca
mos lo
ms posible al valor especificado a = 5 %. Podemos comprobar esto fcilmente:
En tal caso, la regla de decisin es: SiA acierta en los colores de ms de 82 de la

s 120
tarjetas, se acepta la afirmacin; en caso contrario, se rechaza. El nivel de sign
ificacin que
provoca esta regla de decisin es de a = 0.05955 < 6%.
En los ejemplos de la seccin anterior, al individuo B no le preocupaba la
posibilidad de que su amigo A tuviese un nmero inusualmente pobre de aciertos. A decir verdad, era de esperarse que hasta un chimpanc con los ojos cerrados hubiese acertado ms o menos a la mitad de los colores, as que siA acertaba,
por ejemplo, slo uno o ningn color de los 12 intentos, no slo sera obvio que
careca del poder del que se ufanaba, sino que adems evidenciara su mala suerte. Este es un tpico ejemplo de lo que se llama ensayo unilateral o tambin enCap. 9. Pruebas de hiptesis paramttricas 3 1 3
sayo de una sola cola. Los ensayos unilaterales (ya sea de coia izquierda o de c
ola
derecha) son muy comunes. Si usted tiene mucha hambre, va a un restaurante
de comida rpida en el que se anuncia que la orden de papas fritas a la francesa
tiene 400 g de papas, y al pedir y pagar una orden le sirven algo as como 800
g, no tendra motivos para reclamar, porque le responderan que se comiera lo
que gustara y dejara lo que ya no quisiera. Pero si le sirvieran slo 300 g, quiz
s
debera reclamar (a menos que no le gusten las papas a la francesa).
Una prueba de hiptesis se llama bilateral cuando .la hiptesis alternativa
involucra el signo + (diferente de) para el parmetro que se somete a prueba. Por
ejemplo, si uno est ensayando la hiptesis de que aproximadamente 50% de
la poblacin son mujeres, la alternativa sera que ese porcentaje fuese diferente
de 50% (mayor o menor). Por otra parte, una prueba se llama unilaterai (o
de
una cola) cuando la hiptesis alternativa involucra el signo < (prueba unilater
al
izquierda) o bien el signo > (prueba unilateral derecha). Como podemos ver, es
precisamente el signo que se usa en la hiptesis alternativa el que nos da la cla
ve
acerca de si la prueba es de cola izquierda, de cola derecha o de ambas colas.
9.4. h U M E N DEL PROCEDIMIENTO PARA UNA
PRUEBA DE HIP~TESIS EN GENERAL
Paso 1. Se emite una hiptesis nula (Hd relativa a algn parmetro de la poblacin. La. hiptesis debe involucrar alguno de los signos =, 2 o S, pero no
puede involucrar ninguno de los signos <, > ni 2, los cuales se reservan para
la hiptesis alternativa. Al mismo tiempo, se especifica la hiptesis alternativa Ha, la cual establece lo contrario de la hiptesis nula.
Paso 2. Se especifica un nivel de significacin a a usar. Lo convencional es emplear los niveles de 5 % (a = 0.05) o de 1 % (a = 0.01), pero ello no es obligatorio.
Paso 3. Se extrae de la poblacin una muestra aleatoria de tamao n, y se calcula
el estadstico de prueba apropiado.
Paso 4. Se compara el valor numrico obtenido para el estadstico de prueba con
el valor numrico correspondiente del modelo terico que se va a seguir,
usualmente empleando las tablas de percentiles o de valores crticos de
alguna distribucin estadstica terica.
Paso 5. De acuerdo con el contraste de valores numricos del paso 4 se decide
si se rechaza la hiptesis nula o no se rechaza, bajo el entendido de que si
no se rechaza, entonces significa que se acepta slo de manera tentativa o
provisional, a reserva de efectuar pruebas ulteriores que corroboren o desmientan esa decisin.
9.5. ESQUEMA GU~A PARA LA PRUEBA DE HIPOTESIS
RELATIVA A UNA MEDIA
En el esquema de la figura 9.1, que recomendamos aprender de memoria,
se especifican los estadsticos de prueba que deben usarse en cada caso, al hacer

i
1
1
1
I
1
1
i
1
i
i
i
1
i
!
estadstica no
i
1
i
Figura 9.1
pruebas de hiptesis concernientes a la media de una poblacin. Obsrvese que
slo cuando la muestra es pequea y la poblacin no es normal, no hay ninguna
prueba de hiptesis paramtrica adecuada, aunque en tales casos hay varios mtodos no paramtricos que se pueden emplear. Los valores crticos de la distribucin t de Student con n - 1 grados de libertad se emplean nicamente en el caso
de que la muestra sea pequea y la varianza de la poblacin se desconozca, pero
por lo menos se sabe que sta se distribuye de manera normal o aproximadamente normal. El smbolo p, significa la media que se toma en la hiptesis nula H,, es
decir, en todos estos casos la hiptesis nula es H, : { p = CL,).
En las figuras 9.2,9.3 y 9.4, se ilustran las zonas de rechazo para los tres tipos de pruebas relativas a una media poblacional, donde a es el nivel de signifi
cacin de la prueba. En la prueba de cola izquierda (fig. 9.2), la hiptesis
nula
H,:{y = CL,) puede escribirse tambin como H,:{y 2 y,), mientras que en la
prueba de cola derecha (fig. 9.3), la hiptesis nula H,:{y = y,) se puede escri
bir
como Ho:{y I yo).
Estadstico de prueba:
Figura 9.2. Prueba de cola izquierda.
Estadstico de prueba:
Figura 9.3. Prueba de cola derecha.
Estadstico de prueba:
Figura 9.4. Prueba de dos colas.
9.6. PRUEBAS PARA LA MEDIA DE UNA POBLACI~N:
CASO DE MUESTRA GRANDE
Ilustraremos el caso de una muestra grande con algunos ejemplos tpicos.
Ejemplo 9.3. Los paquetes de caf Bemoka de Colombia de medio kilogramo dicen
"contenido neto 500 g". Se eligieron al azar 50 paquetes y se pesaron con u
na balanza
analtica, tras lo cual se registraron los siguientes datos muestrales: 3C= 492 g
, S = 34.4 g.
A primera vista, parece que el peso neto promedio de los paquetes fuese tal vez
menor
que el anunciado. Efectuar una prueba al nivel de a = 0.05, para ensayar la hipte
sis:
H, : { p = 500 g) (o bien p 2 500 g) contra la alternativa Ha:@ < 500 g)
Solucin: El valor crtico de Z que servir como Frontera entre la zona de rechazo y

la zona de aceptacin de la hiptesis, es:


Vase la figura 9.5.
5 % del rea
baio la curva J' \
Zona de rechazo
-1.645
I
4
de la hiptesis H, d
Figura 9.5
Ahora comparamos este valor con el estadstico de prueba:
Aunque es un nmero muy parecido al valor crtico, queda a la derecha de ste,
es decir, queda en zona de aceptacin. Por tanto, no es posible rechazar H,, y la
prueba
Cap. 9. Pruebas de hiptesis paramttricas 3 1 7
muestra que no hay razones para suponer que el contenido neto medio de los paque
tes
es menor que el anunciado.
El vdor p (en ingls p-value), tambin llamado nivel de significacin experimenta o descriptivo, en una prueba de hiptesis, es la probabilidad de observar
un valor del estadstico de prueba que sea por lo menos tan extremoso como el
valor calculado con la muestra dada. Por supuesto, cuanto ms pequeo sea el
valorp de una prueba tanto mayor evidencia habr en contra de la hiptesis nula
H . En el ejemplo anterior, el valorp de la prueba es el rea bajo la curva norma
l
a ! a izquierda de -1.6444, es decir:
Ejemplo 9.4. El departamento de seguridad de una fbrica desea saber si el tiempo
promedio red que requiere el velador para realizar su ronda nocturna es de 30 mi
nutos.
Se tom una muestra al azar de 32 rondas y el velador promedi 30.8 minutos con una
desviacin estndar de 1.7 minutos.
a) Realizar una prueba de hiptesis, con a = 0.01, que permita averiguar s
i hay
evidencia suficiente para rechazar la hiptesis nula {p = 30 minutos) en favor
de la hiptesis alternativa {p f 30 minutos).
b) Calcular el valorp de la prueba.
a) Se trata de un ensayo bilateral (de dos colas). Los valores de Z crticos son
aquellos con reas respectivas de 0.005 en sendas esquinas bajo la curva, es decir,
f 2.576. El estadstico de prueba es:
Este valor cae en zona de rechazo, porque es mayor que 2.576. Por consiguiente, se rechaza la hiptesis de que el tiempo promedio real que hace el velador
en sus rondas es de 30 minutos, en favor de la alternativa, y concluimos que es
muy probable que el velador baga un tiempo promedio diferente de 30 minutos. Esto se traduce a lo siguiente: "Hay una probabilidad de 0.99 de que las
discrepancias que hay entre el promedio hipottico L, = 30 minutos) y el promedio de los datos muestrales (?= 30.8) no puedan atribuirse a la casualidad."
Desde luego, hay una pequea probabilidad de 0.01 de que esa diferencia observada si sea obra del azar, y en esa misma proporcin, sera injusto y errneo
llamarle la atencin al pobre velador (error de tipo 0.
b) El vaiorp de la prueba es el rea bajo la curva normal a la derecha de 2.662 ms
el rea que hay a la izquierda de -2.662, esto es:
3 1 8 Parte 111. inferencia estadstica
Lo que nos dice este valorp de la prueba es que cualquier prueba de hiptesis que hubisemos hecho en este ejemplo con a > 2 x 0.00388 hubiera
conducido a rechazar la hiptesis nula, mientras que si a hubiese sido menor
que 2 x 0.00388, entonces no podra haberse rechazado H,. Por ejemplo, si a
= 0.004, entonces la localizacin de los valores de Z crticos hubiera estado en

f W(0.998) = f 2.878, y en ese caso, el valor calculado del estadstico de prueba


(2.662) no habra cado en zona de rechazo. Esto es, no podemos asegurar con
probabilidad de 0.996 que las diferencias observadas sean significativas. (Se us
a
la palabra signz$cativo en estadstica como sinnimo de algo que no puede ser
obra de la casualidad.) Si el valor calculado del estadstico de prueba cae en
zona de rechazo es porque hay evidencia significativa en contra de la hiptesis
nula (con el nivel de significacin elegido).
Obsrvese que en el ejemplo del caf, los datos muestrales mostraron tambin una discrepancia con el promedio supuesto, y sin embargo, la hiptesis no
fue rechazada, ya que no se puede afirmar con probabilidad de 0.95 que las discrepancias observadas sean significativas.
9.7. hUEBAS PARA UNA MEDIA POBLACIONAL:
CASO DE MUESTRA PEQUE~~A
Para muestras pequeas con varianza poblacional desconocida y poblacin
supuestamente normal, se emplean las tablas de percentiles o de valores crticos
de la distribucin t de Student con n - 1 grados de libertad. Veamos un ejemplo.
Ejemplo 9.5. En una pizzera afirman que el tiempo promedio en la entrega de sus
pizzas a domicilio (dentro de la zona en que ellos hacen entregas) es de cuando
mucho
40 minutos desde el momento en que se ordenan las pizzas. Para una muestra aleat
oria de
10 pedidos de piua a domicilio (domicilios aleatorios dentro de la zona) se regi
straron los
siguientes tiempos de entrega en minutos (redondeados al minuto ms cercano): 38,4
8,
37,39,46,46,43,42,44 y 40. Si se supone que la distribucin de los tiempos de ent
rega es
normal, realizar una prueba de hiptesis con nivel de significacin a = 0.04, para e
nsayar
la hiptesis nula H, :{p I 40) contra la hiptesis alternativa Ha: { p > 40).
Solucin: Con una calculadora de bolsillo, se halla queZ = 42.3 min, S = 3.743 min
.
El valor del estadstico de prueba es, en consecuencia:
Por otra parte, el valor crtico t,,, (es decir, percentil correspondiente a p
= 0.96) en
la distribucin t de Student con v = 10 - 1 = 9 grados de libertad se halla en la
s tablas de
percentiles de esa distribucin. Como dicho valor es 1.9727 > 1.943, no se puede r
echazar
la afirmacin de la pizzera al nivel de a = 0.04.
En este mismo ejemplo, el valorp de la prueba (o nivel de significacin experimental) es el rea a la derecha de 1.943 en una distribucin t de Student con nueve gra
dos de
libertad. Con Excel se calcula as:
Cap. 9. Pruebas de hiptesis paramtricas 3 1 9
El 1 que se escribe dentro del parntesis indica una cola. EUo implica que en es
te
ejemplo, slo un nivel de significacin mayor que 0.0419 permite rechazar H,,.
Ejercicio 9.1. Con Ekcel, elabore una tabla de percentiles importantes de la dis
tribucin t
de Student, en donde tc represente el punto sobre el eje X tal que, a mano izqui
erda de l
y bajo la curva t de Student con v grados de libertad, se tenga un rea exactament
e igual
a c. Considere grados de libertad del 1 al 30 y aada una fila al final que corres
ponda a
los percentiles correspondientes de la normal estndar (o t de Student con grados

de
libertad). Considere 13 columnas, correspondientes a t para c igual a 0.995,0.9
90,0.985,
0.980,0.975,0.970,0.965,0.960,0.955,0.950,0.94~, 0.940 y 0.900, respectivamente
. Tome
precisin de slo cuatro dgitos decimales despus del punto. Esta tabla que har es de
enorme utilidad en estadstica prctica. Le recomendamos imprimirla y enmicarla.
Recuerde que para calcular con Ejrcel el percentil tc de la t de Student con v
grados de
libertad, se emplea la sintaxis:
Cuando termine su trabajo, comprelo con la tabla siguiente (tabla 9.1).
9.8. DETERMINACI~N DEL TUO DE MUFSTRA EN UNA PRUEBA
DE HIP~TESIS RELATWA A UNA MEDIA POBLACIONAL
Ya vimos cmo calcular el tamao ptimo de muestra en la estimacin de
un intervalo de confianza relativo a una media o a una proporcin. Tambin hay
una frmula til para determinar el tamao de muestra recomendable en una
prueba de hiptesis relativa a una media, pero esta frmula requiere de la especificacin de una mxima probabilidad tolerable para el error de tipo 11 en un valor
particular p = de la hiptesis alternativa.
Consideremos la figura 9.6 (pg. 322). En ambas curvas se representa una
posible distribucin muestra1 de medias para muestras de tamao n, pero en la
de arriba la media es p.? =p., , mientras que en la de abajo es y? =p., . En
la curva
de abajo, j3 representa la mxima probabilidad tolerable para un error de tipo 11
en caso que la media fuese y,. En la curva de arriba, a es el nivel de signific
acin
de la prueba. Para esta figura particular se ha tomado Ho:{y 2 ko) y Ha:{p <
h).
Si la prueba fuese de cola derecha, las curvas estaran ms o menos intercambiadas, pero el razonamiento y la frmula final seran iguales. Pero si la prueba fuese de dos colas, lo nico que cambiara, tanto en el razonamiento como en
la frmula final, sera que en lugar de a se tomara m. En la figura de arriba, c es
el valor crtico tal que Z e c determina la regin de rechazo de la prueba. Abajo
tenemos dnde se vera ubicado el mismo punto c con respecto a la distribucin
con media y = p.a.
Resulta claro que en la distribucin de arriba, el punto c se localizara como
sigue:
(En caso de ser prueba de cola derecha, slo se cambiara el signo menos por un
signo +.)
Tabla 9.1. Percentiles importantes de la distribuun t de Student con v gra
dos de libertad. El ltimo rengln (m grados de libertad)
corresponde a la distribucin normal estndar. Para percentiles simtricos a la izquie
rda del origen se usan los mismos valores pero con
signo negativo; por ejemplo: t,,,, = -to .,,.
, ,-C
v
2
3
4
5
0.995
1 6 3 . 6 5 6
9.9250
5.8408
4.6041
4.0321
0.990
31.821
6.9645

4.5407
3.7469
3.3649
6 1 3.7074
, '
3.1427
2.9979 7
0.985
21.205
5.6428
3,8961
3.2976
3.0029
3.4995
2.8289
2.7146
15.895
4.8487
0.980
2.6122
-.-2.5168
0.975
12.706
4.3027
2.3133
2.2409
0.970
2.4469
2.3646
1 i.
10.579
3.8964
0.965
3.4819 13. 1824 2.9505
2.6008
2.4216
2.9985
2.7565
2.2011 / 2.1043
9.0579
0.960
2.0192
1.9662
2.7765
2.5706
2.1365
2.7626
2.4559
2.2974'
2.0460
7.9158
0.955
1.9432
1.8946
3,5782:
2.6054
2.3329
2.1910
7.0264

0.950
1.874
1.8297
3.3198
2.4708
2.2261
2.0978
O.! i r - pG6.3137
1.8117
1.7702
3.1040
2.3534
2.1318
2.0150
1.4398
1.4149
5.72Y7
2.9200
2.2494
2.0475
1.9405
5.2422
2.7604
3.0777
2.1562
1.9712
1.8727
1.6377
1.5332
1.4759
2.6202 1.8856
b) Distribucin muestra1 de F
cuando Ho es falsa La desviacin estndar
YCLa<CIO de ambas distribuciones
Figura 9.6
En forma.anloga, en la segunda distribucin se tendr:
En estas dos ecuaciones, los smbolos za y zP denotan, respectivamente,
los valores crticos (percentiles) de la normal estndar, con d&zo positivo, que
tienen reas de a y B en las respectivas colas que determinan. Al restar miembro
a miembro la expresin 1 de la 2, elevar al cuadrado y despejar n se obtiene:
Esta frmula permite calcular el tamao recomendable de muestra antes de
realizar una prueba de hiptesis para la media poblacional, bajo las condiciones
que se expusieron al principio. Se puede demostrar que si la prueba fuese bilate
ral, slo hara falta cambiar za por z, en la frmula 3.
Ejemplo 9.6. Se desea ensayar la hiptesis nula (con a = 0.05) de que una oftalrnloga demora, en promedio, por lo menos 30 minutos en cada consulta con el pacien
te
en turno, contra la alternativa de que demora menos tiempo en promedio. Si la hi
ptesis
inicial fuese falsa, se estara dispuesto a tolerar una probabilidad mxima de $ = 0
.08 para
el error de tipo 11 cuando el tiempo promedio fuese de 26 minutos. Si se sabe
que los
Cap. 9. Pruebas de hipdtesis paramttricas 323
tiempos de consulta siguen una distribucin normal con o = 5 minutos, cul es el tama

o recomendado para la muestra de pacientes?


Solucin: Se sustituyen los valores correspondientes en la frmula 3 y se obtiene:
lo cual implica que el tamao de muestra recomendable es de n = 15 pacientes, a fi
n de
que la prueba de hiptesis que se realice tenga las caractersticas deseadas.
Ejemplo 9.7. Una nutriloga quiere probar la hiptesis de que un litro de leche envasada de cierta marca contiene en promedio 48 g de carbohidratos, contra la alt
ernativa
de que es una cantidad diferente. Adems, se tolerar una probabilidad de 0.12 de co
meter un error de tipo 11 si el contenido promedio fuese de 50 g. Si la desviacin
estndar
del contenido de carbohidratos por litro es de o = 2.8 g, calcular el tamao de mu
estra
adecuado para realizar la prueba, usando el nivel de significacin de a = 0.04. Su
pngase
una distribucin normal.
Solucin :
Por tanto:
Entonces, es suficiente analizar una muestra aleatoria de 21 litros de leche de
esa
marca.
9.9. CRITERIOS DEL VALORP DE LA PRUEBA
PARA RECHAZAR H,
Como se mencion antes, el nivel de significacin experimental -o valorp
de la prueba- es a menudo ms til para decidir si conviene rechazar la hiptesis nula que un nivel de significacin prefijado de antemano. Ello se debe a que
cuanto ms pequeo sea el valorp de la prueba tanto ms significativos sern los
resultados de la misma en contra de la hiptesis nula. Los criterios convencionales son los siguientes:
1. Si el valorp es mayor que 0.10, entonces no se aconseja rechazar Ho. En
tal caso se dice que los resultados de la prueba no son signzjicativos, y se
recomienda volver a realizar la prueba, de preferencia con una muestra
ms grande.
2. Si el valorp es mayor que 0.05, pero no mayor que 0.10, se puede rechazar la hiptesis H,, pero los resultados de la prueba slo se consideran,
cuando mucho, ligeramente signzjicativos.
3. Si el valorp de la prueba es mayor que 0.01, pero no mayor que 0.05, se
debe rechazar Ho y declarar que los resultados de la prueba son signzjicativos.
324 Parte 111. Inferencia estadstica
4. Si el val orp de la prueba es menor o igual a 0.01, se rechaza H, y se declara que los resultados de la prueba son altamente signzjicatiuos.
Ejemplo 9.8. En cierto pas se estableci que hace 20 aos el promedio de vida
de una persona era de 71.4 aos. Recientemente, se tom una muestra aleatoria de 100
muertes, y se obtuvo que la media muestra1 fue d e F= 73.8 aos, con una desviacin
estndar de S = 9.8 aos. Son significativos estos datos para argumentar que actualment
e la
gente vive, en promedio, ms que hace 20 aos?
Solucin: La hiptesis nula es Ho:(p = 71.4) y la hiptesis alternativa es Ha:{p
>
71.4). El valor del estadstico de prueba es:
Entonces, el valorp de la prueba es el rea bajo la curva normal estndar, a mano
derecha del punto 2.449. Hallamos con Excel que vale:
Por consiguiente, se rechaza HA y se concluye que los resultados de la muestra
ente"significativos argumentar que en la actuali-

dad las personas viven, en promedio, ms que hace 20 aos.


Alexander Lyapunov (1 857- 19 18). Cre las
condiciones precisas para formular y demostrar en
su forma ms general el famoso Teorema Central
del Lmite. Con Lyapunov. Markov y Chebishev.
inicia l a poca de mximo rigor matemtico en el
tratamiento de la estadstica.
Andri Kolmogrov (1 903- 1987). Public trabajos
notables donde describi ciertas desigualdades en
sumas parciales de variables aleatorias. Adems
propuso y demostr l a llamada ley fuerte de los
grandes nmeros. Se considera el ms eminente
probabilista desde Laplace.
10.1. ~ U E B A S DE HIPTESIS SOBRE UNA PROPORCI~N
POBLACIONAL
No es ninguna exageracin afirmar que el parmetro ms socorrido y ms popular, tanto en intervalos de confianza como en pruebas de hiptesis, es la propor
cin. Muy a menudo escuchamos afirmaciones que involucran una proporcin poblacional, aunque casi siempre se expresa en forma de porcentaje. Por ejemp
lo,
escuchamos que 80 % de las personas que sufren de depresin tambin padecen insomnio, que 90% de los conductores de microbuses urbanos en el Distrito Federal
manejan con imprudencia y violan los reglamentos de trnsito vehicular, que 65 %
de las hembras del insecto conocido como mantis religiosa se comen al macho
despus del apareamiento, que casi 30 % de los partidos de futbol terminan con resultado de 1-1, que 86% del presupuesto del gobierno de Mxico se usa en sueldos
de burcratas y, a su vez, que 70 % de esos burcratas son innecesarios, etc. Todas
estas afirmaciones, y otras por el estilo, pueden ser vlidas o no, pero en todo c
aso
se requiere una prueba de hiptesis para confirmarlo o desmentirlo, no sin admitir
que semejante confirmacin es slo de carcter tentativo y est sujeta a errores que
se conocen.
As como la metodologa para la estimacin de intervalos para la media poblacional es muy similar a la de la estimacin de un intervalo de confianza para
una proporcin, tambin las pruebas de hiptesis relativas a la media poblacional
o a una proporcin son muy similares. Y resulta lgico que as sea, porque, visto
desde la ptica de los ensayos de Bernoulli, el nmero promedio de xitos de
n eventos es np, y la desviacin estndar es & , dondep es precisamente la
proporcin terica de xitos en la poblacin.
326 Parte 111. Inferencia estadstica
Una prueba unilateral izquierda para una proporcinp se basa en la hiptesis nula H,:(p =p,) frente a la hiptesis alternativa Ha:@ <p,). En la prctica,
suele resultar til expresar aqu la hiptesis nula como H,:{p Lp,), aunque para
el clculo del valorp de la prueba se toma como si fuese una igualdad. En forma
anloga, una prueba de hiptesis unilateral derecha (o de cola derecha) para una
proporcin p se basa en el esquema H,: (p = p,) (puede usarse tambin H,,: {p I
p,)) frente a la hiptesis alternativa Ha:@ >p,). Por ltimo, la prueba bilateral (
o
de dos colas) se basa en el esquema H,:{p = p,) contra la hiptesis alternati
va
Ha:-$ *P,).
Como consecuencia del Teorema de De Moivre-Laplace, se puede deducir
que el error estndar en la estimacin de una proporcinp cuyo valor se supone
igual ap, por hiptesis, est dado por:

Los valores crticos de la distribucin normal estndar se usan como se indica en la figura 10.1.
Ejemplo 10.1. El subsecretario de educacin superior de la SEP quiere demostra
r
que en Mxico ms de 15 % de los estudiantes de las especialidades de ingeniera son m
ujeres. Al tomar una muestra aleatoria de 400 estudiantes de ingeniera (de varias
universidades al azar) se hall que haba 72 mujeres. Por supuesto, esto significa que hubo
18 %
de mujeres en la muestra, pero ello bien poda deberse a la casualidad. Adems, hay
en el
pas muchos miles (o decenas de miles) de estudiantes de ingeniera, por lo que podra
ser aventurado extrapolar el resultado observado en una muestra a toda la gran p
oblacin
de estudiantes de ingeniera del pas.
Para confirmar sus sospechas, este seor plantea la hiptesis nula H,:{p I 0.15)
contra la alternativaHa:{p > 0.151, a un nivel de significacin de a = 0.05. El
valor puntual
de la proporcin observada en la muestra es j5 = 0.18, y el error estndar de la pr
oporcin
est dado por:
El valor numrico del estadstico de prueba es, entonces:
El valorp de la prueba es, entonces:
O, de manera equivalente, 1.645 < 1.68. Por tanto, se concluye que los resultad
os de la
muestra son significativos y debe rechazarse la hiptesis nula. As que hay motivos
para
afirmar que ms de 15% de los estudiantes de ingeniera del pas son mujeres.
a) Prueba unilateral izquierda
Estadstico de prueba:
6) Prueba unilateral derecha I Estadsuco de prueba:
C) Prueba bilateral Estadstico de prueba:
Figura 10. I
328 Parte 111. Inferencia estadstica
Ejemplo 10.2. En el pasado se haba establecido que aproximadamente 20 % de los
automviles que circulaban en la capital tenan placas de provincia, pero se desea
averiguar si esta proporcin ha cambiado ahora. Se tom una muestra aleatoria de 400 aut
omviles, y se obtuvo el resultado de que 70 de ellos tenan placas de provincia.
a) Usando nivel de significacin de a = 0.05, ensayar la hiptesis nula H,:{p = 0.2
0)
contra la alternativa Ha:@ # 0.20).
6) Calcular el valorp de la prueba.
a) Se rechaza Ho si z < -1.96 o bien z > 1.96. En este caso, tenemos:
El estadstico de prueba es:
Como -1.96 < -1.25 < 1.96, no se rechaza H,. As, los resultados del muestre0 n
o
son significativos para argumentar que el porcentaje de automviles con placas
de provincia ha cambiado.
1
6) -(valorp)= @(-1.25) = 0.10565. Por tanto, el valorp de la prueba es 0.2113
.
2
Este valorp es, obviamente, demasiado grande para servir como evidencia contra la hiptesis nula.
Para realizar una prueba de hiptesis relativa a la varianza (o la desviacin

estndar) de la poblacin se usa el estadstico de prueba llamado ji-cuadrado


muestrai, definido como sigue:
El smbolo 0; es la varianza supuesta en la hiptesis Ho.
Para una prueba unilateral derecha (o de cola derecha), la hiptesis nula es
H,: {d I o; ) o bien H,: {d = 0; ) , y la hiptesis alternativa es Ha: {d >
o; ) . Para
un nivel de significacin a, la regin de rechazo se busca en la distribucin ji-cuadrada con v = n -1 grados de libertad, como se muestra en la figura 10.2.
Ejemplo 10.3. La compaa de cerillos marca ACME fabrica cajetillas de cerillos de
40 g. Cuando las mquinas estaban nuevas, la desviacin estndar del peso n
eto por
' - -- Zona de rechazo
Figura 10.2. Distribucin x2 con n - I grados de libertad.
cajetilla era de o = 0.25 g, pero despus de un tiempo de uso continuo, al gerent
e del
departamento de empaque le pareci que, aunque el peso promedio neto segua siendo
aparentemente el mismo, algunas cajetillas estaban saliendo ms llenas que otras,
y sugiri detener la produccin un par de das para revisar las mquinas. Se tom una muestra
aleatoria de 20 cajetillas y se obtuvo una desviacin tpica muestra1 de S = 0.32 g
. Se determin entonces efectuar una prueba de hiptesis con nivel de significacin de 5 % pa
ra
decidir si procede o no una revisin de las mquinas. Cul es la conclusin?
Solucin: Sea Ha:{& = (0.25)2), H ~ : { d > (0.25)2). El valor crtico x:,, co
n 19 grados
de libertad es:
La hiptesis Ha se rechazar slo si el estadstico de prueba resulta mayor que este
nmero. Veamos:
Se rechaza H,. La conclusin es, entonces, que probablemente s debe detenerse la p
roduccin para revisar las mquinas y, en su caso, proceder a ajustarlas.
En el caso de una prueba unilateral izquierda (o de cola izquierda), se tiene H,:{c? 2 0; ) O bien Ho:{02 = 0; ), y la hiptesis alternativa es Ha:{02 c
0; ).
Para un nivel de significacin a, la regin de rechazo se busca, igualmente, en la
distribucin ji-cuadrada con v = n - 1 grados de libertad, como se ilustra en la
tigura 10.3.
I
&a ~ = n - l
Zonade
a
rechazo* -:
Figura 10.3. Distribucin x2 con n - I grados de libertad.
Ejemplo 10.4. En una sucursal bancaria se haba establecido que la desviacin es
tndar del tiempo de atencin a cada cliente en la ventanilla correspondiente era de
2.3
minutos. Para tratar de disminuir el valor de este parmetro, las cajeras fueron o
bligadas a
tomar un breve curso de capacitacin. Despus del curso, se tom una muestra aleatoria
de 10 clientes, con los siguientes tiempos de espera (en minutos) frente a la
ventanilla
correspondiente: 1.8, 5.2,4.3,6.6,2.5, 3.4,2.6, 5.6,4.7 y 4.0. Para averiguar si
el curso de
capacitacin sirvi de algo, se realiza la prueba de hiptesis siguiente: H,:{oZ 2

(2.3)9,
Ha:{02 c (2.3)2), con a = 0.05. Cul es su conclusin?
Solucin: Hallamos que s = 1.5166 minutos. A primera vista, podramos sospechar
que el curso s sirvi, pero veamos. El valor crtico para la distribucin ji-cuadrada
con
nueve grados de libertad es:
Luego:
No hay suficiente evidencia estadstica en contra de la hiptesis H,, as que se concluye que probablemente el curso de capacitacin no sirvi de nada, a reserva de tom
ar
una nueva muestra (ms grande) y realizar una nueva prueba de hiptesis.
Por ltimo, para una prueba bilateral (o de dos colas) se tiene H,:{c? = o: 1, y
la hiptesis alternativa es Ha:{d # o: ). Para un nivel de significacin a la regin
de
rechazo se busca, al igual que en los casos anteriores, en la distribucin ji-cuad
rada
con v = n - 1 grados de libertad, como se observa en la figura 10.4.
Figura 10.4. Distribucin x2 con n - I grados de libertad.
Ejemplo 10.5. Supngase que las personas que elaboran el conocido examen de
ingls TOEFL saben por experiencia que la desviacin tpica de los resultados ha
sido
aproximadamente de 26 puntos. Entonces, deciden elaborar un nuevo tipo de exame
n,
con un formato distinto, pero quieren que la desviacin estndar siga siendo ms o menos la misma. Si se aplic el nuevo examen a 30 aspirantes elegidos al azar, con e
l resultado de que la desviacin estndar fue de 22.4 puntos, se puede argumentar al nivel d
e
significacin de 5 % que el valor de este parmetro probablemente cambi con el nuevo
examen?
Solucin: Planteamos una prueba de hiptesis: Ho:{02 = 262), Ha:{a2 # 26'1, con
a
= 0.05. Los valores crticos de la distribucin ji-cuadrada con 29 grados de liberta
d son los
siguientes:
Por tanto, se rechazar H,, si el valor calculado para el estadstico de prueba
cae
fuera del intervalo dado por [16.047,45.722]. Veamos:
Est dentro del intervalo de no rechazo, as que no se rechaza H,, y se concluye
que el valor de la varianza ha sido probablemente preservado con el nuevo form
ato de
examen.
_=
-_
Karl Pearson ( 1 857- 1936). Discpulo y amigo de Francis
Galton. Realiz importantes contribuciones al desarrollo
de la estadstica; adems es el inventor de muchos
ttrminos usuales, como desviacin estndar, ji-cuadrado,
etc. En 19 19, fund la famosa revista de estadstica
llamada Biometrika.
Charles Spearman ( 1 863- 1 945). Fue psiclogo de
profesin, pero desarroll notables aplicaciones de
la estadstica en el campo de la psicologa. Cre la
metodologa de los llamados experimentos factoriales.
Us la estadstica (experimentos de dos factores) para
determinar y medir la inteligencia de las personas.
TEST GENERAL ACERCA DE LOS INTERVALOS DE CONPIANZA
Y PRUEBAS DE HIP~TESIS

Anote sus respuestas en el siguiente cuadro. Escriba los procedimientos en ho


jas separadas.
1. En el Distrito Federal, se trat de averiguar el porcentaje de automovilistas
que al estacionarse en la calle ponen bastn contra robo para inmovilizar el volante de su
automvil. En una muestra aleatoria de 800 automviles estacionados en la calle se obser
v
que 70% de ellos tenan el bastn contra robo. Determine un intervalo de confianza d
e
90% para el porcentaje de automovilistas del D. E que, al estacionar su automvil
en la
calle, usarn el bastn contra robo.
Cap. 10. Pruebas de hiptesis 3 3 3
2. En una investigacin se trata de averiguar el porcentaje de veces que hay di
putados
durmiendo dentro del recinto de la Cmara de Diputados en el curso de una sesin
ordinaria de trabajo. Cuntas visitas debe hacer un observador a la Cmara de Diputados para tener 95 % de confianza de que el margen de error en su estimacin del
porcentaje de veces que hay diputados dormidos sea de cuando mucho 10 %? Suponga q
ue
carece de datos histricos para dar a pnmi un valor tentativo de dicho porcentaje.
3. Repita el ejercicio 2, pero con el cambio de que ahora s se toman como te
ntativos
algunos datos del pasado, en el sentido de que aproximadamente 80% de las veces
se
han visto diputados durmiendo durante una sesin de trabajo. Cuntas visitas debe
hacer en ese caso el observador?
4. Segn la revista Tiempo (febrero de 2002), un conocido socilogo mexicano afirma
que
una gran proporcin de los discursos oficiales de los polticos mexicanos (incluso l
os informes presidenciales) son fundamentalmente discursos de aspiraciones futuristas
que,
en lugar de informar de algn logro concreto realizado, lamentan la situacin presen
te,
pero dan una especie de compromiso para que en el futuro las cosas cambien, aunq
ue
no especifican cundo ni cmo. De qu tamao debe ser una muestra aleatoria de
discursos de polticos mexicanos para tener una confianza de 90% de que el error
en
la estimacin de dicha proporcin es de cuando mucho 0.08, si se toma en cuenta una
pequea prueba piloto, segn la cual s610 uno de 10 discursos aleatorios de polticos
no
fue futurista en ese sentido?
5. Repita el ejercicio 4, pero con el cambio de que no se dispone de ninguna pr
ueba piloto
previa ni de ningn dato al respecto. Cul es el tamao de muestra de discursos que
se deben analizar?
6. A una muestra aleatoria de 369 personas adultas se les pregunt cul era su prin
cipal
fuente para enterarse de las noticias cotidianas, y 200 respondieron que era la
televisin. Calcule un intervalo de confianza de 95 % para la proporcin de personas que s
e
enteran de las noticias por medio de la televisin.
7. En cierto pas se desea probar la hiptesis nula de que la edad promedio a la

que se
casan los hombres es de 28 aos, contra la hiptesis alterna de que dicha edad es di
stinta de 28 aos. Si al realizar la prueba se acepta tolerar una probabilidad de 0
.15 de
cometer un error de tipo 11cuando la media real de la edad es de 29 aos, qu tamao
de muestra se recomienda usar si se supone adems que a = 0.05 y o = 6?
3 34
Parte 111. Inferencia estadstica
8. Repita el ejercicio 7, pero con el cambio de que ahora se supone que la d
esviacin
estndar de la edad a la que se casan los hombres en ese pas es de o = 3.4 aos.
9. Sea p el tiempo promedio (en minutos) que demora el usuario de un banco mien
tras
es atendido por la cajera en la ventanilla. Se desea probar la hiptesis nula Ho:{
p 2 5)
contra la hiptesis alternativa H,:{p < 51, con un nivel de significacin de a = 0.
05.
El investigador que realiza la prueba acepta tolerar una probabilidad de 0.
10 para el
error de tipo 11 cuando el tiempo promedio real es de cuatro minutos. Que tamao de
muestra se recomienda para efectuar la prueba? Suponga que la desviacin estndar es
de o = 1.3 minutos.
10. En una muestra aleatoria de 600 automviles que dan vuelta a la derecha en ci
erto crucero, 157 se internaron al caml equivocado. Utilice el nivel de significacin de a
= 0.05
para ensayar la hiptesis nula de que la proporcin de conductores que cometen es
te
error (en el crucero dado) es 0.30, contra la alternativa de que esta cifra es i
ncorrecta de
una u otra forma.
a) Hose rechaza, porque 1.96 < 2.049
b) Hose acepta, porque 1.849 < 1.96
c) Hose acepta, porque -1.96 < -1.849
d) Hose rechaza, porque -2.049 < -1.96.
En el trabajo estadstico se hace a menudo una comparacin entre parmetros correspondientes a dos poblaciones, tomando una muestra aleatoria de cada
una de ellas.
Supngase queX, yX2 son dos variables aieatorias con distribuciones normales independientes que representan el comportamiento de dos poblaciones tales
que sus respectivas medias son pl y p,, y SUS respectivas varianzas son o: yo:
.
Si de dichas poblaciones se toman sendas muestras de tamaos n, y n,, respectivamente, se puede demostrar que la variable aieatoria Y = X,- X2 posee una distribucin normal con media p, - CL, y con una desviacin estndar expresada mediante la frmula siguiente:
En caso de que n, y n, sean mayores que 30 (incluso mayores que 25), puede
prescindirse de la hiptesis de normalidad para las variables Xl y,X2.
En la seccin 11.4, veremos cules seran las frmulas y metodos si las dos
muestras no fuesen independientes, sino apareadas (correlacionadas), pero en
las dos secciones siguientes (11.2 y 11.3) supondremos que las muestras son independientes.
Para muestras que sean grandes e independientes, el intervalo d e confianza
d e 100(1- a) % para una diferencia de medias p, - p, es anlogo al caso de una
sola media, y est dado por:
Si las muestras son suficientemente grandes (mayores que 30), entonces las va-

rianzas poblacionales pueden sustituirse por las muestrales.


Ejemplo 11.1. Se desea comparar el tiempo promedio de viaje en autobs entre la
Ciudad de Mxico y la ciudad de Guadalajara (en un sentido) para dos compaas independientes de autobuses pblicos. Para la compaa 1 se tom una muestra aleatoria de
34 viajes y se obtuvo una media muestral de 6.1 horas de viaje con una desviacin
tpica
de 0.8 horas. Para la compaa 2 se tom una muestra aleatoria de 40 viajes, con un ti
empo promedio (media muestral) de 6.4 horas y una desviacin estndar de 0.5 horas. Si
p,
y & denotan, respectivamente, los tiempos promedio de viaje entre dichas ciudade
s para
cada una de las dos compaas de autobuses, obtener un intervalo de confianza de 90%
para p, - p2 e interpretar el resultado.
Solucin: Se tiene F, - Z2 = 6.1 - 6.4 = -0.3. Por otra parte, el valor crtico d
e z para
un intervalo de confianza de 90% es z,. - 1.645. Como ambas muestras son grande
s, podemos usar las varianzas muestrales y Ze ne mos el siguiente error tpico para p,
- K:
Por tanto, el intervalo de confianza buscado es -0.3 f (1.645 x 0.1583) = -0
.3 +
0.2605, es decir:
Esto significa que hay una confianza de 90 % en que se dice la verdad, si se afi
rma
que la compaa 1 de autobuses hace entre 0.0395 horas (es decir, 2 minutos
con 22
segundos) y 0.5605 horas (es decir, 33 minutos con 38 segundos) menos tiempo
que la
compaa 2 en esos viajes, en promedio.
Ejemplo 11.2. Dos grupos independientes de alumnos de diferentes escuelas, pero
que cursan el mismo grado escolar (segundo ao de bachillerato), se sometieron a
un
mismo examen de aritmtica bsica y igebra elemental. De la escuela 1 tomaron part
e
50 alumnos y (en la escala del O al 100) obtuvieron un promedio de 75 de califi
cacin con
desviacin estndar de 7.6, mientras que de la escuela 2 tomaron parte 40 alumnos y
se
registr un promedio de 70.7 puntos con una desviacin tpica de 9.5. Si p, y p2 deno
tan,
respectivamente, las calificaciones promedio que habran obtenido todos los estudi
antes
de la escuela 1 y de la escuela 2, calcular un intervalo de confianza a 95 % pa
ra p., - p2 e
interpretar el resultado.
Solucin: Se tiene X, - Z, = 75 - 70.7 = 4.3. En este caso, el valor crtico de z p
ara
un intervalo de confianza de 95% es z,,~, = 1.96. Obtenemos el siguiente error tp
ico
para P, - P2:
As, el intervalo de confianza buscado es 4.3 f (1.96 x 1.847) = 4.3 f 3.62. Est
o e$:
Esto significa que, en promedio, los alumnos de la primera escuela obtendran entre 0.68 y 7.92 puntos ms (sobre 100 y en matemticas bsicas) en comparacin con los
de la segunda escuela, con un riesgo de 5 % de que tal afirmacin sea falsa.
La tcnica de pruebas de hiptesis para una diferencia de medias pl - p.,

es muy similar a la tcnica correspondiente para una sola media. Si se quieren


comparar las medias de dos poblaciones a fin de averiguar si son iguales o diferentes, entonces se realiza.una prueba bilateral (o de dos colas) con las siguie
ntes
hiptesis:
Prueba bilateral: Hiptesis nula: Ho:{p, - p2 = 0); hiptesis alterna: Ha:{pl
- CL, * O).
Prueba unilateral izquierda: p., - p., 2 O); Ha: {pl - p2 < O}.
Prueba unilateral derecha: Ho: {p, - p., 1 0); Ha: {p, - p, > 0).
En las pruebas unilaterales, los signos 2 o 1 pueden remplazarse por signos
de igualdad. Tambin es posible usar, en lugar de 0, algn valor constante prefijado Do.
En todos estos casos, se toman dos muestras, una de cada poblacin, n, 2
30 y n, 2 30, y se aplica el siguiente estadstico de prueba:
'Ejemplo 11.3. El dueo de una peluquera ha contratado a dos damas (Juanita
y
Mara) que cortan el cabello de los clientes (de sexo masculino). Desea averiguar
si ellas tardan ms o menos el mismo tiempo promedio en cada corte o si alguna es ms lenta (o ms
rpida) que la otra. Se tomaron algunas muestras y se obtuvieron los siguientes da
tos: para
Juanita, n, = 30, Z, = 11.4 minutos, S, = 2.2 minutos; para Mara, n, = 35,?, =
9.8 minutos,
S, = 4.3 minutos. Se desea ensayar la hiptesis nula H,,:{p, - p, = O} contra l
a hiptesis alterna Ha:{p., - p2 # O}, en un nivel de significacin de 5 %.
Solucin: El estadstico de prueba es:
3 3 8 Parte 111. Inferencia estadstica
Como en una prueba bilateral a 95 % el intervalo de no rechazo se encuentra entr
e
-1.96 y 1.96, se sigue que no hay razones para rechazar la hiptesis H,; as, las
dos peluqueras hacen ms o menos el mismo tiempo promedio y las discrepancias observada
s
pueden atribuirse a la casualidad.
11.4. MUESTRAS PEQUE~~AS TOMADAS DE POBLACIONES
A P R O Y U M A D ~ NORMALES
En esta seccin, supondremos que uno o ambos tamaos de muestra son
pequeos (menores que 30), pero las poblaciones de donde proceden son normales o casi normales y adems las varianzas de ambas poblaciones se suponen
iguales. Para ello se requiere un estimador combinado de o2 (la varianza comn de
las poblaciones), el cual es el siguiente:
=
(n, - 1)s: + (n, - 1)s;
n,+ n,- 2
El estadstico de prueba que se usa en este caso es:
Y; bajo la suposicin de que las muestras extradas son aleatorias e independientes, se contrasta el valor calculado de este estadstico con el valor crtico o
percentil correspondiente de la distribucin t de Student con n, + n, - 2 grados
de libertad.
Ejemplo 11.4. Se desea averiguar si el tiempo promedio de trasmisin de anuncios
entre dos canales de televisin de empresas independientes es el mismo o difier
e (se
exceptan los partidos de futbol). Se midieron varios intervalos exactos de una h
ora de
trasmisin (al azar) en cada uno de los dos canales y se registr cuntos minutos en c
ada

hora haban sido de anuncios, con los siguientes registros:


Cap. 1 1 . Inferencia estadstica para dos poblaciones 3 3 9
Con un nivel de significacin de a = 0.05, probar la hiptesis Ho:{p, - p2 = O) con
tra
la hiptesis alterna ~ ~ : { p , - CL, # O). Supngase que la poblacin se distr
ibuye normalmente con una misma varianza.
Soluci6n: Con ayuda de una calculadora se halla rpidamente que Z, = 32.54,
S, = 3.0746; Z, = 29.7167, S, = 3.59022. Por otra parte, el estimador combinado
de la varianza es:
= (n, - 1)s: + (n, - 1)s; - - 4(3.074Q2 + 'j(3.5902)' = 11.36226
n,+ n2-2 9
El estadstico de prueba es:
El percentil to,, con nueve grados de libertad es 2.262, el cual se puede obte
ner de
tablas, o tambin con Excel, usando la sintaxis siguiente:
La hiptesis nula se rechazara s610 si el valor calculado del estadstico de prueba
cayera fuera del intervalo [-2.262, 2.2621, el cual no es el caso para el nmero
1.38. Por
consiguiente, no existen argumentos para rechazar Ho y se infiere que ambos cana
les pasan, en promedio, la misma cantidad de anuncios.
1 1.5. CASO DE MUESTRAS APAREADAS (O EMPAREJADAS)
Supngase que usted quiere comparar dos tipos de exmenes de una misma asignatura para averiguar si alguno es ms difcil de resolver que el otro. Una
manera de hacerlo sera aplicar un tipo de examen a un grupo especfico de estudiantes y el otro examen a otro grupo, para luego comparar los resultados. Esto
es exactamente lo que hicimos en las secciones anteriores. La desventaja de este
mtodo estriba en el ruido que introduce la posible variacin entre los estudiantes como fuente de error muestral.
Tal desventaja podra evitarse si se aplican ambos exmenes a cada alumno
de los grupos, aunque esto pudiera tomar algunos das ms. En ese caso, se podran comparar las calificaciones de cada uno de los dos exmenes en cada alumno en particular. Esto se denomina muestras apareadas (o emparejadas). En general, se trata de dos columnas de datos con los encabezados antes y despus (o
mktodo 1 y mtodo 2), pero aplicados a las mismas personas u organizaciones.
En el caso de muestras apareadas se escribe una columna adicional con las
respectivas diferencias (con todo y signo algebraico), y esas diferencias consti
tuyen la base de la metodologa.
La notacin que se emplea es: C L ~ , que denota la media de las diferencias
(por ejemplo, antes y despus, o bien con dos mtodos distintos de produccin,
340 Parte 111. Inferencia estadstica
etc.). Se usa el smbolo d, para denotar la i-sima diferencia en la lista. Por ejem
plo, para una prueba bilateral se tendra H,: {CL, = O}, Ha: {CL, # O}.
La desviacin tpica de las diferencias es la desviacin tpica muestral comn
y corriente para datos aislados:
El estadstico de prueba que se emplea es:
y se contrastan los valores calculados con los valores crticos (o percentiles) de
la
distribucin t de Student con n - 1 grados de libertad @ara muestras pequeas).
En caso de muestras grandes se emplea, como de costumbre, la distribucin normal estndar.
Ejemplo 11.5. A seis empleadas de un restaurante se les mostraron dos mtodos
para preparar una taza de caf capuchino y se registraron los tiempos (en minutos
) em-

pleados por ellas en cada uno de los dos mtodos:


Con un nivel de significacin de a = 0.05, ensayar la hiptesis de que las empleada
s
se tardan, en promedio, lo mismo con los dos mtodos contra la alternativa de que
algn
mtodo es ms rpido que el otro.
Soluci6n: Con ayuda de una calculadora, obtenemos rp-amente la media y la desviacin estndar (muestral) de los seis valores de diferencias: d = 0.30 y S, = 0.3
34664. El
estadstico de prueba es el siguiente:
Por otra parte, el valor crtico de la distribucin t de Student con a = 0.05 y n 1 = 5
grados de libertad se puede obtener rpidamente con Excel usando la sintaxis:
Cap. 1 1 . inferencia estadstica para dos poblaciones
34 1
O, en forma alternativa, se puede hallar en una tabla de percentiles de la distr
ibucin t de
Student, buscando el percentil to,9,, con cinco grados de libertad. En cualquie
r caso, se obtiene 2.5706. La hiptesis nula sera rechazada si el valor calculado del estadstico
de prueba cayera fuera del intervalo [-2.5706, 2.57061, lo cual no es el caso. Obsrves
e la figura
11.1. En consecuencia, no existen motivos para rechazar la hiptesis nula y conclu
imos que
ninguno de los dos mtodos para preparar caf capuchino es ms rpido que el otro.
Figura I 1. 1. Distribucin t de Student con cinco grados de libertad.
Ejemplo 11.6. A 15 vacas lecheras de una finca se les suministr cierto tipo de di
eta
durante cinco das, y se registr la cantidad total de litros de leche que cada una
haba
producido en todo ese tiempo (redondeada al litro ms cercano). Luego se les sumin
istr
otra dieta diferente y se realiz el mismo registro. Los datos que se obtuvieron s
e muestran a continuacin:
342 Parte 111. Inferencia estadstica
a) Calcular un intervalo de confianza de 95 % para la diferencia promedio en lec
he
pd producida en cinco das con los dos tipos de alimentacin.
6) Ensayar la hiptesis nula H0:{& = O) contra la alternativa Ha:{pd # 0) con a
=
0.05.
Solucin:
a) En principio:
Adems, el valor crtico de la distribucin t de Student con 14 grados de libertad
es el percentil t,,,,, o con Excel:
Por consiguiente, el intervalo de confianza a 95 % para CL, = p, - p2 es:
Es decir, la diferencia promedio (en litros cada cinco das) est en el intervalo:
6) De acuerdo con el resultado del inciso a se podra sospechar que la primera di
eta hace que las vacas produzcan ms leche (ms diferencias positivas que negativas). Sin embargo, el simple hecho de que el intervalo de confianza contenga
al cero es seal de que las observaciones no son perceptibles (no son significativas) para concluir que alguna dieta las haga producir ms leche que la otra. En
efecto, el estadstico de prueba es:
En este caso, el valorp de la prueba es @ara prueba de dos colas) el siguiente
:
Es un valor demasiado grande para servir como evidencia contra la hiptesis

nula. En consecuencia, no existen motivos para rechazar Ho y podemos argumentar que no hay diferencia perceptible entre la cantidad de leche producida
con uno u otro tipo de alimentacin en las vacas.
11.6. ~JFJBENcIAs ACERCA DE LA DIFERENCIA ENTRE
PROPORCIONES DE DOS POBLACIONES
Para el caso de diferencias de dos proporciones poblacionales, el estimador
puntual es 4, - j2. La distribucin muestra1 de este estimador tiene las siguien
tes
caractersticas:
- Media o valor esperado:
- Desviacin estndar:
- En esta frmula, q, = 1 -p, y q, = 1 -p,, mientras que n, y n, denotan los
tamaos de muestra extrados, respectivamente, de las poblaciones 1 y 2.
Si todos los productos n,p, y n,q, son mayores o iguales que 5, se supone
una distribucin normal.
Para elaborar pruebas de hiptesis o para obtener intervalos de confianza
relativos a una diferencia de proporciones se emplea un estadstico basado en
proporciones observadas jl yp,. Dicho estadstico (que es el estimador puntual
para la expresin 1) es:
As, un intervalo de confianza a 100(1- a) % parap, -p, est dado por:
Para hacer pruebas de hiptesis (ya sea de una o de dos colas), se emplea el
siguiente estadstico de prueba:
En estos casos se emplea un estimador combinado que tome en cuenta la
hiptesis nulap, =p,, en caso de que esa hiptesis fuese cierta. Ese estimador
combinado (denotado por P ) es:
344 Parte IIL Inferencia estadstica
De este modo, podemos corregir la ecuacin 2, sustituyendo jJ y fi por jJ,
1
tras lo cual la ecuacin se escribe as:
Ejemplo 11.7. Supngase que se trata de determinar si el porcentaje de policas
mexicanos que son adictos a las sustancias psicotrpicas es mayor entre los de la
Polica
Judicial (PJ) o entre los de la Polica Federal Preventiva (PFP). A 250 policas jud
iciales se
les practic examen antidoping y 14 % dieron positivo. Por otra parte, a 300 eleme
ntos de
la PFP se les aplic examen antidoping y s610 9 % dieron positivo. Realizar una pr
ueba de
hiptesis al nivel de cx = 0.05 para determinar si el porcentaje de adictos a tale
s sustancias
es menor entre los elementos de la PFP que entre los de la PJ.
Solucin: Seanp, yp, las proporciones de adictos a esas sustancias entre los miembros de la PJ y de la PFP, respectivamente. Sea Ho:(Pl -p, = O}, Ha:@, -p, >
O). Tenemos
los siguientes datos: n, = 250, jl = 0.14, n, = 300, & = 0.09. Aplicando las
ecuaciones 3 y
4 se halla que j = 0.1127, sp, -p2 = 0.027083. Por otra parte, el estadstico d
e prueba es:
Por ltimo, el valor crtico para prueba de cola derecha es zo,, = 1.645. Como el es
tadstico de prueba es mayor que este nmero, entonces se rechaza la hiptesis nula y
se
concluye que los datos observados son significativos (perceptibles) para afirmar
que en
promedio hay ms adictos a las sustancias psicotrpicas entre los de la PJ que en l
a PFi?
Como comentario final sobre este ejemplo, ntese que si la hiptesis alterna hubiese sido (P, -p, f O), es decir, una prueba bilateral, entonces la zona
de

no rechazo habra quedado en el intervalo comprendido entre -1.96 y 1.96, y en


tal caso la hiptesis H, no habra sido rechazada (con el mismo nivel de significacin), esto es, no habra muchos argumentos estadsticos a favor de la suposicin
de que en generalp, zp,, mas s los habra a favor de la
hiptesis ms especfica de quep, >p,.
Con un nivel de significacin prefijado, suef
le ser ms difcil argumentar en contra d e la hi'
ptesis nula en una prueba bilateral que en una
prueba dnilateral.
Sir Ronald Aylmer Fisher ( 1 890- 1962). Logr aplicar
con xito sus conocimientos de estadstica en la
gentica y en la teora de la evolucin de los seres
vivos, para lo cual invent el anlisis de uarianza y el
diseo de experimentos. Aplic sus conocimientos de
estadstica al estudio de muestras pequeas.
William S. Gosset ( 1 876- 1937). Qumico ingls
radicado en Dubln, Irlanda. Usaba el seudnimo
de Student (el estudiante) en sus trabajos y fue el
creador de la famosa distribucin t destudent.
THT GENERAL ACERCA DE PRUEBAS DE HIP~TESIS
EN SUS D1 mA. S MODALIDADES
En el siguiente cuadro, anote el inciso que considere correcto. Las operaciones
puede hacerlas en hojas separadas.
1. A la mxima probabilidad de rechazar una hiptesis que es verdadera y debi habers
e
aceptado, se le llama:
a) nivel de significacin
b) error de tipo 1
c) error de tipo 11
d) poder (o potencia) de la prueba.
2. En un juicio contra un posible inculpado de un crimen, se establece la hipte
sis nula
de que el acusado es inocente. Si en verdad el acusado cometi el crimen y al fin
al el
jurado decide liberarlo por falta de pruebas, entonces el jurado est cometiendo:
a) errores de tipo 1 y 11
b) ningn error
c) error de tipo 1
d) error de tipo 11.
3. Varias amas de casa que suelen comprar en el mercado popular de La Merced
en el
Distrito Federal, queso, huevo, azcar, frutas y otros productos que se pesan, sos
pechan
que les entregan menos mercancia de la que les cobran. Para confirmar o desment
ir
346 Parte 111. Inferencia estadstica
esas sospechas, inspectores de la PROFECO (organismo protector de los consumid
ores) van a realizar una prueba de hiptesis, hacindose pasar por clientes y adquiri
endo
varios productos al azar para pesarlos en bsculas de precisin. Qu tipo de prueba de
hiptesis deben realizar?
a) Prueba de cola derecha
b) Prueba de cola izquierda o derecha
C) Prueba de cola izquierda
d) Prueba de ambas colas (prueba bilateral).

4. Con respecto al ejercicio 3, qu parmetro deben someter a prueba los inspectores


de
la PROFECO!
a) La varianza
b) La media
c) La desviacin estndar
d) La moda.
5. Se desea probar la durabilidad de un nuevo tipo de pintura blanca par
a setializar el
asfalto en los cruces peatonales de una ciudad. Mediante contadores electrnicos a
utomticos instalados en ocho zonas de cruce peatonal (donde previamente se haban pintado lneas blancas con esa pintura), se registr la cantidad de vehculos automotore
s
que transitaron antes de que las lneas se empezaran a borrar. Los resultados fuer
on los
siguientes: 149 400,162 000, 133 700,126 400,108 300,136 500,167 800 y 142 600.
Si se supone una distribucin normal, entonces un intervalo de confianza de 95 % p
ara
el nmero promedio de vehculos automotores que puede soportar la pintura antes de
empezar a borrarse, es de:
6. Un psiclogo desea probar la hiptesis nula de que el tiempo promedio de rea
ccin
refleja de un adulto ante una seal repentina es de 0.56 segundos, contra la hipte
sis
alternativa de que dicho promedio es distinto de ese valor, usando un nivel de s
ignificacin de a = 0.05. Estudios previos publicados en una revista especializada confir
man
que la desviacin estndar para dicho tiempo de reaccin refleja es de o = 0.09055 segundos. El psiclogo que realiza la prueba tom una muestra aleatoria de 35 individu
os
y obtuvo el'valor muestra1 de Z = 0.59 segundos. Cul de los siguientes incisos ind
ica
la decisin correcta que hay que tomar?
a) El estadstico de prueba es 1.96, y H, no se acepta ni se rechaza
b) El estadstico de prueba es 1.96, y H, se rechaza
C) El estadstico de prueba es 1.96, y H, se acepta
d) El estadstico de prueba es menor que 1.96, y H, se acepta.
7. Segn el informe nutrimental del envase de margarina Primavera ChantiUy, por
cada
15 g de producto hay 1.9 g de grasas saturadas, lo que equivale a 12.67 % de
grasas
saturadas. Se supone que el porcentaje de grasas de todo tipo en la margarina
sigue
Cap. 1 l . Inferencia estadstica para dos poblaciones
347
una distribucin normal. Un grupo de nutrilogas de una universidad examin en el
laboratorio una muestra de siete porciones de ese producto, escogidas aleatoriam
ente
en sitios distintos y fechas distintas, y los porcentajes de grasas saturadas q
ue se obtuvieron fueron los siguientes: 12.68 %, 12.69%, 12.66%, 12.65 %, 12.67 %,
12.68 %
y 12.66%. Pruebe la hiptesis nula H,:(p I 12.67%) contra la hiptesis alternat
iva
Ha:{p > 12.67%) con un nivel de significacin de a = 0.05. Cul de los siguientes
incisos muestra la decisin correcta?

a) Se rechaza H, porque Z - po = O
b) No se rechaza H, porque X - CL, = O
c) La prueba no funciona porque Z - p, = O
d) Se rechaza H, porque la varianza muestra1 es muy pequea.
8. Durante ms de una dcada se practic un mismo examen de ubicacin de matemticas bsicas a estudiantes de nuevo ingreso de una universidad, y el promed
io
global de calificaciones (en escala del O al 100) fue de 70 puntos, con una desv
iacin
estndar de 13 puntos, pero hace ms de 10 aos que ese examen se dej de aplicar.
Un grupo de educadores afirma que actualmente el nivel promedio de preparacin
matemtica de estudiantes universitarios de nuevo ingreso es igual que hace 10 aos
,
pero un segundo grupo de educadores sostiene que es peor. Entonces se acuerda re
alizar una prueba de hiptesis y se aplica aquel viejo examen a una muestra aleatoria
de
50 estudiantes de nuevo ingreso a la universidad. Acuerdan un nivel de significa
cin
de a = 0.05 y se dan como supuestos una distribucin normal y el mismo valor viejo
de la desviacin estndar. Si el examen tuvo un promedio de calificaciones de 6
7,
cul de los dos grupos de educadores tiene razn?
a) El segundo, porque 1.645 > 1.63
b) El segundo, porque -1.645 > -1.63
C) El primero, porque 1.645 > 1.63
d) El primero, porque -1.645 < -1.63.
9. Un individuo afirma que tiene algunos conocimientos de cermica china antigua.
Para
comprobar o desmentir esa afirmacin, un examinador le da un test de 50 preguntas
bsicas sobre el tema, todas del tipo verdadero o falso. El examinador realizar una
prueba
de hiptesis con un nivel de significacin de a = 0.01. Al calificar el test, se com
prob
que el individuo tuvo slo 32 aciertos. Qu conclusin debe sacar el examinador?
a) El resultado de la prueba no es significativo para afirmar que el indivi
duo conoce
algo sobre el tema, porque 1.838 < 2.326.
b) Se puede afirmar que el individuo s conoce algo sobre el tema, porque 1.838
<
2.326.
C) El resultado de la prueba no es significativo para afirmar que el individu
o conoce
algo sobre el tema, porque 1.838 < 2.576.
d) Se puede afirmar que el individuo s conoce algo sobre el tema, porque 1.83
8 <
2.576.
10. En la compaia de cerillos La Central afirman que, en el pasado, la desviacin
estndar
de los pesos de las cajetillas de cerillos de 40 g era de o = 0.25 g. Se sospech
a que con el
uso de las mquinas, el valor de la desviacin estndar ha aumentado, lo que ocasiona
ms variabilidad en el contenido de las cajetillas y quiz amerite una revisin de las
m348 Parte 111. Inferencia estadstica
quinas, pero ello implicara un costo al detener la produccin durante algunos das. S
e
decide realizar una prueba de hiptesis, haciendo H,:{a = 0.25 g) contra Ha:{o >

0.25
g), con un nivel de significacin de cx = 0.05. Para ello se tom una muestra alea
tona
de 20 cajetillas y se obtuvo una desviacin estndar muestra1 de s = 0.32 g. iAmer
itar
esa variabilidad aparente detener la produccin para revisar las mquinas?
a) S, porque 31.1296 > 30.1435
b) No, porque 31.1296 > 30.1435
c) S, porque -3 1.1296 < -30.1435
d) No, porque -3 1.1296 < -30.1435.
350 Parte 111. inferencia estadstica
Obsrvese que, no obstante su aspecto aparatoso, en general suele reducirse
a una expresin sencilla para elecciones apropiadas de sus parmetros v, y v,
(vase fig. 12.1). Tambin es interesante sealar que, a diferencia de casi todas las
distribuciones continuas importantes, aqu no aparece explcitamente el nmero
e, base de los logaritmos naturales, aunque s aparece en forma implcita en las
funciones gama que forman parte de su expresin.
Figura 12.1. Grficas tpicas de la distribucin F de Fisher.
En vista de su importancia, la distribucin F se ha tabulado extensamente.
La tabla contiene valores de los percentiles F,(v,, VJ para a = 0.05 y 0.01 y
para
diversas elecciones en cuanto al nmero de grados de libertad.
En la figura 12.1 se han dibujado las grficas de dos distribuciones F de Fisher. La ms alta de ellas es F(12,4) y la ms baja es F(4, 2). Resulta relativamen
te
fcil comprobar que sus respectivas ecuaciones se simplifican de la manera siguiente:
8x
F(4 , 2) = ; F(12, 4)=
30 618x5
con x > O en ambos casos
(1 + 2x1' (1 + 3 ~ ) ~ '
Si el estudiante tiene algn software de computadora para dibujar grficas
de curvas, se le recomienda que juegue un rato con distintas elecciones p
ara
los grados de libertad v, y v, de la distribucin F de Fisher, con objeto de pode
r
apreciar cmo cambia el aspecto de la curva y, si es posible, cmo se simplifica la
expresin matemtica de la funcin una vez que se sustituyen los valores especficos de V, y v,. Notar dos cosas: en primer lugar, que a medida que aumentan
Cap. 12. Comparacin de las uarianzas de dos poblaciones 35 1
los valores de los parmetros v! y vs,,la curva tiende a desplazarse a la derec
ha
(al igual que ocurre con la distribucion ji-cuadrado); y en segundo lugar, que l
a
expresin matemtica final se vuelve cada vez ms aparatosa e incontrolable. Por
ejemplo, F(8,2) se puede simplificar as:
F(8 , 2) =
1024x3
conx 2 O
(1 + 4 ~ ) ~ '
En cambio, F(50,20) adquiere una expresin aparatosa:
F(50, 20) =
48 849 038 779 735 565 185 546 875 x2*
, conx 2 0
La figura 12.2 muestra la grfica de esta espectacular expresin.
Figura 12.2. Grfica de F(50, 20).

Finalizamos esta seccin con un resultado interesante:


Si si y si son las varianzas de variables aleatorias independientes de tarnaos n, y n,, respectivamente, tomadas de poblaciones normales con varianzas
respectivas o: y o:, entonces:
.:l.: - 03:s:
F=m 0;s;
tiene una distribucin F con n, - 1 y n, - 1 grados de libertad.
12.2. ~I ERvALOS DE CONHANZA PARA RAZONES
DE DOS VARMNZAS
Si si y $son las varianzas muestraies de muestras aieatorias independientes de tamano n, y n,, respectivamente, tomadas de poblaciones normales,
entonces:
es una variable aleatoria que tiene una distribucin F de Fisher con n, - 1 y n2
- 1
grados de libertad.
Al sustituir esta expresin de F en:
se llega al siguiente resultado para un intervalo de confianza relativo a o:
P.
o; '
Si S: y 4 son los valores de las varianzas de muestras aleatorias independientes de tamao n, y n,, respectivamente, tomadas de dos poblaciones noroz
1 males, un intervalo de confianza de (1 - a)100% para 2: esta dado por:
I o2
Se pueden obtener lmites de confianza del (1 - a)100% correspondientes de
ol/O, obteniendo las races cuadradas de los lmites de confianza.
12.3. PRUEBA DE HIP~TESIS PARA LA VARIANZA
DE DOS POBLACIONES
Dadas muestras aleatorias independientes de tamao n, y n, tomadas de
dos poblaciones normales con las varianzas cf y a:, respectivamente, debemos
obtener que las regiones crticas correspondientes de tamao a , para probar la
hiptesis nula < = 4 contra las alternativas unilaterales cf < c$ o bien cf > o:,
son respectivamente:
Cap. 12. Comparacin de las uarianzas de dos poblaciones 353
donde F,;, -, ;,-, y Fa,. -];,
son valores de la tabla F. La regin crtica apropiapiada para demostrar la hiptesis nula contra la alternativa bilateral o: # o: es:
Antes de proseguir, damos unas tablas de la distribucin F de Fisher, que
hemos generado con ayuda del Excel. Cabe sealar que esta distribucin tambin
se suele conocer con el nombre de distribucin F de Snedecor-Fisher, o distribucin F de Snedecor.
Las tablas 12.1 y 12.2 se elaboraron usando Excel. Son muy tiles para el
trabajo estadstico relacionado con la comparacin de las varianzas de dos poblaciones.
Jerzy Neyman ( 1 894- 198 1) . Matemtico de origen
polaco, luego se naturaliz ciudadano estadounidense.
Desarroll la teora de la estimacin y las pruebas de
hiptesis. Public trabajos notables en estadstica
matemtica terica que dieron un impulso decisivo a
esta ciencia.
Boris \/: Gnedenko ( 1 9 12- 1995). Fue uno de los ms
distinguidos probabilistas del siglo m. Escribi 2 13
trabajos y varios libros sobre teora de probabilidades y
estadstica matemtica. En particular, su monumental
Curso de probabilidad alcanz varias ediciones y fue
traducido a ms de I O idiomas: todava es un clsico.
Tabla 12.1. Valores crticos de la distribucin F de Fisher: F,,, ( x, v,, v,).
I 1 1

Tabla 12.1. Valores crticos de la distribucin F de Fisher: F,,, ( x,


). (Continuacin.)
w
m
8 9
"2
1
2
< . A -. -LA
VI
12
243.90465
15
245.94920
24
249.05239
20
248.01557
19.412482 , 19.429081 19.454092 19.445679
30
250.09649
19.462504
40
251.14423
19.470690
60
252.19560
19.479103
1.20
253.25426
19.487288
999
254.18558
m
254.31655
19.494792 19.495928
w
Vi
00
Tabla 12.2. Valores crticos de la distribucin F de Fisher: Foo, ( x,
1 2 , , ,
1 / , 3.7102268 , 3.5390144 3,4056882 3,:6236 3.21:6
2- AA ..
"2 , "1
6
5858.9503
99.331373
27.910573
15.206751
10.672238
8.4660314
7.1913746
6.3706693
5.8017804
5.385"Ma
4
5624.2570
99.251338

v, ,

v,

v,, v,).

28.710019
15.977093
11
ln'OTL
9
6022.3974
---99.389581
27.344868
14.659236
10.157692
7.9760412
6.7187784
5,9105787
5.3511258
XnA24216
P
3
5403.5336
99.164026
29.456714
16.694230
12.059900
5
5763.9554
99.302270
28.237082
15.521891
.IA AL->, I I
10
6055.9250
99.396857
27.228452
14.546004
10.051053
7.8741778
6.6200982
5.8142859
5.2565383
4,8491415
5.069 1.8860329
4.820 L.6395030
7
5928.3338
99.356839
27.671376
14.975740
10.455551
8.2600309
6.9928774
6.1776291
5.6128329
5.2001496
2
4999.33%
99.000317
30.816409
17.999810
13.274075

1
-1845
501914
LZcQQAco
6.0128968
5.9259264
5.8489604
5.7804073
5.7190164
E3
14
15
16
17
4.744492 15449 4.5392881
4.499384 75161 4.2%0551
8
5980.9536
93.375029
27.489477
14.798843
'A30n2"
1
3
6.0288130
5.4670863
5.056676O
3
-4
745193
5.7393663
5.5638907
5.4169504
5.2922360
5.1850293
- - 5.0919198
5.0102926
4.9382152
4.8740390
4.8166271
9.0738013
8.8616616
8.6831733
8.5309466
8.3997520
34.116056
21.197593
9.7795692 9 i
8.4512521 7
7.590: .O060651 1

6.991! ,4220558 '


4.3020805 4.19 4.1002863
4.1399630 4.02' 3.9394195
" 258127
1
8.6490672
8.0215159
7.5594926
246346
6.552>=~7
6.2167373
5.9525291
' 5.2053224
5.0354174
4.8931952
4.7725734
4.6689479
4.5790216
4.5002366
4.4307171
4.3688146
4.3134492
4.0044483
8
4
3.7054235
3.6305323
3.5644234
3.5056473
3.4530387
2854967
1849976
8
9
20
21
22
11.258635
10.561507
--,9943659
5.6683120
5.4119482
4.8615902 1 4.6203468 1 4.4410358
3.8947974 / 3.8049279
3.78 3.6909285
3.68 3.5930725
8.0959808
8.0166274
7.9453457
'" '"044232
6461008
3302788
-

5.6363660
i
4.6949822
4.5556021
;
'
!
...,,,,, J
4.0421355
3.9879637
3.5970515
3.5225014
3.4566767
3.3981564
3.3457752
3.5081484
3.4337972
3.3681999
3.3098218
3.2576111
4.4558419
4.3182808
4.2016381
4.1014800
4.0146233
4.2778652
4.1415547
4.0259351
3.9267434
3.8406256
3.9385668 1 3.7652512
3.871&7
3.8117491
3.7583163
3.6987444
3.6395704
3.5866492
Tabla 12.2. Valores crticos de la distribucin F de Fisher: Fo,, ( x, v,, v,). (
Continuacin.)
En todas las estimaciones de intervalo y pruebas de hiptesis de los captulos anteriores se parti de la suposicin de que las poblaciones a estudiar seguan
una distribucin normal o, en el peor de los casos, aproximadamente normal;
y cuando ello no se daba, entonces se supona que las muestras tomadas eran
lo bastante grandes para que el Teorema Central del Lmite garantizara que las
distribuciones muestrales o los estadsticos empleados tuvieran distribuciones
aproximadamente normales. Ese tipo de pruebas (o mtodos) se acostumbran
llamar pruebas paramtricas (o mtodos estadsticos paramtricos).
En este captulo, vamos a introducir el estadstico de enumeracin xZ de
Pearson, para el cual no se requiere la hiptesis de normalidad. Tales estadsticos
se llaman estadsticos no paramktricos (o de distribucin libre), y las pruebas de
hiptesis que con ellos se realizan se llaman pruebas no paramdtricas. El estadstico x2 de Pearson se emplea en pruebas de hiptesis para lo que se llama bondad
de ajuste y para independencia de datos, y se utiliza cuando los datos represent
an
frecuencias tanto absolutas como relativas, incluyendo proporciones y datos categricos.
En captulos posteriores se examinarn algunas otras pruebas no paramtri-

cas usuales, incluso la llamada prueba de rango con signo de Wilcoxon, la cual e
s
una alternativa sencilla para las pruebas correspondientes a dos muestras aparea
das (o emparejadas), que se expusieron en el captulo anterior.
13.2. EMPLEO DE LAJI-CUADRADA DE ~ A R S O N
PARA LA BONDAD DE AJUSTE
Sin duda, el uso ms importante del estadstico x2 de Pearson es para comprobar si una distribucin de frecuencias o de datos observados se ajusta o difiere de alguna distribucin terica previamente establecida.
El estadstico x2 de Pearson se define como sigue:
donde la O significa frecuencias observadas y la E significa frecuencias esperad
as.
Naturalmente, tanto la suma de frecuencias observadas como la suma de frecuencias esperadas son iguales al total de frecuencias N, es decir, m =N, a = N. De
aqu que la expresin 1 sea equivalente a:
Si el nmero de categoras o clases es igual a k, entonces el estadstico x2 de
Pearson tender a una distribucin ji-cuadrada con v = k - 1 grados de libertad
(de ah su nombre), en el caso de que las frecuencias esperadas puedan calcularse sin la necesidad de estimar parmetros a partir de los estadsticos muestrales.
Como se ha explicado antes, la razn de restar 1 a k estriba en que si se conocen
k - 1 de las frecuencias esperadas, entonces la frecuencia restante queda determinada en forma nica. Por otra parte, puede ocurrir que las frecuencias esperadas slo se puedan calcular estimando m parmetros de la poblacin a partir
de los estadsticos muestrales, en cuyo caso el nmero de grados de libertad se
reduce a v = k - 1 - m. Los criterios descritos aqu slo deben emplearse cuando
cada una de las frecuencias esperadas sea al menos igual a 5.
Ejemplo 13.1. Los siguientes datos aparecieron en el Journal of tbe American St
atistical AssociatlOn, vol. 31, pp. 376-380. Durante un periodo de 96 aos se regi
straron
las vacantes para empleo en la Suprema Corte de Justicia de Estados Unidos, ya
sea por
muerte o renuncia de alguno de sus miembros. El tamao de muestra es n = 96.
""cantes
Cap. 13. La prueba ji-cuadrada de Pearson 3 6 7
Supngase que se sospecha que tal vez se podran ajustar estos datos mediante un
modelo terico de Poisson, en el cual el parmetro h se toma como la media aritmtica
ponderada de esta distribucin emprica, esto es:
Se requiere hacer ahora un comparativo del modelo terico (o esperado) 96
9
(k; 0.5), con respecto a los valores observados en la tabla sealada. Luego s
e realiza la
prueba ji-cuadrada para la bondad de ajuste entre los datos reales observados y
el modelo
terico que se presume (Poisson).
Solucin: La razn de suponer un modelo de Poisson estriba en que de los datos
observados se aprecia que la ocurrencia de una vacante por muerte o renuncia
es un
acontecimiento de muy baja probabilidad en un intervalo corto de tiempo y que ad
ems
las ocurrencias de vacantes son independientes. Siempre que se tienen ocurrencia
s independientes poco probables, se debe intentar el modelo de Poisson. Con ayuda de E
xcel,
obtenemos la siguiente tabla:
Para el clculo de la ltima fila se us la siguiente sintaxis con Excel:

(Tmbin podra hallarse restando de 96 la suma de los cuatro valores anteriores.)


El nico defecto que hallamos ahora es que en las ltimas dos filas las frecuencias
esperadas son menores de 5, lo cual va en contra del supuesto establecido lneas
arriba
para la validez de la prueba. Este defecto se puede subsanar si reducimos las cl
ases, agrupando las tres ltimas en una sola clase bajo la etiqueta de "dos o ms". De este
modo
tendremos slo tres categoras o clases, a saber:
nk =ndmero de
aos con k vacantes
(modelo esperado
con distribucin de
Poisson)
k = nmero
de vacantes
durante el ao
A -59 58.227
! 27 29.114
n, = nmero
de aos con
k vacantes
t (observado)
368 Parte N. Estadstica no paramtrica
Ahora se procede a calcular el estadstico xZ de Pearson como sigue:
Ahora veamos qu tan bueno result6 ser el ajuste. Sea H, la hiptesis nula de que
las frecuencias observadas siguen una distribucin de Poisson con parmetro h = 0.5.
La
hiptesis alternativa es que semejante ajuste no procede. Tomemos a = 0.05 como ni
vel
de significacin de la prueba. Ahora bien, en tablas (o con Excel) hallamos el val
or crtico
para una distribucin ji-cuadrada con 3 - 1 - 1 = 1 grado de libertad. (El nmero d
e grados de libertad se obh'me restando el nmero de clases o renglones menos uno, meno
s
el nmero depardmetros desconocidos: v = k - 1 - m.)
Obtenemos, por tanto:
En consecuencia, la zona de rechazo est a partir de este nmero y en adelante (fig
.
13.1). Como 0.371 c 3.84, no hay motivos para rechazar la hiptesis nula, luego e
ntonces
la hiptesis de una distribucin de Poisson es perfectamente plausible. Cuanto ms cer
cano a cero sea el valor del estadstico jicuadrado de Pearson, tanto mejor ser el
ajuste
entre los datos observados y el modelo terico propuesto. En este caso, por ejemp
lo, el
ajuste result extraordinariamente bueno.
Figura 13.1. Distribucin ji-cuadrada con un grado de libertad.
OBSERVACI~N: Cabe sealar, a propsito de este ejemplo, que muchos cientficos famosos (qumicos, bilogos, mdicos y fsicos) lograron ajustes similares
con una distribucin de Poisson a partir de datos observados en la realidad du
rante su trabajo experimental. Un ejemplo notable lo describi el famoso bilogo
italiano Salvador E. Luria, ganador del Premio Nobel de Medicina en 1969 (junto
con Max Delbrck). En su ameno libro autobiogrfico A Slot Macbine, A Broken

Cap. 13. La prueba ji-cuadrada de Pearson 3 69


Test Tube (Harper and Row, 1984), S. Luria describe con detalle cmo fue que sus
conocimientos de las distribuciones estadsticas le ayudaron a rechazar la hiptesis de que las bacterias resistentes al ataque de virus bacterifagos ("fagos")
lograban su inmunidad gracias a mutaciones espontneas que ocurran durante el
crecimiento bacterial, en contra de la hiptesis prevaleciente de que las bacteria
s
se volvan resistentes a causa de su contacto con los fagos.
Como describe Luria con mucho detalle en su libro, la segunda hiptesis debera responder a una supuesta distribucin de Poisson para las bacterias que se
volvan resistentes. El anlisis estadstico minucioso de sus observaciones lo condujo a la conclusin correcta, y ese fue un paso crucial en sus descubrimientos sobr
e
la inmunidad de ciertas clulas ante el ataque de virus, lo cual a su vez permiti r
ealizar avances en el estudio de la resistencia de algunas clulas contra invasiones
cancergenas. Locurioso, segn menciona Luria, fue que ese gran descubrimiento, que
a la postre le report el Premio Nobel, pas inadvertido a muchos otros qumicos y
bilogos, porque stos soslayaron la importancia de la teora de las probabilidades
y la estadstica en el anlisis de las observaciones experimentales.
Ejemplo 13.2. Johann Gregor Mendel (1822-1884) h e un religioso y botnico aus
triaco que estudi la herencia y la hibridacin de los vegetales. En uno de sus
experimentos con hibridacin de chcharos (guisantes), de un total de 556 chcharos observ
que haba 315 lisos y amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32
rugosos y
verdes. De acuerdo con su teora de la herencia, estos nmeros deberan presentarse en
la proporcin 9:3:3:1. Con la prueba ji-cuadrada de la bondad de ajuste, averiguar
si hay
evidencia que permita dudar de su teora al nivel de significacin de 0.05.
Solucidn: Los nmeros esperados (frecuencias tericas), de acuerdo con su teora
de la herencia, deberan ser los siguientes:
Tenemos entonces las siguientes cuatro categoras:
Amarillos
Verdes
El valor del estadstico ji-cuadrado de Pearson es aqu:
- ,
Lisos
Observado
Esperado
Al igual que en el ejemplo anterior, es un valor muy prximo a cero, lo cual indi
ca
que sin lugar a dudas el ajuste ser otra vez admirable. En efecto, como hay cuat
ro cateRugosos
9
- x 55 3
16
I
- 3 x 5 5 ~ = 1vr . ~5
16 1 16
ADU= 3r.13
AL AR VL
315
312.75

108
104.25
101
104.25 34.75
3 70 Parte N. Estadstica no paramtrica
goras, se va a contrastar con el valor crtico x&, de la distribucin ji-cuadrada
con 4 - 1
= 3 grados de libertad. A diferencia del ejemplo anterior, aqu se trata de unapob
lacin
multinomial en donde no haba ningn parmetro desconocido. En estos casos, el nmero de grados de libertad es v = k - 1. Con Excel hallamos:
Tambin se puede hallar este valor en una tabla de percentiles de la distribucin ji
cuadrada. Como anticipamos, el valor del estadstico de prueba (0.470) result ser m
enor
que este nmero (y por mucho), as que no hay motivos para rechazar la teora de Mende
l
sobre la base de este experimento; por el contrario, el ajuste entre el modelo t
erico y las
observaciones reales es bastante admirable.
En la figura 13.2 aparece la grfica de la distribucin ji-cuadrada con tres grados
de
libertad, cuya ecuacin matemtica se puede reducir a esta expresin:
7.81
Zona de rechazo
de la hip6tesis H,
Figura 13.2. Distribucin ji-cuadrada con tres grados de libertad.
En resumen: Para ejemplos de aproximacin con modelo de Poisson se deben tomar v = k - 2 grados de libertad, mientras que para ejemplos de poblacin
multinomial se deben tomar v = k -1 grados de libertad (como en el ejemplo
13.2). Aqu k es el nmero de categoras o clases, es decir, el nmero de trminos
en la suma. Cuando ocurra que algunas de las frecuencias esperadas sean menores que 5, se debern agrupar previamente algunas clases (generalmente son las
primeras olas ltimas), como hicimos en el ejemplo 13.1. Proponemos ahora al
Cap. 13. La prueba ji-cuadrada de Pearson 3 7 1
estudiante que intente resolver el siguiente ejercicio por s solo en unas hojas d
e
papel o un cuaderno.
Ejercicio 13.1. En el Aeropuerto Internacional de la Ciudad de Mxico se trata de
averiguar si el flujo de llegadas de aviones por cada intervalo de cinco minutos
se puede
aproximar con un modelo de Poisson. El investigador observ los siguientes datos,
donde c = cantidad de aviones que aterrizaron en un intervalo de cinco minutos. Se
tomaron
128 mediciones aleatorias para este parmetro c.
De manera anloga al ejemplo 13.1, obtenga la media de estos datos para tener el
parmetro p = h en el modelo de Poisson sugerido. Notar que las frecuencias esperad
as
de las primeras dos clases son menores que 5 en cada caso, as que puede agruparla
s en
una sola clase ("O o 1"). Lo mismo ocumr con las ltimas dos clases (9 y 10 o ms),
en
cuyo caso podr agruparlas tambin en una sola clase: "9 o ms". Use a = 0.05. Al apli
car
la prueba de bondad de ajuste de Pearson, debe tomar 9 - 1 - 1 = 7 grados de
libertad.
Despus de resolver el ejercicio, compare con la respuesta que damos a continua
cin,

pero no la mire ahora, por favor.


Respuesta del ejercicio: El estadstico X* de Pearson vale 10.9766. Por otra pa
rte, en
tablas de percentiles de la distribucin ji-cuadrada (al final del libro), hallam
os que x::,,
(con v = 7) tiene el valor de 14.0671. A partir de ese punto y a la derecha es
zona crtica
(zona de rechazo). Como 10.9766 queda a mano izquierda de ese valor, entonces no
se
puede rechazar la hiptesis H,, de un modelo de Poisson para el flujo de llegadas
de aviones por unidad de tiempo en el Aeropuerto Internacional de la Ciudad de Mxico. Si
su
respuesta coincide con todo esto, felicitaciones!
Como la distribucin ji-cuadrada es una distribucin continua, entonces es
posible y deseable introducir una correccin por continuidad, sobre todo cuando las frecuencias observadas y esperadas no son muy numerosas. Esto es anlogo a lo que se hace con la distribucin normal cuando se usa como aproximacin
de la distribucin binomial.
3 72 Parte N. Estadistica no paramCtrica
La wrreccibn de Yates para la continuidad es la siguiente:
k
n2 (corregida) =E (1 0, -4 1 -u2
i = l E,
Esta correccin, ideada por el estadstico ingls Frank Yates (1902-1994), puede considerarse como opcional, aunque se recomienda cuando las frecuencias
observadas y esperadas son menores que 10, pero no menores o iguales a 5, en
cuyo caso es mejor usar otra prueba especial, llamada la prueba de Fisher-Irwin.
Si las frecuencias observadas y esperadas son mayores o iguales a 10, los result
ados obtenidos con la correccin de Yates o sin ella son casi iguales.
Ejemplo 13.3. El gerente de un supermercado quiere averiguar si los clientes ti
enen
preferencia por alguna de las 10 cajas (sin contar la caja rpida) o si todas reci
ben en promedio la misma cantidad de clientes. Para elio, en un da cualquiera realiz un
registro
del nmero de clientes que haban ingresado a cada caja (excepto la caja rpida), con
los
siguientes resultados:
Realizar una prueba de hiptesis con un nivel de significacin de a = 0.05 usando
la correccin de Yates.
SolucMn: En total se registraron 1580 clientes ese da, as que el nmero esperado
de clientes en cada caja (bajo la hiptesis de no preferencia) es de 158. Podemos
calcular
el estadstico X' de Pearson, como en los ejemplos anteriores, o bien podemos us
ar la
correccin de Yates, que es siempre preferible. Veamos:
Como son k = 10 categoras, buscamos el valor crtico (o percentil) de la distribu
cin ji-cuadrada con 10 - 1 = 9 grados de libertad. Obtenemos (con Excel):
Caja
Nm. declientes
La hiptesis de no preferencia se rechazara si la x2 corregida que calcularnos hubiese sido mayor que este nmero, lo cual est muy lejos de ser el caso. Por consigu
iente,
se concluye que no hay, ni remotamente, argumentos para pensar que los clientes
tienen

preferencia por alguna de las cajas del supermercado.


168 145 154 170 150 172
1 2 3 4 5 6 7 8 9 1 0
147 166 159 149
13.4. TAsmDE CONTINGENCIA E INDEPENDENCIA
DE DATOS ASOCIATIVOS
En los ejemplos anteriores, las frecuencias observadas ocupaban una sola
fila y k columnas (o categoras). Ese tipo d e tablas se llaman tablas de 1
x k o
tablas de clasificacin simple. Este concepto se puede generalizar para tablas d
e
b filas y k columnas, las cuales se llaman tablas de clasificacin mltiple o tabla
s
de contingencia En tales casos, el estadstico ji-cuadrado d e Pearson adquiere l
a
siguiente expresin:
Con un nivel de significacin a, se rechazar H, si el valor calculado de este
estadstico excede al valor crtico X: con (b - l)(k - 1) grados d e libertad. Es
to,
naturalmente, en caso de que las frecuencias esperadas puedan calcularse sin necesidad de estimar parmetros poblacionales a partir de los estadsticos d e muestra. Si no fuera ese el caso, esto es, si dichas frecuencias slo pudiesen calcula
rse
estimando m parmetros poblacionales a partir de los estadsticos de muestra,
entonces habra que tomar (h - l)(k - 1) - m grados de libertad.
Las pruebas que se realizan con tablas de contingencia tienen como finalidad
averiguar si hay independencia entre varios atributos. Veamos un caso concreto.
Ejemplo 13.4. En un estudio de mercadotecnia realizado en una universidad, se t
rata de averiguar si el estado ocupacional de una persona (o el gremio al que pert
enece) se
puede asociar con el mayor o menor apego a las marcas de productos que compra. P
ara
ello se realiz una encuesta entre personas al azar, de los tres tipos principales
de ocupacin dentro de la universidad: burcratas, profesores y estudiantes. En total se r
ealiz la
encuesta con 230 personas dentro de la universidad (90 estudiantes, 65 profesore
s y 75
burcratas). Las tres categoras de la encuesta eran: muy apegado (muy leal) a las m
arcas
de productos que compra; moderadamente apegado (ms o menos leal) a las marcas de
productos que compra; y no es apegado a las marcas (o no le importan las marcas
de las
cosas que compra). Se registr la siguiente tabla de contingencia de 3 x 3:
Realizar una prueba con un nivel de significacin de a = 0.01 para ensayar la hipte
sis de independencia entre el estado ocupacional y la caracterstica de apego a la
s marcas
de productos que compran estos tres tipos de personas, sin emplear correccin de Y
ates.
Solucin: Las frecuencias esperadas se obtienen multiplicando las frecuencias rel
ativas observadas de cada caracterstica por los totales de las personas en cada gr
emio. Por
ejemplo, para hallar la frecuencia esperada de estudiantes que son muy apegado
s a las
Oczcpacfdn
Estudiante

Profesor
Burcrata
Totales
-.
Muy
apegada 30
14
34
' 78
Torales
90
65
75
Moderadamente
apegado .
No es
apegado
87 65- / 230
42
20
25
18
3 1
16.
3 74
Parte N. Estadstica no paramtrica
marcas, observamos que 78 de 230 personas fueron muy apegadas a las marcas, as qu
e
78
como probabilidad emprica para esa caracterstica. Multiplicando este tomamos
230
nmero por cada uno de los totales de personas en cada gremio (90,65 y 79, obtene
mos,
respectivamente, 30.5,22.1 y 25.4. De la misma forma, procedemos con las dems car
actersticas, y con los resultados elaboramos la siguiente tabla:
Ahora se procede a calcular el estadstico xZ de Pearson:
Ocupacin
Estudiante
Profesor
Burcrata
Por otra parte, el valor crtico de x:,,,, con (3 - 1) x (3 - 1) = 4 grados de lib
ertad es
precisamente el percentil99 de la distribucin. Con tablas (o con Excel) hallamos
que vale
13.2767. Como el valor calculado para el estadstico de prueba (21.078) est a la de
recha
de este punto, entonces se rechaza la hiptesis de independencia y se concluye qu
e la
ocupacin de las personas dentro de una universidad est asociada de alguna manera a
su
grado de apego o lealtad a las marcas de los productos que compra. Por qu? Misteri
os
de la psicologa laboral, o quiz la explicacin estriba en que los profesores estn
muy
inmersos en su trabajo acadmico y de investigacin, y tienen poco tiempo libre para
algo
que consideran tal vez frvolo.

Ejemplo 13.5. En una fbrica de resistencias para parrillas elctricas, los ob


reros
trabajan en tres turnos (diurno, vespertino y nocturno). El gerente tiene l
a curiosidad
de saber si la cantidad de parrillas defectuosas que salen de la lnea de produccin
est
asociada al horario de trabajo de los obreros o si no depende de ello. Para av
eriguarlo
indic a los obreros de cada turno que pusieran una pequea marca de color distintiv
o a
las parrillas que producan. Al final se obtuvieron los siguientes datos:
1 Diurno 1 Vesbertim / Nocturno t Totales 1
1 Defectuosas 1 45 1 55 1 70 170 1
--. Muy apegado
O
30
' 14
34
Realizar una prueba con un nivel de significacin de a = 0.05 para ensayar la hiptesis de que las parrillas defectuosas de la lnea de produccin son independientes
del
turno de trabajo.
Solucin: Las frecuencias esperadas se calculan de la misma forma que en el ejem950
plo anterior. As, tomamos como probabilidad emprica - = 0.3351 que una parri2835
~ode&ente
apegado
-7- -E
30.5
22.1
25.4
No defectuosas
Totales
O
42
20
25
No es apegado
O T- E- E
34.1
24.5
28.4
18
31
16
905
950
25.4
18.4
21.2
890 1 930 1 2665 1 945 2835
Cap. 13. La prueba ji-cuadrada de Pearson 3 75
iia al azar haya sido producida en el turno diurno. Si multiplicamos este nmero p
or los
respectivos totales de parrillas defectuosas y no defectuosas, obtendremos las f
recuencias
esperadas para el turno diurno, las cuales podemos redondear a un dgito decimal d

espus del punto: 0.3351 x 170 = 57.0, etc. As se obtiene la siguiente tabla compara
tiva de
frecuencias observadas y esperadas:
Tenemos, entonces:
Por otra parte, la distribucin ji-cuadrada con (3 - 1) x (2 - 1) = 2 grados de li
bertad
coincide, casualmente, con la distribucin exponencial cuyo parmetro es h = 'h. El
valor
~ 0 , ~ ~ para este nmero de grados de libertad es 5.33. Como 6.29 > 5.33, se r
echaza la hiptesis de independenaa y se concluye que es muy probable que la cantidad de parrill
as defectuosas tenga que ver con el horario de trabajo de los obreros. La explicacin podra
atribuirse a la mayor fatiga o menor concentracin de las personas en determinados horario
s.
13.5. FORMA MATEMATICA Y GRA~CA DE UNA
D I S ~ ~ B ~ C I ~ N JI-CUADRADA
Diurno N&O
La distribucin ji-cuadrada con dos grados de libertad es una distribucin
gama con parmetro de forma r = 1 y parmetro de escala h = '/z, o distribucin de
Erlang con esos parmetros. Tambin coincide con una distribucin de Weibull con
los mismos parmetros mencionados y, por consiguiente, con una distribucin exponencia1 cuyo parmetro es h = '/2. Es un caso curioso que una misma expresin
matemtica se ajuste a cinco (!) distribuciones famosas diferentes (gama, Erlang,
exponencial, Weibull y ji-cuadrada). Sin duda, es una marca nica en la teora de la
s
distribuciones estadsticas. Su grfica se ilustra en la figura 13.3.
Defectuosas
Nodefectuosas
O
70
870
. Vespertino
Figura 13.3. Distribucin ji-cuadrada con dos grados de libertad.
E
56.3
883.7
55
890
E
56.7
888.3
O i E O
45
905
* 57.0
893.0
George Waddell Snedecor (1 882- 1974). Naci en
Memphis, Tennessee, pero ense estadstica en
lowa. Fue el creador de la metodologa de regresin
mltiple e hizo tambin valiosas aportaciones a
l a teora de correlacin y regresin, as como en el
anlisis de varianza. Junto con R. A. Fisher, cre
la famosa distribucin F de Snedecor-Fisher. Sus
libros ms famosos fueron Analysis of Variance and
Covariance (1 934) y Statistical Methods ( 1 937).
Aleksander Y: Khinchin (1 894- 1959). En 1927,

public algunos trabajos de enorme importancia acerca


de l a ley de los grandes nmeros y sent las bases
matemticas rigurosas de la teora de las probabilidades.
Realiz tambin valiosas contribuciones a la mecnica
estadstica y la teora de nhmeros. Sus dos libros ms & '
re
notables fueron Principios matemticos de [a mecnica
estadstica (1 943) y Fundamentos matemticos de % . *
la estadstica cuntica (1 95 1 ) . Entre sus alumnos
44.w
ms distinguidos se destac B. V. Cnedenko,
quien llegara a ser otro famoso probabilista y
estadstico.
a
L.
Frank Yates (1 902- 1994). Matemtico ingls que
contribuy al desarrollo de mtodos estadsticos
aplicados a la biologa experimental. Fue un entusiasta
impulsor del uso de computadoras en l a estadstica.
La prueba ji-cuadrada de Pearson que se examin en el captulo 13 es, sin
duda, la prueba no paramtrica que goza de mayor popularidad. En este captulo,
expondremos otras pruebas no paramtricas tiles.
Las pruebas estadsticas no pararntricas no requieren de suposiciones acerca de la distribucin de las variables que se manejan, y por lo mismo, son menos
eficientes que las pruebas pararntricas, ya que no utilizan toda la informacin
proporcionada por la muestra. Sin embargo, las pruebas no paramtricas son especialmente tiles cuando no se puede justificar la normalidad de la poblacin, o
cuando las variables de estudio son categricas o cualitativas.
Para ensayar la hiptesis nula y = p,, contra la alternativa adecuada sobre la
base de una muestra aleatoria de tamao n, se sustituye cada valor de la muestra
mayor que p.,, con un signo positivo (+) y cada valor menor que dicho nmero
con un signo negativo (-). Los valores que coincidan con CL, se descartan.
El nmero total de signos positivos es un valor de una variable aleatoria
discreta que tiene distribucin binomial con parmetrop = l/2. Para pruebas de
cola izquierda o de cola derecha, la hiptesis nula se rechazar si el nmero
de signos positivos que se obtiene es perceptiblemente menor o mayor que l/z,
respectivamente.
3 78 Parte /V. Estadstica no paramtrica
Ejemplo 14.1. La calidad de una gasolina se mide por octanaje. El octano (C,H
,$
es el octavo miembro de la familia de hidrocarburos afines conocidos como alcan
os.'
Supngase que se afirma que un nuevo tipo de gasolina tiene en promedio un octanaj
e
de p = 97. Se toman 16 muestras aleatorias de esa gasolina y en cada caso se mid
e en un
laboratorio su octanaje, registrndose los siguientes datos:
Aplicar la prueba de los signos para ensayar la hiptesis nula Ho:{p 1 97) contra
la
alternativa Ha:{p e 971, con un nivel de significacin de a = 0.05.
Solucin: De acuerdo con la regla de los signos, anotamos un signo positivo por
cada valor que exceda a 97 y un signo negativo por cada valor que sea menor que
97. Los
valores que sean iguales a 97 se descartan:
Sea X el nmero de signos positivos (xitos) en un ensayo binomial donde n = 14.
Como slo salieron cuatro signos positivos, la hiptesis nula Ho se rechazar si P( XI
4) e
0.05. Con Excel calculamos rpidamente P(X I 4):
Se obtiene 0.0898 > 0.05. No se puede rechazar la hiptesis nula y se concluye qu
e,

efectivamente, el ndice promedio de octano de ese nuevo tipo de gasolina es por l


o menos 97, tal como se anuncia.
Para un ensayo de hiptesis bilateral H,:{p = CL,), Ha:{p z q,), se emplea la
siguiente regla:
n
- Six< -y el valor calculado 2P(Xlx cuandop = l/2) S a , entonces se recha2
za H,.
- Six> n y e l valor calculado 2P( Xl x cuandop = l/2) I a , entonces se r
echa2
za H,.
Adems, si n > 10, las probabilidades binomiales pueden aproximarse mediante la curva normal, lo cual resulta cmodo si no se tiene computadora a la
mano y los valores de los parmetros usados caen fuera de las tablas binomiales.
'El ndice de octano de una gasolina es una medida de su capaadad antidetonante,
y se obtiene por
comparacin del poder detonante de la gasolina con el de una mezcla de isooctano (
2, 2, 4 trimetilpentano)
y heptano (C,H,,). Al isooctano se le asigna un poder antidetonante de 100 y al
heptano de O. Una gasolina
de 97 octanos, por ejemplo, se comporta en cuanto a su capacidad antidetonante,
como una mezcla que
contiene 97% de isooctano y 3 % de heptano.
Cap. 14. Las pruebas no pararnttricas ms usuales 379
Ejemplo 14.2. La pila recargable de cierto tipo y marca de computadora portt
il
(laptop) debe durar en promedio 1.8 horas trabajando antes de que necesite re
cargarse
de nuevo, pero no se est seguro de si el tiempo es mayor o menor que se. Para aver
iguarlo, se tom una muestra aleatoria de n = 11 laptops nuevas de esa marca y tipo
y se
comprob cunto tiempo (en horas) trabajaron antes de que necesitaran que la pil
a se
tuviera que recargar. Se registraron los siguientes datos:
Realizar un ensayo de hiptesis Ho:{p = 1.81, Ha:{p # 1.81, con a = 0.05, usando
la
prueba de los signos.
Solucin: Empezamos por anotar un signo positivo (+) por cada valor que exceda
1.8, y un signo negativo (-) por cada valor que sea inferior a 1.8, y descartar
aquellos que
sean iguales a 1.8:
Designemos como xito a la ocurrencia de un signo positivo, y sea X la vari
able
binornial que representa el nmero de xitos en n = 10 ensayos de Bernoulli, conp =
l/z.
Observamos que ocurrieron slo tres xitos; luego:
2 P( X 3 cuando* = Y,) = 2 x b ( r , 10, Y,)
M
Esto lo haliamos con Excel usando la sintaxis siguiente:
Se obtiene 0.3438 > 0.05. Entonces, no se puede rechazar la hiptesis Ho:{p = 1.81
,
es decir, los datos observados no pueden usarse de modo significativo (perceptib
le) para
argumentar contra esta hiptesis, a reserva de tomar una nueva muestra (mayor) y r
epetir
el ensayo.
La prueba de los signos tambin puede emplearse para comparar dos con-

juntos de muestras apareadas (o emparejadas), usando un signo positivo (+) por


cada diferencia d, positiva y un signo negativo (-) por cada diferencia di nega
tiva.
Para ilustrarlo, usaremos el ejemplo 11.6 de las vacas lecheras, que se resol
vi
usando la tcnica usual para muestras apareadas.
Ejemplo 14.3. A 15 vacas lecheras se les suministr cierto tipo de alimentacin (die
ta) durante cinco das consecutivos y luego otro tipo de alimentacin durante otros
cinco
das consecutivos, y en cada caso se midi la cantidad de leche (en litros) que se l
es pudo
ordear (redondeada al litro ms cercano):
Ntese que en este caso slo nos interesa el signo de la diferencia, mientras que co
n
la tcnica del captulo 11 se us el signo y adems la magnitud numrica de la diferencia.
Ensayar la hiptesis Ho:{p, - p2 = O} contra la alternativa Ha:{p, - p., > O}, c
on un
nivel de significacin de a = 0.05.
Solucin: El estadstico de prueba es la variable aleatoria biomial X con p = l/z
,
donde X denota el nmero de xitos (signos positivos) en n = 14 intentos. De las ob
servaciones se tienex = 9. Luego:
14
P(X 2 9 cuando P = Y, ) = z b ( x , 14, Y,) = 1- DISTR.BINOM.(8,14,0.5,1)
x =9
Se concluye que no es posible rechazar la hiptesis nula Ho:{p, - CL, = O}, es d
ecir,
es muy probable que sea una mera ilusin la apariencia de que las vacas producen
ms
leche en promedio con la dieta 1. Recurdese que habamos concluido lo mismo usando
la distribucin t de Student y la tcnica usual para muestras apareadas. Sin embargo
, en
aquel clculo se us como hiptesis alternativa Ha:{pl - CL, $ O}, esto es, se trat c
omo
una prueba de dos colas. Podemos hacer tambin aqu un ensayo de dos colas, en cuyo
caso calculamos:
2P(X 2 9 cuandop = l/2) = 2 x 0.212 = 0.412 > 0.05
Entonces con mayor razn se concluye que no es posible rechazar la hiptesis nula
Ho: {p, - p, = O).
En 1945, el qumico y estadstico estadounidense Frank Wdcoxon (18821965), nacido en Irlanda, public una versin mejorada de la prueba de los signos, en la cual s se toma en cuenta la magnitud cuantitativa de las diferencia
s
observadas y no slo los signosaz Esto la convierte en una prueba ms eficiente,
F. Wdcoxon y R. A. Wilcox, Some Rapid Appmrr'vnute Statfstical Procedures,
Pmeedings of the
American Statistical Society, Nueva York, 1945.
Cap. 14. Las pruebas no paramtricas ms usuales 38 1
aunque no tanto como la prueba usual para muestras apareadas que usa la distribucin t de Student, la cual, no obstante, es una prueba paramuica, toda
vez que supone una distribucin normal en la poblacin de donde se toman las
muestras, mientras que la prueba de Wilcoxon no hace tal suposicin, esto es, se
trata de una prueba no paramtrica.
Esta prueba funciona como sigue. Para ensayar la hiptesis nula H,:{y =
po) contra alguna alternativa apropiada, se resta p,, de cada valor muesval y s
e
eliminan todas las diferencias iguales a cero. Las diferencias que quedan se cl

asifican entonces, sin tomar en cuenta los signos, y se les van asignando en forma
consecutiva los nmeros 1,2,3,. . . , etc. Si ocurriese que el valor absoluto de
dos
diferencias fuese el mismo, entonces se asigna a ambas el promedio aritmtico
de los valores que se les habra asignado si hubiesen sido distintas.
La idea de Wilcoxon se basa en que si la hiptesis nula H,:{y = yo) fuese
verdadera, entonces el total de las sumas positivas debera ser aproximadamente
igual al total de las sumas negativas. Dichos totales se representan por w+ y w
-,
respectivamente. Se define adems w = mn {w+, w-1.
De esta manera, la hiptesis nula H,:{p = po) se rechazar a favor de la alternativa p < y, slo si ocurre que w+ es pequea y w- es grande, mientras que la
alternativa y > po se aceptar si w+ es grande y w- es pequea. Para una prueba de
dos colas, se rechazar la hiptesis Ho:{y = yo) en favor de la alternativa Ha:@ #
1.1,) si ambos w+ y w- (por tanto, w = mn {w+, w-)) son pequeos.
Como los trminos "suficientemente pequeo" o "suficientemente grande"
son vagos, se usa la tabla 14.1, elaborada por Wilcoxon y Wilcox, y empleada en
sus estudios con pesticidas en la empresa American Cyanamid Company.
Tabla 14.1. Valores crticos para la prueba de rango con signo de Wdcoxon.*
*Para una tabla ms detallada y extensa, consltese el trabajo de Robert L. McCom
ack,
"Extended 'Cables of the Wdcoxon Matched Pair Signed Rank Statistic", en Jouml
of tbe
American Statistical Asociatim, vol. 60, septiembre de 1965.
En cualquier caso, la hiptesis nula se rechaza slo si el valor calculado de
w+, w O W, segn corresponda, es menor o igual al valor hallado en la tabla 14.
1.
La siguiente tabla indica cul valor hay que escoger en cada caso:
Todo ello se comprender mucho mejor con un ejemplo concreto.
Ejemplo 14.4. Retomemos el primer caso que se examin al principio del capitulo
(ejemplo 14.1 con 16 muestras del ndice de octano de cierto tipo de gasolina).
Recurdese que se tenan las siguientes observaciones:
Cap. 14. Las pruebas no paramtricas ms usuales 383
Ensayar la hiptesis nula H, :{p 2 97) contra la alternativa ~=:{p e 971, usando
un
nivel de significacin de a = 0.05, mediante la prueba de rango con signo de Wilc
oxon.
Solucin: A cada uno de los nmeros se le resta 97, por lo que se obtienen las siguientes diferencias:
Ahora se eliminan las dos diferencias nulas y se ordenan las restantes 14 de men
or
a mayor (sin importar el signo). Debajo de ellas anotamos el respectivo rango
que les
corresponde, de acuerdo con la convencin mencionada:
Luego se suman los rangos (no las diferencias) por separado, de las diferen
cias
negativas y las positivas:
Adems:
w = mn (71.5, 33.5) = 33.5
La hiptesis nula H, :{p 2 97) se rechazara si w+ = 33.5 fuese menor que 26 (ya q
ue
en la tabla aparece el valor crtico 26 cuando n = 14 y a = 0.05 en una prueba uni
lateral).
Por consiguiente, no se puede rechazar H,, y se concluye que el contenido de oct
ano de
esa gasolina s corresponde con el anunciado.
Qu pasa cuando n supera el mayor valor de la tabla, es decir, 30? En tal

caso, tanto la distribucin muestra1 de W+ como la de W se aproximan a una distribucin normal cuya media y varianza son, respectivamente, las siguientes (para
prueba de cola izquierda):
En ese caso se emplea el siguiente estadstico para determinar la regin de
rechazo:
y se compara con las tablas de la distribucin normal estndar. Para prueba de
cola derecha o de ambas colas, slo hay que cambiar W por W o por W, respectivamente.
384
Parte N. Estadstica no paramtrica
Ejemplo 14.5. Supngase que se trata de ensayar cierta hiptesis H,:{p 2 p,} contra
Ha:{p e po}, usando el nivel a = 0.05, para una muestra de n = 45 observaciones
. Al realizar los clculos de rango se obtiene finalmente que w+ = 373. Se debe rechazar o
no la
hiptesis H,?
Solucidn:
El valorp de la prueba es:
Vase la figura 14.1.
Por tanto, no puede rechazarse la hiptesis H,.
NOTA: Si hubisemos usado las tablas extendidas de Roben L. McCornack (vase la
nota de la tabla 14.1 en la pgina 382), para n = 45, a = 0.05 en prueba unilatera
l, habramos hallado la cifra 343. Como w+ = 373 excede este valor, la conclusin habra si
do la
misma: no puede rechazarse la hiptesis H,.
Figura 14.1
14.5. PRUEBA DE RANGO CON SIGNO DE WILCOXON
PARA MUESTRAS APAREADAS
Para muestras apareadas (o emparejadas), la prueba de rango con signo de Wdcoxon es tambin una buena opcin. La tabla siguiente sirve como esquema gua:
Ejemplo 14.6. Un seor es dueo de dos zapateras en distintos rumbos de una misma ciudad y tiene curiosidad en averiguar si en alguna de ellas vende, en promed
io, ms
pares de zapatos o si en ambas vende aproximadamente lo mismo. Para ello compar l
as
ventas de 16 das elegidos al azar:
&ra ensayar H,
P, 2 Cl,
P, 5 P2
P$= P2
Con la prueba de rango con signo de Wilcoxon para muestras apareadas, con un
nivel de significacin de a = 0.05, ensayar la hiptesis nula de que ambas zapateras
venden en promedio el mismo nmero de pares de zapatos, contra la alternativa de que
las
ventas difieren.
Solucin: Primero hay que tabular las diferencias y sus respectivos rangos con sig
no:
Luego se suman, por separado, los rangos correspondientes a diferencias positiva
s
y diferencias negativas:
Contra Ha
CLi < P2
Pl ' P2
Y *P2
w = G + 12 + 8.5 = 26.5
w+= 3+12+6+10+15.5+15.5+1+8.5+12+3+G+14+3=109.5
w = mn (26.5, 109.5) = 26.5

Se calcula
A
W
386 Parte N. Estadstica no paramtrica
Finalmente, con a = 0.05 para una prueba bilateral en la que n = 16, hallamos en
la
tabla el valor crtico 30. Como 26 c 30, se rechaza H,, y se concluye que la venta
en ambas
zapateras difiere. Ntese que con el mismo nivel de significacin tambin se rechazara
H,, si la hiptesis alternativa fuese p, > p, (lo cual se sugiere por la gran ca
ntidad de diferencias positivas). En efecto, en tal caso el valor crtico de la tabla sera 36 qu
e tambin es
mayor que el valor calculado para w-.
Hay dos pruebas no paramtricas usuales basadas en la suma de rangos.
Una de ellas es la llamada prueba de Mann-Wbitney-Wlcoxon de la s u m de
rangos, tambin llamadaprueba Ude Mann o, sencillamente,prueba U. La otra
prueba es la llarnadaprueba H (tambin llamada prueba H de Kwkal-Wallis),
que se expondr en la seccin siguiente. Henry Berthold Mann (1905-2000) fue
un destacado matemtico austriaco que emigr a Estados Unidos en 1938. Uno
de sus discpulos fue Donald Ransom Whitney
La prueba Ues una prueba de comparacin para medias de dos poblaciones.
Se selecciona una muestra aleatoria de cada una de las dos poblaciones, denotando por n, y n,, respectivamente, al nmero de observaciones de la muestra menor
y de la muestra mayor. Si ambas muestras fuesen del mismo tamao, pueden asignarse libremente las etiquetas n, y n?. Luego se ordenan todas las n, + n, obs
ervaciones combinadas (en orden creciente) y se sustituye un valor de la sucesin
de nmeros 1,2, . . . , n, + n, para cada observacin. Al igual que en la prueba
de
rango con signo, si hubiese dos observaciones iguales, el rango que les tocara a
ambas sera el promedio aritmtico de los nmeros que seran si fuesen distintas.
Dentese por rl y r,, respectivamente, a la suma de los rangos correspondientes a las n, y n, observaciones de las muestras pequea y grande. Como sabemos
que la suma de los primeros k nmeros enteros positivos es k(k + 1)D, entonces:
ri + r2 =
(n, + n3 (n, + n2 + 1)
2
Resulta claro que si se eligen distintas muestras de tamaos n, y n,, respectivamente, de las poblaciones dadas, se espera que r, y r, varen. Por tanto,
las
podemos considerar como valores especficos de las variables aleatorias R, y R,,
respectivamente.
Para una prueba de cola izquierda Ho:{p 2 CL,) contra Ha:{p < po), se rechazara la hiptesis nula si r, fuese pequeo y r, fuese grande. Para una prueba de
cola derecha Ho:{p I pO} contra Ha:{p > p,,), se rechazara Ho si r, fuese gra
nde y
r2 fuese pequeo. Por ltimo, para una prueba de dos colas, se rechazara Ho si
cualquiera de r, o r, fuese grande y el otro pequeo.
En consecuencia, se introducen los estadsticos de prueba U,, U, y U= mn
{U,, U,), cuyos valores se calculan en la prctica de la manera siguiente:
Cap. 14. las pruebas no parametricas ms usuales 387
El esquema para esta prueba es el siguiente:
La hiptesis nula ser rechazada si el estadstico de prueba correspondiente
toma un valor menor o igual al tabulado.
En las tablas 14.2 a 14.5 transcribimos tablas de valores crticos correspon-

dientes a la prueba U de Mann. Se encuentran tablas ms detalladas y extensas


en D. Auble, "Extended Tables for the Mann-Whitney Statistic", en Bulletin of tb
e
Institute of Eucational Researcb at Indiana University, vol. 1, nm. 2,1953.
~ ~ m a y a i - ~ , ,
Pi 2 P2
P, 5 P,
P1 = P2
Tabla 14.2. Prueba unilateral para a = 0.001; prueba bilateral para a = 0.002.
contra Y 1 Se calcula
Pr < w 2
Pl ' P2
Pl " ri.2
u2
u
388
Tabla 14.3. Prueba unilateral para a = 0.01; prueba bilateral para a = 0.02.
Tabla 14.4. Pmeba unilateral para a = 0.025; pmeba bilateral para a = 0.05.
Tabla 14.5. Prueba unilateral para a = 0.05; prueba bilateral para a = 0.10. .
390 Parte N: Estadstica no paramtrica
Ejemplo 14.7. Un negocio de comida rpida tiene dos empleadas A y B, que atienden los pedidos de los clientes. El tiempo de atencin a un cliente raramente reb
asa los
cinco minutos. Para averiguar si en promedio ambas empleadas se tardan lo mismo
o no,
se registraron los siguientes tiempos en minutos:
Para simplificar la tarea de sumar rangos, slo se suman los rangos de la muestra
menor (r, = 93), y los de la muestra mayor se calculan as:
Realizar una prueba de hiptesis, con un nivel de significacin de a = 0.05, pa
ra
ensayar la hiptesis H,: { p = po) contra Ha: {p f p,) .
Solucin: Se tiene:
Entonces:
u = mn (57,231 = 23
Ahora buscamos en la tabla la regin de rechazo (regin critica). Para n, = 8, n, =
10,
en una prueba bilateral con a = 0.05, hallamos el valor crtico 17. La hiptesis nul
a H,:{p =
po} se rechazara slo si el valor calculado para u hubiese sido I 17, lo cual no es
el caso.
Por tanto, no se puede rechazarti, y se concluye que no hay diferencia perceptib
le entre
los tiempos promedio que hacen las dos empleadas para atender a los clientes. Ob
srvese
que tampoco se podra haber rechazado la hiptesis con un nivel de significacin mayor
,
digamos a = 0.10 (lo cual significara admitir una mayor probabilidad de equivo
carse al
rechazar la hiptesis cuando sta fuese cierta), toda vez que en la tabla habramos ha
llado
el valor 20, que todava es mayor que 23.
Cap. 14. las pruebas no paramtricas ms usuales 39 1
Si n, y n, son mayores a los valores que aparecen en la tabla, entonces la
distribucin muestral de cualquiera de los estadsticos U,, U, y U se apega a la di
stribucin normal. Por ejemplo, la distribucin muestral para el estadstico U, sera
normal con los siguientes parmetros (media y varianza):

En tal caso, se emplea el estadstico de prueba:


y se realiza el contraste con valores crticos de la distribucin normal estndar.
La prueba no paramtrica de Kruskal-Wallis (prueba H) se usa para comprobar si un grupo de muestras independientes procede o no de la misma poblacin. En cierto modo, es una versin no paramtrica del anlisis de varianza
en una direccin (ANOVA) y puede considerarse como una generalizacin de la
prueba U de Mann-Whitney.
La prueba Hs e emplea para ensayar la hiptesis nula H, de que k muestras
independientes (k > 2) provienen de la misma poblacin o de poblaciones con
idntica media. Tiene la ventaja de que se evita la suposicin de que las muestras
se seleccionaron de poblaciones normales.
Esta prueba fue introducida en 1952 por los economistas William H. Kruskal
(de la Universidad de Chicago) y W Allen Wallis (de la Universidad de Rochester,
Nueva York) .
La prueba H funciona de la siguiente manera. Se tienen n observaciones (o
datos) provenientes de k muestras, en donde se usa el smbolo ni para denotar
el nmero de datos en la i-sima muestra. Luego se ordenan en forma creciente
todas las n = n, + n2 + + n, observaciones (aqu puede hacerse en forma decreciente tambin), etiquetando cada observacin con el nmero natural correspondiente: 1, 2, 3, . . . , n. Como en las pruebas descritas anteriormente,
en caso
de empates entre dos o ms observaciones, se les asigna a cada una el promedio
aritmtico de los nmeros que les tocaran si fuesen diferentes. Luego se denota
por R, a la suma de los valores (rangos) correspondientes a las ni observacion
es
de la i-sima muestra.
Se usa el siguiente estadstico de prueba:
392 Parte N. Estadstica no paramtrica
el cual tiende a una distribucin ji-cuadrada con v = k - 1 grados de libertad
en el caso de que H, sea verdadera, suponiendo que todas las n, 2 5. En la expresin 1, las letras maysculas denotan variables aleatorias (en general), as
que para valores especficos de dichas variables se usan las mismas letras, pero
minsculas. As, se emplea el siguiente estadstico de prueba:
Si el valor de este estadstico es mayor que el valor crtico ~ 2 , con v = k - 1
grados de libertad, entonces se rechaza la hiptesis nula H,, de que las muestras
provienen de poblaciones con medias iguales. Recurdese que, con Fkcel, el valor crtico ~ 2 , se calcula con la siguiente sintaxis:
La figura 14.2 ilustra la zona de rechazo.
Figura 14.2. Distribucin x2 con k - I grados de libertad.
Ejemplo 14.8. Los estudiantes de tercer ao de preparatoria (60. ao de bachillerato) de una escuela tcnica se dividen en tres reas, dependiendo de las profe
siones
que tengan en mente estudiar: rea qumico-biolgica (QB), rea fsico-matemtica (FM)
y rea econmico-administrativa (EA). Se quiere averiguar si los estudiantes de la
s tres
reas tienen ms o menos la misma habilidad para ortografa y redaccin o difieren en
ella. Para ello, se escogieron al azar 21 estudiantes (7 del rea QB, 8 del rea FM
y 6 del
Cap. 14. Las pruebas no paramitricas ms usuales 393
rea EA) y se les aplic un examen bsico y sencillo sobre temas de redaccin y ortogra
fa,
con los siguientes resultados (en escala del O al 100) [datos publicados por
Stockton and
Clark, 19801 :
Aplicar la prueba H de Kruskal-Wallis para ensayar la hiptesis nula de que no ha

y
diferencia significativa (perceptible) entre los estudiantes de cada una de las
tres reas en
cuanto a su habilidad promedio para la ortografa y la redaccin. Usar un nivel de s
ignificacin de a = 0.05.
Solucin: A primera vista parece que los estudiantes del rea fsico-matemtica salieron mejor (en trminos generales) en el examen, pero podra ser slo una ilusin o
una casualidad? Veamos:
Entonces se calcula la suma:
Por consiguiente:
394
Parte IV. Estadstica no paramtrica
Como el nmero de categoras es k = 3, comparamos este dato con el valor critico
de la distribucin ji-cuadrada con k - 1 = 2 grados de libertad, el cual es:
Obviamente, 8.52 queda a la derecha de este valor critico, es decir, queda en zo
na
de rechazo. Por tanto, se rechaza la hiptesis y se concluye que, en trminos genera
les, los
estudiantes de las tres reas tienen diferente habilidad para la ortografa y la red
accin.
Esta prueba no paramtrica se basa en el orden en que se van obteniendo
las observaciones muestrales para datos dicotmicos (dos muestras independientes). Puede usarse para datos categricos o para datos cuantitativos.
En este caso, se define la variable aleatoria V, que representa el nmero
total de rachas que ocurren en la sucesin completa de los datos observados. Los
contrastes de valores calculados se hacen cotejando unas tablas especiales (tabl
as
14.6, 14.7, 14.8, 14.9 y 14.10). Dichas tablas fueron elaboradas por C. Eisenha
rt
y F. Swed, y publicadas en la revista Annals of Mathematical Statistics, vol.
14,
1943, en un artculo cuyo ttulo es "Tables for Testing Randomness of Groupings
in a Sequence of Alternatives".
Tenemos una sucesin de dos smbolos en donde pueden ocurrir algunas rachas de uno u otro smbolo. Denotamos por n, al nmero de smbolos
asociados con la categora que tiene la menor frecuencia observada y por n, al
nmero de smbolos asociados con la otra categora. Por ejemplo, en una lnea
de produccin de artculos de plstico hechos con molde, dentese por D al
artculo defectuoso y por N al no defectuoso. Supongamos que 12 artculos
consecutivos salen de la lnea de produccin en el siguiente orden:
Entonces, observarnos la ocurrencia de v = 5 rachas, donde n, = 5, n, = 7.
Sea Ho la hiptesis nula de que los artculos defectuosos y no defectuosos
aparecen de manera aleatoria.
Para una prueba bilateral, la regin crtica (rechazo de H,) ocurre cuando:
R = 2P(V 5 v, cuando Ho es cierta) 5 a
Para una prueba unilateral, la regin crtica (rechazo de Ha ocurre si:
R = P(V5 v, cuando H, es cierta) 5 a
Por ejemplo, en la tabla 14.9 se observa que para n, = 5, n, = 7, v = 5 aparece
el nmero 0.197. Por tanto, para una prueba con a = 0.05, se tiene R = 0.197 >
0.05, as que no existe evidencia para rechazar la hiptesis de aleatoriedad en la
muestra observada.
Tablas de valores crticos P(VI V, cuando H,, es cierta)
Tabla 14.6
Tabla 14.7
Tabla 14.8
Tabla 14.10
Ejemplo 14.9. Durante 15 lunes consecutivos (de 2002) se cotej la paridad
del

peso mexicano frente al dlar estadounidense (precio de compra), con los sigui
entes
registros (redondeados al centavo ms cercano): 9.60,9.90, 10.10,9.60, 9.80,9.70,9
.40,
10.00, 9.95, 10.10, 9.90, 10.00, 9.80, 10.20 y 10.10. Aplicar la prueba de las
rachas para
averiguar si hay razones para suponer que la fluctuacin (o variacin) semana
l de la
paridad peso mexicano vs. dlar estadounidense puede considerarse como alea
toria.
Tome a = 0.05.
Solucin: La hiptesis nula H, es que la fluctuacin semanal es aleatoria; la hiptesis alternativa es que la fluctuacin semanal no es aleatoria (prueba bilateral).
La mediana
de los datos es 9.90. Ahora vamos a remplazar cada dato superior a este promedio
con un
signo positivo (+) y cada dato inferior con un signo negativo (-), omitiendo aqu
ellos valores que por casualidad coincidan con la mediana (9.90). Tenemos entonces la si
guiente
sucesin:
Como n, = 6, n, = 7, v = 6 (porque son seis rachas, sin considerar los huecos),
hallamos en la tabla 14.9 el valor crtico 0.296. Luego:
R = 2P(VI v, cuando H,, es cierta) = 2 x 0.296 = 0.592 > 0.05
En consecuencia, no se rechaza la hiptesis de que la fluctuacin semanal del peso
mexicano frente al dlar estadounidense es aleatoria, al menos durante ese periodo
observado.
Cuando n, y n, exceden los valores de la tabla, se puede aproximar la distribucin muestra1 de V usando la distribucin normal con los siguientes parmetros (media y varianza):
2nlnz +1; a:=
2n1n2(2n1n2 - n, - n,)
CLv =
n, + n2 (n, + n2>2(nl + n2 - 1)
398 Parte N. Estadstica no paramtrica
En cuyo caso se coteja el estadstico de prueba:
con los valores crticos de la distribucin normal estndar.
La prueba d e las rachas tambin puede usarse para el caso d e muestras apareadas, como alternativa a la prueba U d e Mann-Whitney.
Ejemplo 14.10. Supngase que en un laboratorio de medicamentos quieren poner
a prueba una variante del mesilato de Imatinib (Glivec) para inhibir la
produccin de
una protena, con lo cual se espera prolongar la vida en pacientes que padecen leu
cemia
aguda linfoblstica de grado avanzado. Se escogieron al azar nueve pacientes con e
sa enfermedad en grado avanzado, a quienes se pronosticaban muy pocos aos de vida, qui
zs
uno o dos. Slo a cinco de ellos se les trat con el medicamento. Transcurridos cinc
o aos
despus del estudio, los nueve pacientes haban fallecido. Sus tiempos de superviven
cia
fueron los siguientes (en aos):
Aplicar la prueba de las rachas para determinar si el tratamiento mdico result de
alguna utilidad.
Solucin: Ordenamos de manera creciente las nueve observaciones, etiquetando
cada observacin con una C o una S, segn haya recibido el tratamiento con ese suero
o

no, respectivamente:
Con eltratamiento
Sin el tratamiento
Tenemos entonces v = 6 rachas, n, = 4, n, = 5. Se trata de una prueba unilatera
l, ya
que slo nos interesa comprobar si los pacientes que no tuvieron el tratamiento de
scrito
viven menos que los otros. Hallamos en la tabla que:
2.1
1.9
R = P( V 2 v, cuando H, es cierta) = 0.786
0.5
el cual es un valor muy grande, mucho mayor que cualquier nivel de significacin r
azonable, en particular, es mayor que 0.05. As, no se puede rechazar la hiptesis de ig
ualdad
de medias (lo cual sera implicado por la aleatoriedad de las rachas). En consecue
ncia, se
infiere que el tratamiento no ha mostrado ninguna utilidad perceptible para prol
ongar la
vida de los enfermos. Desde luego, la prueba puede repetirse con una mayor mue
stra,
aunque siempre est el inconveniente de que es una prueba que tomar varios aos para
realizarse en humanos.
2.1
S C C S C S S C C
5.3
0.5
0.9
1.4
2.8
4.6
3.1
2.8
0.9
1.4 1.9 3.1 4.6 5.3
/+ - Calyampudi Radhakrishnan Rao (n. 1 920). Notable
-.
matemtico hind contemporneo. Obtuvo su
*w--=
doctorado en Cambridge, Inglaterra donde trabaj
9 ""a
junto con sir Ronald A. Fisher. La mayora de sus
"Ls,
trabajos se refieren a temas de inferencia estadstica
avanzada. Ha recibido 19 doctorados honorarios en
universidades de todo el mundo. Su trabajo en anlisis
multivariado ha tenido un impacto significativo en
aplicaciones para el diagnstico mdico, la gentica
evolutiva y la teora de deteccin de seales. En el ao
2002 recibi la Medalla Nacional de Ciencia en EUA.
John Wilder Tukey (n. 19 15). Uno de los ms
distinguidos estadsticos contemporneos. Naci en
New Bedford, Massachusetts, EUA. En 1937 obtuvo
su doctorado en matemticas por la Universidad de
Princeton. Originalmente se dedic a la topologa
y luego a la estadstica. Fue profesor en Princeton
durante muchos aos y ha dejado un legado valioso
en l a estadstica matemtica.

En el siguiente cuadro, anote sus respuestas con lpiz suave. Los procedimientos y
operaciones los puede anotar en hojas separadas.
1. Los siguientes datos representan el nmero de horas de entrenamiento de vuelo
recibido por 18 estudiantes para piloto aviador de un cierto instructor, antes de q
ue pilotearan un avin sin ayuda:
400
Parte N. Estadistica no paramtrica
Use la prueba de los signos, con un nivel de significacin de a = 0.02, para ensay
ar la
hiptesis de que, en promedio, los estudiantes aprenden a pilotear sin ayuda del i
nstructor despus de 12 horas de entrenamiento.
a) P = 0.5456, no se rechaza H,
b) P = 0.4544, no se rechaza H,
C) P = 0.4544, se rechaza H,
d) P = 0.5456, se rechaza H,.
2. Un fabricante de pinturas sostiene que un nuevo aditivo reducir el tiempo de
secado
de su pintura acrlica. Para ensayar esa afirmacin, se pintaron 12 paneles de mader
a,
la mitad de cada uno de ellos con pintura que contena un aditivo normal y la
otra
mitad con pintura que contena el nuevo aditivo. Los tiempos de secado (en horas
)
registrados fueron los siguientes:
Aplique la prueba de los signos, con un nivel de significacin de a = 0.05, para e
nsayar
la hiptesis nula de que el aditivo nuevo no es mejor que el aditivo normal en lo
que
respecta a la reduccin de los tiempos de secado de ese tipo de pintura.
a) P = 0.0547, no se rechaza H,
b) P = 0.0457, no se rechaza H,
C) P = 0.0457, se rechaza H,
d) P = 0.0547, se rechaza H,.
Panel
Aditivonuevo
Aditivonomial
3. En un experimento sobre la contaminacin del aire, se compararon dos tipos de
dispositivos (A y B) para medir la cantidad de monxido de azufre en la atmsfera. L
as
siguientes lecturas corresponden a 14 das elegidos al azar:
Usando la aproximacin normal a la distribucin binomial, efecte la prueba de l
os
signos para determinar si los dos dispositivos producen resultados perceptibl
emente
distintos. Utilice un nivel de significacin de a = 0.05.
6.5
6.5
6.4
6.6
6
7.8
8.4
a) P = 0.0160, no se rechaza H,
b) P = 0.0262, no se rechaza H,
C) P = 0.0160, se rechaza H,

d) P = 0.0262, se rechaza H,.


4. Los siguientes datos representan el tiempo (en minutos) que tuvo que espera
r un paciente en 12 visitas al consultorio de una mdica antes de ser atendido:
1 2
5.8
5.8
7
8.6
8.8
3
7.4
7.8
8.2
8.4
4 5
5.5
5.7
7.0
7.3
6.3
6.0
8 9 1 0 1 1 1 2
4.9
5.8
5.9
5.8
Cap. 14. Las pruebas no pararnitricas ms usuales
46 1
Aplique la prueba de rango con signo de Wilcoxon, coti un nivel de significacin
de
a = 0.05, para poner a prueba la afirmacin de la mdica en el sentido de que, en pr
omedio, sus pacientes no esperan ms de 20 minutos antes de ser atehdidos.
a) w- = 14.5, no se rechaza H,
b) w- = 12.5, no se rechaza H,
c) w = 12.5, se rechaza H,
d) w = 14.5, se rechaza Ho.
5. Los pesos de cinco personas (en kilogramos) antes de que dejasen de fumar y
cinco
semanas despus de que dejaron de fumar son los siguientes:
Utilice la prueba de rango con signo de Wilcoxon para muestras apareadas, con u
n
nivel de significacin a = 0.05, para ensayar la afirmacin de que fumar no tiene ef
ecto
perceptible en el peso de una persona, contra la alternativa de que el peso de u
n individuo se incrementa si abandona el hbito de fumar:
a) w+ = 4.5, no se rechaza H,
b) w+ = 3.5, no se rechaza Ho
C) W+ = 3.5, se rechaza H,
d) w+ = 4.5, se rechaza H,.
6. Los siguientes datos muestran los goles anotados por el equipo de futbol P
umas de la
UNAM como local y como visitante, durante 20 temporadas de juegos regulaies (s
in
contar las liguillas) en el futbol de primera divisin de Mxico:
Mediante la prueba de Wilcoxon, con un nivel de significacin de a = 0.01, detemin
e
si, en promedio, el nmero de goles que anotan los Pumas de la UNAM son los mismos

402
Parte N. Estadstica no pararntrica
como local que como visitante, contra la alternativa de que, en promedio, anotan
ms
goles cuando juegan en su propio estadio de Ciudad Universitaria.
a) z = 2.60, no se rechaza Ho
b) z = 2.80, no se rechaza Ho
C) z = 2.60, se rechaza Ho
d) z = 2.80, se rechaza Ho.
7. Un seor desea averiguar si su esposa se demora ms tiempo en el telfono cuando e
lla
hace la llamada que cuando la recibe. Sin que ella lo supiera, midi al azar el t
iempo
(en minutos y redondeando al minuto ms cercano) de nueve conversaciones telefnicas que sostuvo su esposa, de las cuales cinco fueron hechas por ella y las otra
s cuatro
fueron llamadas que ella recibi:
Aplique la prueba U de Mann-Whitney, con un nivel de significacin de a = 0.05, pa
ra
determinar si hacer o recibir la llamada telefnica tiene alguna influencia percep
tible
en la duracin promedio de la conversacin que la esposa sostendr.
a) u, = 8, no hay diferencia
b) u, = 8, s hay diferencia
c) u, = 6, no hay diferencia
d) u, = 6, s hay diferencia.
8. Se analiz el contenido de nicotina en cuatro marcas de cigarrillos en muestra
s aleatorias. Los siguientes nmeros muestran los miligramos de nicotina hallados en los
16
cigarrillos que fueron sometidos a anlisis qumico de laboratorio:
Mediante la prueba H de Kruskal-Wallis para anlisis de varianza (ANOVA), con un
nivel de significacin de a = 0.05, averige si hay diferencia perceptible en el con
tenido promedio de nicotina de las cuatro marcas de cigarrillos.
Marca A
14
10
11
13
a) h = 10.27, no hay diferencia
b) h = 10.27, s hay diferencia
c) h = 11.27, s hay diferencia
d) h = 1 1.27, no hay diferencia.
9. Se utilizaron cuatro laboratorios (A, B, C y D) para realizar unos anlis
is qumicos.
Se enviaron a los laboratorios muestras del mismo material para ser analizadas c
omo
parte de un estudio cuya finalidad es averiguar si esos laboratorios proporciona
n o no,
Marca D
17
20
19
21
1
Marca B
16
18

14
15
Marca C
16
15
14
12
Cap. 14. Las pruebas no paramktricas ms usuales
403
en promedio, los mismos resultados. Los datos que se obtuvieron despues del estu
dio
fueron los siguientes:
Con un nivel de significacin de a = 0.05, utilice la prueba H de Kruskal-Wallis
para
anlisis de varianza (ANOVA), y determine si hay diferencia perceptible entre
los
resultados que proporcionan esos laboratorios.
hbw&
a) h = 12.83, no hay diferencia
b) h = 10.08, s hay diferencia
C) h = 10.08, no hay diferencia
d) h = 12.83, s hay diferencia.
58.7
61.4
60.9
59.1
58.2
10. En una calle de la Ciudad de Mxico, una encuestadora entrevist al azar a 15
adultos que estaban haciendo cola para entrar a un cine, y en cada caso, les pregu
nt si
estaban en general satisfechos o no con el trabajo que hacan los polticos del p
as.
La encuestadora anot un tache (8) para respuesta negativa y una paloma (J)
para
respuesta afirmativa, y obtuvo la siguiente sucesin de signos:
Con la prueba de rachas de Wald-Wolfowitz, con un nivel de significacin de a = 0.
01,
determine si la sucesin de signos obtenida por la encuestadora resiste la afirmac
in de
que la muestra fue seleccionada en forma aleatoria.
A B C D
62.7
64.5
63.1
59.2
60.3
a) P = 0.810, muestra no aleatoria
b) P = 0.810, muestra aleatoria
C) P = 0.910, muestra no aleatoria
d) P = 0.910, muestra aleatoria.
11. Mediante un proceso de bao de plata se ha recubierto cierto tipo de bandeja.
Cuando
el proceso est bajo control, el grosor del recubrimiento en las bandejas vara de m
anera
aleatoria, siguiendo una distribucin normal, con una media de 0.02 mm y una desvi
acin estndar de 0.005 mm. Suponga que se examinaron 12 bandejas, en las cuales se
encontraron los siguientes grosores en recubrimiento de plata (en milmetros): 0.
019,

0.021, 0.020, 0.019, 0.020, 0.018, 0.023, 0.021, 0.024, 0.022, 0.023, 0.022. Apl
ique la
prueba de rachas de Wald-Wolfowitz, con un nivel de significacin de a = 0.05, pa
ra
determinar si las fluctuaciones en el grosor del recubrimiento de plata de una b
andeja a
otra son aleatorias.
55.9
56.1
57.3
55.2
58.1
60.7
60.3
60.9
51.4
62.3
404
Parte N. Gtadstica no paramtrica
a) P = 0.082, muestra no aleatoria
b) P = 0.082, muestra aleatoria
c) P = 0.016, muestra no aleatoria
d) P = 0.016, muestra aleatoria.
12. El gerente de una sucursal bancaria observ el tiempo (en minutos) que dem
oraban
dos cajeras en atender al cliente en turno desde el instante en que este llega
ba a la
ventanilla, con los siguientes resultados:
Utilice la prueba de rachas de Wald-Wolfowitz, con un nivel de significacin de a
=
0.01, para averiguar si hay una diferencia perceptible en el tiempo promedio qu
e demoran ambas cajeras en atender a los clientes.
a) P = 0.044, s hay diferencia
b) P = 0.044, no hay diferencia
C) P = 0.024, no hay diferencia
d) P = 0.024, s hay diferencia.
13. En una lnea industrial de produccin, se inspeccionan peridicamente las piezas.
La
siguiente es una sucesin de piezas defectuosas (D) y no defectuosas (N) produ
cidas
por la lnea:
D D N N N D N N D D N N N N
N D D D N N D N N N N D N D
Use la prueba de rachas de Wald-Wolfowitz para muestras grandes, con un niv
el de
significacin de a = 0.05, para determinar si las piezas defectuosas estn apareci
endo
de manera aleatoria o no.
a) z = -0.55, las piezas defectuosas aparecen de manera aleatoria
b) z = -0.55, las piezas defectuosas no aparecen de manera aleatoria
C) z = 0.45, las piezas defectuosas aparecen de manera aleatoria
d) z = 0.45, las piezas defectuosas no aparecen de manera aleatoria.
distribu ci 11
Esta importante distribucin fue propuesta y desarrollada por el fsico
Waloddi Weibull (oriundo de Lund, Suecia) en 1939 y fue perfeccionada por l
mismo y por el famoso probabilista ruso Boris Gnedenko en los aos cincuenta
del siglo m. Es tambin una generalizacin de la exponencial, pero desde otra
perspectiva matemtica. La variable aleatoriax tiene distribucin de Weibull, si su
funcin de densidad de probabilidad est dada por:

[rhrXr-l ~ [ - ( L X ) ~ I si x 2 O.
w(x, r, h) =
en otra parte.
Una manera ms fcil de recordar esta expresin consiste en introducir la
variable intermedia u definida as: u = u(x) = @)', porque entonces u' = rhljlP1
.
De este modo, la funcin de densidad (parax 2 O) se expresa en forma ms concisa como e" - u'. Por otra parte, si r = 1, la distribucin de Weibull se red
uce
a la distribucin exponencial con parmetro de escala h. La figura 15.1 ilustra la
forma que adopta la curva de una distribucin de Weibull, para algunos valores
escogidos de sus parmetros r y h.
El valor esperado y la varianza de la variable aleatoria con distribucin de
Weibull estn dados, respectivamente, por:
i 1.4.h = 1 en todas las curvas
F
1
i
1
I
Figura 15.1
La distribucin de Weibull tiene importantes aplicaciones en la teora de
confiabilidad, durabilidad y control de calidad, por lo que se introducen las s
iguientes funciones asociadas:
- La funcin de supervivencia (confiabilidad) en la distribucin de Weibull
S(x) > O se define como:
- La funn riesgo de falla (o rapidez de fa) en la distribucin de Weibull
se denota por h(x) o tambin por Z(x), y est dada por:
- El riesgo acumulado de faiia se expresa mediante la integral (o antiderivada) de la funcin anterior:
Con estas definiciones en mano, la funcin de densidad de probabilidad para
la variable aleatoria continua con distribucin de Weibull puede redefinirse as:
{"y(x) si x 2 O.
w (x) =
en otra parte.
Cap. 15. la distribucin de Weibull y otras
409
El lector no tendr ninguna dificultad en comprobar que en la distribucin
de Weibull se verifica:
1. O < r < 1 * h(x) es decreciente H "(x) < 0.
2. r = 1 h(x) es constante a H"(x) = 0.
3. r > 1 a h(x) es creciente a H "(x) > 0.
La distribucin acumulada de probabilidad en la distribucin de Weibull
est dada por:
En funcin de los parmetros h y r, se tendra:
W(x) = 1 - exp [-( hx)' ]
La mediana para la distribucin de Weibull se calcula mediante:
.
En general, el cuantil de ordenp, es decir, el valorxp tal que W-'(x,) =p, es
xp =
1
- [-ln(1 -p)]lh. En especial, me =x,,, .
h
La moda para la distribucin de Weibull es:
De todo lo anterior, se deducen muchas relaciones interesantes; por ejemplo: H(x) = -1n S(x).
En general, si X es el tiempo de duracin de vida de algn artefacto o dispositivo electrnico o mecnico, o incluso de un ser viviente, bajo condiciones

normales, dicha variable aleatoria debe seguir una distribucin de Weibull. De ah


su importancia en teora de confiabilidad y control de calidad.
Ejemplo 15.1. La vida til en aos del mecanismo de una aspiradora de ci
erta
marca y utilizada de manera racional tiene una distribucin de Weibull con parmet
ros
5 1
v = - y h = - . Determinar:
2 4
a) El tiempo ms probable de duracin sin fallar (moda).
6) El promedio de duracin sin fallar (media).
c) El tiempo a partir del cual est 50 % de las aspiradoras que operan ms tiempo
sin fallar (mediana).
4 10
Parte V. Otras distribuciones notables
Proporcionar las repuestas en aos y das.
Solucin:
a) m. = 3.26077 aos = 3 aos y 95 das.
6) p = 3.54904 aos = 3 aos y 200 das (se us la tabla de valores de la funcin
gama).
c) me = 3.45454 aos = 3 aos y 166 das.
Ejemplo 15.2. Con referencia al ejemplo anterior, calcular:
a) La probabilidad de que la aspiradora dure ms de cuatro aos sin fallar.
b) La desviacin tpica del tiempo que dura la aspiradora sin fallar.
c) El noveno decil, esto es, el tiempo por encima del cual est 10% de las aspir
adoras que ms duran sin fallar.
Solucin :
l
a) S(4) = exp(-1) = - = 0.3679.
e
b) o = 0.75933 aos (se us6 la tabla de valores de la funcin gama).
6) Dg = 5.58401 aos - 5 aos y 213 das.
Ejemplo 15.3. Rapidez de falla. Si T es una variable aleatoria continua que
representa el tiempo de vida til de algn artefacto o dispositivo, con funcin de densida
d de
probabilidad f (t), entonces el ndice de falla, o rapidez de falla, se define com
o Z(t) =
f (t)
. Demostrar que si la f.d.p. de T es Weibull w(x, r, h), entonces Z(t) =
h(t) =
1 - F(t)
Solucin: Es trivial:
donde u(t) = (ht)'.
Ejemplo 15.4. Cierto tipo de pila para relojes elctricos de pared tiene u
na vida
til de servicio, en aos, que se rige segn una distribucin de Weibull. Si la rapidez
de
1
falla est dada por h(t) =Z(t) = - , calcular la probabilidad de que esa pila c
ontine sirJt
viendo despus de:
a) 3 aos
6) 4 aos.
1
Solucin: Si u(t) = (ht)'y u'(t) =- , entonces:
Jt
Cap. 15. La distribucin de Weibull y otras

4 1 1
De aqu que los parmetros de la distribucin sean r = l/2, h = 4. Luego:
Ejercicio 15.1. Con respecto al ejemplo 15.4, calcule:
a) la mediana
6) la media.
de la duracin de esa pila para relojes elctricos de pared.
Respuestas:
a) me = poco menos de 44 das (43.87 das)
6) p = medio ao exactamente.
Ejercicio 15.2. Un televisor marca Sony modelo Tdnitron 39TS20 tiene una vida t
il (en
1 25
aos) que se rige por una distribucin de Weibull con parmetros h = -, r = -. Los
12 9
fabricantes ofrecen cuatro aos de garanta. Calcule:
a) El porcentaje de veces que tendrn que hacer efectiva la garanta.
6) El tiempo a partir del cual est 10% de los televisores que ms van a durar sin
fallas
(noveno decil) .
c) La funcin de riesgo de falla (rapidez de falla).
6) El riesgo acumulado de falla a los 10 aos de uso del aparato.
e) El tiempo ms probable de duracin sin falla de dicho televisor (moda).
f) El tiempo promedio de duracin sin falla (media).
gj La probabilidad de que un televisor de ese tipo siga funcionando sin fallar a
los 12 aos
de uso.
h) El tiempo mximo que operan sin fallar 50 % de los aparatos (mediana).
Aproxime siempre hasta el da ms cercano, y recuerde que se toma 1 ao = 365 1/4 das.
Respuestas:
a) = 4.6 %, ya que P(X < 4) = 0.046178
6) = 16 aos y 74 das
C) h(x) = 0.0027924~' ~' ~
d) H(10) =
h(x)& = 0.60264
1
e) m. = 10 &os y 80 das
f) p = 10 aos y 249 das
1
gj S(12) = 7 = 0.367879
h) me = 10 aos y 189 das.
La siguiente propiedad de la distribucin d e Weibull es muy importante en
la prctica:
Teorema. Supngase que el tiempo de vida de algn artefacto o dispositivo es una variable aleatoria T con distribucin de Weibull w(t, r, h). Si se sabe
que 1 - F(t,) = q,, y 1- F(t,) = q2 (donde t, < t,), entonces los parmetros r
y h
de la distribucin se obtienen mediante las siguientes expresiones:
Primera demostracin: Como 1 - F(t) = S(t) = exp[-(ht)'], se tiene que
exp[-(ht,)'] = q,. Tomando logaritmo natural en ambos miembros, se sigue
que -(ht,)' = ln q,, esto es, (ht,)' = -1n q,. De nuevo se toma logaritmo na
tural
a ambos miembros y se obtiene que r ln(ht,) = ln(-ln q,), lo cual implica que:
r ln h + r ln t, = ln(-ln q,)
De manera anloga:
r ln h + r ln t, = In(-ln q,)
Finalmente, restando la primera expresin de la segunda y despejando se
halla que:
Por ltimo, de la igualdad (ht,)' = -1n q,, se sigue que:
Segunda demostracin: Hgase u = u(t) = (ht)' y dentese pory = ln u, as
como x = In t. Se tieney = ln(ht)' = r ln h + m, ecuacin que identificamos con

la lnea rectay = mx + b, cuyos parmetros son: pendiente: m = r, y ordenada en


el origen b = r In h. Si se recuerda que la funcin de supervivencia es S(t) = 1
F(t) = exp[-(ht)'] y que u(t) = -1n S@), y dado que segn la hiptesis q, =S&),
q, = S($), entonces la pendiente de dicha recta es, segn la geometra analtica
plana:
Pendiente: m = r =
Y2 -Y1 = ln[-lnS(t,)l -W-lnS(t,)l
3C2 - Xl lnt, -lnt,
Cap. 15. La distribucin de Weibull y otras
4 1 3
Ejemplo 15.5. La vida en horas de cierto tipo de adornos luminosos para rboles de
Navidad se considera una variable aleatoria T. Experimentos realizados con mues
tras muy
grandes confirmaron que 52.5% de los adornos duran ms de 319 horas, mientras qu
e
78 % de los adornos duran ms de 290 horas. Hallar el tiempo esperado de vida de e
sos
adornos luminosos, si se supone una distribucin de Weibull.
Solucin: De acuerdo con el teorema que acabamos de demostrar, si se supone
una distribucin de Weibull, entonces S(290) = q, = 0.78; S(319) = q, = 0.525.
Luego, el
parmetro de forma Y es:
h(-hq,) - h(-hqJ - -0.4395023 + 1.39246794
Y =
- = 9.99857 = 10
lnt, - lnt, 5.76511911 - 5.6698809
Y el parmetro de escala es:
Por consiguiente, el tiempo de vida esperado es:
(= 317 horas y 7 minutos), y que T(1.1) = 0.95135 segn las tablas de la funcin gam
a (o
Excel).
Ejemplo 15.6. Con respecto al ejemplo anterior, encontrar:
a) El tiempo ms probable de duracin de los adornos luminosos.
b) El porcentaje de adornos luminosos que duran ms de 400 horas.
c) El noveno decil, esto es, el tiempo a partir del cual est 10 % de los adorno
s con
vida ms larga.
Solucin:
a) m,= - = 333.3(0.9)~'' = 329.83966 = 329 horas 50 minutos y 23 segundos.
Observe que la moda result mayor que la media, lo que presupone un sesgo
negativo (esto se puede demostrar con rigor).
b) S(400) = exp{-[(0.003)(400)]10} = 0.002046, as que 2 % de los adornos lumino
sos tienen una vida superior a las 400 horas de servicio.
c) El noveno decil es:
.- 362 horas, 19 minutos y 36 segundos
Esta distribucin tambin tiene aplicaciones en ingeniera y en otros campos de la ciencia. La variable aleatoria continuax tiene una distribucin beta, co
n
parmetros a > O y B > O, si su densidad de probabilidad est determinada por:
10 en cualquier otro caso.
En la figura 15.2 se muestra el aspecto de la distribucin beta para dos combinaciones posibles de los parmetros a y P. La distribucin beta est asociada
con la siguiente funcin, llamada la funcin beta:
que tiene, entre otras, la propiedad notable: B(m, n) = B(n, m).
Las funciones beta y gama se relacionan por medio de la siguiente frmula,

que se demuestra en cursos de clculo:


Figura 1 5.2
Cap. 15. f a dutribucin de Weibull y otras
4 1 5
As, la funcin de densidad de probabilidad, para O Ix I 1, queda expresada
de la siguiente manera:
Los parmetros media y varianza en la distribucin beta estn dados, respectivamente, por:
Si a > 1, p > 1, entonces la distribucin beta es unimodal, con
Ejemplo 15.7. En la seccin de Economa del diario ElFinanciero, del mircoles 25
de abril de 2001, apareci un comunicado que dice textualmente: "El Presidente Vi
cente
Fox dijo que la reforma hacendaria es necesaria, porque 85 % de los recursos dis
ponibles
del Gobierno est comprometido en la solucin de los errores de los gobiernos ante
riores." Supngase que la fraccin del presupuesto del Gobierno destinada a pagar
los
"errores" cometidos por gobernantes pasados de Mxico es una variable aleatori
a con
distribucin beta. Si la media es 85 % y se estima que P = 3, calcular:
a) La desviacin estndar
6) La probabilidad de que en un a150 cualquiera ms de 90 % de los recursos finan
cieros del Gobierno de Mxico estn comprometidos en pagar errores de gobiernos anteriores.
Solucin: Usando las frmulas se obtiene:
Ejercicio 15.3. Suponga que la fraccin ms probable (moda) de trabajadores mexicano
s
que ganan menos del equivalente a 140 dlares al mes en un momento cualquiera
es
2
- (= 66.67%).
3
a) Explique si la hiptesis de una distribucin beta para dicha fraccin de trabajador
es es
consistente con las declaraciones de la Consultora Mc Kinseyl en el sentido de q
ue el
'Declaraciones publicadas en El Financiero, 25/04/2001, p. 16.
4 1 6
Parte V. Otras distribuciones notables
3
valor esperado (media) para dicha fraccin de trabajadores es de 60% (es decir, ).
5
De ser as, cules son los parmetros de la distribucin?
b) Suponiendo una distribucin beta, cul es la probabilidad de que en un momento
dado el porcentaje de trabajadores mexicanos que perciben menos de 140 dlares al
mes sea inferior a 50 %?
5
Respuestas: a) S es consistente; a=3, = 2. 6) -= 0.3125.
16
15.3. RELACI~N ENTRE LA DISTRIBUCI~N BETA
Y LA DISTRIBUCI~N BINOMIAL
Supngase que X es una variable aleatora continua con distribucin beta
B(x, a , B), tal que sus parmetros a y B son enteros positivos. Sea Yuna Vari
able
aleatoria discreta con distribucin binomial, cuyos parmetros son n = a + P - 1
y p (con O <p < l), es decir, b( y, a + B - 1, p). Entonces se verifica la

siguiente
relacin entre la distribucin beta y la distribucin binomial:
o bien,
Ejemplo 15.8. Del total de horas de sueo de una persona normal, los psidlogos
estiman que slo una fraccin pequea corresponde al llamado sueo MOR (movimiento
ocular rpido), en el cual la persona suea profundamente y los ojos se mueven. Se e
stima que dicha fraccin sigue una distribucin beta, con parmetros a = 3, P = 12. Halla
r la
probabilidad de que ms de 30 % del total de tiempo de sueo de un individuo sea sueo
MOR.
2
Solucin: P(X > 0.3) = x b ( k , 14, 0.3) = 0.160836 (directamente de las tabla
s).
,
k=O
Ejercicio 15.4. Del total de la cosecha de ciertos frutos de una finca, hay una
fraccin X
que est daada por una plaga. El dueo de la finca estima que X tiene distribuci6n b
eta
con parmetros a = 1, fi = 4. Calcule:
a) El porcentaje esperado de la cosecha que debe estar danado por esa plaga.
6) La probabilidad de que al menos la cuarta parte de la cosecha est daada p
or la
plaga.
Ejercicio 15.5. El porcentaje (o fraccin) de los das en los que la contaminacin a
tmosfrica sobre el D. F. alcanza niveles considerados alarmantes, sigue una distribu
cin beta
con a = 3, fi = 8. Determine:
Cap. 15. La distribucin de Weibull y otras
4 1 7
a) La moda
6) La media
c) La probabilidad de que en un ao cualquiera el porcentaje de das en los que la
contaminacin atmosfrica alcance niveles alarmantes, sea superior a 30 %.
2
2 3
Respuestas: a) m, = - ~ 2 2 . 2 %; 6) p = - ~ 2 7 . 3 %; c) x (k, 10, 0.
3) = 0.38278.
9 11
k=O
Ejemplo 15.9. Del total de lavadoras automticas de marca Kenmore que son vendidas, se estima que una fraccin va a requerir servicio de mantenimiento antes d
e que
transcurran dos aos. Si dicha fraccin sigue una distribucin beta con parmetros a =
2,
B = 6, calcular la probabilidad de que menos de la cuarta parte de las lavadoras
vendidas
de esa marca requieran servicio de mantenimiento antes de dos aos.
Solucidn:
Esta distribucin es el equivalente continuo de la distribucin discreta uniforme que examinamos en el captulo 6. Su valor es constante en un intervalo (a,
p) y cero en todos los dems lugares:
1
para a < x < P.
f (x) =
10 en otra parte.

Para a < x < j3 se tiene:


dt x-a
P-a
a
Luego:
4 1 8
Parte V. Otras distribuciones notables
Los parmetros media y varianza de la distribucin rectangular son, respectivamente, los siguientes:
Ejemplo 15.10. Supngase que el error de redondeo en la lectura de un ampermetro2 est distribuido uniformemente en el intervalo entre dos divisiones enteras
contiguas. Si el valor de una divisin de la escala del ampermetro es igual a 0.1 ampe
res y la
indicacin del aparato de medida se redondea hasta la divisin entera ms prxima, halla
r
la probabilidad de que al leer se cometa un error superior a los 0.02 amperes.
Solucin: Si X es el error de redondeo referido, entonces la longitud del interval
o
en el que estn acotados los valores posibles de X es igual a 0.1 amperes. Luego,
a = 0,
B = 0.1. El error de lectura ser mayor a 0.02, si ste queda comprendido en el int
ervalo
(0.02,0.08). De aqu que la probabilidad buscada sea:
Ejemplo 15.11. La cotizacin diaria del precio de compra del dlar estadounidense
(interbancario), frente al peso mexicano en mayo de 2001, poda considerarse
como
una variable aleatoria X con distribucin uniforme en cierto intervalo [a, $1 -s
egn opinin de economistas expertos-. Dichos expertos estimaban que E(X) = 9.40 pes
os y
a) De ser as, determinar la probabilidad de que la cotizacin del precio de compr
a
del dlar en un da cualquiera, de esa fecha, haya sido:
- menor que 9.50 pesos
- inferior al valor del sexto decil.
6) Si Q, y Q, denotan el primero y tercer cuartiles, respectivamente, determi
nar
el valor de la desviacin cuartil Q = '/z(Q, - Q,) y compararla con la desviacin
estndar a.
c) Cules eran las cotizaciones mnima y mxima del precio de compra del dlar
interbancario en pesos mexicanos?
Solucin :
3 3
a) - = 0.75; - = 0.6 (el sexto decil es 9.44 pesos).
4 5 7
c) Las cotizaciones mnima y mxima eran a = 9.20 pesos y $ = 9.60 pesos, respectivamente.
'Aparato que sirve para medir la intensidad de una corriente elctrica. La unidad
de medida (amper)
se Uarna as en honor del ilustre matemtico y fsico francs Andr Marie Amptre (1755-183
8), quien cre la
electrodinmica, invent el electroimn y el telgrafo electromagntico, y realiz valiosas
contribuciones en
qumica, electromagnetismo y matemticas.
Cap. 15. La distribucin de Weibull y otras
4 1 9
Ejemplo 15.12. Si de alguna manera se elige, en forma completamente aleatoria, u
n
nmero real x en el intervalo (O, 1) y se escribe en notacin decimal, calcular la

probabilidad de que:
a) Su primer dgito despus del punto decimal sea 1.
b) Su segundo dgito despus del punto sea 5.
c) El primer dgito despus del punto decimal en el nmero & sea 3.
[T. Cacoullos, Exercises in Probability, Springer Verlag, N. Y, 1989.1
Solucin: SiXes la variable aleatoria que representa el nmero real elegido, entonces la distribucin de probabilidad deXes uniforme en el intervalo (O, l), ya que
todos los
nmeros reales en ese intervalo tienen la misma oportunidad. Por consiguiente:
Una variable aleatoria continua X tiene una distribucin de Rayleigh con
parmetro a > O si su densidad de probabilidad est dada por:
2axe+' parax > 0.
f (33 =
en otra parte.
En realidad, esta distribucin es un caso particular de la distribucin de Weibull.
Fue usada por el famoso fsico y matemtico ingls Lord Rayleigh, ganador del
Premio Nobel de Fsica y uno de los precursores de la teora cuntica, casi 50 aos
antes de que Weibull introdujera su distribucin ms general. Rayleigh emple
esta distribucin en fenmenos fsicos relacionados con la propagacin de la luz
y el comportamiento de partculas subatmicas.
La media y la varianza de la distribucin de Rayleigh son, respectivamente:
Ejemplo 15.13. La duracin en aos de la pila que suministra energa a los relojes
de pulsera Casio tipo F-91W, fabricados en China, es una variable aleatoria que
sigue una
distribucin de Rayleigh, con parmetro a = 0.04. Determinar:
420
Parte V. Otras distribuciones notables
a) La duracin esperada de la pila
6) El valor mediano de la duracin
c) La moda de la duracin
d) La probabilidad de que la pila dure ms de un tiempo t , medido en aos.
Si los fabricantes de ese reloj garantizan la reposicin del mismo cuando la pila
dure
un tiempo inusualmente corto, calcular:
e) Por cuntos aos deben estipular la garanta, si desean que la probabilidad de
que se cumpla no exceda al valor 0.05.
Solucin:
a) La distribucin de Rayleigh es un caso particular de la de Weibuli, especfica?
mente cuando h = da, r = 2. Entonces, aplicando la frmula para el valor esperado en la distribucin de Weibull, se tiene que la media en la distribucin de
Rayleigh es:
Para este caso, como a = 0.04, se tiene:
(aproximadamente 4 aos con 5 meses y 5 das).
b) Aplicando la frmula para la mediana de la distribucin de Weibull, encontramos fcilmente que en el caso de la distribucin de Rayleigh, la mediana est
dada por:
En este caso, como a = 0.04, tenemos:
m, = 5Jin 2 = 4.1628 aos
lo cual implica que 50 % de las pilas llegan a durar esa cantidad de d o s o m
enos
(o esa cantidad de aos o ms).
c) Ahora, usamos la frmula para la moda de la distribucin de Weibull. Entonces
se obtiene, para el caso de la distribucin de Rayleigh:
Cap. 15. La distribucin de Weibull y otras 42 1
En este caso particular, con a = 0.04, obtenemos:
5
m, = -6 = 3.5355 aos
2

una respuesta sorprendente, porque resulta ms de 10 aos inferior a la mediana.


d) La probabilidad de que la pila dure ms de un tiempo t (en aos) es 1 - F(t)
=
e~p[-(0.2t)~]. Por si existiera alguna duda, podemos comprobar, de paso, que
nuestro clculo de la mediana fue correcto: simplemente se sustituye el valor
t = 5 f i y se verifica que el resultado sea ' / I . En efecto:
e) El 5% de las pilas de esos relojes que menos tiempo duran se hallan
en el
cuantil (o percentil) x,,,, el cual equivale a F-' (0.05). Usamos la frmula
para
el cuantilxp en la distribuan de Weibull (en este caso especifico, con parmetros
r = 2, h = 0.2), y hallamos:
x,, = 54-ln 0.95 = 1.1324 aos de -ta
(un ao, un mes y poco ms de 17 das de garanta), aunque, ciertamente, ninguna empresa ofrecera una garanta tan precisa, porque despertara sospechas entre los comprado
res
del producto acerca de la verdadera calidad. As que en este caso, es razonable re
dondear
el tiempo de garanta de esos relojes a un ao exactamente, aunque en lugar de ampar
ar
a 5% de los relojes, se estara amparando tan slo a 3.9%.
En resumen, en la distribucin de Rayleigh con parmetro a > O, el cuantil
de reap est dado por:
En particular, la mediana es:
y la moda es:
Frank Wilcoxon ( 1 892- 1965). Estadstico y qumico
irlands. Introdujo las pruebas de la suma de rangos
y de rango con signo, las cuales continan siendo
importantes para la estadstica no paramtrica.
Henry B. Mann ( 1 905-2000). Matemtico
austriaco que hizo importantes contribuciones en
lgebra, teora de nmeros, anlisis combinatorio
y estadstica. En relacin con la ltima. escribi l a
obra Anlisis y diseo de experimentos, en 1 949.
El anlisis de regresin y correlacin es una de las herramientas estadsticas
y economtricas de mayor utilidad. Bsicamente, se trata de describir y evaluar
la relacin que hay entre una variable dependiente Y (tambin llamada variable
explicada) y una o varias variables independientes X,, . . . , X,, llamadas t
ambin
variables explicativas. El objetivo de tal relacin es hacer predicciones o prons
ticos. Si hay una sola variable explicativa, esto es, si k = 1, entonces se hab
la de
regresin simple, y si k > 1, se habla de regresibn mbltiple.
El nombre de regresin suena un tanto curioso y no es muy afortunado, ya
que da la idea de algn movimiento retrgrado o hacia atrs, pero en la prctica
es todo lo contrario, es decir, se trata de observar un movimiento hacia adelant
e
para poder realizar ciertas predicciones. Ese nombre se usa porque fue introducido por el ingls sir Francis Galton (1822-1911), pariente de Darwin y maestro
de Karl Pearson. Galton fue el fundador de la dudosa doctrina de la eugenesia.
En sus trabajos estudi la relacin entre las estaturas de muchos nios ingleses y
sus respectivos padres. Lgicamente, observ que los padres altos tendan a procrear hijos altos y los padres bajos tenan hijos bajos, pero por la diversificacin
o mezcla de los caracteres hereditarios, Galton supuso que las estaturas deberan
converger hacia una estatura promedio, es decir, una "regresin hacia el promedio o la mediocridad, como l lo escribi.

Cabe sealar que Galton era aristcrata, conservador e incluso racista, y


nunca lleg a comprender bien los detalles importantes del proceso evolutivo
a travs de la herencia, los cuales fueron descubiertos por los bilogos muchos
aos despus. La palabra eugenesia significa "bien nacido" y nada tiene que ver
426
Parte VI. Regresin y correlacin
con la gentica. En 1833, Galton escribi un trabajo en el que se us por primera
vez el trmino regresin, y en el cual propona mtodos para mejorar la especie
humana, tal como se mejoran las razas de ganado o animales, mediante el f
omento de uniones adecuadas y la prohibicin o supresin de uniones inadecuadas. Como seal Isaac Asimov en aos ms recientes (The Welkprings of Life,
1960): "el edificio de la eugenesia, fundado por Galton, se bas en la roca de la
ignorancia y la utopa". El fracaso de la eugenesia lo explica Asimov de manera
elocuente:
El argumento de Galton parece bueno a simple vista y se utiliz por los antiguos espartanos 700 aos antes de Cristo [. . .] En el caso de animales domsticos
sabemos muy bien qu es lo que buscamos con la "mejora de la raza". Si queremos
que una vaca d mucha leche, cruzamos toros y vacas que desciendan de buenas
lecheras y tomamos lo mejor de las cras (sobre este nico aspecto) para nuevos
cruzamientos. Al final vamos a obtener especialistas lecheras que son apenas al
go
ms que fbricas vivientes diseadas para convertir el pasto en leche y mantequilla.
Lo hemos logrado, pero nuestro ganado actual es suficientemente plcido y estpido para no ser capaz de proteger sus terneros, ni siquiera protegerse ellos mism
os
contra animales salvajes [. . .] Pero, en el caso del Horno sapiens, qu criaramos?
A
los espartanos les interesaban las diversas cualidades que forman un buen guerre
ro (fuerza, resistencia y valor) y lograron crear as guerreros y soldados dignos
de
admiracin, pero al despreciar todas las dems caractersticas se produjo una cultura espartana que, en conjunto, es digna de todo menos de admiracin y que, en
realidad, es el ms claro ejemplo de cultura psictica de larga duracin que registra
la historia [ . . .] Naturalmente, hay caractersticas hereditarias extremadamen
te negativas, tales como la idiotez o la mana homicida, que quisiramos eliminar genticamente si supiramos cmo. Sin embargo, no estamos seguros de.que siquiera
podamos eliminar los genes indeseables sin eliminar tambin cierta proporcin de
los deseables.
La gentica actual ha puesto en entredicho a la eugenesia, pues est demostrado que en un mismo cromosoma pueden estar impresas caractersticas deseables e indeseables, y es imposible fomentar una caracterstica deseable s
in
fomentar una indeseable tambin. Como seala Asimov: "ha habido muchos
grandes hombres por cuya existencia la humanidad debe sentirse agradecida y
que han sido epilpticos, diabticos, esquizofrnicos, homosexuales o neurtic o ~ graves".
Pero, volviendo al tema que nos ocupa, el estudio de las relaciones entre
k variables explicativas o independientes X,, . . . , Xk y una variable expli
cada o
dependiente Y tiene como objetivo no slo realizar predicciones para valores
futuros de Y, sino tambin averiguar si alguna de lasXi pudiera mostrar un efecto

importante sobre la variable explicada Y.


Cabe sealar que hay muy diversas etiquetas para las variables Xi y la variable
Y. Por ejemplo, en econometra se acostumbra llamar a Y variable endgena,
mientras que las X,, . . . , Xk se llaman variables exdgenas. Tambin es posibl
e
llamar a Y variable objetivo y a las X,, . . . , Xk variables de control. Sin
embargo,
en trabajo estadstico se prefiere llamar a la variable Y predictando (o regresand
o)
y a las X, , . . . , Xk se les llama predictores (o regresores).
En este captulo, expondremos nicamente el caso de una sola variable inCap. 1 6. Regresin lineal simple y correlacin
42 7
dependiente X, es decir, abordaremos slo el tema de la regresin simple. No
obstante, hay que mencionar que no se busca una relacin matemtica exacta
de la forma y = f (x), sino que s e busca describir la relacin ms precisa en
tre
dichas variables en tmzinosprobabilzSticcxs, para ajustar datos u observaciones
estadsticas.
Una relacin lineal estocstica (del griego stokos = adivinar) entre las variables X y Y es de la forma:
en donde Po y P, se llaman coeficientes de regresin de la poblacin y el trmino
u se llama trastorno ai azar (o residuai) y constituye la parte estocstica de la
ecuacin, mientras que Po + P,x constituye la parte sistematica de la ecuacin. Es claro
quey = Po + p,x describe una lnea recta en el plano, cuya pendiente es B, y cuya
ordenada en el origen es Po.
Hemos supuesto el modelo ms sencillo posible de regresin lineal simple,
que es una lnea recta con un trmino de error aditivo u. Hay tres razones para
introducir este trmino de error o trastorno:
1. Hay un elemento impredecible de aleatoriedad en las respuestas humanas.
2. Hay el efecto de posibles variables omitidas, las cuales incluso podran
ser no cuantificables.
3. Casi siempre hay errores de medicin en la variable explicada Y.
La parte sistemtica de la ecuacin 1 representa la media o valor esperado
del predictando Y para un valor dado del predictorx, esto es, representa el valo
r
esperado de Y dado que X = x. Por tanto, se escribe:
En consecuencia, el error aleatorio u en la ecuacin 1 no es otra cosa que la d
iferencia entre el valor observado (y) del predictando y su valor medio para ese
valor de la variable predictora o explicativa X.
Suponga que se tienen n observaciones (x,, y?), (x2, y,), . . . , (xn , y
n). Entonces, para cada i = 1, 2, . . . , n se escribe la ecuacion 1 como:
El objetivo principal del modelo de regresin lineal simple consiste en hallar es
timaciones de los parmetros desconocidos Po y P, para ese conjunto de observaciones. Para ello, se requieren algunas suposiciones (o hiptesis) acerca de los
trminos de error u,, vistos como valores de una variable aleatoria U, @ara cada
i = 1, 2, . . . , n). Dichas suposiciones son las siguientes:
1. El valor esperado (media) de cualquier Ui es cero, esto es, E(U,) = O, para
toda i = l , 2, . . . , n.
428
Parte Vi. Regresin y correlacin
2. Todas las Ui tienen la misma varianza, es decir, Var(U,) = 02, para toda

i = l , 2 , ... , n .
Esta propiedad se conoce como homoscedasticidad (que significa igual
dispersin). Lo contrario sera heteroscedasticidad.
3. Las variables aleatorias U, y U, son independientes para i # j.
4. La distribucin de probabilidad de la variable aleatoria U, no depende de
los valores de x, .
5. Para cada i = 1,2, . . . , n , la variable aleatoria U, tiene distribucin nor
mal
con media O y varianza 02.
Incidentalmente, esta ltima hiptesis explica por qu en la ecuacin 2 no
hizo falta incorporar el trmino E(U) en el miembro derecho.
En la figura 16.1 se ilustra de manera grfica cmo se distribuyen normalmente los valores del predicando y para cada valor del predictor x, estando la
media de la distribucin siempre sobre la lnea de regresin.
Figura 1 6.1
En el siglo xm se desarroll el mtodo de ajuste por mnimos cuadrados gracias a los trabajos de Laplace en Francia y C. F. Gauss en Alemania.
Suponga que n observaciones (x,, y,), (x2, y,), ... , (x,,, y,,) se dibuj
an
como n puntos dispersos en el plano y que se dibuja una lnea rectay = 6, + b,x
que ms o menos se ajuste a la posicin de los puntos (vase fig. 16.2).
Entre todas las rectas posibles que se pueden dibujar alrededor de los puntos dispersos, se trata de hallar cul es la que proporciona el mqor ajuste. Pero
qu debe entenderse por mejor ajuste? Veamos, si se consideran a 6, y 6, como
estimadores de a y j3, respectivamente, que son lineales en las y,, entonces
se
trata de encontrar aquellos estimadores que sean los ms eficientes en el sentido
de que su varianza sea la ms pequea posible. Resulta que tales estimadores son
precisamente los llamados estimadores de mnimos cuadrados, es decir, aquellos
Figura 16.2
que tienen la propiedad de que la suma de los cuadrados de los segmentos verticales de cada punto hasta la recta de ajuste es la mnima posible (fig. 16.2).
En otras palabras, el modelo de mnimos cuadrados consiste en determinar
los valores de bo y b, tales que minimizan el siguiente parmetro:
Para cada conjunto de puntos (x,, y,), (x,, y,), ... , (x,,, y,), la rect
a de
mejor ajuste es precisamente la recta basada en ese principio de mnimos cuadrados, y su ecuacin se expresa:
y=Bo +pl x
Hoy da, con la proliferacin de software cientfico y estadstico es relativamente sencillo obtener la ecuacin de la recta de mnimos cuadrados usando directamente la computadora. Por supuesto, tambin es posible hacerlo mediante
frmulas y una calculadora. Esas frmulas las veremos ms adelante.
Ejemplo 16.1. Con Excel obtener la ecuacin de la recta de mnimos cuadrados correspondiente a las siguientes cinco observaciones parax y y:
430 Parte VI. Regresin y correlacin
Solucin: Anotamos las observaciones as como estn (en dos columnas, pero sin
encabezado) en una hoja de clculo de Excel. Luego abrimos el men Herramientas y
pulsamos donde dice Anlisis de datos. Esto se ilustra en la figura 16.3.
Si en su computadora no aparece esa opcin (Anlisis de datos), entonces debe
darla de alta con la utilera que se indica arriba (Complementos, o Ad d ins en i
ngls). Si no
tiene instalada la versin completa de Excel, es posible que le pida el disco de i
nstalacin
de OSJice. Al pulsar en Anlisis de datos, aparece un nuevo men de opciones, como
se
indica en la figura 16.4.
Enseguida se pulsa donde dice Regresin, y entonces el lector podr seguir las instrucciones para obtener todos los detalles matemticos y grficos de la recta de mnim
os

cuadrados (fig. 16.5). En este caso, observamos que la recta de mnimos cuadrados
pasa
por tres de los cinco puntos. El dato RZ que aparece se llama coeficiente de de
terminacin
y se explicar ms adelante.
Figura 16.3
Figura 16.4
Figura 16.5
En el trabajo estadstico, aparecen con frecuencia variables que estn relacionadas linealmente, aunque no se pueda decir que una de ellas es influida por la
otra o que depende de ella. Se sabe, por ejemplo, que hay cierta relacin entre la
s
horas de sueo promedio que tiene una persona al da y el nmero de aos que
se espera que viva, o entre el peso de un individuo y su estatura. En tales caso
s, se
dice que las variables estn correlacionadas y se cuenta con un estadstico denotado por r y que se llama coeficiente de correlacin muestrd, y es tal que -1 < r 5
1.
Si el coeficiente de correlacin fuese 1, entonces habra un ajuste lineal perfecto entre las dos variables, en el sentido de que al aumentar una de las varia
bles,
se registrara en forma invariable un incremento lineal de la otra siempre en la
misma proporcin. Si r fuese igual a cero, entonces no habra correlacin alguna
entre las variables, mientras que una correlacin negativa implicara una relacin
inversa, en el sentido de que al incrementar una de las variables, la otra dismi
nuira, y viceversa. Una correlacin negativa debera esperarse, por ejemplo, entre la
cantidad de kilmetros que ha recorrido un automvil y su precio en el mercado.
El coeficiente de correlacin muestral r se calcula mediante la frmula:
donde:
Ejercicio 16.1. Con ayuda de una calculadora solamente, calcule el coeficient
e de
correlacin muestral de las siguientes parejas ( x, y): (2, 5), (1,3), (5,6), (0
,2).
Respuesta: Si sus clculos son correctos, entonces deber haber obtenido el valor
r = 0.930, que resulta de dividir 11 entre la raz cuadrada de 140.
432
Parte VI. Regresin y correlacin
Aun en los casos donde se observa una cierta correlacin entre dos variables, sera un error pensar automticamente que debe existir una relacin de
causa-efecto entre ambas variables. Ello es falso, ya que la correlacin observad
a
podra bien deberse a la influencia de una tercera variable. Por ejemplo, podra
observarse que en una ciudad hay una correlacin positiva muy clara entre el
nmero de asaltos o crmenes y el nmero de nuevas escuelas que se crean, pero
ello se debe a que hay una tercera variable (el incremento de la poblacin en esa
ciudad), que es la causa real de que las otras dos variables sufran ambas un inc
remento sin ser ninguna de ellas causa de la otra.
El estadstico de muestra P recibe el nombre de coeficiente de determinacin
y mide el porcentaje de variabilidad en la variable dependiente Y, que puede explicarse a travs del conocimiento de la variable independiente X. Se mide en un
valor que oscila entre O y 1.
r2 =
Desviacin total - Desviacin no explicada
Desviacin total
=1Desviacin no explicada
Desviacin total

Las desviaciones o diferencias se toman para cada uno de los puntos (x, y)
de una muestra de datos, se elevan al cuadrado @ara evitar signos negativos) y
se suman. Esto es:
Si se trabaja en una grfica de la Inea de regresin dibujada por el Excel, el valor
de r2 se obtiene directamente al picar la Inea de regresin con el botn derecho
del ratn.
En realidad, puede demostrarse que r2 viene siendo precisamente el cuadrado del estadstico r, que representa el coeficiente de correlacin muestra1 del
conjunto de datos (x, y) de la muestra.
16.5. EJEMPLOS Y F~RMULAS IMPORTANTES
Consideremos el siguiente ejemplo tpico: X = precio por galn de leche
(en dlares); Y = venta semanal de leche en miles de galones, con una muestra
de 10 observaciones, las cuales son:
Cap. 16. Regresin lineal simple y correlacin 433
Directamente con el Excel se obtiene la siguiente informacin:
- Coeficiente de determinacin: r2 = 0.7456
- Coeficiente de correlacin: r = -0.86
- Recta de regresin: 5 = -14.539~ + 32.136
Redondeando: f = 32.14 - 14. 54~
- Promedios muestrales: (F,y) = (1.44, 11.2)
La grfica tambin se obtiene con Excel (fig. 16.6).
Figura 16.6
Para ilustrar el significado de r 2, considrese un solo dato de la muestra,
como el punto (1.70, 5). Obsrvese la figura. De acuerdo con los datos d
e la
muestra, el valor esperado de y (o promedio) es 11.2 (miles de galones semanales) a un precio promedio de 1.44 dlares por galn. Si el precio se incrementa
de su promedio (1.44) al valor 1.70, entonces es de esperarse que la demanda (o
el volumen de ventas) baje de su promedio (11.2) al valor predicho por la recta
de regresin: 7.422. Esta disminucin se explica por el incremento del precio x.
Sin embargo, en la realidad se observ que a un precio de 1.70 dlares por galn,
el volumen de ventas no fue el pronosticado (7.422), sino que fue de 5 mil galones por semana.
Por consiguiente, la diferencia (en valor absoluto) 7.422 - 5 = 2.422 no
puede ser explicada por el incremento del precio (para este dato especfico).
La explicacin puede atribuirse al clima, a la publicidad, a la elasticidad
-precio
434
Parie VI. Regresin y correlacin
de la demanda de leche, o a algn otro factor no considerado en el anlisis de
regresin. El estadstico r2 recoge la informacin total de aquellas y slo aquellas
variaciones de y que si pueden explicarse por medio de las variaciones de x.
En trabajos prcticos con calculadora, el valor del estadstico r2 puede calcularse por medio de la siguiente frmula, que es equivalente:
Ejemplo. Los siguientes datos son estaturas de padres y sus hijos respectivos,
en
donde se calcular el coeficiente de determinacin.
Otros datos: 6, = 0.9336; b = 0.4629
Otras frmulas:
1
2
3
4

5
6
7
8
9
10
11
12
x
Error estndar de la estimacin:
NOTA: LOS autores de algunos libros de estadstica o pronsticos usan el
smbolo S,, .xpara este estadstico. Otros libros usan el smbolo se, el cual es
tambin muy comn.
Estatura del Estadura cieE
padre ( x ) 1 hijo ( y )
x Z
3cy
2.9929
2.8224
2.9929
2.7225
3.0625
1.65
1.60
1.70
1.63
1.73 1.75 2.9929 3.0275
'
1.73
1.68
1.73
1.65
1.57
1.78
' ;:;ti;
1.68 1.65 2.8224 2.7720 2.7225
1.73 1.80 2.9929 3.1140 3.2400
1.70 1.70 2.8900 2.8900 1 2.8900
1.75 1.73 - 3.0625 - 3.0275 1 2.9929
1.80 1.78 3.2400 3.2040 / 3.1684
1
20.32
2.7225
2.5600
2.8900
2.6569
2.8545
2.6880
2.9410
2.6895
20.61 34.4634 34.9250 35.4223
Coeficientes de la recta de regresin:
Zy EX
b, =- - - . 1 b =
~ZW- ZXZY
n n ~C- X~- ( ZX) ~
Error estndar de pronstico para un vaior dado X,:
En la siguiente seccin, veremos qu es S,.

Intervaio de confianza de (1 - a) 100% para la respuesta media p dado


x,:
y1%
- f k zai2s, (muestra grande)
- Yf t S (muestra pequea; se toman n - 2 grados de libertad en la distri.a 2 /
bucdn r ) .
16.6. ABREVIATURAS M& USUALES EN LA n0Rf A
DE REGRESI~N Y CORRELACI~N
Con objeto de evitar que las frmulas se vuelvan muy aparatosas, se introducirn aqu las siguientes abreviaturas para simplificar la notacin:
Otras abreviaturas usuales:
SSE = "Error de la suma de cuadrados" = Z( Y - ?)2 = Desviacin no explicada
SSR = "Suma de cuadrados residual" = &Y- Y)2 = Desviacin explicada
SST = "Suma total de cuadrados" = Z( Y - = Desviacin total
4 3 6
Parte VI. Regresidn y correlacin
La relacin entre estas cantidades y las anteriores es la siguiente:
1 Adems:
1 Tambin:
l
OBSERVACI~N IMPORTANTE: Algunos autores de libros de estadstica, microeconoma y pronsticos definen S, , S, y S, en la siguiente forma:
Sin embargo, otros libros definen estos smbolos como lo hicimos lneas
arriba, que es lo mismo, pero dividido entre n. La notacin alternativa tiene quiz la ventaja de que proporciona frmulas ms compactas, pero entonces el estudiante debe ser cuidadoso si estudia en varios libros a la vez, en cuanto a qu
e
el S, de un libro es igual al S, de otro libro multiplicado por n (o dividido en
tre
n). Esta discrepancia puede afectar el clculo del error estndar de la estimacin
s (o tambin llamado se) por un factor de& si se mezcla la nomenclatura de libros distintos:
1
S, =Cx2- -(Zx)2
n
Es muy importante que el estudiante est consciente de cul de los dos tipos de
simbologa va a adoptar en su trabajo. Nosotros preferimos esta ltima.
Con esta notacin abreviada, la lnea de regresin ?= b, + bX tiene pendiente:
y ordenada en el origen:
b,=Y- bX
Cap. 16. Regresin lineal simple y correlacin 43 7
El coeficiente de correlacin muestra1 es:
y el coeficiente de determinacin muestra es:
Como se explic, el coeficiente de determinacin r2 expresa la proporcin
de la variacin total de los valores de la variable Y, que puede ser explicada po
r
una relacin lineal con los valores de la variable independiente X.
Un intervalo de confianza de (1 - a)100 % para el parmetro Po (ordenada
en el origen) de la recta de regresin Y = Po + es el siguiente:
donde t , es un valor de la distribucin t de Student con n - 2 grados de libert
ad.
En esta frmula, s es el error estndar de la estimacin (tambin denotado
por se) :
Ejemplo 16.2. Edades de esposos ( y) y de sus respectivas esposas ( x ) :
438
Parte Vi. Regresin y correlacin
Informacin relevante obtenida con el Excel:

Informacin adicional que no se usa aqu:


Calcular un intervalo de confianza de 95 % para Po que es la ordenada en el orig
en
de la recta de regresin.
Solucidn: En primer lugar, se busca, en la tabla de percentiles de la distribucin
t de
Student el valor crtico to,02, con 14 grados de libertad. Se halla el nmero 2.145
.
Haciendo los clculos se obtiene el siguiente intervalo de confianza para Po:
Desde -1.36 hasta 20.12
Para ensayar la hiptesis nula Ho:{Po = c ) contra alguna alternativa H,, se
basa la decisin en el valor de:
Ejemplo 16.3. En el ejemplo 16.2 sobre los matrimonios, probar la hiptesis Ho:{P
o
= O) contra H,:{P, # 0) con un nivel de significacin de a = 0.05. Sirve la mis
ma t crtica
del ejemplo anterior.
Solucin: La regin crtica es, por tanto:
Las operaciones dan:
Cae en zona de aceptacin, por lo que no se rechaza H,,.
I nt edo de confianza para f3 (pendiente de la recta de regresin). Un intervalo
de confianza de (1 - a)100 % para el parmetro P est dado por:
donde t, tiene n - 2 grados de libertad.
Cap. 16. Regresin lineal simple y correlacin
43 9
Ejemplo 16.4. En el ejemplo de los matrimonios, construir un intervalo de confia
nza
de 95%.
Solucidn: Tenemos los datos siguientes:
Haciendo los clculos se obtiene 0.9979 f 0.3095. Por consiguiente:
Pruebas de hiptesis para f3 (pendiente de la recta de regresin). Para probar
la hiptesis nula H, : { B = m) contra alguna alternativa H,, se basa la decisin e
n
el valor de:
b-m ( b- m) , / ~,
t =
- Ejemplo 16.5. En el ejemplo de los matrimonios, probar la hiptesis nula H,:@ = 1
)
contra la alternativa H,:{P < 11, con un nivel de significacin de a = 0.01.
Solucidn: Clculos:
Se halla en tablas t,,, (con 14 grados de libertad) = 2.624. La regin crtica es:
En consecuencia, se acepta H, y se concluye que f3 no es perceptiblemente menor
que 1 con un nivel de significacin de 0.01.
16.9. INTERVALO DE CONFIANZA PARA LA RESPUESTA
MEDIA py~, DADO xO
Para cadax, especfico, el intervalo de confianza para Y, o ms precisamente
para la respuesta media ~ ~ 1 % dado un valor particularx, est dado por:
donde t , tiene n - 2 grados de libertad.
Ejemplo 16.6. En el ejemplo de los matrimonios, construir lmites de confianza d
e
95 % para la respuesta media pylxo cuando una mujer tiene 28 aos de edad.
0
440
Parte VI. Regresin y correlacin
Solucin: Datos:
X0 = 28 aos (edad particular de esposa)
Yo = 9.38 + (0.9979)(28) = 37.3212 = 37 aos (prediccin de la edad de su esposo

por la recta de regresin)


t,.,, = 2.145 tomado de la tabla de percentiles de la distribucin t de Student
(con
14 grados de libertad)
k = 31.875 (promedio de edad de la muestra de esposas)
S = 7.91663
S, = 3009.75
Operaciones aritmticas:
El intervalo de confianza es, por tanto:
37.3212 f (2.145)(7.91663)(0.259786) = 37.3212 f 4.41148 aos
El intervalo resulta ser desde 32.9 hasta 41.7 aos. Por tanto, de acuerdo con
los
datos de la muestra, hay 95 % de confianza de que el esposo de una mujer de 28
aos
tenga una edad que oscila entre los 32.9 y los 41.7 aos, o en nmeros redondos, de
sde
los 33 hasta los 42 aos aproximadamente. Ntese que para cada edad xo la amplitud
del
intervalo ser distinta, donde la mnima es para el valor de la media aritmtica.
Algunas veces se pasa por alto que cuando se calcula r sobre la base de datos de muestra, se puede obtener una correlacin positiva o negativa apreciable
por suerte o de manera fortuita, aunque en realidad no haya ninguna relacin
verdadera entre las dos variables que se consideran.
Para ejemplificar esto con un caso extremo, supngase que se toma un par
de dados, uno rojo y uno verde, se tiran cinco veces y se obtienen los siguiente
s
resultados:
~ a d o I de 1 r rojo Dado ver
( Y)
5
Cap. 16. Regresin lineal simple y correlacin
44 1
Calculamos el coeficiente de correlacin (ya sea con frmula o con el Excel), as como la recta de regresin y los siguientes datos: r = 0.65558 = 0.66; r2
=
0.4289; bo = -0.6538; b = 1.1923. Desde luego, es imposible que exista una corr
elacin porque un dado no puede saber lo que el otro est haciendo.
Para ensayar la hiptesis nula de que p = O contra una alternativa, se usa la
tabla 16.1 de valores crticos para r. Se rechaza la hiptesis nula (en el sentido
de
que no hay correlacin) si r c -r, o bien r > r,, donde el valor de este trmino
se puede obtener en la tabla 16.1. En caso de rechazar la hiptesis nula, se d
ice
que hay una correlacibn significativa; en caso contrario, se concluye que el val
or
de r obtenido en la muestra no es estadsticamente significativo.
En nuestro ejemplo de los dados, usemos el nivel de significacin a = 0.05
para probar la hiptesis nula de no correlacin. Los pasos son los siguientes:
1. Hiptesis nula: Ho {p = 0); hiptesis alternativa: H, {p # O) .
2. Nivel de significacin: a = 0.05.
3. Criterio de decisin: rechazar Ho si r c -0.878 o bien r > 0.878, donde
este es el valor hallado en la tabla para T,,~,, con n = 5; en caso contrario,
aceptar Ho y concluir que el valor de r obtenido con la muestra no es
significativo.
4. Clculo del coeficiente de correlacin muestral: r = 0.66.
5. Decisin: Como r = 0.66 est dentro del intervalo de -0.878 hasta 0.878
(zona de aceptacin), se acepta H se concluye que el coeficiente de
0 !'
correlacin de la muestra no es significativo y la aparente correlacin es

pura casualidad.
Tabla 16.1. Valores crticos para el coeficiente de correlacin.
442
Parte VI. Regresin y correlacin
Ejemplo 16.7. Con el caso que aparece en el ejercicio de autoevaluacin (nmero
de aos que se ha estudiado ingls en la preparatoria o en la universidad y califica
cin en
una prueba estndar de ingls), calcular el coeficiente de correlacin de la muestra r
y
probar la hiptesis nula de no correlacin con un nivel de significacin de 0.01.
Solucin: n = 10; EX = 35; XxZ = 133; EY = 697 y &'Y= 2554; XyZ = 50085. Recordamos las frmulas:
Operaciones:
1. Hiptesis nula: Ho.{p = 0) ; hiptesis alternativa: H, { p # 0) .
2. Nivel de significacin: a = 0.01.
3. Valor crtico de la tabla: 0.765
4. Criterio: Rechazar Ho si r < -0.765 o bien r > 0.765.
5. Decisin: Como 0.91 > 0.765, se rechaza Ho y se concluye que s hay correlacin
entre las variables consideradas.
William H. Kruskal (n. 19 19) y W. Allen Wallis ( 1 9 12- 1998). Ambos, econ
omistas
estadounidenses. La prueba de Kruskal-Wallis fue propuesta en el artculo "Use o
f
Ranks in One-Criterion Variance Analysis", publicado en el lournal ofAmerican St
atistics
Association, en 1952. Es de utilidad cuando no es aplicable el anlisis de varia
nza debido a
incumplimientos de las hiptesis del modelo.
Un pequeo grupo de 10 estudiantes que han estudiado algo del idioma ingls en la pr
eparatoria o en la universidad resolvieron una prueba estndar de ingls. Las calific
aciones
respectivas en esa prueba (en escala del O al 100) fueron las siguientes:
estudiado Calzjicacin en
1 ""Os '",y 1 la prueba ( y ) 1 ingls
- -3
/I
1. Ajuste una recta de mnimos cuadrados a los datos de esta tabla.
2. Con la recta de regresin obtenida, estime la prediccin que se puede hacer sobr
e la
calificacin que podna obtener en el TOEFL un alumno que ha estudiado ingls durante dos aos en la preparatoria o en la universidad.
3. Obtenga el error estndar de la estimacin.
4. Ensaye la hiptesis Ho en el sentido de que cada ao adicional de estudio del i
dioma
ingls en la preparatoria o en la universidad suma otros 12.5 puntos a la calif
icacin
esperada en la prueba del TOEFL. Utilice la hiptesis alternativa P # 12.5 y un ni
vel de
significacin de 0.05.
5. Construya un intervalo de confianza de 99% de B, el incremento esperado de l
a calificacin en la prueba del TOEFL por cada ao de estudio adicional de ingls en la preparatoria o en la universidad.
6. Suponga que el objetivo final del estudio fue estimar la calificacin promedio
en la
prueba del TOEFL para solicitantes que han estudiado dos aos de ingls en la preparatoria o en la universidad. Construya un intervalo de confianza de 99 % para

esta
media.
1. La recta de regresin Y= 6, + bXqueda determinada por su pendiente b y su ord
enada
en el origen b,. Estos parmetros estn dados por las frmulas siguientes:
444
Parte VI. Regresin y correlacin
Ahora bien, con ayuda de una calculadora de bolsillo (ponindola en modo estadstico), se halla rpidamente que ZX = 35; CY = 697; ~ X Y = 2554; ZX = 133; CY
=
50085. Adems, n = 10. Sustituyendo estos datos en las frmulas de arriba, se obtien
e
entonces:
En consecuencia, la ecuacin de la recta de regresin es:
O en forma aproximada:
Y= 31.533 + 10.90%
2. Sustituyendo el valorX= 2 en la ecuacin obtenida en la pregunta anterior se o
btiene:
3. Con la frmula original se obtiene:
Entonces, el error estndar de la estimacin es:
Aqu procede una observacin importante, de la que ya se habl antes. Hay dos tipos
bsicos de nomenclatura en los diversos libros. Por un lado, algunos autores defin
en
los smbolos S,, S, y S,,, de la siguiente manera, llammosla versin A:
Para estos autores, se aplica la frmula siguiente:
Cap. 16. Regresin lineal simple y correlacin
445
En cambio, otro grupo de autores usamos la siguiente nomenclatura, que denot
aremos la versin B:
Obviamente son los mismos valores que en la versin A, pero divididos entren. Como
nosotros hemos adoptado esta notacin, podemos calcular el error estndar de
la
estimacin as:
Resulta claro que el valor de s obtenido en el ejemplo de los matrimonios puede
quedar multiplicado por &, en comparacin con el valor verdadero si se usa la frmula
equivocada.
4. Usamos aqu la frmula para un intervalo de confianza relativo al parmetro B, que
es
la pendiente de la recta de regresin poblacional:
b - m
t = S
G
Es interesante observar que aqu no pasara nada si se hubiera usado el valor equivo
cado de s (es decir, 17.871), en vez del valor correcto (o sea, 5.651), ya que e
l valor de
Ge s t a r a en exceso en el numerador y tambin en el denominador, por lo que s
e
cancelaran. As, esta frmula es vlida tanto en la versinA como en la versin B por
igual. En efecto, usando el valor equivocado en la frmula se obtendra:
mientras que usando el valor correcto se tendra:
En las tablas de percentiles de la distribucin t de Student se halla que el p
ercentil
t,,,, con ocho grados de libertad es 2.306 (recurdese que es un ensayo bilateral)
. Por

consiguiente, la regla de decisin es rechazar la hiptesis nula H,:{B = 12.5) si


ocurre
que el valor calculado de t es < -2.306 o bien > 2.306; en caso contrario, se a
cepta Ho.
Como -0.91 cae en la zona de aceptacin (obviamente), no hay motivos para rechazar
Hoy se concluye que con un nivel de significacin de a = 0.05 debe aceptarse H,.
446
Parte VI. Regresin y correlacin
5. Usamos la frmula para el intervalo de confianza de 100(1- a ) % relativo al
parmetro
poblacional B. Por lo general, se toma a = 0.05 o a = 0.01 como en este caso esp
ecfico.
Dicha frmula es:
Aqu a = 0.01; y en las tablas de percentiles de la distribucin t de Student hallam
os
el valor crtico es 3.355. De nuevo, aqu da lo mismo usar el valor equivocado de s
o
usar el valor correcto, pues ambos conducen a la misma respuesta, porque el
valor
equivocado contiene un exceso de dn tanto en el numerador como en el denominador, los cuales se cancelan. En efecto, usando el valor equivocado se halla que
el intervalo es:
mientras que con el valor cowecto sale igualmente:
El intervalo de confianza buscado es, por tanto, desde 5.05 hasta 16.75 de incr
emento
esperado en la calificacin del examen de idioma ingls (en escala del O al 100) por
cada
afio adicional que se estudie ingls en la preparatoria o en la universidad (por s
upuesto,
con una confianza de 99 %) .
6. El intervalo de confianza de 100(1- a ) % para la respuesta media klxo
est dado por:
Primero hay que calcular la ordenada en la recta de regresin que corresponde al p
unto de abscisax, = 2. De hecho aqu no hace falta calcular nada, porque se obtuvo y
a ese
dato en la pregunta 2. Recurdese que se obtuvo el valor Y= 53.34. Tenemos entonce
s
todos los datos para aplicar esa frmula directamente.
La respuesta correcta se obtiene con el valor s = 5.561. Resulta ser:
Es un intervalo que va desde 42.7 hasta 63.9. Esto se interpreta diciendo que aq
uellos
estudiantes que tienen exactamente dos aos de estudio de ingls en la preparatoria
o
en la universidad, debern obtener en el examen de ingls una calificacin que oscile
entre 42.7 y 63.9 (en escala del O al 100). Por supuesto, no es seguro, pero hay
99 % de
probabilidad (confianza) de que as sea.
1. En una seccin de la cafetera de una escuela, las rdenes de paquetes de hamburgu
esas,
papas, refresco y pie de manzana constituyen la mayora de las ventas de aliment
os. El
gerente de la cafetera desea evaluar cmo afecta el precio de esos paquetes a sus u
tilidades semanales, de manera que ha experimentado variando el precio de los paquet
es
durante nueve semanas diferentes, con los siguientes resultados:
a) Ajuste una recta de mnimos cuadrados a estos datos y construya un intervalo

de
confianza de 95 % para el coeficiente de regresin B.
b) Calcule el coeficiente de correlacin r de la muestra dada y selo para pro
bar la
hiptesis nula de que p = O contra la alternativa de que p + 0.
c) iQu porcentaje de la variacin en las utilidades semanales se puede atribui
r a la
relacin entre la utilidad semanal y el precio de los paquetes?
2. Los datos siguientes pertenecen a un estudio acerca de los efectos que la co
ntaminacin
ambiental tiene sobre la vida terrestre; en particular, el efecto de pesticidas
en el espesor
de los cascarones de ciertas aves:
Residuos de pesticidas
Espesor r
del huee
Calcule el coeficiente de correlacin r de estos datos y selo para ensayar la hi
ptesis
de que p = O contra la alternativa de que p # 0, con un nivel de significacin
de a =
0.01.
3. Algunos psiclogos sostienen que la velocidad con que las personas escriben en
el teclado de una computadora est correlacionada con la velocidad a la que acostumbran le
er
las palabras impresas en un libro o revista. Se hizo un experimento con nueve es
tudiantes de una universidad y con cronmetro se les registr el nmero promedio de palabras
por minuto que leen y el nmero promedio de palabras que escriben por minuto en u
n
teclado:
a) Mida el grado de relacin aparente entre la velocidad de mecanografa y la velo
cidad de lectura, calculando el coeficiente de correlacin.
b) Pruebe la hiptesis nula de no correlacin en el nivel de significacin de a = 0.0
5.
c) Qu porcentaje de la variacin en la velocidad de mecanografa se puede atribuir a
la relacin entre la velocidad de mecanografa y la velocidad de lectura?
4. Si calculamos r para cada uno de los conjuntos de datos siguientes, debe sorp
renderse
uno si se obtiene r = 1 y r = -1, respectivamente? Explique su respuesta.
5. En cada inciso, haga una prueba de hiptesis rpida para verificar si el valor d
e r es significativo, usando un nivel de significacin de a = 0.05:
6. Verifique en cada inciso si r es significativo, usando un nivel de signif
icacin de a =
0.0 1 :
7. La tabla siguiente muestra los porcentajes de la votacin que predijo
la empresa de
consultora Mitofsky en sondeos de preferencias sobre siete candidatos a gobernad
ores
estatales de los partidos polticos principales de Mxico, y los porcentajes de vot
acin
que finalmente obtuvieron:
Encuesta ( x )
42 %
34 %
59 %

41 %
53 %
40 %
55 %
Ekccin (y )
51 %
31 %
56 %
42 %
';'3 %
5%
54 %
Cap. 16. Regresin lineal smiple y correlacin 449
a) Calcule r en relacin con estos datos.
b) Como r no depende de las escalas de x y y, su clculo a menudo se puede simpli
ficar
sumando un nmero positivo o negativo adecuado a cada trmino x, a cada trmino y
o a ambos. Vuelva a resolver el inciso a despus de restar 34 de cada x y 31 de ca
da y.
8. Se escogieron al azar 16 estudiantes de nivel profesional del ITESM
(sin importar la
carrera que cursaban) y se les someti improvisadamente a un examen informal de ma
temticas bsicas de nivel preparatoria y otro examen general y bsico de redaccin y ortografa. En escala del O al 100, las calificaciones obtenidas por cada uno de ell
os fueron:
Matemticas 1 Redaccin
x ) ; 1
a) Calcule el valor de r.
b) Calcule otra vez r, pero ahora restando constantes adecuadas para cada valor
de x y
y, tal y como se sugiri en el ejercicio 6b.
c) Pruebe la hiptesis nula p = O en el nivel de significacin de a = 0.05.
d) Estime el porcentaje de la variacin de las calificaciones en el examen de red
accin
que se puede atribuir a (o explicar por) la relacin intrnseca entre la aptitud
para
las matemticas y la calidad de la ortografa y redaccin de una persona.
9. Una compaa de refrescos est estudiando el efecto de sus campaas publicitarias po
r
TV entre los estudiantes de una universidad. A un grupo de ocho estudiantes eleg
idos
en forma aleatoria se les pregunt cuntas latas del nuevo refresco haban comprado
en la semana anterior y cuntos anuncios de dicho refresco haban visto por TV en es
a
misma semana:
a) Desarrolle la ecuacin de la recta de regresin (mnimos cuadrados).
b) Calcule el coeficiente muestra1 de determinacin y el coeficiente de correlacin
.
x (nmero de anuncios)
Y (nmero de latas)
1. Exprese en cada caso si esperara obtener una correlacin positiva, negativa o n
o obtener ninguna correlacin (explique brevemente la razn de su respuesta):
a) Las edades de los esposos y las esposas.
b) La cantidad de hule que contienen los neumticos (llantas) de los automviles y
el
nmero de kilmetros que han recorrido.
4
12

9
14
3
7
O
6
1
3
6
5
2
6
5 1
101
450
Parte VI. Regresin y correlacin
El ingreso o dinero de una persona en Mxico y la educacin que tiene.
La talla de camisa y el sentido del humoc
El nmero de horas diarias que estudia ajedrez un ajedrecista y su rating (o punt
uacin).
El nmero de problemas y ejercicios que ha intentado resolver un alumno de estadstica y su calificacin en los exmenes de la materia.
El nmero de veces que un estudiante ha faltado a las clases de matemticas y la
calificacin obtenida en los exmenes de la materia.
La inteligencia de una mujer y el tamao de su busto.
El nmero de horas que una persona ha pasado practicando boliche y las puntuaciones promedio que obtiene en ese juego.
La inteligencia de una persona y el tamao de su cabeza.
El nmero de horas que una persona duerme cada da y el nmero de aos que llega
a vivir.
La rapidez para aprender un nuevo idioma y el nmero de idiomas que ya domina
una persona.
La edad de una persona y el nmero de palabras y conceptos que es capaz de retener
en la memoria.
2. Explique por qu una ecuacin de estimacin es vlida nicamente sobre el intervalo de
valores empleados en su desarrollo, es decir, slo dentro del intervalo de donde s
e extrajo
inicialmente la muestra.
3. Explique si es correcto emplear el coeficiente de determinacin r 2 para des
cribir el porcentaje del cambio en la variable independiente x que se debe a un cambio en la
variable
dependiente y, y si no es as, entonces en qu sentido debe interpretarse r * ?
Los siguientes siete ejercicios (que pueden utilizarse como exmenes) contienen u
na tabla de
datos que representa un conjunto de observaciones para la variable explicativa (
o independiente) x, con los correspondientes valores para la variable explicada (o dependient
e) y. El tiempo
lmite para contestar cada ejercicio es de una hora. En cada ejercicio, conteste
las siguientes
seis preguntas, que debe resolver usando s61o una calculadora, tablas de valores
crticos para la
distribucin t de Student con v grados de libertad y tablas de valores crticos para
el coeficiente
de correlacin, as como un formulario (lista de frmulas) elaborado por usted mismo:
a) Obtenga la ecuacin de la recta de regresin por ajuste de mnimos cuadrados.

b) Calcule el valor numrico del error estndar de la estimacin S = se.


C) Obtenga el valor numrico del coeficiente de determinacin.
d) Construya un intervalo de confianza de 95% para el parmetro B, (ordenada
en el
origen de la recta de regresin poblacional).
e) Determine un intervalo de confianza de 95 % para el parmetro B (pendient
e de la
recta de regresin poblacional).
f ) Elabore una prueba de hiptesis con un nivel de significacin de a = 0.05, par
a ensayar
la hiptesis nula de que no hay correlacin a nivel poblacional entre ambas variabl
es,
contra la alternativa de que s hay alguna correlacin. Para ello debe especificar c
lara.
mente las siguientes cinco etapas de la prueba:
i ) Hiptesis nula e hiptesis alternativa
i i ) Valor calculado del estadstico de prueba que use
Cap. 16. Regresin lineal simple y correlacin
iii) Valor crtico hallado en la tabla
i w) Intervalo de valores donde se rechazara la hiptesis nula
U) Conclusin (rechazar o no rechazar la hiptesis nula).
1. Datos:
2. Datos:
3. Datos:
4. Datos:
5. Datos:
452
6. Datos:
7. Datos:
Formulario sugerido para resolver las preguntas de estos ejercicios:
SSE =Sw - bS,
I
I
1 Intervalo de confianza para Po: / Intervalo de confianza para p:
1
gunos conceptos
undamentales de
probabilidad
Regla multiplicativa y probabilidad condicional
Probabilidad condicionai. Con frecuencia ocurre que la probabilidad de un suceso
puede verse afectada por el conocimiento de otro suceso cuyo resultado influye
en el
primero. Esta idea conduce al concepto de la probabilidad condicional de event
os, la
cual se define de la siguiente manera.
Para cualesquiera dos eventos A y B (no vacos), se define la probabilidad condiao
nai de B dado A mediante la relacin multiplicativa:
Como la interseccin de conjuntos es conmutativa, ello es equivalente a escribir:
Regla multiplicativa. Para ms de dos eventos se puede generalizar la regla
multiplicativa dada por la definicin anterior; por ejemplo, para tres eventos A, B y C
se tendra:
Ejemplo Al. En el estante de una biblioteca hay ocho libros de fsica iguales (mis
mo autor, edicin y ttulo), excepto que cuatro de ellos estn a la rstica y los otros
cuatro estn empastados (o encuadernados). Supngase que en forma sucesiva vienen tres
lectores y cada uno de ellos pide a la bibliotecaria un ejemplar de ese libro p

ara llevar a
casa. Si la bibliotecaria los elige al azar, cul es la probabilidad de que al prim
ero le toque
empastado, al segundo a la rstica y al tercero tambin a la rstica?
Solucin: Es claro que si denotamos por A, B y C a esos tres eventos y aplicamos l
a
frmula recin expuesta, la solucin ser:
454
Apndice A. Algunos conceptos fundamentales
Ntese que la respuesta l/7 es exacta, mientras que el valor 0.1429 es slo una apr
oximacin redondeada a cuatro dgitos decimales. Siempre que sea fcil o posible se pre
fiere dar la respuesta en forma de una fraccin o nmero racional; en su defecto, se ac
ostumbra dar una aproximacin redondeada a por lo menos cuatro dgitos despus del punto
decimal.
Es frecuente entre los estudiantes que se inician en el estudio de la teora d
e las
probabilidades, que surja en ellos cierta confusin entre los eventosA n B (inter
seccin)
y A 1 B (condicional de A dado B). En uno y otro caso se habla de la ocurrencia
de ambos
eventos, A y B. Pero la diferencia estriba en que en el caso de A 1 B de antema
no se conoce
que B ha ocurrido y esta informacin de alguna manera modifica la probabilidad d
e A,
toda vez que el espacio muestral (o casos totales) se reduce al conjunto B. Los
siguientes
ejemplos aclaran esto.
Ejemplo A.2. Un maestro lanza dos dados sobre la mesa, mira los nmeros que salen
y los cubre con la mano para que sus alumnos no puedan verlos. Entonces, el maes
tro les
pregunta lo siguiente:
a ) Cul es la probabilidad de que uno de los dados muestre un 4 y el otro un 5?
6) Supngase que el maestro les proporciona a sus alumnos la informacin de que
en uno de los dados sali el 5. Conociendo ese dato, cul es entonces la probabilidad de que el otro dado muestre el 4?
Solucin:
a) Los dados son distinguibles y podemos llamarlos "dado 1" y "dado 2". Si
en el
dado 1 sale n y en el dado 2 sale m, entonces escribimos (n, m), donde n y m so
n
cualesquiera nmeros del 1 al 6. Entonces, el espacio muestral R consiste de 36
posibles parejas ordenadas de este tipo, es decir, 51 = ((1, l), (1,2), . . . ,
(6,6)). Si
E es el evento de que un dado muestre un 4 y otro dado un 5, entonces E = ((5,
4), (4,5)). Para hallar la probabilidad de este suceso E, se divide el nmero de c
asos favorables (2) entre el nmero total de casos (36). Por tanto, la respuesta a
la
primera pregunta es: probabilidad de que un dado muestre un 4 y el otro un 5:
b) Los alumnos saben que en uno de los dos dados sali el 5. Entonces esta informa
cin reduce el espacio muestral al siguiente conjunto:A = ((1, 5), (2,5), ( 5 3 ,
(4,
5), (5, 5), (6, 5), (5, l), (5, 2), (5,3), (5,4), (5,6)). Es decir, de los 36
elementos
originales de Q ahora el espacio muestral se ha reducido a los 11 elementos del

conjunto A. Ntese que son 11 y no 12, porque doble 5 slo hay uno. En consecuencia, sabiendo que en un dado sali un 5, la probabilidad de que salga un 4
en el otro dado es el cociente del nmero de elementos de E = ((5, 4), (4, 5))
2
entre el nmero de elementos de A, es decir: -. Los restantes 25 elementos
11
de 51 ya no tienen que tomarse en cuenta, porque se tiene la certeza de que no
ocurrieron.
Asimismo, podramos haber resuelto este inciso mediante la frmula. Sean los
eventos: A = {En uno de los dos dados sali el 5) ; B = {En uno de los dados sal
i
el 4). Entonces,A n B =E = {(5,4), (4, 5)) y por tanto:
Algunos conceptos fundamentales de probabilidad
455
Ejemplo A.3. En un grupo de 36 estudiantes universitarios hay nueve que dominan
el idioma ingls, cuatro que dominan el francs y dos que dominan ambos idiomas (ya
contados entre los anteriores). Se selecciona un alumno al azar en ese grupo y
se comprueba que domina el ingls. Cul es la probabilidad de que domine el francs?
Solucin: Sean los eventos I = {Domina el ingls.); F = {Domina el francs.). Para
un alumno cualquiera del grupo se tendr:
Entonces:
Ntese que el conocimiento previo de que el estudiante dominaba el ingls aument la probabilidad de que dominara ambos idiomas de '/18 a 2/9 porque el espacio
muestral
se redujo a los nueve que dominan el ingls y los restantes 27 alumnos no nece
sitaron
ser considerados.
Eventos independientes
Por definicin, dos eventos A y B no vacos se llaman independientes si ocurre que
P(A 1 B) = P(A) o bien P(B 1 A) = P(B). Queda claro que cualquiera de estas do
s igualdades
P(A n B) P(A n B)
implica a la otra, ya que
P(B)
= P(A) equivale a escribir = P(B). De maneP(A)
ra equivalente, es lo mismo decir que dos eventos A y B son independientes si y
slo si se
cumple la relacin P(A n B) = P(A)P(B).
Es interesante observar que de acuerdo con esta definicin, puede darse el caso de
que un evento sea independiente de s mismo. En principio, slo el espacio muestral
!2
tiene esta curiosa propiedad:
P(sz 1 sz) =
P(Q n Q) - P(Q) -l =p( sz)
P(Q) P(Q)
Por regla general, es posible decir a simple vista si dos eventos son independie
ntes
o no, pero si hay alguna duda, debe comprobarse con la frmula. En principio, si
dos
eventos son fsicamente independientes, entonces deben ser estadsticamente independientes tambin. Ntese que para que dos eventos sean independientes se ha pue
sto
como requisito que no sean vacos. Si no se hubiese puesto esa condicin, ent
onces
tambin el conjunto vaco 0 podra ser considerado como independiente de s mismo,

toda vez que:


Ejemplo A.4. Se lanzan tres monedas al aire para ver si caen en guila (a) o sol
(S).
SeaA el evento: {En las tres monedas sale el mismo signo); sea B el evento {Por
lo menos
una de las monedas muestra guila) y sea C el evento {Por lo menos salen dos guilas
).
Determinar si A y B son eventos independientes, as como para B y C, y para A y C.
Solucin: El espacio muestral Q tiene ocho elementos: !2 = {aaa, saa, asa, ss
a,
456
Apendice A. Algunos conceptos fundamentales
aas, sus, m, sss). Adems, A = {aaa, SS) ; B = {m, saa, asa, ssa, aus, sas, as
s) y A n
B = {aaa}. Tenemos:
2 7 1
Claramente, - - # 8, as que A y B no son independientes.
8 8
Por otra parte, C = {aaa, saa, asa, aas); A n C = {aaa}; B n C = C. Entonces
se tiene:
2 1
Como - - = 1 , luego A y C s son independientes. El lector debe comprobar
8 2 8
como ejercicio que B y C no son independientes.
Ejemplo A.5. Si A es el evento {Brasil gana la prxima copa del mundo de futbol)
y
B es el evento {Mi ta Mara tuvo resfriado anoche). Determinar si se trata de a) ev
entos
independientes o 6) de eventos ajenos (o excluyentes).
Solucidn: En efecto son eventos independientes, pero es un error tpico pensar que
se trate de conjuntos ajenos, puesto que s tienen interseccin. De hecho, su inters
eccin
es el conjunto {Brasil gana la prxima copa del mundo de futbol y adems mi ta Mara
tuvo resfriado anoche).
En general, para que n eventos A,, A,, . . . , A" sean todos independiente
s (desde el
punto de vista probabilstico) se requiere que sean independientes por parejas; o
lo que
es lo mismo, se requiere que P(A, n A, n .. . n A") = P(A,) n P(AJ n . . . n
P(AJ. En el
ejemplo A.4 de las tres monedas, resulta claro que los tres eventos A, B y C no
son independientes.
Probabilidades posteriores y la Regla de Bayes
Los mtodos estadsticos clsicos subrayan la importancia del papel que desempea la opinin apri ori acerca de la estimacin de algn parmetro o parmetros. No obstante, hay otro enfoque diferente en anlisis de decisiones, basado en los mtodos y
en
el pensamiento bayesiano.
Los mtodos bayesianos proporcionan los medios que posibilitan la modificacin
formal de la opinin a priori, modificndola a la luz de informacin a posteriori.
Los
mtodos bayesianos de pronsticos son tiles por s mismos y tambin porque permiten
comprender mejor las limitaciones de la estadstica clsica y por ende las limitacio
nes de
los mtodos clsicos de pronstico.
Los trminos latinos a priori y a posteriori significan "antes de la experienc
ia" y

"despus de la experiencia", respectivamente. En estadstica, las probabilidades pos


teriores (o a posteriori) se deducen a partir de las probabilidades apri ori (o ante
riores) mediante el clebre Teorema de Bayes. Thomas Bayes fue un presbtero ingls que ide una
famosa regla o frmula conocida como Teorema de Bayes.
'Ihomas Bayes fue un telogo y ministro presbiteriano ingls. Su clebre frmula no
fue publicada sino hasta tres aos despus de su muerte, en 1763. Aos ms tarde, primero Laplace y ms recientemente Jefferys y Jaynes, entre otros, desarrollaron el
pensaAlgunos conceptos fundamentales de probabilidad
457
miento de Bayes y fundaron la "inferencia bayesiana", as como la "estadstica bayes
iana".
Bayes jams supo del alcance que iban a tener sus ideas en la estadstica. Hoy da ha
y ms
de cien sitios de Internet dedicados a la estadstica bayesiana.
Bayes naci en 1702 en Londres. Su padre fue uno de los primeros seis ministros
"no conformistas" ordenados en Inglaterra, y Thomas sigui los pasos de su progeni
tor. En
1720, fue ordenado ministro en la capilla presbiteriana de Tunbridge Wells, en K
ent, a unos
50 km de Londres. El ttulo de su trabajo revolucionario fue Essay towards solui
ng a problem in the dochine of chances. Bayes muri en Tunbridge Wells el 17 de abril de
1761.
Ilustracin de la Regla de Bayes mediante algunos ejemplos simples
Ejemplo AG. Supngase que en una oficina hay tres secretarias: Juanita (A, Lupi
ta
(L) y Rosita (R), las cuales manejan, respectivamente, 50%, 30% y 20% de los
archivos (o
informes) importantes de,su jefe. Las probabilidades (aprion3 de que ellas pier
dan o traspapelen un informe son, respectivamente, 0.15, 0.05 y-O.lO. ~s~uematizar-esta s
ituacin
mediante un diagrama de rbol.
Solucin: Aqu se usa el trmino latino aprion para asignar una probabilidad (quiz subjetiva) de un suceso que puede ocurrir, mas no ha ocurrido an. Seguramente en
los respectivos cum'cula de esas secretarias no se menciona el porcentaje de a
rchivos
que tienden a perder o a traspapelar, pero puede ser una estimacin subjetiva de s
u jefe,
con base en la experiencia de conocerlas durante muchos aos. Denotemos por Te1 ev
ento "informe traspapelado" y por N el evento "informe no traspapelado". Entonces,
el rbol
de probabilidades tendra el aspecto de la figura A. 1.
Figura A. l. rbol a priori.
Obsrvese que todos los valores numricos de probabilidades que aparecen en las
ramas del rbol corresponden a datos del problema que se proporcionaron, y no hub
o
necesidad de hacer ningn clculo. Este tipo de rbol se llama rbol a priori, ya que e
squematiza cmo est la situacin general antes de que se haya perdido ningn informe.
En tanto no se llegue a perder o a traspapelar ningn informe, los valores numrico
s del
rbol son la nica fuente disponible de datos.
458

Apndice A. Algunos conceptos fundamentales


Sin embargo, si de repente se pierde un informe (evidencia emprica), surgen entonces nuevos eventos (llamados a posteriori) ue no estn descritos en el rbol: co
ncretamente, los eventos condicionales J / T, J 1 N, Ll T. L 1 N, R 1 T y R 1
N Estos seis eventos a
posterior? tambin tienen ciertas probabilidades (llamadas posteriores), pero par
a calcularlas se requiere una frmula interesante que introdujo Thomas Bayes y que se desc
ribe a
continuacin.
Obsrvese que si se sigue una trayectoria de ramas adyacentes o contiguas (es decir, "en serie"), entonces las probabilidades se van multiplicando, por cuanto
se trata de
interseccin de eventos. Por ejemplo, en el rbol de la figura A.l, la probabilidad
de que
un informe manejado por Juanita se traspapele ser el producto de las dos ramas qu
e estn hasta arriba:
Por otra parte, si se trata de trayectorias excluyentes ("en paralelo"), enton
ces las
probabilidades se suman. Por ejemplo, en la figuraA.1, la probabilidad de que un
informe
sea manejado por Juanita o por Lupita es:
Este sencillo principio hace que un diagrama de rbol sea de gran utilidad para lo
s
clculos rpidos de probabilidades: multiplicamos las probabilidades si se trata de
ramas
adyacentes (contiguas), o bien las sumamos si se trata de ramas separadas que em
ergen
de un mismo punto. Por lgica, la suma de probabilidades de todo un manojo de ram
as
que emergen de un mismo punto (como los manojos o racimos de bananos o pltanos)
es necesariamente igual a 1.
Volviendo a la figura A. l , y siguiendo el principio mencionado, se calculan
las probabilidades de las seis posibles intersecciones de parejas de conjuntos, en las qu
e el primer
conjunto es J, L o R; y el segundo conjunto es T o N. Estas son las siguientes
, en orden de
aparicin:
Por supuesto, estos seis eventos cubren todo el espacio muestra1 !2, y por consi
guiente, la suma de esas seis probabilidades tiene que ser igual a 1 por fuerza. El
lector debe
comprobarlo con una calculadora de bolsillo. En este caso, y siguiendo la metfor
a de los
pltanos, se trata ya no de un racimo o manojo, sino de toda la penca completa arr
ancada
desde su punto de origen.
La probabilidad a priori (o probabilidad anterior) de un suceso es la probab
ilidad
que se le asigna antes de que se tenga noticia de que ha ocurrido. Por ejemplo,
la probabilidad de que explote el Sol la semana siguiente y por tanto se extinga el Sis
tema Solar
debe ser muy pequea, y los astrnomos pueden dar un valor numrico estimado de esa
probabilidad con base en sus estudios sobre la estructura interna del Sol y las
estrellas.
Sin embargo, como es un suceso que nunca antes ha ocurrido, no podemos dividir c

asos
favorables entre casos totales ni estimarla en forma directa.
De manera anloga, cuando un individuo acude a una compaa de seguros a comprar una pliza de seguro de vida, la compaa debe hacer una estimacin a pyiori
de
la probabilidad aproximada de que ese individuo especfico muera. No hay otra man
era
Algunos conceptos fundamentales de probabilidad 45 9
de calcularla, porque ese individuo jams ha muerto antes, as que la estimacin pue
de
hacerse con base en estudios de mortalidad y tomando en cuenta los hbitos particu
lares,
la edad, los antecedentes y la salud en general de este individuo. Es posible qu
e la estimacin sea un poco subjetiva, pero la compaa de seguros asume el riesgo y acepta paga
r
una fuerte cantidad a los deudos en caso de que el individuo fallezca, a cambio
de unas
cuotas mdicas anuales (o mensuales) que estimar de acuerdo con las probabilidades
a
pn'ori de que muera.
Al firmarse el seguro, es como si se hubiese pactado una apuesta: el individuo a
puesta a que se va a morir, mientras que la compaa de seguros apuesta a que no se va
a morir.
Cada quien tiene sus respectivos riesgos, as como sus respectivas prdidas o ganan
cias
en ese pacto. Desde luego, el asegurado tiene la opcin de ganar la apuesta cuando
quiera
si se arroja a las vas del tren en el momento que lo desee, mas no sera l quien dis
frutara el triunfo en la apuesta, pues la compaa pone en el contrato varias clusulas
que la
protegen contra semejantes contingencias. En un ejemplo menos trgico, y retomando
el
caso de las secretarias Juanita, Lupita y Rosita que se examin (ejemploA.6), las
estimaci*
nes de su jefe en el sentido de que ellas pudieran perder o traspapelar un inf
orme eran
probabilidades condicionales aprion' , quiz estimaciones subjetivas.
Otro concepto relacionado es el de probabilidad total, que es la suma exhaustiv
a
de las probabilidades de todos los casos mutuamente excluyentes que conducen a d
icho
evento. En el ejemplo A.6 (el caso de Juanita, Lupita y Rosita), si se quisie
ra averiguar cul
es la probabilidad total de que un informe cualquiera llegue a perderse o a tra
spapelarse,
se observa el rbol de eventos y se suman las probabilidades de todas aquellas ram
as excluyente~ que conducen al evento T (traspapelar un informe):
lo cual equivale a decir que de acuerdo con los datos del ejemplo, 11 % de los
informes
del jefe van a perderse o a traspapelarse.
El concepto de probabilidad aposterion' (tambin Ilamadoprobabilidadposten'or o
probabilidad de una causa) es la gran aportacin que el reverendo Thomas Bayes hiz
o a
la estadstica. Bayes era un telogo protestante que pas gran parte de su vida tratan
do de
demostrar la existencia de Dios para aquellos que no crean en l. Estaba empeado en

lograr una demostracin matemtica de la existencia de Dios, y para ello parti de la hi


ptesis
de que Dios era por definicin ms que un ser necesario, el nico ser necesario, es de
cir, la
causa de todo lo que existe (o de todos los seres contingentes).
Bayes razon que las causas producen efectos y que stos, a su vez, pueden ser
causas de otros efectos. Adems concili la idea de Aristteles de que un efecto es pr
oducido en general por varias causas y no slo por una. Aristteles les haba dado nombre
s
a las distintas causas que provocan un suceso: "causa eficiente", "causa materia
l", "causa
formal", "causa instrumental", etc. Pero Thomas Bayes fue mucho ms lejos y trat de
razonar en sentido inverso, partiendo del efecto y siguiendo hacia atrs el hilo de
las causas
que lo antecedieron, hasta llegar posiblemente a la causa ltima y final: la ex
istencia de
Dios como ser necesario y causa de todo lo que existe. Bayes dedic muchos aos de s
u
vida a trabajar afanosamente en esta direccin, y jams sabremos si al final qued sa
tisfecho con lo que encontr. Sin embargo, en su afn de demostrar la existencia de Dios
por
mtodos matemticos, dio con una frmula muy til que hoy se conoce como Teorema
de Bayes (o Regla de Bayes). Se trata de una frmula sencilla que permite calcular
las probabilidades de las causas dados los efectos, es decir, las probabilidades aposte
riori.
Como lo que ya ha ocurrido no puede cambiarse, el lector podra pensar que tal vez
sea ocioso indagar por las probabilidades de las causas de eso que ocurri; o como
reza
460
Apkndice A. Algunos conceptos fundamentales
el dicho: Lo hecho, hecho est. No obstante, el concepto de probabilidad a post
m'ori y
la frmula de Bayes son de gran utilidad prctica para deslindar responsabilidades o
fijar
culpas de algo que ya pas. Por ejemplo, volviendo al caso de las tres secretaria
s: Juanita,
Lupita y Rosita, si el jefe nota que se le ha perdido un informe importante, po
r ms que
haga o se enfade no lo va a recuperar ya; sin embargo, puede usar esa evidencia
emprica
para revalorizar la opinin que tena de sus secretarias, y asignarles nuevas probab
ilidades
(a posterioq por medio de la Regla de Bayes. Esas probabilidades tendran el sigu
iente
formato: P( J I T) , P(L 1 T) y P(R 1 T).
Si se observa el rbol de eventos de la figura A.l, tales probabilidades aposterio
ri
no aparecen en ninguna parte. Sin embargo es posible calcularlas mediante frmulas
conocidas:
Estas tres probabilidades apostm'ori proporcionan una nueva valoracin de la eficiencia relativa de las tres secretarias, a la luz del hecho que un informe se p
erdi. Antes
de que eso ocurriera, el jefe slo saba (vase fig. A.l) que Juanita manejaba 50 %

de sus
informes y tenda a perder tan slo 15 % de los informes que pasaban por sus manos.
Gracias a la prdida de un informe, ahora ya sabe que Juanita es en realidad respons
able de
ms de 68 % de los informes que se pierden. Naturalmente, eso no se debe a que Jua
nita
sea menos eficiente de lo que pareca, sino a que es ella quien tiene a su cargo e
l mayor
volumen de informes que se procesan.
Habiendo calculado ya la probabilidad total para que un informe se pierda, P(T
) =
0.11 y para que un informe no se pierda, P(N) = 0.89, se puede ahora enfocar to
da la situacin desde una nueva perspectiva, a saber, de efecto a causa; en cuyo caso se o
btendr
un nuevo rbol de probabilidades, llamado rbol a posteriori, ya que se construye a
partir
de las probabilidades totales calculadas y de las probabilidades a posterior
i calculadas
tambin. A diferencia del rbol apriori (cuyas entradas numricas son estimaciones dadas), en el rbol aposteriori todos los valores de probabilidades tienen que calcu
larse por
medio de frmulas. Vase el rbol de la figura A.2.
Algunos conceptos fundamentales de probabilidad
46 1
Las tres ramas de la parte inferior derecha de este rbol representan las probab
ilidades posteriores de que un informe no se pierda. Es decir, la no prdida de un i
nforme
tambin puede usarse como evidencia emprica para dar una nueva apreciacin de la eficiencia relativa de cada secretaria. En este caso, ntese que si todo marcha bien
y no se
pierde ningn informe, el jefe debe darle principalmente las gracias a Juanita, ya
que carga
con cerca de 48 % de la responsabilidad de que todo marche bien, en tanto no se
pierda
ningn informe del jefe. Las probabilidades de las tres ramas de la parte inferio
r derecha
se calculan de manera similar:
Ejemplo k7. Una importante empresa que fabrica calzado est distribuida en tres
sitios distintos L,, L, y L,, los cuales contribuyen, respectivamente, con 45
%, 30% y 25%
a la produccin total de esa empresa. Supngase que se estima que para el sitio L,
8 % de
los pares de zapatos tienen defectos que se detectan en pruebas de control de c
alidad,
mientras que las cifras correspondientes para los sitios L, y L, son 6% y 3 %,
respectivamente. Si un par de zapatos es extrado al azar de la produccin total y se obse
rva que
tiene defectos, encontrar la probabilidad de que haya sido fabricado en el sitio
L,.
Solucin: Denotemos por D al evento "zapato defectuoso". Entonces, de acuerdo
con la frmula de Bayes se tendr que:
Aunque el Teorema de Bayes se deduce de los axiomas de probabilidad y de la definicin de probabilidad condicional, se trata de una proposicin que ha sido objet
o de

controversia. No puede haber duda acerca de la validez del Teorema de Bayes, pe


ro han
surgido argumentos considerables acerca de la interpretacin de las probabilidades
aprz.0ri P(BJ. Asimismo, gran parte del misticismo que rodea al Teorema de Bayes se at
ribuye al
hecho de que vincula un tipo de razonamiento hacia atrs o "inverso", es decir, ra
zonamiento del efecto a la causa.
Ejercicios de autoevaluacibn Al
1. En la competencia olmpica de marcha o caminata, se supone que el atleta no d
ebe
flotar, es decir, debe mantener siempre contacto con el piso. Sin embargo, lo:.
videos
muestran de manera inequvoca que aproximadamente 80 % de los marchistas flotan
en algn momento de la competencia. Por otra parte, los jueces que se encargan de
amonestar a aquellos marchistas que flotan suelen equivocarse a veces, de tal ma
nera
462
Apndice A. Algunos conceptos fundamentales
que 10 % de las veces amonestan a los que no flotan, mientras que 30 % de las ve
ces
pasan inadvertidas las flotaciones de los marchistas. Si el ganador de una compe
tencia no recibi ninguna amonestacin, icul es la probabilidad de que realmente no
haya flotado?
2. Se tienen dos tarjetas: una es negra por ambas caras, y la otra tiene una c
ara negra
y la otra blanca. Se meten en una bolsa y se extrae una de las dos tarjetas al a
zar, la
cual se coloca sobre la mesa. Si la cara que muestra hacia arriba es negra, icul
es la
probabilidad de que tambin la cara de abajo sea negra?
3. Se tienen dos cajas: una caja 1 con cuatro esferas blancas y tres negras, y
otra caja 11
con tres esferas blancas y cinco negras. Se elige una de las dos cajas al azar,
de la cual
se extrae una esfera blanca. Calcule la probabilidad de que provenga precisament
e de
la caja 1.
4. Un ratn de laboratorio se introduce en un laberinto en forma de T. Del lado
izquierdo hay un pedazo de comida protegido para que el ratn no pueda olerlo de lejos; y
del lado derecho hay una pequea descarga elctrica que sera desagradable para el
ratn, mas no mortal. Supngase que la primera vez que se introduce el ratn, hay
una probabilidad de 0.5 de que vire a cualquiera de los dos lados. Si en el prim
er intento vir a la izquierda, entonces hay una probabilidad de 0.6 de que vuelva a vi
rar a
la izquierda en el segundo intento; sin embargo, si en el primer intento vir a la
derecha y recibi la pequefia descarga elctrica, entonces hay una probabilidad de 0.75
de
que vire a la izquierda en el segundo intento. Si se observa que el ratn efectiva
mente
vir a la izquierda en el segundo intento, icul es la probabilidad de que haya vira
do
tambin a la izquierda en el primer intento?
5. Durante la poca de exmenes en cierto colegio, slo 25 % de los profesores advier

ten por escrito a sus alumnos que no est permitido levantarse a hacer pregun
tas
durante la prueba. No obstante, se ha observado que a pesar de esa advertencia,
20 %
de los alumnos se levanta a preguntar durante la pmeba. Para los profesor
es que
no establecen dicha advertencia, la cifra correspondiente es de 70%. Si durant
e un
examen a cargo del profesorx, de pronto irmmpe un inspector en el saln y observa
que hay alumnos que se levantan a preguntar, icul es la probabilidad de que ese p
rofesor no les haya advertido por escrito a sus alumnos que se prohbe hacer pregunt
as
en los exmenes?
6. Una compaa fabrica empaques de hule para tuberas en tres sitios distintos de
una
ciudad, llammoslos S,, S, y S,, los cuales producen, respectivamente, 45 %, 30%
y 25%
del total de la produccin. Se estima que 8% de los empaques fabricados en S, s
on
defectuosos, mientras que para S, y S, las cifras correspondientes son 6% y 3
96. Los
empaques fabricados por los tres sitios se concentran luego en una bodega de la
ciudad. Si un inspector de control de calidad toma un empaque al azar de la bodega
y lo
encuentra defectuoso, qu probabilidad hay de que provenga del sitio S,?
7. La siguiente tabla muestra la proporcin de pacientes que ingresan en la cln
ica de
especialidades Aranda de la Parra de Len, Guanajuato, y las probabilidades aproxi
madas de curacin completa:
/ Especialidad mdica
- 1
irtgrexan cornpletaA
/ - -_ .
Porcentaje
del total que
Probabilidad
de curacin l
A3 ' Enfermedades gastrointestinales 1 . 28 1 0.80
1
i . - - 1
Al 1 Traumatologa y ortopedia
- .- A2 1 Enfermedades cardiacas y circdatorias
19
12
A4 1 Gnecologa y obstetricia
1 14
0.55
0.40
0.96
Si un enfermo de esta clnica fue dado de alta sano, calcule la probabilidad de qu
e:
A5 / Oftalmologa y otorrinolaringologa
A6 Cancerologa
--A7 1 Dermatologa

A8 j Neumologa
A9 1 Sida
a) haya sufrido algn padecimiento cardiaco o circulatorio;
6) haya sufrido algn golpe o lesin fsica.
8. En cierto pas subdesarrollado aquejado por una fuerte inflacin, los econo
mistas
esbozan tres teoras: teora 1: la inflacin desaparecer antes del cambio de gobierno;
teora 11: ocurrir una depresin; y teora 111: habr una recesin. Ellos estiman que
las probabilidades de que se lleguen a materializar las teoras 1, iI y 111son res
pectivamente 0.40, 0.35 y 0.25. Por otra parte, los expertos consideran que las pr
obabilidades de que ese pas salga del subdesarrollo, si ocurren realmente los eventos
i,
11y 111, son de 0.90,0.60 y 0.20, respectivamente. Supongamos que el pas de todos
modos no logra salir del subdesarrollo. Cul es la probabilidad de que la inflacin
haya desaparecido antes del cambio de gobierno?
9. En un saln 1hay siete alumnos, de los cuales cuatro estudian ingeniera y tres
actuara; en un saln 11hay ocho alumnos, de los cuales tres estudian ingeniera y cinco
actuara. Se pasa al azar un alumno del saln 11al saln 1, y luego se elige al azar u
n
alumno del saln 1. Determine la probabilidad de que sea estudiante de ingeniera.
10. Una caja 1 contiene cuatro canicas blancas y tres negras; una caja 11contie
ne tres canicas blancas y cinco negras; y una caja 111contiene seis canicas blancas y tres n
egras.
De la caja 1se extrae al azar unacanica y se deposita en la caja 11. Luego, de l
a caja 11
se extrae al azar una canica y se traspasa a la caja 111. Por ltimo, se saca una
canica al
azar de la caja 111. Determine la probabilidad de que sea blanca.
11. Una urna 1 contiene dos esferas blancas y dos negras; una urna 11contiene d
os blancas y tres negras. Se selecciona una urna al azar y se extraen dos esferas jun
tas de
manera aleatoria. Cul es la probabilidad de que sean del mismo color?
12. Un nio usa calcetines de slo dos colores: azul y negro. Sin embargo, no los
tiene
ordenados por parejas, sino que los tiene sueltos en dos cajones de su ropero. E
n el
cajn de arriba tiene seis calcetines negros y dos azules; y en el cajn de abajo ti
ene
tres calcetines negros y cinco azules. No puede prender la luz para ver, porqu
e despertara a su hermano menor; as que toma un calcetn de cada cajn, se los pone
en la oscuridad, se viste y se va a la escuela. Cul es la probabilidad de que
se haya
puesto calcetines del mismo color?
13. Supngase que en cierto lugar llueve aproximadamente 40% de los das y hay ciel
o
despejado 60% de los das. Supngase adems que la gente de ese lugar puede ms o
menos predecir si llover o no, consultando el barmetro; aunque ese instrumento no
es del todo confiable, ya que en das lluviosos pronostica errneamente "claro" 10
%
de las veces, y en das claros predice en forma incorrecta "lluvia" 20% de las vec
es.

En un da cualquiera se consulta el barmetro y se comprueba que este instrumento


pronostica que llover. Dada esa evidencia, cul es la probabilidad de que llueva?
14. Dado el siguiente rbol de probabilidades aprz'ori, halle el rbol correspondie
nte de
probabilidades a posteriori:
5 0.50 1
6
6
7
3
0.10
I
0.85 i
0.80 1
15. En una fbrica de piezas de poliuretano, hay dos mquinas automticas (M, y MJ
que
producen piezas idnticas de ese material, las cuales son tiradas a un transportad
or comn y empacadas manualmente por los obreros. La mquina M, tiene un rendimiento
dos veces mayor que M,; sin embargo, M, es una mquina ms antigua y produce s61o
60 % de piezas de calidad excelente, mientras que M, produce 84 % de piezas exce
lentes.
Una pieza tomada al azar del transportador result ser de calidad excelente. Calcu
le la
probabilidad de que haya sido producida por la mquina M,.
16. Cierto acontecimientoA puede ocurrir como consecuencia de tres posibles cau
sas mutuamente excluyentes: B,, B, y B,: las cuales forman un conjunto completo de ev
entos
(es decir, la suma de sus probabilidades es igual a 1). Despus de que efectivame
nte
ocurri el acontecimiento A, se estimaron las probabilidades posteriores de las ca
usas,
hallndose que P(B, [A) = 0.6 y que P(B, 1 A) = 0.3. Determine la probabilidad c
ondicional P(B, I A).
Respuestas de los ejercicios de autoevaluacin Al
1. 3/7 = 0.4286
2. 2/3 = 0.6667
3. 32/53 = 0.6038
4. 0.4444
5. 0.9130
6. 0.5853
7. a) 0.07397;
8. ,119 = 0.1053
9. 35/64 = 0.54687
10. 403/630 = 0.6397
11. 11/30 = 0.3667
12. 7/16 = 0.4375
13. Denotemos por ),y O,, respectivamente, a los eventos "llueve" y "no llueve"
. SeanX,
y X,, respectivamente, los eventos: "el barmetro pronostica lluvia" y "el barmetro
pronostica da seco". Segn esto, la probabilidad de que llueva y el barmetro pronostique "lluvia" es:
Algunos conceptos fundamentales de probabilidad
465
En forma anloga, la probabilidad de tiempo despejado y prediccin lluvia es:
La probabilidad de que el barmetro pronostique lluvia ser entonces (probabilidad

total):
Si en efecto, ocurre que el barmetro predice lluvia, entonces la probabilidad apo
sterion de que llueva es:
14. Por medio de la Regla de Bayes se halla el siguiente rbol aposteriori:
Tabla de Ia distriboci6n binomia a-ulads;
2 6 6 , n, p ) = L ( : ) p x ( l - P ) " - ~
==O ==o
NOTA: Como algunos valores son demasiados cercanos a 1, se han puesto en notacin
cientfica abreviada usando la probabilidad
complementaria. Por ejemplo, parap = .05, n = 4, r =3, aparece ~6.2500-6, lo cu
al significa 1 - 6.2500 x lo4= 1 - .O000062500 = .99999375.
Este tipo de situaciones se aprecian hacia el final de valores grandes de n, y v
alores pequeos d e p (a mano izquierda). Por otra parte, a
mano derecha hay algunos valores demasiado prximos a cero, los cuales tambin se ha
n puesto en notacin cientfica abreviada; por
ejemplo, 2.3542E-8 significa 2.3542 x 104 = .000000023542.
Tabla de la distribucin binomind acumulada (continuacin) A
a!
00
Para cada eleccin de n, r yp, la tabla proporciona el valor de 2 6 ( z , n,
p ) = 2 ( : ) p X ( l x=O = = O
Tabla de la distribucin binomind acumulada (continuacin)
Para cada elecci6n de n, r y p, la tabla proporciona el Mlor de 2 b k , n,
p ) = ~ ( : ) ~ ' ( l - p)'-'
x=O = = O
C C ' - ! : ____i__.-.__
Tabla de la distribucin binominal acumulada (continuacin)
P
Para cada elecci6n de n, r yp, la tabla proporciona el valor de 2 6 0 1 , n,
p ) = 2(:)px(i - p)"-'
==O x=O
,-n I . n n n r
Tabla de la distribucin binominai acumulada (continuacin)
Para cada eleccin de n, r y p, la tabla proporciona el valor de 2 6( z, n, p)
= z(:)px(l - p)"-*
* =O * =O
i
- - - . --.~1.4695-7
- - ~ ~ ~ ~ ~ ~
~1.4336-8
~1.1726-9
~7.9394-11
~4.3723-12
~1.9151-13
~7.1054-15
2 1 - 1V16
. - . -6.3994-10
~3.3389-11
~1.7290-;2
~7.3497-14
2 1 - 1W16
2 1 - lWl6
2 1 - 1WI6
t 1 - 1W16
..
'

-$719 .04t 8.4698E-18


1884 .111 3.4574E-07 3.2220E-16
6
'
. m3 1 2 ,3905236 ,93047 5549 ,221 2.7674EO6 9.7340815
, -6.6643-6
-.O000521 .8462719 ,1527816 14
15 1
16 /
.0003213,0016841
-,0074561
.O276583
.5109198 .O126211 ~2.6978-14
2 1 - 10-l6
2 1 - 1W16
1 i
L1_7 .9998883
- - ~ ~ ~ ~ ~ ~ - ~
2 1 ~9.1382-7
-~1.0516-7
c1.0027-8
c7.7810-10
pppp
.9242052
,9680427
.9886721
. .9966946
. , .9990165
' 111 68765-10
4.7886-11
c2.2476-12
.~7.4385-14
-2.0221-5
~3.0777-6 '
~3.8855-7
--~3.9955-8 18
19
20
21
~1.4839-6
~1.6208-7
, , ~1.5212-8
c1.223%9
c8.4044-11
~4.8946-12
----,

c2.3881-13
12
13
1 4
15
16
17
.9992281
.9%702
.6720777
- ,8080548
.9040385
,9600291 L 1 - 10-l6
2 1 - lo-"
2 1 - lW"
2 1 - 1V16
~3.5912-11
, c1.6099-12
6,2506-14
2 l - 1WI6
2 1 - 10-l6
2 1 - 1WL6
~3.2611-9
c2.0323-10
~9.0833-12
,9997736
-C4.3871-5
c7.0618-6
6.2694-7
,9783419
C9.8467-5
~1.6890-5
c2.4936-6
1 3
~3. 42284
6.1471-9
C2.4337-10
18
---,9865509 , .m89248
~1.5626-11
c8.1857-13
d.4639-14
2 1 2 2 1 1 - - O
t 1 - lW16
1.0000000
t 1 - 10-l6 &.881&15
~9.6661-8
~7.7024-9
~4,4050-10
9991405
,9998072
~ 3 . 5 9 7 9 5
6.4792-6

,2749630
,4353260 .9984599
L z s 1 0
~7.6297-5
c1.3565
~2.0639-6
~2.6690-7
. -u
~2.9055-8
.9924902
,9977959
.9994604
.S98919
,0361750
, 08917131
,5401227
,9998614 ' .&64966 ,9576025
c2.6280-9
~1.9393-10
-c1.1375-11%.6769-~0
~5.0882-13
c 1 . 4 8 4
2 1 - 1WI6
2 1 - 1c
1,0000000
--y~6.6339-7
c6.1414-8
~4.0824-9
,0850749
,7361378
,8854826
61.7250-5
cZ.1080-6
~1.8521-7
.6114109
.TI1916
,2142622.4357263
,9881259 c1.7941-5
. 2 1 - 1WI6
' t 1 - lo-"
> 1 - 1W16
2 2 1 1 - - 1. .10-16
2 1 - lW16
1.0000000
19 2 1 - 1WI6
20 ' 2 1 - 1W16
,1889289
.3441076
-- ,9993382
.9966296
.9990842

~1.2710-7
~1.2435-8
-c5 7621-11
,9892657
21
22 23
24
25
---- ,9584863 .8462322
. .9221989
m ,0778011
.9825303
.Y340060
1 ,9557535 .9082073 ,732222
2 1 - 10-16
Zi 2 1 1 - - lo-" lWk6
2 1 - 1V16
1.0000000
,9926834
.5000000
.6549810
~7.8261-5 / ,99763- 2%?5-- .76-0? -.236401(6
.O059940 7.6297E-O5
~ 2 . 4 6 4 - 1
,9997193
6.35-90355-~8.1646.6
6.5431-7
,9264347 c2.7674-6
~3,4574-7
'c3.43904
C2.6191-9
~7.7486-7 .99t34290 .972903 ,7287941
- . - -. . .
2.9M2-R 2.8430-6 .999865Y_- ,9962221 ,9282102
-- -- -.- -- .-- ,0094764
-+-,0333999
_..0979936:
1.5212E-08
,9997855
4.6613-14
2 1 - 1WI6 ,
. E 6 1 3 1 .9706378
'-9995447 1 &o5292
,6593451
,8065116
.9095281
~1.5646-5
c2.2687-6
- C2.6207-7
~2.3193-8
- ,
.1537678

.2677178
,9982216 ,9943999 7878219 4142250
.2199647
,3833106
_ .
,5793257
~1.434210
~4.3079-5
~7.3635-6
~1. 06086
1.0000000
9656085
-- --,8852385
,9461239
-.
,9783574
~1.4765-9 c8.0333-8 c 9 . 7 1 5 ' ~ f ~ ~ { $
c5.0296-12
~8.7153-14
,0174697
,li1681E?5
7,8982805
,0004575
-,0022613
e,5753830
,7264685
.M64483
--O978000 t - 4 9
.1894360 .O173319 '
,3230719 ' ,0467742
.4881515
1.0000000
C6.0191-11
~1.1787-12
3.6905E-04
,9868309
,9956736
.9987946
-,9995465
~9.8624-5 ,
~1,8104-5 .lo91228
~4.3347-9
~1.1259-10
1.6208E-07
.O442465 0015401
,9983504
.S95849
.c8.8265-5
1.4839E-06
q
q 1.0000000
-

1.0000000 l.(M0M0 1.0000000 1.0000000 1.0000000 1.0000000


- - - . - -- - . - . r
p=
Tabla de la distribuci6o acumulada de Poisson: x 9 ( x , P))!=
x!
Para valores de probabilidad muy cercanos a 1, sta aparece en trminos de la probab
ilidad complementaria. Por ejemplo, para el caso de
r = 3, p = 0.1, la probabilidad es 1 - 3.8468 x lo4 = 1 - 0.0000038468 = 0.999
9961532.
r
e- ' * pX
Tabla de la diniibuci6n nauouiada de Poisson (catinuucidn): z 9 ' ( x 9 P) = z
x !
reas bajo la curva normal estndar a seis decimales
Los dos dgitos de la primera fila son los centsimos de cada valor de z.
486
Tabla de la distribucin nomai estndar inversa
PSPSO'E 1 66083'1 1 OF09P.Z / ZLZOE'Z 1 188Li.Z 1 W9LO.Z j 6886.1 1
1EZI6.1 1 1OPP8'1 / 6ZZ8L.1 1 TI
, Z8SOI.E 1 808TL.Z 1 L906P.Z 1 P18ZE'Z 1 6600Z'Z 1 P1960.Z 1 99900
.2 1 EP8Z6.1 1 f848.1 1 8846L.1 1 T I
Percentiles importantes de la distribucin t de Student con v grados de libertad
El ltimo rengln (m grados de libertad) corresponde a la distribucin normal estnd
ar. Para percentiles simtricos a la izquierda del origen se usan los mismos valores pero con signo negativo
; por ejemplo: to,,, = -t,,,,.
C
v
1
2
3
4
5
6
0.975
12.706
4.3027
3.1824
2.7765
2.5706
2.4469
7
8
0.985 10.980
21.205 1 15.895
5.6428 14.8487
3.8961 13.4819
3.2976 12.9985
3.0029 j2.7565
2.8289 12.6122
0.970
10.579
3.8964
2.9505
2.6008
- - - - . . .
2.4216
2.3133

0.995 10.990
63.656 131.821
9.9250 16.9645
2. 2409
2.1892
5.8408
4.6041
4.0321
9
10
11
12
3.4995 1 2.9379
3.3554 1 2.8965 .
0.965
9.0579
3.5782
2.7626
2.4559
4.5407
3.7469
3.3649
3.7074 / 3.1427
3.2498 1 2.8214
3.1693 / 2.7638
3.1058 12.7181
.3.0545 12.6810
1.4149
1.3968
2.7146 1 2.5168 1 2.3646
0.900
3.0777
1.8856
1.6377
1.5332
2.1365
2.6338
1.4759 '
1.4398
0.960 10.955
7.9158 7.0264
2.0460 j 1.9662
13 / 3.0123 / 2.6503
14 12.9768 1 2.6245
15 1 2.9467 1 2.6025
1.7702
1.7402
3.3198
2.6054
2.3329
1.8946
1.8595
2.5738
2.4490
16
17
18
-19
20

21
22
23
24
25
0.940
5.2422
2.6202
2.1562
1.9712
6,3137
2.9200
2.3534
2.1318
3.1040
2.4708
2.2261
2.0978 2.2974
1.8297
1.7973 2.3060
2.4358 12.2816
2.0902
2.9208 12.5835
2.8982 [ 2.5669
2.8784&24
2.8609 ! 2.5395
2.8453 /2.5280
2.8314 12.5176
2.8188 12.5083
2.8073 1 2.4999
2.7970 / 2.4922
2.7874 12.4851
1.3150 t 1
1.1
1.:
l.!
1.3104 .
1.3830
1.3722
1.3634
1.3562
1.8727
1.8117
0.950'0.945
5.7297
2.7604
2.2494
2.0475
2.1910 2.0150 11.9405
2.3984
1 2.0042 / 1.9280
1.3502
1.6076
-1.6056
1.6037
1.6020
1.6004
1.7176

1.6998
1.6856
1.6739
2.2011
2.5275
2.4907
2.4607
2.1604
1.3450
1.3406
1.3368
1.3334
1.3304
1.3277
1.3253
1.3232
1.3212
1.3191
1.3178
I
1.3163
1.6641
2.1043
1.7729
1.7538
1.7385
2.0600
2.2622
1.9742
2.0554
2.0283
2.0067
26
27
28
1.6558
1.6487
1.6425
1.6370
1.6322
1.6280
1.6242
1.6207
1.6176
1.6148
1.6122
1.6098
2.1504
2.0555
2.0518
2.0484
2.0452
2.0423
2.2281
2.2010
2.1788
2.1202
2.0961
2.0764
1.8989

1.9432
1 2.3593
12.3281
12.3027

I
1
1
1
' 1
1 1
/ 2.0192 1.8744

1.9889
1.8317

1.9727 / 1.8992 ' 1.8331


29 2.7564 2.4620 2.2822 1 2.1503
30 2.7500 2.4573 2.2783 2.1470
i-i
2.4149 1 2.2638
2.3970 j 2.2485
S.3815 / 2.2354
2.3681 / 2.2238
2.3562 / 2.2137
2.1448
2.1315
2.1199
2.1098
2.1009
2.0930
2.0860
2.07%
2.0739
2.0687
2.0639
2.0595
1.7709 i 1.7154
2.3457
2.3362
2.1620 2.7787 12.4786
1.8125
1.7959
1.9123 ,1.8440
1.9481 1.8768
2.2047
2.1967
1.6547
1.6526
1.6506
1.6487
1.9665
1.9632
1.9601
1.9573
2.2958
1.7823 11.7259
1.9284
2.7707 1 2.4727
2.7633 / 2.4671
1.8588
2.0462 1 1.9617
2.0343 1 1.9509
2.0240 1 1.9417
1.9546
2.3278 ' 2 1894
+-'
2.3202 12.1829
2.3132 12.1770
2.3069 1 2.1715 '
1.8897
1.8867
1.8839
2.2909 / 2.1578
2.2864 / 2.1539

1,8875 i 1.8213
2.0150
2.0071
2.0000
,1.8789 1.8120 1.7520 1.6973 11.6470
. -*
12.3011
1.7613 / 1.7064
1.9335
1.9264
1.9200
2.1666
1.8813 1.8142 ' 1.7540 1.6991
1.8219 /1.7610 '1.7056
1.6571 1.9701
1.8191 / 1.7585
1.8166 i 1.7561
,
1.9937 , 1.9143
1.9880 ' 1.9092
1.7033
1.7011
1.9829
1.9783
1.8777 1.8123
1.8693 1 1.8046
1.8619 1 1.7978
1.8553 1 1.7918
1.8495 / 1.7864
1.8443 1 1.7816
1.8397 1 1.7773
1.8929
1.7531 / 1.6988
1.7459 1 1.6921
1.7396 / 1.6863
1.9045
1.9003
1.8354
1.8316
1.8248 1 1.7637 1 1.7081
, 1.7341
1.7291
,1.7734
1.7699
1.6812
1.6766
, 1.8!81 j 1.7667 1.9740 1.8965
l
1.7247 / 1.6725
1.7207 1 1.6688
1.7171 11.6655
1.7139
1.7109
1.6624
1.6596
Distribucin ji-cuadrada wn v grados de libertad: (Continuacion.)
Percentiles X: de la distribucin ji-cuadrada con v grados de libertad
Los tres ltimos valores del primer rengln estn en notacin abreviada. Por ejemplo, si

v = 1, entonces x:,,, = 3.9271E5 significa 3.9271 x


= 0.000039271.
Percentiles X: de la distribucin ji-cuadrada con v grados de libertad (Continuac
ion.)
v
2
x o 995 X: m ~0. 975 xg 9 9 X: m X: 10 ~ 0 . 0 2 5 ~ 0 . 0 1 -~ 0 0 0 5
- --- ---- -- ---- -------v.- --------m- -----e
-- 10.982330 9. 54249447426806
30
40
50
60
70
80
90
100
120
150
200
500
600
700
800
53.671868
66.766047
79.489839
91.951806
104.21477
116.32093
128.29868
140.16971
163.64848
198.35987
255.26380
585.20597
692.98094
800.13079
906.78634
50.892181
63.690771
76.153802
88.379430
100.42505
112.32879
124.11620
135.80689
158.95003
193.20750
249.44517
576.49314
683.51546
789.97352
895.98408

46.979218
59.341679
71.420194
83.297706
95.023149
106.62854
118.13591
129.56125
152.21133
185.80037
241.05784
563.85137
669.76903
775.21048
880.27534
43,772954
55.758487
67.504805
79.081954
90.531262
101.87947
113.14523
124.34210
146.56731
179.58061
233.93422
553.12686
658.09357
762.66072
866.91130
40.256017
51.805044
63.167113,
74.396999
85.527036
96.578196
107.56501
118.49800
20.599245
29.050516
37.688637
46.458885
55.328945
64.277842
73.291079
82.358127
18.492667
26.509296
34.764236
140.23256
172.58118
226.02104
540.93029
644.80042
748.35907
851.67119
100.62363
128.27504
174.83527
459.92609

556.05603
652.49732,
749.18520
16.790756
24.433058 32.357385
95.704619
122.69177
168.27855
449.14671
544.18009
639.61306
735.36239
86.923311
112.66757
156.43215
429.38739
522.36536
615.90736
709.89695
91.572601
117.98457
162.72801
479.93601
534.01854
628.57702
723.51250
83.851714
103.14232
152.24084
422.30340
514.52854
607.37932
700.72547
14.953464
22,164201
29.706725 ,
40.481707
13.786682
20.706577
27.990825
37.484796
45.441700
53.539983
61.754019
70.064995
60.391459
6G26018
77.929442
35.534397
43.275305
51.17193
59.196327 67.327533
57.153152
65.646592
74.221882
/&@!-&>-/
- :@, &M;-#4 n & ,

- 2- ," +' .*x*e"H


1 %
, 4 - 4
nd* ,-3' -6'
"?1
<fl
+A
' -. -34
#
w
M''
1
ii
Dudas - t pi cas . = Y
pregunt on t a
1. Pregunta de Eduardo Ros, de Chihuahua
Doctor Velasco, tengo dos preguntas respecto al material del segundo captulo:
1. No entiendo por qu se llama error a los conceptos de:
a) Error absoluto medio
6) Error cuadrtico medio
c) Error tpico de la media en una muestra de tamao n.
Acaso error = ajuste de las desviaciones estndar? Es quizs un ndice de confiabilidad?
2. Adems, en el caso de los incisos a y b por qu se introduce el concepto de
constante a si estamos suponiendo que la desviacin es la diferencia entre un
valor x de la poblacin y la media poblacional. La media poblacional puede ser
constante? Si la respuesta es s, en qu casos se cumple esta aseveracin?
Respuesta: La palabra e w tambin se usa como sinnimo de desviacin (de algo).
Incluso en algunos pases de Europa (como en Rusia), a la desviacin tpica la
llaman
error cuadrtico medio.
El error absoluto medio (de algo) es el promedio de los valores absolutos de
las
desviaciones (de ese algo, que puede ser cualquier constante a, o la moda, la
mediana o
la media). En particular, el error absoluto medio de la media se llama desuiaci
dn media.
Por otra parte, el trmino error cuadrhtico medio (o desviacin cuadrtica media)
de algo es el promedio de los cuadrados de las desviaciones de ese algo (puede s
er una
constante cualquiera). En particular, si esa constante es la media, entonces en
lugar de decir error cuadrtico medio de la media se dice simplemente varianza, la cual es, a
dems,
el menor de todos los posibles errores cuadrticos medios. De ah su importancia.
Por ltimo, el trmino error t@ico de la media (tambin error estndar de la media o errorprobable de la media) es la desviacin estndar de la distribucin muestra
1
de medias, para muestras de cierto tamao especfico con remplazo o sin l. La razn de
494
Apndice C. Dudas tpicas y preguntas con respuesta
llamar error a esta desviacin estriba en que al multiplicarse por cierto valor
tabulado,
produce los verdaderos errores en la estimacin de una media. Hay muchos ti
pos de
"errores estndar" en estadstica, y este es uno de ellos, pero hay tambin error estnd

ar
de una proporcin, de un pronstico, etc. Y es natural que una desviacin de algo se l
lame "error". Por ejemplo, en el futbol, si un tiropenals, sali desiriado, entonces
estars
de acuerdo en que fue un error de puntera del que lo tir, o no?
Asimismo, el error cuadrtico medio de cualquier constante a se llama tambin
momento ordinuno de orden dos de esa constante, pero si esa constante es la medi
a,
entonces se llama momento central de orden dos (que tambin es sinnimo de varianza)
.
Como puedes ver, la varianza tiene por lo menos cinco nombres distintos: 1. vari
anza, 2.
variancia (en Espaa), 3. dispersin (en Rusia), 4. momento central de segundo orden
, y
5. error cuadrtico medio de la media.
2. Pregunta de Alejandro Corona, de Mexicaii, Baja Caiifornia
Profesor Velasco: Tengo una duda sobre la respuesta del ejercicio 8, inciso c
de
la autoevaluacin del captulo 6. Ese ejercicio consiste en calcular el octavo decil
de la
distribucin de probabilidad. De acuerdo con el resultado planteado en la secc
in de
respuestas se encuentra que el ltimo 20% de los datos se hallan a partir del punt
o 66.68
y hasta ah estoy de acuerdo. Pero despus dice: "por tanto, a partir de 66 tortas e
st 20%
de los das de las mejores ventas". Sin embargo, si utilizamos el principio de con
tinuidad
en una funcin discreta vemos que el rango para 67 tortas corresponde a [66.5,67.5
), por
lo que el nmero encontrado de 66.68 est dentro de ese rango y no dentro de 66, que
es
[65.5, 66.5). Pienso que es a partir de 67 que est 20 % de los das de las mejores
ventas.
Cul es su opinin?
Respuesta: Buena pregunta, pero no tienes razn. Mis alumnos me la plantean con
frecuencia. Es una sutileza. La lnea divisoria (frontera) real es el punto 66.6
8. Si tomas el
66, a mano derecha est todava 20 % (y un pequeo 'pi16n" inevitable), pero si tomas
67,
ya hay menos de 20 % a mano derecha. Veamos el siguiente caso. Si una persona v
a a la
tienda y pide un kilogramo (exacto) de huevo, y si el que le pesa percibe que 14
huevos
pesan 1.082 kg. @or ejemplo), pero que 13 huevos pesan 0.9910 kg, entonces cuntos
le
debe dar? Si le da 13, despacha menos y no es justo. Por consiguiente, se ve obl
igado a dar
14 huevos, aunque tenga que darle un pequeopiln a cuenta de l. Comprendes?
3. Pregunta de Eduardo Lule, del Edo. de Mxico
Hola, profesor Velasco: Respecto al captulo 5, estoy frustrado: toda la tarde del
16
de septiembre estuve tratando de entender los problemas, pero no pude resolverlo
s. La
parte terica s la entend; por ejemplo, si es un problema de probabilidad con rempla
zo,
uso la binomial; si no es con remplazo, uso la hipergeomtrica; si es una serie de
eventos
con aparicin secuenciada, como llamadas telefnicas, uso Poisson; cuando se quie

re
determinar en una secuencia la probabilidad de xito en un determinado punto de la
secuencia (al segundo, al tercero, al ensimo evento), uso la binomial negativa. En
resumen,
el concepto y uso de las distribuciones de probabilidad lo entend. Lo que no enti
endo, es
cuando en la redaccin del problema se dice "al menos", "por lo menos", "cuando ms"
,
"menos de" o "cuando mucho". Cmo puedo transferir esto en trminos matemticos?
Por otra parte, por qu a veces se usa 1-DISTR.BINOM (ejercicio 1 de autoevaluacin)
?
Cundo usar O o 1 (xito o fracaso)? Cundo aplico el 1 o el O en Excel? Dnde est el
truco, qu parte del problema me indica cmo alimentar el Excel?
Resprcesta: Muchos estudiantes tienen la misma duda respecto a esas frases,
y en
cada examen me lo preguntan. La frase "al menos" o "por lo menos" significa eso
o ms.
Por ejemplo, si alguien te dice que tiene al menos 500 pesos, muy bien podra tene
r 501
Dudas tpicas y preguntas con respuesta 495
pesos o quizs mil pesos o ms, no sabemos cunto, pero estamos seguros de que no tiene menos de 500 pesos. En cambio, la frase "cuando mucho" significa todo lo cont
rario.
Si alguien te dice que tiene cuando mucho 30 aos de edad, muy bien podra tener 27,
o
quizs 15 aos o induso menos, pero lo nico que estamos seguros es que no tiene ms
de 30 aiios.
Respecto a la otra pregunta. El 1 en Excel (o "verdadero") significa que te a
cumula
los datos desde cero, es decir, significa "a lo mucho"; en cambio, el cero (o "f
also") no te
acumula, sino que te da la probabilidad para ese valor de la variable nada ms. P
or ejemplo, si se trata de lanzamientos de una moneda, al preguntar: Cul es la probabilid
ad de
que en ocho lanzamientos se obtenga cuando mucho cinco guilas?, se escribe:
pero si se te pregunta: Cul es la probabilidad de obtener exactamente cinco guilas
(ni
ms ni menos) en ocho volados?, debes escribir:
4. De Alejandro D'Urquiza Daz, de Guadalajara, Jalisco
Hola, doctor Velasco. Le envo atentamente un par de ligas que hall, en las cuales
se pueden encontrar ms apoyos didcticos y notas de estadstica:
Respuesta: Muchas gracias por tu correo y las ligas. Las vamos a poner en nuestr
o sitio de Internet sobre estadstica que estamos construyendo. Seguro que sern de util
idad
para todos los alumnos estudiosos de la materia.
5. Mensaje de Ayde Bravo, de Len, Guanajuato (le parece que la estadstica es muy di
fcil)
Hola profesor!! Estoy muy preocupada. Tuve problemas en el examen para definir
las variables y decidir cul era el mejor procedimiento, y eso lo not poco despus
de
estar haciendo la tarea. Estoy llevando a la par de esta materia otra llamada
Sistemas de
Control de Procesos, en la cual ya me siento totalmente perdida. Ambas materias
me gustan. Nunca he estado peleada con la estadstica, sino que, por el contrario, sie
mpre me

ha gustado (eso no quiere decir que le entienda a la primera) y realmente me in


teresa,
slo que en la otra materia los temas estn bastantes tcnicos y para mi perfil los s
iento
bastante complejos.
Hoy me llev una tremenda desilusin con la calificacin de estadstica, pues pens
que obtendra un mejor resultado, pero no ocurri as. Como ya le coment, tengo proble
mas en definir bien las variables para resolver los problemas. Adems, me hago bo
las con
tantas frmulas y me tardo mucho, y esto me pasa en las dos materias. No quiero da
r de baja
ninguna materia, pero en estadstica estoy sola y en la otra parezco "frijol en o
lla"; todos
los dems son Ingenieros y ms o menos ah la llevan, aunque tambin les resulta pesada
.
Podra darme algn tip para no tener las mismas dificultades al solucionar un problem
a?
Ya le ped al otro profesor algn tipo de ayuda por el estilo. No quiero que me den
respuestas, ni tampoco llevrmela como si fueran recetas de cocina, quiero saber
cmo
hacerlo, pero se me dificulta. El otro profesor me coment que as era el contenido
y eso
no me ayuda en nada, por lo que quiero ver si usted me puede aconsejar algo. De
verdad
estoy preocupada, no quiero dar de baja esta materia. O me recomienda que as lo ha
ga?
496 ApCndice C. Dudas tpicas y preguntas con respuesta
Respuesta: Comprendo cmo se ha de sentir. Casi no conozco a nadie que pueda
jactarse de que la primera vez que curs estadstica y probabilidad entendi todo
con
facilidad. Yo mismo pas por esa situacin hace muchsimos aos, cuando tena 19 aos
(iya llovi!). Mi primer curso de estadstica y probabilidad (era optativo) lo estu
di en la
Facultad de Ciencias de la UNAM con el doctor Ariel Tejera (excelente profesor),
y nuestro
texto era el libro Modern Probabiliy Theoy a nd itsApp1ication.s de Emanuel Parz
en, un
libro demasiado avanzado y mucho muy matemtico para un primer curso de la materia
.
A decir verdad, ni yo ni mis compaeros (entre los cuales creo que se hallab
an
nada menos que Julieta Fierro, famosa astr6noma ahora, y Julio Rubio, actu
al Subsecretario de Educacin Superior de la SEP y antiguo rector de la UAM Iztapalapa, y
otros
"cerebritos") entendamos casi nada. Tuve que aprenderme todo de memoria, porque
me senta, como se dice coloquialmente, "fuera de onda". Pens darme de baja, pero m
e
alent saber que mis compaeros tampoco entendan absolutamente nada. Eso era algo
muy comn durante los primeros semestres en la Facultad de Ciencias en aquella poca
de oro de la UNAM. Los profesores eran estelares (iGraef, Barajas, Fregoso, Ll
uis, Csar
Rincn, etc.!), pero tenan quizs el defecto de olvidar a veces que sus alumnos no er
an
colegas investigadores con doctorado.
Al final logr pasar la materia (con 7 u 8, no recuerdo), pero casi no entend nada.
Slo

algn tiempo despus, y estudiandoen libros por mi cuenta durante los fines de seman
a y en
vacaciones, logr-empezar a pescar el hilo y aentender la lgica y los conceptos de
trs de la
estadstica matemtica y la teora de las probabilidades. Slo entonces "me cay el veinte
",
como se dice coloquialmente, y hastacomprend que era algo muy bonito, fcil y til. A
hora
se me hace absurdo que haya gente que no comprenda esas cosas tan fciles (aunque
creo
ser ms paciente con mis alumnos de lo que tal vez aquellos maestros fueron conmi
go).
Le comento lo anterior porque me parece que, en todas las facetas de la vida, un
o
aprende por aproximaciones (creo que acabo de usar una frase de Serge Lang). No
hay
que darse por vencido a la primera. Fjese en los bebs que estn aprendiendo a camina
r:
cmo se caen y se golpean, vuelven a intentarlo y se vuelven a golpear, y slo despus
de muchos intentos fallidos, un buen da se sueltan a andar solos y se les hace fci
l, til
y agradable. As pasa con la estadstica y con todo: aprender a manejar auto, apre
nder
a nadar, etc.; todo es difcil al principio, pero no hay que darse por vencido si
uno no
puede lograrlo en el primer intento.
Le recomiendo estudiar algn texto muy elemental para empezar. Por ejemplo, consgase el libroJzlst the Essentials of Elementary Statistics de Johnson, o el lib
ro Business
Statistics: A First Course de D. M. Levine, T. C. Krehbiel y Mark L. Berens
on. Son libros
muy fciles de entender y muy elementales, ideales para comenzar, como se dice, "d
esde
cero".
Mi consejo es que no se d de baja. Siga adelante y ver que tarde o temprano todo
se empezar a ver claro y lgico.
6. Pregunta de JosC Luis Glvez, de Honduras
Profesor Gabriel Velasco: No he podido hallar cmo se podra resolver el siguiente
problema que aparece en un libro escrito por usted y por E! Wisniewski (Problemr
io de
probabilidad, ejercicio 1431): "En una caseta de cobro de la autopista Quertaro-C
elaya,
los automviles llegan a un ritmo promedio de 2.4 autos por minuto (los camiones p
asan
por otra caseta). Cada auto paga una cuota de $62.50. Determine la probabilidad
de que,
a partir de un momento dado, el encargado de esa caseta logre recolectar 1000 pe
sos en
menos de 5 minutos." Al final del libro aparece la respuesta: 0.1556, pero eso d
e nada me
sirve para saber cmo atacar este problema.
Respuesta: El problema se resuelve de la siguiente manera. Es distribucin de
Erlang, y el parmetro de escala es larnbda = 2.4 (la unidad de tiempo elegida es el
minuto).
Dudas tpicas y preguntas con respuesta
497
Para recolectar mil pesos se requiere 1000/62.50 = 16 autos. Por tanto, el
parmetro de

forma es r = 16. Luego, se trata de una variable aleatoria X con distribucin de


Erlang,
cuyos parmetros son larnbda = 2.4 y r = 16, y se pide calcular P(X < 51, lo cual
se realiza
con la frmula:
P(X < 5) = 1 - Poisson acumulada
(desde k = O hasta k = 15) de 2.4 x 5 = 12. Entonces, con Excel, queda:
que es la respuesta correcta.
7. Otra pregunta de Alejandro Corona, de Mexicali, Baja California
Doctor Velasco: Respecto a los conceptos de estadstica descriptiva, no me qued
claro el manejo del rango semiintercuartil. En el ejemplo visto en clase, este
rango fue
de 6.54687. Mi pregunta es: Cmo se lee este nmero, es decir, qu me dice especfieamente? Algo que tampoco entiendo es por qu se divide entre dos el resultado de Q
, Q, porque si quiero sea una aproximacin rpida al punto medio, pero entonces ya
no
debera llamarse rango, visto desde el punto de vista de que ya no es la definicin
de un
intervalo sino de un punto.
Otra pregunta es sobre el error tpico de la media. Por definicin, sabemos que
este valor es igual a la desviacin estndar poblacional entre la raz cuadrada del va
lor del
tamao de la muestra. Pero en Excel el resultado que arroja al utilizar la herram
ienta de
Anl i si s de datos, asume que este valor es igual a la desviacin estndar muestral
dividida
entre la raz cuadrada del valor del tamao de la muestra. Es esto vlido porque asumi
mos que la desviacin estndar muestral es una buena aproximacin a lo que debe ser la
desviacin estndar poblacional?
RRFpuesta: Aquellas medidas de dispersin con las mismas unidades de la variab
le
aleatoria (todas excepto la varianza) tienen casi siempre alguna interpretacin prc
tica. Por
ejemplo, la desviacin estndar contiene en la mayora de las veces cerca de 70 % de l
os datos en un entorno alrededor de la media. El rango semiintercuartil (o desviacin
cuartiica)
contiene cerca de 75 % de los datos alrededor de la media. Se dice "cerca" o "ca
si" porque
no todas las distribuciones son iguales ni igualmente sesgadas, pero el dato es
ms o menos
vlido en casi todos los casos, de ah su utilidad prctica. Lo que dices del Excel s
e debe
a que en la mayora de los casos uno trabaja con datos extrados de una muestra. S61
0 en
ejemplos tericos muy forzados o irreales se trabaja con la poblacin y con la desvi
acin
tpica poblacional. La mayora de los trabajos en estadstica se realizan con muestra
s.
8. Pregunta de Luz Dorely Almaguer, de Tampico, Tamaulipas
Me interesa aprender a usar el s o h a r e Minitab. Hay libros o manuales sobre
ste?
Podra recomendarme uno? En la empresa donde hago prcticas lo tienen, y he entrado,
pero varios clculos an no me salen.. . tal vez con un poco de tiempo.. . Qu otro tip
o
de software estadstico me recomienda?
Respuesta: Casi en cualquier biblioteca hay manuales para aprender a usar

el Minitab, que es el software ms popular para estadstica. Con un manual y con la prct
ica
cotidiana, logrars dominarlo pronto. No es difcil. Otros programas muy populares s
on
el SPSS (Statistical Package for the Social Sciences), el Eviews (Econometric
Views) y los
complementos comerciales (add-ins) para Excel, como el PHStat. Sin embargo, para
un
primer curso de estadstica, el Excel de Microsoft Office es ms que suficiente.
9. Pregunta de Luis Benavides, del Edo. de Mxico
Tengo la siguiente duda: Qu representan en si los valores que se obtienen al calcular el error cuadrtico medio y el error tpico de la media, o cmo se interpretaran
en
un ejemplo prctico?
Respuesta: El error cuadrtico medio representa el promedio de los cuadrados de
las desviaciones de cada valor con respecto a un dato especfico. Ia razn de usa
r los
cuadrados de las desviaciones y no las desviaciones solas, estriba en que al ele
var al cuadrado se evita que desviaciones negativas se neutralicen con positivas. El dato
que tiene el
menor error cuadrtico medio es precisamente la media, y el valor de ese error cua
drtico
medio mnimo es precisamente la varianza.
El error estndar de la media (o de una proporcin) juega un papel crucial a
l estimar intervalos de confianza o elaborar pruebas de hiptesis. No olvides que
el error
estndar de la media es la desviacin estndar de la distribucin muestra1 de medias. La
precisin para estimar la media de una poblacin aumenta cuando aumenta el tamao de
la muestra (n), pero no aumenta en la misma proporcin, sino en proporcin a la
raz
cuadrada de n. En este sentido, la desviacin estndar de una variable aleatona mid
e
elgrado de concentracin de la variable con respecto a su media. Si deseas duplica
r la
precisin de una estimacin, debes tomar una muestra cuatro veces ms grande. En todo
ello, la clave es el error estndar de la media.
10. Pregunta de Vctor Rodrguez, de Guanajuato
Al realizar los ejercicios, me surgi la siguiente cuestin: Qu pasa si los datos analizados no son exclusivamente enteros sino decimales? Qu pasa con la aproximacin en
este caso?
Respuesta Si los datos agmpados no fuesen enteros sino decimales, la correccin
por continuidad se aplicara en la misma forma, a efecto de usar una escala contin
ua. Por
ejemplo:
11. Otra de Alejandro D'Urquiza Daz, de Gdaj ar a, Jaiisco
Doctor Gabriel Velasco: Dobroe Um! Adems de saludarle, quiero comentarle que, en
efecto, estoy de acuerdo con lo que usted coment durante una trasmisin satelital e
n cuanto al rigor matemtico de los libros rusos, no s610 en estadstica, sino en otros ca
mpos de la
ciencia. Tengo la fortuna de contar, entre mi coleccin de libros de mi profesin, c
on algunos
libros escritos y publicados en la antigua URSS, los cuales me han sido muy tiles
y valiosos

en el desarrollo y estudio de algunos temas especializados en mis estudios profe


sionales.
Uno de estos libros es el Curso deftsco-quimica (Kurs Fisicheskoi Jimii) del
doctor Gueraismov (entre otros). El tratamiento matemtico de los temas de fisicoq
umica
excede en rigor y detalle a los libros escritos en Occidente, lo cual resulta mu
y til en la
comprensin de varios temas de esta ciencia. Asimismo, poseo un libro de Ecuacione
s
Dudas tpicas y preguntas con respuesta 499
integrales del doctor Kiseliov, el cual aprovech muy bien como apoyo en mis curso
s de
Clculo Vectorial y Ecuaciones Diferenciales Ordinarias durante la carrera. Por ot
ra parte,
durante el desarrollo de mis estudios de tesis de licenciatura estuve recurriend
o mucho a
un libro de Hidrulica del doctor Bakkmetev, pues a pesar de ser un libro viejo, c
ontena
ecuaciones de gran utilidad en el clculo de curvas de energa potencial de cadas de
agua
en presas; jams encontr tales ecuaciones en los libros occidentales.
En lo particular, disfruto mucho de las materias en que puedo estudiar con un bu
en
nivel de rigor matemtico, ya que uno de mis principales intereses profesional
es es la
modelacin matemtica de fenmenos ambientales (la verdad es que me resultan muy
pesadas -incluso tediosas- las.materias en que no hay ecuaciones o al menos frm
ulas,
pues me desespera mucho tratar una materia simplemente con puro "rollo''). Dura
nte el
verano anterior estuve muy contento al cursar la materia de Modelos de Calidad d
el Agua,
y considero que dishutar tambin la materia de Mtodos Estadsticos.
Por otra parte, ayer mencion que los estadounidenses llaman chi a la letra grieg
a ji
(escrita en forma similar a una x) . En efecto, la pronunciacin correcta de dic
ha letra es j i
(escrita en fontica castellana). No obstante, los alemanes para pronunciarji, segn
su fontica, la escriben chi (en alemn, leer chi se pronunciara comojji -una jota larga. Los alemanes influyeron mucho a la lengua inglesa, y pasaron la escritura de ji como ch
i. No obstante,
al separarse ms y ms la lengua alemana de la inglesa, tambin lo hizo su pronunciacin
. De
hecho, la forma en que los ingleses y estadounidenses pronuncian chi es kai, segn
las "reglas" de fontica inglesa. En fin, slo son dos comentarios "culturales" para inici
ar el curso.
Respuesta: Gracias por sus observaciones y lo felicito por compartir el gusto po
r las
matemticas y por la literatura matemtica rusa. (Algunos de los libros que usted me
nciona son, como deca mi colega Nacho Gallardo: caones de alto calibre.) Bceu jorsheuo
y dhzelaiu bac mnogo uspixou!
12. A question from Mary L. Wdliams, f'rom Oakland, Caifornia
Professor Gabriel Velasco: A question regarding confidence intervals for large s
amples. If 1 ask 200 randomly selected people how much money they spent

on Internet
purchases over the past week, and if 1 happen to find out that the sample mean
for those
200 people is, say $50 dollars, can 1 safely make the clairn that people spent a
n average of
$50 dollars on Internet purchases last week?
Answer: I'm afraid to te11 you that your claim is wrong. As a matter of fact, th
e population mean could sometimes be quite different from the sample mean. If we are
dealing
with a large population (as in your example), we can never know (even closely)
what the
population mean is. Just think what if one or two guys not polled in your sam
ple happened to spend an unusually large sum (like a million bucks) on Internet purcha
ses last
week? Think what might have been of your figures (as regards the sample mean) ha
d you
included those people in your sample. But I'm not intent on meaning that th
e sample
mean is useless. Not at all. You can use your data to construct a suitable conf
idence interval for the population mean, thereby drawing a useful (and statistically valid)
conclusion.
13. A question from J. W. Herberger, from Linclon, Nebraska
Professor Velasco: My Spanish is rather poor, so 1 hope you don't mind my aski
ng
this question in English. How come mathematicians (or statisticians for that mat
ter) have
500 Apndice C. Dudas tpicas y preguntas con respuesta
decided that a "large" sample starts with n > 30? Does that mean that we must ta
ke a sample of at least n = 30 before the Central Limit Theorem kicks in? If so, is th
ere a proof of
that assertion?
A w m Oh, not at all! There's absolutely nothing scientific or mathematical i
n the
number n = 30. It's just purely conventional. Some authors even pick out anothe
r figure,
like n = 25, for instance. Appropriately enough though, the larger the value of
n, the better the Central Lirnit Theorem will be kicking in, as you say. The figuren = 30
is thoroughly
arbitrary, but it is practical.
14. Pregunta de 1. L. S., de Cuba
En un libro de probabilidad de Sheldon Ross (AFimt Course i n Probability) apare
ce
el siguiente ejercicio, el cual no se me ocurre cmo resolver. Al final del libro
se proporciona la respuesta numrica, que es 0.00106 = 1.06 x pero de nada me sirve eso s
i
no s cmo llegar a ese valor. Podra ayudarme? El enunciado es el siguiente: "Dadas 2
0
personas, cul es la probabilidad de que de los 12 meses del ao se registren exactam
ente 2 cumpleaos en 4 meses y 3 cumpleaos en otros 4 meses?"
Respuesta: Usamos la frmula de ocupacin de r objetos en n celdillas, donde hay
r, objetos en la celdilla 1, r2 objetos en la celdilla 2, . . . , hasta rn ob
jetos en la celdilla n
(llarnada ocupacin de Maxwell-Boltzmunn), la cual es:

Por otra parte, los cuatro meses donde hay 2 cumpleaos pueden salir d
e
maneras, y de los 8 meses restantes hay 4 en los que se celebran 3
cumpleaos, lo cual puede hacerse de ( ) maneras. Tomando esto en cuenta, y h
aciendo n = 12, r = 20 en la frmula de ocupacin mencionada, la respuesta debe s
er la
siguiente:
15. Pregunta de JosC Saldafia, de Tampico, Tamauiipas
Doctor Velasco: En la empresa donde trabajo surgi un problema, y le pido que
,
por favor, me oriente cmo resolverlo; adems, creo que es una contribucin de cmo
aplicar la probabilidad y la estadstica en la prctica. El problema es el siguiente
: Enviamos
2000 productos a un cliente, de los cuales 10% era material sospechoso (que l
uego result ser defectuoso), por lo que nos lo devolvieron, pero faltaban 4 piezas, es d
ecir, slo
nos regresaron 1996 piezas. Se requiere calcular la probabilidad de que entre
las 4 piezas
faitantes haya por lo menos una defectuosa.
Respuesta: Tu pregunta es muy sencilla y es un tpico ejemplo de cmo la distribucin hipergeomtrica tiende a la binomial. La probabilidad de por lo menos una
pieza
defectuosa es uno menos la probabilidad de ninguna defectuosa: 1 - h(0, 2000, 4,
200).
Con Excel obtienes:
Dudas tpicas y preguntas con respuesta 50 1
que es la respuesta de tu pregunta. Puedes aproximar mediante la distribucin bin
omial
(io cual sera muy conveniente, por ejemplo, si slo tuvieras a la mano calculadora
, mas
no computadora):
que es una excelente aproximacin.
16. Otra pregunta de 1. L. S., de Cuba
De nuevo le pido atentamente su ayuda para otro problema del libro de Sheldon Ro
ss
(ARrst Course in Probability). No tengo duda de que mi respuesta es la correcta
y, sin em-o, no concuerda con la respuesta que trae el libro. Quisiera saber si soy yo o
es el libro
el que est mal. El enunciado del problema en ingls dice as: "Teams A and B play a s
eries of
games with the first team to win 3 games being declared the winner of the serie
s. Suppose
that team A independently wins each game with probabilityp. Find the conditional
probability that team A wins: a) the series given that it wins the first game; b) the f
irst game given that
it wins the series." El libro trae las siguientes respuestas, las cuales me par
ecen absurdas:
A mi modo de ver, estas respuestas son absurdas por el simple hecho de q
ue p
elevado a la cuarta o la quinta potencia implicara cuatro o cinco victorias del
equipo A,
lo cual no puede ser, ya que la serie se termina cuando alguno de los equipos g
ana tres
juegos. Segn yo, la respuesta correcta del inciso a debe ser la siguiente:
Del mismo modo, para el inciso b obtuve un resultado muy distinto del que se da

en el libro.
Respueskt: Es un problema muy interesante (y muy antiguo). No es que la respuesta del libro est equivocada, sino que el autor del libro considera una prolor
gacin
imaginaria del juego hasta que se cumplan cinco juegos de la serie en cualquie
r caso,
aun cuando uno de los equipos ya hubiese acumulado las tres victorias requeridas
. Por
qu habra de considerarse una prolongacin imaginaria del juego? La respuesta estri
ba
en que si por alguna causa la serie fuese interrumpida antes de que alguno de lo
s equipos consiguiese las 3 victorias, el monto del premio debera repartirse adecuadame
nte
tomando en cuenta esa prolongacin imaginaria hasta que se completaran cinco ronda
s
en cualquier caso. Se ha demostrado que esa sera la manera ms justa de repanir e
l
premio cuando la serie hubiese quedado inconclusa (ilo demostr Fermat!). Sin emba
rgo, habra sido conveniente que Sheldon Ross mencionara esa prolongacin imaginaria
posible.
~ u d m tpicas y preguntar con respuesta 503
Esta sera la respuesta correcta del inciso b, si no hubiese ningunapn>longacin im
aginaria de la serie. Sin embargo, si se supone que la serie contina hasta que se co
mpleten
las cinco rondas (aunque ya hubiese tres o ms victorias de algn equipo), en ese ca
so
(ficticio) la frmula para la probabilidad de acumular n xitos antes de que ocurr
an m
fracasos, jugndose n + m -1 rondas, estara dada no por la distribucin de Pascal,
sino
por la binomial:
As, las respuestas correctas de los dos incisos seran, respectivamente:
las cuales son las respuestas que vienen en el libro, segn me dices en tu men
saje. (La
notacin de P con la flechita arriba la acabo de inventar, pero se sobreentiende s
u significado.)
En resumen, tanto el autor del libro como t estn en lo correcto, cada uno desde
su respectivo punto de vista.
17. Pregunta de Eduardo Chew, de Mexicaii, Baja Caifornia
Estimado doctor Sotomayor: Le escribo para pedir una mayor explicacin sobre-el
desarrollo y los resultados de los problemas 7 y 8 del test de opcin mltiple 6.1
, pues
aunque los resolvimos en equipo, no estamos muy conformes del resultado. Sobre t
odo,
tuvimos problemas al acomodar las unidades de tiempo en el problema 7 y una polmi
ca
en la forma de la Erlang.
Rcspmta A continuacin transcribo las soluciones detalladas de las preguntas que
tiene a bien plantear.
Solucidn del problema 7: Los asaltos pueden considerarse como sucesos de Poisson independientes. Si se toma el ao como unidad de tiempo, entonces la distribuc
in

del tiempo transcurrido hasta el prximo asalto del que ser objeto un ciudadano es
exponencial con parmetro h = 4.5 (segn datos del problema; adems no importa cundo
fue asaltado por ltima vez, de acuerdo con la propiedad de prdida de memoria en
la
distribucin exponencial). Por otra parte, la distribucin del tiempo transcurri
do hasta
que los asaltantes completan su tercera captura consecutiva (y por tanto,
reciben una
nueva llamada de atencin de la autoridad) es una distribucin gama (o de Erlang)
con
parmetro de escala h = 4.5 y parmetro de forma r = 3. Por consiguiente, si T denot
a el
tiempo (en aos) entre una llamada de atencin y la siguiente, se tiene que:
504
Apndice C. Dudas tpicas y preguntas con respuesta
Solucidn delproblema 8: Se sabe que en la distribucin de Erlang (y en general en
la distribucin gama), la media y la moda estn dadas, respectivamente, por:
r r- 1
C1=-;
h
mo= h
De esta manera, el problema se reduce al resolver el siguiente sistema
de ecuaciones:
Se obtiene fcilmente que r = 3, h = 1.
Por cierto, un ejercicio casi idntico lo resolv durante la sesin satelital correspondiente, pero tal vez usted no tuvo oportunidad de mirarla.
18. Pregunta de Gabriela Flores Mndez, de Ciudad Jura, Chihuahua
Le enviamos en un attachent los procedimientos que realizamos para ver si, por
favor, podra revisar nuestra solucin del problema 10 del test de opcin mltiple
5.1.
No sabemos cmo se obtuvo el resultado de 0.8154, ya que a nosotros nos sali 0.4747
a
travs de la hipergeomtrica.
Respuesta: Con respecto a tu solucin del ejercicio 10, tu error estriba
en que
supones que el viajero ser arrestado slo si se le encuentra exactamente un paquete
con narcticos (o sea que supones que si se le descubren dos o tres paquetes, no s
era
arrestado). No, eso es incorrecto. El viajero ser arrestado si se le descubrepor
lo menos un paquete con droga. Para resolverlo, calcula primero la probabilidad de
que no
sea arrestado (es decir, que ninguno de los tres paquetes examinados contenga dr
oga).
Al resultado que obtengas rstalo de uno, y sa ser tu respuesta. Muchos estudiantes
cometen el mismo error que t, pero es ms bien una cuestin de semntica o de
lgica. Por ejemplo, considera esta proposicin: "Todas las nubes son blancas." Cul
crees que sera la negacin correcta de esta afirmacin: a) "ninguna nube es blanca
",
6) "por lo menos una nube no es blanca", o c) "exactamente una nube no es blanca
".
Pinsale.
19. Pregunta EhriraVillalvazo y otros estudiantes

No supimos cmo resolver el ejercicio 5 del test de opcin mltiple 7.1. Nos podra
indicar cmo se resuelve?
Respuesta: En principio, recuerden que para la distribucin de Erlang se demostr la
siguiente frmula (libro azul, p. 242):
Dudar tpicas y preguntas con respuesta 505
Por otra parte, la media y la moda estn dadas, respectivamente, por:
Por consiguiente, al sustituir, tendremos que y = 100; m. = 50. Ahora, con la frm
ula mencionada se obtiene:
20. Adaracin de Carlos Zea de C. Laguna, Jos Luis Uv a de
Honduras, Alejandro Corona de Mexicaii, Amuo Farrera
de Chiapas y muchos otros
Estimado Gabriel: Con referencia al segundo examen del curso de Mtodos Estadsticos, pregunta numero dos del test general sobre intervalos de confianza y prue
bas de hiptesis 10.3, le manifestamos nuestro desacuerdo con la calificacin recibida, y pas
amos
a sustentar nuestra afirmacin.
Calculando mediante la frmula del tamao de muestra (caso de proporciones) se
obtiene el valor de 96.036, el cual se aproxima al entero superior ms prximo, o se
a, 97,
que es la respuesta (inciso c) del problema. La aproximacin se tom en forma simil
ar en
los siguientes casos, en los cuales s se acept como vlida la aproximacin mencionada
.
Para confirmacin, he resuelto el caso en forma iterativa (MS Excel), probando la
respuesta
planteada por el corrector del examen, en la cual indica que la respuesta acerta
da es 96. Probando dicho valor, no alcanza el valor de 95 % de confianza requerido, sino que
slo alcanza
al valor de 94.9956 %, lo cual no cumple con la especificacin pedida en el proble<