A mi hermano Beni in memoriam.

A mis
hijos.
Cuqui
Para Julia y Cristina.
Javier
2
Pr´ologo
El desarrollo y el nivel de aplicaci´on que la Bioestad´ıstica, como herra-
mienta ´ util y rigurosa en el campo de la investigaci´on en todas las Ciencias
Sociales, ha experimentado en los ´ ultimos a˜ nos, ha sido espectacular. Es in-
dudable que este progreso en el conocimiento y aplicaci´on de la Estad´ıstica
ha venido estrechamente vinculado al que ha experimentado el ´area de la
computaci´on, que nos ha llevado a una sociedad absolutamente informa-
tizada donde el ordenador se ha convertido en un utensilio personal de
uso habitual. Este auge y progreso de la inform´atica, a nivel de software y
hardware, ha hecho posible, a su vez, la realizaci´on de pruebas estad´ısticas
que, de forma habitual, hubiesen sido muy costosas desde el punto de vista
humano as´ı como manejar vol´ umenes de informaci´on que habr´ıan resultado
absolutamente impensables.
Un segundo factor asociado a este progreso del conocimiento en el ´ambi-
to estad´ıstico, ha sido el cambio de actitud experimentado por todos los pro-
fesionales de las ´areas de Ciencias Sociales y especialmente, en el ´ambito de
las Ciencias de la Salud. De una sociedad en la que los roles y el desempe˜ no
de la profesi´on estaban ajustados a la mera aplicaci´on de los conocimientos
adquiridos, hemos evolucionado a una Sociedad Cient´ıfica donde la investi-
gaci´on ha pasado a formar parte esencial de su labor diaria. El inter´es por
descubrir nuevos procedimientos a trav´es de la experiencia acumulada, ha
sido determinante en la necesidad de que todos estos profesionales se vean
inmersos en la formaci´on y aprendizaje de t´ecnicas b´asicas de metodolog´ıa
de la investigaci´on y de algunas m´as concretas como el an´alisis de datos.
Este cambio en la dimensi´on del ejercicio profesional, determina que
los planes de estudio de todas las licenciaturas y diplomaturas incluyan la
Bioestad´ıstica para el ´ambito de Salud y Biolog´ıa, como materia troncal
con entidad propia y de aut´entica necesidad. Se pretende, con ello, que un
profesional de la Salud, o de cualquier ciencia Social, que se apoye en la
cuantificaci´on y en el estudio emp´ırico de lo que observa a diario, entienda
y conozca los conceptos b´asicos de la ciencia que le va a permitir, aban-
donando conductas pragm´aticas, profundizar y comprender el fundamento
cient´ıfico de su ´area de trabajo.
No se trata de hacer expertos en Estad´ıstica. El principal objetivo de
los docentes de esta materia se centra en generar, en los discentes, una
3
actitud cr´ıtica ante cualquier lectura cient´ıfica, adquirir un lenguaje com´ un
con estad´ısticos y otros profesionales del ´area y conocer a priori los pasos
y los elementos imprescindibles en cualquier investigaci´on emp´ırica que se
apoye en el manejo de vol´ umenes grandes de datos y cuyo prop´osito final sea
condensar dicha informaci´on para que pueda ser transmitida o extrapolar
las conclusiones a las poblaciones de las que fueron tomadas las medidas. Es
importante saber que no existe investigaci´on si no existen objetivos previos:
no puede descartarse ni confirmarse lo que no se ha planteado.
Ajena a esta transformaci´on social se encuentran la gran mayor´ıa de
nuestros alumnos que cursan los primeros cursos de alguna de estas licen-
ciaturas o diplomaturas de Ciencias Sociales o Ciencias de la Salud. Sus
´ unicos objetivos se centran en llegar a ser m´edicos, bi´ologos, psic´ologos. . . y
no alcanzan a entender que utilidad les puede reportar una materia como
la Bioestad´ıstica en su curr´ıculo. Es por ello que al margen de la dificultad
intr´ınseca que genera el entendimiento de la materia, la ense˜ nanza de la
Bioestad´ıstica en estos cursos se ve agravada por la imposibilidad de usar
cualquier tipo de motivaci´on.
En muy distinta situaci´on se encuentran los alumnos de postgrado que
ya han comenzado su vida profesional y han tenido, por tanto, ocasi´on de
darse cuenta de qu´e manera la Bioestad´ıstica les puede resultar ´ util y nece-
saria. Aunque no sea su deseo adentrarse en el mundo de la investigaci´on,
una parte importante en la transmisi´on de los nuevos hallazgos y conoci-
mientos de otros colegas de su ´ambito profesional, es el lenguaje estad´ıstico.
Es por ello que han de estar absolutamente familiarizados con dicha termi-
nolog´ıa si se pretende tener una actitud cr´ıtica y objetiva ante la lectura
de cualquier literatura cient´ıfica.
Fruto del trabajo realizado con estos sectores de estudiantes e investi-
gadores es nuestra experiencia, que nos ha animado a escribir el presente
libro que podr´ıa definirse como un Manual de Estad´ıstica b´asica aplicada al
´ambito de la Salud. Su contenido abarca desde los aspectos m´as b´asicos de
la Estad´ıstica descriptiva, en su funci´on de resumir, presentar y comunicar
los resultados de cualquier estudio a las diferentes t´ecnicas de extrapolaci´on
de las conclusiones a una poblaci´on, a partir de lo verificado en una mues-
tra representativa de ´esta. Obviamente, para ello, se hace necesario revisar
las nociones m´as b´asicas de aspectos como probabilidad, Variable aleatoria,
4
Distribuciones de probabilidad, as´ı como los elementos imprescindibles de
toda la Inferencia Estad´ıstica: t´ecnicas de muestreo, conceptos fundamen-
tales, estimaci´on confidencial y contrastes de hip´otesis m´as importantes de
la Estad´ıstica Univariante, abordando los test usados bajo supuesto de dis-
tribuci´on gaussiana as´ı como los de distribuci´on libre. La variabilidad que
han generado los nuevos planes de estudio no facilita la selecci´on de unos
contenidos que abarque la totalidad de los programas de todas las Univer-
sidades, sin embargo hay una parte troncal que constituye un porcentaje
amplio del conjunto de todos ellos. Esta es la parte que hemos selecciona-
do, para nuestro contenido, de manera que podamos acercarnos lo m´aximo
posible a lo que pudiera ser un libro de texto para las asignaturas de Bioes-
tad´ıstica que se imparten en la mayor´ıa de las Facultades de Medicina y
Escuelas de Ciencias de la Salud.
En lo que concierne al modo y la forma, la experiencia acumulada a
trav´es de los a˜ nos de docencia y el apoyo en el ´area de la investigaci´on
de los profesionales de la salud de nuestro entorno, nos condiciona a que
teor´ıa y pr´actica avancen de manera simult´anea, en este manual, comple-
ment´andose la una a la otra y apoy´andose mutuamente, con numerosos
ejemplos que puedan acercar al lector a situaciones m´as cotidianas de su
entorno. Pretendemos con ello ayudarles a entender las nociones m´as abs-
tractas y a relacionarlas con un futuro no lejano como profesional del mundo
de la salud. No obstante, no hemos querido evitar tratar algunos temas con
algo m´as de rigor, para que el lector que est´e interesado en profundizar algo
m´as, pueda hacerlo; siempre teniendo en cuenta que la lectura de dichas
partes es algo optativo y que depender´a de las necesidades individuales.
A todos esos alumnos y compa˜ neros queremos dedicarle nuestro m´as
sincero agradecimiento, por su inestimable colaboraci´on al orientarnos, a
trav´es de sus opiniones sinceras, sobre nuestra metodolog´ıa docente y haber
podido observar cual ha sido su evoluci´on a lo largo de los a˜ nos y de las
diferentes etapas que se han ido sucediendo.
Esperamos que la ilusi´on puesta en la realizaci´on de este texto nos ha-
ya permitido suavizar, en la medida de lo posible, la aridez del tema que
tratamos, y s´olo comprobar que realmente pueda ser un elemento eficaz
de ayuda, apoyo y consulta entre nuestros disc´ıpulos y compa˜ neros, justifi-
car´a todas las horas que hay detr´as de estas lineas.
´
Indice general
1. Conceptos previos 13
1.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2. ¿Qu´e es la estad´ıstica? . . . . . . . . . . . . . . . . . . . . . 14
1.3. Elementos. Poblaci´on. Caracteres . . . . . . . . . . . . . . . 15
1.4. Organizaci´on de los datos . . . . . . . . . . . . . . . . . . . 17
1.4.1. Variables estad´ısticas . . . . . . . . . . . . . . . . . . 17
1.4.2. Tablas estad´ısticas . . . . . . . . . . . . . . . . . . . 19
1.5. Representaciones Gr´aficas . . . . . . . . . . . . . . . . . . . 21
1.5.1. Gr´aficos para variables cualitativas . . . . . . . . . . 22
1.5.2. Gr´aficos para variables cuantitativas . . . . . . . . . 26
1.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2. Medidas descriptivas 39
2.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Estad´ısticos de tendencia central . . . . . . . . . . . . . . . 40
2.2.1. La media . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.2. La mediana . . . . . . . . . . . . . . . . . . . . . . 43
2.2.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.4. Relaci´on entre media, mediana y moda . . . . . . . 47
2.3. Estad´ısticos de posici´on . . . . . . . . . . . . . . . . . . . . 48
5
6
´
INDICE GENERAL
2.4. Medidas de variabilidad o dispersi´on . . . . . . . . . . . . . 55
2.4.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4.3. Desviaci´on t´ıpica o est´andar . . . . . . . . . . . . . . 56
2.4.4. Ejemplo de c´alculo de medidas de dispersi´on . . . . 56
2.4.5. Coeficiente de variaci´on . . . . . . . . . . . . . . . . 57
2.5. Asimetr´ıa y apuntamiento . . . . . . . . . . . . . . . . . . . 59
2.5.1. Estad´ısticos de asimetr´ıa . . . . . . . . . . . . . . . . 60
2.5.2. Estad´ısticos de apuntamiento . . . . . . . . . . . . . 66
2.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3. Variables bidimensionales 73
3.1. introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2. Tablas de doble entrada . . . . . . . . . . . . . . . . . . . . 75
3.2.1. Distribuciones condicionadas . . . . . . . . . . . . . 76
3.3. Dependencia funcional e independencia . . . . . . . . . . . . 77
3.3.1. Dependencia funcional . . . . . . . . . . . . . . . . . 77
3.3.2. Independencia . . . . . . . . . . . . . . . . . . . . . 78
3.4. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5. Coeficiente de correlaci´on lineal de Pearson . . . . . . . . . 81
3.6. Regresi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.6.1. Bondad de un ajuste . . . . . . . . . . . . . . . . . . 84
3.6.2. Regresi´on lineal . . . . . . . . . . . . . . . . . . . . 86
3.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4. C´alculo de probabilidades y variables aleatorias 99
4.1. introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.2. Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . 100
4.2.1. Operaciones b´asicas con sucesos aleatorios . . . . . . 101
´
INDICE GENERAL 7
4.3. Experimentos aleatorios y probabilidad . . . . . . . . . . . 102
4.3.1. Noci´on frecuentista de probabilidad . . . . . . . . . 102
4.3.2. Probabilidad de Laplace . . . . . . . . . . . . . . . . 105
4.3.3. Definici´on axiom´atica de probabilidad . . . . . . . . 105
4.4. Probabilidad condicionada e independencia de sucesos . . . 106
4.5. Teoremas fundamentales del c´alculo de probabilidades . . . 109
4.5.1. Teorema de la probabilidad compuesta . . . . . . . . 110
4.5.2. Sistema exhaustivo y excluyente de sucesos . . . . . 110
4.5.3. Teorema de la probabilidad total . . . . . . . . . . . 111
4.5.4. Teorema de Bayes . . . . . . . . . . . . . . . . . . . 112
4.6. Tests diagn´osticos . . . . . . . . . . . . . . . . . . . . . . . 115
4.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5. Variables aleatorias 123
5.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . 125
5.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . 126
5.4. Medidas de tendencia central y dispersi´on de v.a. . . . . . . 129
5.4.1. Valor esperado o esperanza matem´atica . . . . . . . 130
5.4.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 130
6. Principales leyes de distribuci´on de variables aleatorias 131
6.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.2. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . 132
6.2.1. Distribuci´on de Bernoulli . . . . . . . . . . . . . . . 132
6.2.2. Distribuci´on binomial . . . . . . . . . . . . . . . . . 133
6.2.3. Distribuci´on geom´etrica ( o de fracasos) . . . . . . . 137
6.2.4. Distribuci´on binomial negativa . . . . . . . . . . . . 139
6.2.5. Distribuci´on hipergeom´etrica . . . . . . . . . . . . . 141
8
´
INDICE GENERAL
6.2.6. Distribuci´on de Poisson o de los sucesos raros . . . . 143
6.3. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . 144
6.3.1. Distribuci´on uniforme o rectangular . . . . . . . . . 144
6.3.2. Distribuci´on exponencial . . . . . . . . . . . . . . . . 146
6.3.3. Distribuci´on normal o gaussiana . . . . . . . . . . . 150
6.3.4. Distribuci´on χ
2
. . . . . . . . . . . . . . . . . . . . 153
6.3.5. Distribuci´on t de Student . . . . . . . . . . . . . . . 155
6.3.6. La distribuci´on F de Snedecor . . . . . . . . . . . . 157
6.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7. Introducci´on a la inferencia 163
7.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
7.2. T´ecnicas de muestreo sobre una poblaci´on . . . . . . . . . . 164
7.2.1. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . 165
7.2.2. Muestreo aleatorio estratificado . . . . . . . . . . . . 166
7.2.3. Muestreo sistem´atico . . . . . . . . . . . . . . . . . . 168
7.2.4. Muestreo por conglomerados . . . . . . . . . . . . . 169
7.3. Propiedades deseables de un estimador . . . . . . . . . . . . 169
7.3.1. Estimadores de m´axima verosimilitud . . . . . . . . 170
7.3.2. Algunos estimadores fundamentales . . . . . . . . . 172
8. Estimaci´on confidencial 175
8.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.2. Intervalos de confianza para la distribuci´on normal . . . . . 177
8.2.1. Intervalo para la media si se conoce la varianza . . 178
8.2.2. Intervalo para la media (caso general) . . . . . . . . 182
8.2.3. Intervalo de confianza para la varianza . . . . . . . 186
8.2.4. Estimaci´on del tama˜ no muestral . . . . . . . . . . . 187
´
INDICE GENERAL 9
8.2.5. Intervalos para la diferencia de medias de dos pobla-
ciones . . . . . . . . . . . . . . . . . . . . . . . . . . 189
8.3. Intervalos de confianza para variables dicot´omicas . . . . . 195
8.3.1. Intervalo para una proporci´on . . . . . . . . . . . . 195
8.3.2. Elecci´on del tama˜ no muestral para una proporci´on . 197
8.3.3. Intervalo para la diferencia de dos proporciones . . . 198
8.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
9. Contrastes de hip´otesis 203
9.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9.1.1. Observaciones . . . . . . . . . . . . . . . . . . . . . . 206
9.2. Contrastes param´etricos en una poblaci´on normal . . . . . . 210
9.2.1. Contrastes para la media . . . . . . . . . . . . . . . 210
9.2.2. Contrastes para la varianza . . . . . . . . . . . . . . 218
9.3. Contrastes de una proporci´on . . . . . . . . . . . . . . . . . 219
9.4. Contrastes para la diferencia de medias apareadas . . . . . 224
9.5. Contrastes de dos distribuciones normales independientes . 228
9.5.1. Contraste de medias con varianzas conocidas . . . . 228
9.5.2. Contraste de medias homoced´aticas . . . . . . . . . 231
9.5.3. Contraste de medias no homoced´aticas . . . . . . . . 232
9.5.4. Contrastes de la raz´on de varianzas . . . . . . . . . . 234
9.5.5. Caso particular: Contraste de homocedasticidad . . 236
9.6. Contrastes sobre la diferencia de proporciones . . . . . . . 244
9.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
10.Contrastes basados en el estad´ıstico Ji–Cuadrado 255
10.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
10.2. El estad´ıstico χ
2
y su distribuci´on . . . . . . . . . . . . . . 256
10.3. Contraste de bondad de ajuste para distribuciones . . . . . 264
10
´
INDICE GENERAL
10.3.1. Distribuciones de par´ametros conocidos . . . . . . . 265
10.3.2. Distribuciones con par´ametros desconocidos . . . . . 268
10.4. Contraste de homogeneidad de muestras cualitativas . . . . 269
10.5. Contraste de independencia de variables cualitativas . . . . 272
10.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
11.An´alisis de la varianza 283
11.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
11.2. ANOVA con un factor . . . . . . . . . . . . . . . . . . . . . 285
11.2.1. Especificaci´on del modelo . . . . . . . . . . . . . . . 287
11.2.2. Algo de notaci´on relativa al modelo . . . . . . . . . 289
11.2.3. Forma de efectuar el contraste . . . . . . . . . . . . 291
11.2.4. M´etodo reducido para el an´alisis de un factor . . . . 292
11.2.5. An´alisis de los resultados del ANOVA: Comparacio-
nes m´ ultiples . . . . . . . . . . . . . . . . . . . . . . 295
11.3. Consideraciones sobre las hip´otesis subyacentes en el modelo
factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
11.3.1. Contraste de homocedasticidad de Cochran . . . . . 298
11.3.2. Contraste de homocedasticidad de Bartlett . . . . . 299
11.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
12.Contrastes no param´etricos 305
12.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
12.2. Aleatoriedad de una muestra: Test de rachas . . . . . . . . 306
12.3. Normalidad de una muestra: Test de D’Agostino . . . . . . 308
12.4. Equidistribuci´on de dos poblaciones . . . . . . . . . . . . . 309
12.4.1. Contraste de rachas de Wald—Wolfowitz . . . . . . 309
12.4.2. Contraste de Mann—Withney . . . . . . . . . . . . 310
12.5. Contraste de Wilcoxon para muestras apareadas . . . . . . 311
´
INDICE GENERAL 11
12.6. Contraste de Kruskal–Wallis . . . . . . . . . . . . . . . . . . 313
12.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
Bibliograf´ıa 321
12
´
INDICE GENERAL
Cap´ıtulo 1
Conceptos previos
1.1. Introducci´on
Iniciamos este cap´ıtulo con la definici´on de algunos conceptos elementales
y b´asicos, y sin embargo pilares, para una comprensi´on intuitiva y real
de lo que es la Bioestad´ıstica. Pretendemos introducir al estudiante en los
primeros pasos sobre el uso y manejos de datos num´ericos: distinguir y
clasificar las caracter´ısticas en estudio, ense˜ narle a organizar y tabular las
medidas obtenidas mediante la construcci´on de tablas de frecuencia y por
´ ultimo los m´etodos para elaborar una imagen que sea capaz de mostrar
gr´aficamente unos resultados.
El aserto “una imagen vale m´as que mil palabras” se puede aplicar al
´ambito de la estad´ıstica descriptiva diciendo que “un gr´afico bien elaborado
vale m´as que mil tablas de frecuencias”. Cada vez es m´as habitual el uso de
gr´aficos o im´agenes para representar la informaci´on obtenida. No obstante,
debemos ser prudente al confeccionar o interpretar gr´aficos, puesto que unas
misma informaci´on se puede representar de formas muy diversas, y no todas
ellas son pertinentes, correctas o v´alidas. Nuestro objetivo, en este cap´ıtulo,
consiste en establecer los criterios y normas m´ınimas que deben verificarse
para construir y presentar adecuadamente los gr´aficos en el ´ambito de la
estad´ıstica descriptiva.
13
14 Bioestad´ıstica: M´etodos y Aplicaciones
1.2. ¿Qu´e es la estad´ıstica?
Cuando coloquialmente se habla de estad´ıstica, se suele pensar en una rela-
ci´on de datos num´ericos presentada de forma ordenada y sistem´atica. Esta
idea es la consecuencia del concepto popular que existe sobre el t´ermino y
que cada vez est´a m´as extendido debido a la influencia de nuestro entorno,
ya que hoy d´ıa es casi imposible que cualquier medio de difusi´on, peri´odi-
co, radio, televisi´on, etc, no nos aborde diariamente con cualquier tipo de
informaci´on estad´ıstica sobre accidentes de tr´afico, ´ındices de crecimiento
de poblaci´on, turismo, tendencias pol´ıticas, etc.
S´olo cuando nos adentramos en un mundo m´as espec´ıfico como es el
campo de la investigaci´on de las Ciencias Sociales: Medicina, Biolog´ıa, Psi-
colog´ıa, ... empezamos a percibir que la Estad´ıstica no s´olo es algo m´as,
sino que se convierte en la ´ unica herramienta que, hoy por hoy, permite
dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de
estudio, cuyos movimientos y relaciones, por su variabilidad intr´ınseca, no
puedan ser abordadas desde la perspectiva de las leyes determistas. Po-
dr´ıamos, desde un punto de vista m´as amplio, definir la estad´ıstica como
la ciencia que estudia c´omo debe emplearse la informaci´on y c´omo dar una
gu´ıa de acci´on en situaciones pr´acticas que entra˜ nan incertidumbre.
La Estad´ıstica se ocupa de los m´etodos y procedimientos para recoger,
clasificar, resumir, hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una causa intr´ınseca de los
mismos; as´ı como de realizar inferencias a partir de ellos, con la finalidad
de ayudar a la toma de decisiones y en su caso formular predicciones.
Podr´ıamos por tanto clasificar la Estad´ıstica en descriptiva, cuando los
resultados del an´alisis no pretenden ir m´as all´a del conjunto de datos, e in-
ferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas
a un conjunto de datos m´as amplio.
1.3. ELEMENTOS. POBLACI
´
ON. CARACTERES 15
Estad´ıstica descriptiva: Describe, analiza y representa un grupo de
datos utilizando m´etodos num´ericos y gr´aficos que resumen y presentan la
informaci´on contenida en ellos.
Estad´ıstica inferencial: Apoy´andose en el c´alculo de probabilida-
des y a partir de datos muestrales, efect´ ua estimaciones, decisiones,
predicciones u otras generalizaciones sobre un conjunto mayor de datos.
1.3. Elementos. Poblaci´on. Caracteres
Establecemos a continuaci´on algunas definiciones de conceptos b´asicos y
fundamentales b´asicas como son: elemento, poblaci´on, muestra, car´acte-
res, variables, etc., a las cuales haremos referencia continuamente a lo largo
del texto
Individuos o elementos: personas u objetos que contienen cierta infor-
maci´on que se desea estudiar.
Poblaci´on: conjunto de individuos o elementos que cumplen ciertas
propiedades comunes.
Muestra: subconjunto representativo de una poblaci´on.
Par´ametro: funci´on definida sobre los valores num´ericos de carac-
ter´ısticas medibles de una poblaci´on.
Estad´ıstico: funci´on definida sobre los valores num´ericos de una
muestra.
16 Bioestad´ıstica: M´etodos y Aplicaciones
En relaci´on al tama˜ no de la poblaci´on, ´esta puede ser:
Finita, como es el caso del n´ umero de personas que llegan al servicio
de urgencia de un hospital en un d´ıa;
Infinita, si por ejemplo estudiamos el mecanismo aleatorio que descri-
be la secuencia de caras y cruces obtenida en el lanzamiento repetido
de una moneda al aire.
Caracteres: propiedades, rasgos o cualidades de los elementos de la po-
blaci´on. Estos caracteres pueden dividirse en cualitativos y cuantitativos.
Modalidades: diferentes situaciones posibles de un car´acter. Las
modalidades deben ser a la vez exhaustivas y mutuamente excluyentes
—cada elemento posee una y s´olo una de las modalidades posibles.
Clases: conjunto de una o m´as modalidades en el que se verifica
que cada modalidad pertenece a una y s´olo una de las clases.
1.4. ORGANIZACI
´
ON DE LOS DATOS 17
1.4. Organizaci´on de los datos
1.4.1. Variables estad´ısticas
Cuando hablemos de variable haremos referencia a un s´ımbolo (X,Y,A,B,. . . )
que puede tomar cualquier modalidad (valor) de un conjunto determina-
do, que llamaremos dominio de la variable o rango. En funci´on del tipo
de dominio, las variables las clasificamos del siguiente modo:
Variables cualitativas, cuando las modalidades posibles son de tipo no-
minal. Por ejemplo, el grupo sangu´ıneo tiene por modalidades:
Grupos Sangu´ıneos posibles: A, B, AB, O
Variables cuasicuantitativas u ordinales son las que, aunque sus mo-
dalidades son de tipo nominal, es posible establecer un orden entre
ellas. Por ejemplo, si estudiamos el grado de recuperaci´on de un pa-
ciente al aplicarle un tratamiento, podemos tener como modalidades:
Grado de recuperaci´on: Nada, Poco, Moderado, Bueno, Muy Bueno.
A veces se representan este tipo de variables en escalas num´ericas, por
ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin
embargo realizar operaciones algebr´aicas con estas cantidades. ¡Un
dolor de intensidad 4 no duele el dobleque otro de intensidad 2!
Variables cuantitativas o num´ericas son las que tienen por modali-
dades cantidades num´ericas con las que podemos hacer operaciones
aritm´eticas. Dentro de este tipo de variables podemos distinguir dos
grupos:
Discretas, cuando no admiten siempre una modalidad intermedia
entre dos cualesquiera de sus modalidades. Un ejemplo es el
n´ umero de hijos en una poblaci´on de familias:
N´ umero de hijos posibles: 0, 1, 2, 3, 4, 5, . . .
Continuas, cuando admiten una modalidad intermedia entre dos
cualesquiera de sus modalidades, v.g. el peso X de un ni˜ no al
nacer.
Ocurre a veces que una variable cuantitativa continua por naturaleza,
aparece como discreta. Este es el caso en que hay limitaciones en lo
18 Bioestad´ıstica: M´etodos y Aplicaciones
que concierne a la precisi´on del aparato de medida de esa variable,
v.g. si medimos la altura en metros de personas con una regla que
ofrece dos decimales de precisi´on, podemos obtener
Alturas medidas en cm: 1.50, 1.51, 1.52, 1.53,. . .
En realidad lo que ocurre es que con cada una de esas mediciones
expresamos que el verdadero valor de la misma se encuentra en un
intervalo de radio 0,005. Por tanto cada una de las observaciones de
X representa m´as bien un intervalo que un valor concreto.
Tal como hemos citado anteriormente, las modalidades son las diferen-
tes situaciones posibles que puede presentar la variable. A veces ´estas son
muy numerosas (v.g. cuando una variable es continua) y conviene reducir
su n´ umero, agrup´andolas en una cantidad inferior de clases. Estas clases
deben ser construidas, tal como hemos citado anteriormente, de modo que
sean exhaustivas y excluyentes, es decir, cada modalidad debe pertenecer a
una y s´olo una de las clases.
Variable cualitativa: Aquella cuyas modalidades son de tipo nominal.
Variable cuasicuantitativa: Modalidades de tipo nominal, en las
que existe un orden.
Variable cuantitativa discreta: Sus modalidades son valores ente-
ros.
Variable cuantitativa continua: Sus modalidades son valores rea-
les.
1.4. ORGANIZACI
´
ON DE LOS DATOS 19
1.4.2. Tablas estad´ısticas
Consideremos una poblaci´on estad´ıstica de n individuos, descrita seg´ un un
car´acter o variable C cuyas modalidades han sido agrupadas en un n´ umero
k de clases, que denotamos mediante c
1
, c
2
, . . . , c
k
. Para cada una de las
clases c
i
, i = 1, . . . , k, introducimos las siguientes magnitudes:
Frecuencia absoluta de la clase c
i
es el n´ umero n
i
, de observaciones que
presentan una modalidad perteneciente a esa clase.
Frecuencia relativa de la clase c
i
es el cociente f
i
, entre las frecuencias
absolutas de dicha clase y el n´ umero total de observaciones, es decir
f
i
=
n
i
n
Obs´ervese que f
i
es el tanto por uno de observaciones que est´an en la
clase c
i
. Multiplicado por 100 % representa el porcentaje de la pobla-
ci´on que comprende esa clase.
Frecuencia absoluta acumulada N
i
, se calcula sobre variables cuanti-
tativas o cuasicuantitativas, y es el n´ umero de elementos de la pobla-
ci´on cuya modalidad es inferior o equivalente a la modalidad c
i
:
N
i
= n
1
+n
2
+. . . +n
i
=
i

j=1
n
j
Frecuencia relativa acumulada , F
i
, se calcula sobre variables cuanti-
tativas o cuasicuantitativas, siendo el tanto por uno de los elementos
de la poblaci´on que est´an en alguna de las clases y que presentan una
modalidad inferior o igual a la c
i
, es decir,
F
i
=
N
i
n
=
n
1
+. . . +n
i
n
= f
1
+. . . +f
i
=
i

j=1
f
j
Llamaremos distribuci´on de frecuencias al conjunto de clases junto a
las frecuencias correspondientes a cada una de ellas. Una tabla estad´ıstica
20 Bioestad´ıstica: M´etodos y Aplicaciones
sirve para presentar de forma ordenada las distribuciones de frecuencias.
Su forma general es la siguiente:
Modali. Frec. Abs. Frec. Rel. Frec. Abs. Acumu. Frec. Rel. Acumu.
C n
i
f
i
N
i
F
i
c
1
n
1
f
1
=
n
1
n
N
1
= n
1
F
1
=
N
1
n
= f
1
. . . . . . . . . . . . . . .
c
j
n
j
f
j
=
n
j
n
N
j
= n
1
+. . . +n
j
F
j
=
N
j
n
= f
1
+. . . +f
j
. . . . . . . . . . . . . . .
c
k
n
k
f
k
=
n
k
n
N
k
= n F
k
= 1
n 1
Ejemplo de c´alculo con frecuencias
Calcular los datos que faltan en la siguiente tabla:
l
i−1
— l
i
n
i
f
i
N
i
0 — 10 60 f
1
60
10 — 20 n
2
0,4 N
2
20 — 30 30 f
3
170
30 — 100 n
4
0,1 N
4
100 — 200 n
5
f
5
200
n
Soluci´on:
Sabemos que la ´ ultima frecuencia acumulada es igual al total de observa-
ciones, luego n = 200.
Como N
3
= 170 y n
3
= 30, entonces
N
2
= N
3
−n
3
= 170 −30 = 140.
Adem´as al ser n
1
= 60, tenemos que
n
2
= N
2
−n
1
= 140 −60 = 80.
1.5. REPRESENTACIONES GR
´
AFICAS 21
Por otro lado podemos calcular n
4
teniendo en cuenta que conocemos la
frecuencia relativa correspondiente:
f
4
=
n
4
n
=⇒ n
4
= f
4
n = 0, 1 200 = 20
As´ı:
N
4
= n
4
+N
3
= 20 + 170 = 190.
Este ´ ultimo c´alculo nos permite obtener
n
5
= N
5
−N
4
= 200 −190 = 10.
Al haber calculado todas las frecuencias absolutas, es inmediato obtener
las relativas:
f
1
=
n
1
n
=
60
200
= 0, 3
f
3
=
n
3
n
=
30
200
= 0, 15
f
5
=
n
5
n
=
10
200
= 0, 05
Escribimos entonces la tabla completa:
l
i−1
— l
i
n
i
f
i
N
i
0 — 10 60 0,3 60
10 — 20 80 0,4 140
20 — 30 30 0,15 170
30 — 100 20 0,1 190
100 — 200 10 0,05 200
200
1.5. Representaciones Gr´aficas
Hemos visto que la tabla estad´ıstica resume los datos que disponemos de
una poblaci´on, de forma que ´esta se puede analizar de una manera m´as
22 Bioestad´ıstica: M´etodos y Aplicaciones
sistem´atica y resumida . Para darnos cuenta de un s´olo vistazo de las ca-
racter´ısticas de la poblaci´on resulta a´ un m´as esclarecedor el uso de gr´aficos
y diagramas, cuya construcci´on abordamos en esta secci´on.
1.5.1. Gr´aficos para variables cualitativas
Los gr´aficos m´as usuales para representar variables de tipo nominal son los
siguientes:
Diagramas de barras: Siguiendo la figura 1.1, representamos en el eje de
ordenadas las modalidades y en abscisas las frecuencias absolutas o
bien, las frecuencias relativas. Si, mediante el gr´afico, se intenta com-
parar varias poblaciones entre s´ı, existen otras modalidades, como las
mostradas en la figura 1.2. Cuando los tama˜ nos de las dos poblaciones
son diferentes, es conveniente utilizar las frecuencias relativas, ya que
en otro caso podr´ıan resultar enga˜ nosas.
2
4
6
8
frecuencias
Divorciados Viudos Casados Solteros
Figura 1.1: Diagrama de barras para una variable cualitativa.
1.5. REPRESENTACIONES GR
´
AFICAS 23
frecuencias
Divorciados Viudos Casados Solteros
autocar 2
autocar 1 relativas
Figura 1.2: Diagramas de barras para comparar una variable cualitativa en
diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra
es proporcional al n´ umero de observaciones (frecuencias relativas).
24 Bioestad´ıstica: M´etodos y Aplicaciones
Diagramas de sectores (tambi´en llamados tartas). Se divide un c´ırculo
en tantas porciones como clases existan, de modo que a cada clase le
corresponde un arco de c´ırculo proporcional a su frecuencia absoluta
o relativa (figura 1.3).
375 individuos
37,5%
250 individuos
25%
12,5%
250 individuos
25%
Grupo B
Grupo A
Grupo D
Grupo C
125 individuos
Figura 1.3: Diagrama de sectores.
El arco de cada porci´on se calcula usando la regla de tres:
n −→ 360

n
i
−→ x
i
=
360 n
i
n
Como en la situaci´on anterior, puede interesar comparar dos pobla-
ciones. En este caso tambi´en es aconsejable el uso de las frecuencias
relativas (porcentajes) de ambas sobre gr´aficos como los anteriores.
Otra posibilidad es comparar las 2 poblaciones usando para cada una
de ellas un diagrama semicircular, al igual que en la figura 1.4. Sean
n
1
≤ n
2
los tama˜ nos respectivos de las 2 poblaciones. La poblaci´on
m´as peque˜ na se representa con un semic´ırculo de radio r
1
y la mayor
con otro de radio r
2
.
1.5. REPRESENTACIONES GR
´
AFICAS 25
La relaci´on existente entre los radios, es la que se obtiene de suponer
que la relaci´on entre las areas de las circunferencias es igual a la de
los tama˜ nos de las poblaciones respectivas, es decir:
r
2
2
r
2
1
=
n
2
n
1
⇐⇒ r
2
= r
1

_
n
2
n
1
No fumadores
750 individuos.
75%
Fumadores
250 ind.
25%
No fumadores
Poblac. A
1000 individuos
Poblac. B
250 individuos
Fumadores
125 ind.
50%
125 ind.
50%
Figura 1.4: Diagrama de sectores para comparar dos poblaciones
Pictogramas Expresan con dibujos alusivo al tema de estudio las fre-
cuencias de las modalidades de la variable. Estos gr´aficos se hacen
representado a diferentes escalas un mismo dibujo, como vemos en la
figura 1.5.
El escalamiento de los dibujos debe ser tal que el ´area
1
de cada uno de
ellos sea proporcional a la frecuencia de la modalidad que representa.
Este tipo de gr´aficos suele usarse en los medios de comunicaci´on, para
que sean comprendidos por el p´ ublico no especializado, sin que sea
necesaria una explicaci´on compleja.
1
Es un error hacer la representaci´on con una escala tal que el per´ımetro del dibujo sea
proporcional a la frecuencia, ya que a frecuencia doble, corresponder´ıa un dibujo de ´area
cuadruple, lo que da un efecto visual enga˜ noso.
26 Bioestad´ıstica: M´etodos y Aplicaciones
Figura 1.5: Pictograma. Las ´areas son proporcionales a las frecuencias.
1.5.2. Gr´aficos para variables cuantitativas
Para las variables cuantitativas, consideraremos dos tipos de gr´aficos, en
funci´on de que para realizarlos se usen las frecuencias (absolutas o relativas)
o las frecuencias acumuladas:
Diagramas diferenciales: Son aquellos en los que se representan fre-
cuencias absolutas o relativas. En ellos se representa el n´ umero o
porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales: Son aquellos en los que se representan el n´ umero
de elementos que presentan una modalidad inferior o igual a una dada.
Se realizan a partir de las frecuencias acumuladas, lo que da lugar a
gr´aficos crecientes, y es obvio que este tipo de gr´aficos no tiene sentido
para variables cualitativas.
Seg´ un hemos visto existen dos tipos de variables cuantitativas: discretas
y continuas. Vemos a continuaci´on las diferentes representaciones gr´aficas
que pueden realizarse para cada una de ellas as´ı como los nombres espec´ıfi-
cos que reciben.
1.5. REPRESENTACIONES GR
´
AFICAS 27
Gr´aficos para variables discretas
Cuando representamos una variable discreta, usamos el diagrama de barras
cuando pretendemos hacer una gr´afica diferencial. Las barras deben ser es-
trechas para representar el que los valores que toma la variable son discretos.
El diagrama integral o acumulado tiene, por la naturaleza de la variable,
forma de escalera. Un ejemplo de diagrama de barras as´ı como su diagrama
integral correspondiente est´an representados en la figura 1.6.
Ejemplo de variable discreta
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el n´ umero
de caras, X, obteniendose los siguientes resultados:
2,1,0,1,3,2,1,2
Representar gr´aficamente el resultado.
Soluci´on: En primer lugar observamos que la variable X es cuantitativa
discreta, presentando las modalidades: 0,1,2,3
Ordenamos a continuaci´on los datos en una tabla estad´ıstica, y se representa
la misma en la figura 1.6.
x
i
n
i
f
i
N
i
F
i
0 1 1/8 1 1/8
1 3 3/8 4 4/8
2 3 3/8 7 7/8
3 1 1/8 8 8/8
n = 8 1
Ejemplo de regresentaci´on gr´afica
Clasificadas 12 familias por su n´ umero de hijos se obtuvo:
N´ umero de hijos (x
i
) 1 2 3 4
Frecuencias (n
i
) 1 3 5 3
28 Bioestad´ıstica: M´etodos y Aplicaciones
frecuencias
absolutas
frecuencias
absolutas
acumuladas
1
3
1
4
7
8
0 1 2 3 0 1 2 3
Figura 1.6: Diagrama diferencial (barras) e integral para una variable dis-
creta. Obs´ervese que el diagrama integral (creciente) contabiliza el n´ umero
de observaciones de la variable inferiores o iguales a cada punto del eje de
abcisas.
Comparar los diagramas de barras para frecuencias absolutas y relativas.
Realizar el diagrama acumulativo creciente.
Soluci´on: En primer lugar, escribimos la tabla de frecuencias en el modo
habitual:
Variable F. Absolutas F. Relativas F. Acumuladas
x
i
n
i
f
i
N
i
1 1 0,083 1
2 3 0,250 4
3 5 0,416 9
4 3 0,250 12
12 1
Con las columnas relativas a x
i
y n
i
realizamos el diagrama de barras
para frecuencias absolutas, lo que se muestra en la figura 1.7. Como pue-
de verse es identico (salvo un cambio de escala en el eje de ordenadas)
al diagrama de barras para frecuencias relativas y que ha sido calculado
1.5. REPRESENTACIONES GR
´
AFICAS 29
usando las columnas de x
i
y f
i
. El diagrama escalonado (acumulado) se ha
construido con la informaci´on procedente de las columnas x
i
y N
i
.
absolutas
frecuencias
frecuencias
absolutas
acumuladas
1 2 3 4
1 2 3 4
1
3
5
12
1 2 3 4
1/12
3/12
5/12
1
4
9
frecuencias
relativas
Figura 1.7: Diagramas de frecuencias para una variable discreta
Gr´aficos para variables continuas
Cuando las variables son continuas, utilizamos como diagramas diferencia-
les los histogramas y los pol´ıgonos de frecuencias.
Un histograma se construye a partir de la tabla estad´ıstica, represen-
tando sobre cada intervalo, un rect´angulo que tiene a este segmento como
base. El criterio para calcular la altura de cada rect´angulo es el de mante-
ner la proporcionalidad entre las frecuencias absolutas (o relativas) de cada
intervalo y el ´area de los mismos. V´ease la figura 1.8.
El pol´ıgono de frecuencias se construye f´acilmente si tenemos represen-
tado previamente el histograma, ya que consiste en unir mediante lineas
rectas los puntos del histograma que corresponden a las marcas de clase.
Para representar el pol´ıgono de frecuencias en el primer y ´ ultimo interva-
30 Bioestad´ıstica: M´etodos y Aplicaciones
Peso de 20 individuos
Peso
f
r
e
c
u
e
n
c
i
a

a
b
s
o
l
u
t
a
40 50 60 70 80
0
1
2
3
4
Figura 1.8: Histograma para una variable continua.
lo, suponemos que adyacentes a ellos existen otros intervalos de la misma
amplitud y frecuencia nula, y se unen por una l´ınea recta los puntos del
histograma que corresponden a sus marcas de clase. Obs´ervese que de es-
te modo, el pol´ıgono de frecuencias tiene en com´ un con el histograma el
que las ´areas de la gr´aficas sobre un intervalo son id´enticas. Veanse ambas
gr´aficas diferenciales representadas en la parte superior de la figura 1.9.
El diagrama integral para una variable continua se denomina tambi´en
pol´ıgono de frecuencias acumulado, y se obtiene como la poligonal de-
finida en abcisas a partir de los extremos de los intervalos en los que hemos
organizado la tabla de la variable, y en ordenadas por alturas que son pro-
porcionales a las frecuencias acumuladas. Dicho de otro modo, el pol´ıgono
de frecuencias absolutas es una primitiva del histograma. V´ease la parte
inferior de la figura 1.9, en la que se representa a modo de ilustraci´on los
diagramas correspondientes a la variable cuantitativa continua expresada
en la tabla siguiente:
1.5. REPRESENTACIONES GR
´
AFICAS 31
Intervalos c
i
n
i
N
i
0 — 2 1 2 2
2 — 4 3 1 3
4 — 6 5 4 7
6 — 8 7 3 10
8 – 10 9 2 12
12
1
2
3
4
0 2 4 6 8 10
0 2 4 6 8 10
2
4
6
8
10
12
Diagramas diferenciales
Diagrama acumulado
n
i
N
i
Figura 1.9: Diagramas diferenciales e integrales para una variable continua.
32 Bioestad´ıstica: M´etodos y Aplicaciones
Ejemplo
La siguiente distribuci´on se refiere a la duraci´on en horas (completas)
de un lote de 500 tubos:
Duraci´on en horas N´ umero de tubos
300 — 500 50
500 — 700 150
700 — 1.100 275
m´as de 1.100 25
Total 500
Representar el histograma de frecuencias relativas y el pol´ıgono de
frecuencias.
Trazar la curva de frecuencias relativas acumuladas.
Determinar el n´ umero m´ınimo de tubos que tienen una duraci´on in-
ferior a 900 horas.
Soluci´on: En primer lugar observamos que la variable en estudio es dis-
creta (horas completas), pero al tener un rango tan amplio de valores resulta
m´as conveniente agruparla en intervalos, como si de una variable continua
se tratase. La consecuencia es una ligera perdida de precisi´on.
El ´ ultimo intervalo est´a abierto por el l´ımite superior. Dado que en
´el hay 25 observaciones puede ser conveniente cerrarlo con una amplitud
“razonable”. Todos los intervalos excepto el tercero tienen una amplitud de
200 horas, luego podr´ıamos cerrar el ´ ultimo intervalo en 1.300 horas
2
.
Antes de realizar el histograma conviene hacer una observaci´on impor-
tante. El histograma representa las frecuencias de los intervalos mediante
´areas y no mediante alturas. Sin embargo nos es mucho m´as f´acil hacer
representaciones gr´aficas teniendo en cuenta estas ´ ultimas. Si todos los
intervalos tienen la misma amplitud no es necesario diferenciar entre los
2
Cualquier otra elecci´on para el l´ımite superior del intervalo que sea de “sentido
comun” ser´ıa v´alida.
1.5. REPRESENTACIONES GR
´
AFICAS 33
conceptos de ´area y altura, pero en este caso el tercer intervalo tiene una
amplitud doble a los dem´as, y por tanto hay que repartir su ´area en un
rect´angulo de base doble (lo que reduce su ´altura a la mitad).
As´ı ser´a conveniente a˜ nadir a la habitual tabla de frecuencias una co-
lumna que represente a las amplitudes a
i
de cada intervalo, y otra de fre-
cuencias relativas rectificadas, f

i
, para representar la altura del histograma.
Los gr´aficos requeridos se representan en las figuras 1.10 y 1.11.
Intervalos a
i
n
i
f
i
f

i
F
i
300 — 500 200 50 0,10 0,10 0,10
500 — 700 200 150 0,30 0,30 0,40
700 — 1.100 400 275 0,55 0,275 0,95
1.100 — 1.300 200 25 0,05 0,05 1,00
n=500
f
i
300 500 700 1100
0,1
0,3
0,275
1300
900
0,05
Figura 1.10: Histograma. Obs´ervese que la altura del histograma en cada
intervalo es f

i
que coincide en todos con f
i
salvo en el intervalo 700 — 1.100
en el que f
i

= 1/2 f
i
ya que la amplitud de ese intervalo es doble a la de
los dem´as.
Por otro lado, mirando la figura 1.10 se ve que sumando frecuencias relati-
34 Bioestad´ıstica: M´etodos y Aplicaciones
300 500 1100 1300 700
900
0,1
0,4
0,95
1
0,675
Figura 1.11: Diagrama acumulativo de frecuencias relativas
vas, hasta las 900 horas de duraci´on hay
0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo m´as directo viendo a qu´e altura corres-
ponde al valor 900 en el diagrama de frecuencias acumuladas (figura 1.11).
Como en total son 500 tubos, el n´ umero de tubos con una duraci´on igual o
menor que 900 horas es 0,675 500= 337,5. Redondeando, 338 tubos.
1.5. REPRESENTACIONES GR
´
AFICAS 35
Cuadro 1.1: Principales diagramas seg´ un el tipo de variable.
Tipo de variable Diagrama
V. Cualitativa Barras, sectores, pictogramas
V. Discreta Diferencial (barras)
Integral (en escalera)
V. Continua Diferencial (histograma, pol´ıgono de frecuencias)
Integral (diagramas acumulados)
36 Bioestad´ıstica: M´etodos y Aplicaciones
1.6. Problemas
Ejercicio 1.1. Clasificar las siguientes variables:
1. Preferencias pol´ıticas (izquierda, derecha o centro).
2. Marcas de cerveza.
3. Velocidad en Km/h.
4. El peso en Kg.
5. Signo del zodiaco.
6. Nivel educativo (primario secundario, superior).
7. A˜ nos de estudios completados.
8. Tipo de ense˜ nanza (privada o p´ ublica).
9. N´ umero de empleados de una empresa.
10. La temperatura de un enfermo en grados Celsius.
11. La clase social (baja, media o alta).
12. La presi´on de un neum´atico en Nw/cm
2
Ejercicio 1.2. Clasifique las variables que aparecen en el siguiente cues-
tionario.
1. ¿Cu´al es su edad?
2. Estado civil:
a) Soltero
b) Casado
c) Separado
d) Divorciado
e) Viudo
1.6. PROBLEMAS 37
3. ¿Cuanto tiempo emplea para desplazarse a su trabajo?
4. Tama˜ no de su municipio de residencia:
a) Municipio peque˜ no (menos de 2.000 habitantes)
b) Municipio mediano (de 2.000 a 10.000 hab.)
c) Municipio grande (de 10.000 a 50.000 hab.)
d) Ciudad peque˜ na (de 50.000 a 100.000 hab.)
e) Ciudad grande (m´as de 100.000 hab.)
5. ¿Est´a afiliado a la seguridad social?
Ejercicio 1.3.
En el siguiente conjunto de datos, se proporcionan los pesos (redondea-
dos a libras) de ni˜ nos nacidos en cierto intervalo de tiempo:
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7,
6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
1. Construir una distribuci´on de frecuencia de estos pesos.
2. Encontrar las frecuencias relativas.
3. Encontrar las frecuencias acumuladas.
4. Encontrar las frecuencias relativas acumuladas.
5. Dibujar un histograma con los datos del apartado a.
6. ¿Por qu´e se ha utilizado un histograma para representar estos datos,
en lugar de una gr´afica de barras?
38 Bioestad´ıstica: M´etodos y Aplicaciones
Cap´ıtulo 2
Medidas descriptivas
2.1. Introducci´on
En el cap´ıtulo anterior hemos visto c´omo se pueden resumir los datos obte-
nidos del estudio de una muestra (o una poblaci´on) en una tabla estad´ıstica
o un gr´afico. No obstante, tras la elaboraci´on de la tabla y su representaci´on
gr´afica, en la mayor´ıa de las ocasiones resulta m´as eficaz “condensar” dicha
informaci´on en algunos n´ umeros que la expresen de forma clara y concisa.
Los fen´omenos biol´ogicos no suelen ser constantes, por lo que ser´a ne-
cesario que junto a una medida que indique el valor alrededor del cual se
agrupan los datos, se asocie una medida que haga referencia a la variabili-
dad que refleje dicha fluctuaci´on.
Por tanto el siguiente paso y objeto de este cap´ıtulo consistir´a en definir
algunos tipos de medidas (estad´ısticos o par´ametros) que los sintetizan a´ un
m´as.
Es decir, dado un grupo de datos organizados en una distribuci´on de
frecuencias (o bien una serie de observaciones sin ordenar), pretendemos
describirlos mediante dos o tres cantidades sint´eticas.
En este sentido pueden examinarse varias caracter´ısticas, siendo las m´as
comunes:
La tendencia central de los datos;
39
40 Bioestad´ıstica: M´etodos y Aplicaciones
La dispersi´on o variaci´on con respecto a este centro;
Los datos que ocupan ciertas posiciones.
La simetr´ıa de los datos.
La forma en la que los datos se agrupan.
1/4 1/4
1/2
Centro Dispersion
Posicion Asimetria
,
,
,
Figura 2.1: Medidas representativas de un conjunto de datos estad´ısticos
A lo largo de este cap´ıtulo, y siguiendo este orden, iremos estudiando
los estad´ısticos que nos van a orientar sobre cada uno de estos niveles
de informaci´on: valores alrededor de los cuales se agrupa la muestra, la
mayor o menor fluctuaci´on alrededor de esos valores, nos interesaremos en
ciertos valores que marcan posiciones caracter´ısticas de una distribuci´on de
frecuencias as´ı como su simetr´ıa y su forma.
2.2. Estad´ısticos de tendencia central
Las tres medidas m´as usuales de tendencia central son:
la media,
la mediana,
la moda.
2.2. ESTAD
´
ISTICOS DE TENDENCIA CENTRAL 41
En ciertas ocasiones estos tres estad´ısticos suelen coincidir, aunque gene-
ralmente no es as´ı. Cada uno de ellos presenta ventajas e inconvenientesque
precisaremos m´as adelante. En primer lugar vamos a definir los conceptos
anteriores.
2.2.1. La media
La media aritm´etica de una variable estad´ıstica es la suma de todos sus
posibles valores, ponderada por las frecuencias de los mismos. Es decir, si
la tabla de valores de una variable X es
X n
i
f
i
x
1
n
1
f
1
. . . . . . . . .
x
k
n
k
f
k
la media es el valor que podemos escribir de las siguientes formas equiva-
lentes:
x = x
1
f
1
+. . . +x
k
f
k
=
1
n
(x
1
n
1
+. . . x
k
n
k
)
=
1
n
k

i=1
x
i
n
i
Si los datos no est´an ordenados en una tabla, entonces
x =
x
1
+. . . +x
n
n
(2.1)
Algunos inconvenientes de la media
La media presenta inconvenientes en algunas situaciones:
42 Bioestad´ıstica: M´etodos y Aplicaciones
Uno de ellos es que es muy sensible a los valores extremos de la
variable: ya que todas las observaciones intervienen en el c´alculo de
la media, la aparici´on de una observaci´on extrema, har´a que la media
se desplace en esa direcci´on. En consecuencia,
no es recomendable usar la media como medida central en las distri-
buciones muy asim´etricas;
Si consideramos una variable discreta, por ejemplo, el n´ umero de hijos
en las familias espa˜ nolas el valor de la media puede no pertenecer al
conjunto de valores de la variable; Por ejemplo x = 1, 2 hijos.
Otras medias: Medias generalizadas
En funci´on del tipo de problema varias generalizaciones de la media pueden
ser consideradas. He aqu´ı algunas de ellas aplicadas a unas observaciones
x
1
, . . . , x
n
:
La media geom´etrica x
g
, es la media de los logaritmos de los valores de
la variable:
log x
g
=
log x
1
+. . . + log x
n
n
Luego
x
g
=
n

x
1
x
2
. . . x
n
Si los datos est´an agrupados en una tabla, entonces se tiene:
x
g
=
n
_
x
n
1
1
x
n
2
2
. . . x
n
k
k
La media arm´onica x
a
, se define como el rec´ıproco de la media aritm´eti-
ca de los rec´ıprocos, es decir,
1
x
a
=
1
x
1
+. . . +
1
x
n
n
2.2. ESTAD
´
ISTICOS DE TENDENCIA CENTRAL 43
Por tanto,
x
a
=
n
1
x
1
+. . . +
1
x
n
La media cuadr´atica x
c
, es la ra´ız cuadrada de la media aritm´etica de
los cuadrados:
x
c
=
¸
x
2
1
+. . . +x
2
n
n
2.2.2. La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla
estad´ıstica han sido ordenadas de menor a mayor. Llamaremos mediana,
M
ed
al primer valor de la variable que deja por debajo de s´ı al 50 % de las
observaciones.
50%
0%
100%
n/2
i−1
N
n
i
N
0
l l Med
i i−1
Triang. Semejantes
A B C
B’
C’
Figura 2.2: C´alculo geom´etrico de la mediana
En el caso de variables continuas, las clases vienen dadas por intervalos,
y aqu´ı la f´ormula de la mediana se complica un poco m´as (pero no demasia-
do): Sea (l
i−1
, l
i
] el intervalo donde hemos encontrado que por debajo est´an
44 Bioestad´ıstica: M´etodos y Aplicaciones
el 50 % de las observaciones. Entonces se obtiene la mediana a partir de las
frecuencias absolutas acumuladas, mediante interpolaci´on lineal (teorema
de Thales) como sigue (figura 2.2):
CC

AC
=
BB

AB
=⇒
n
i
a
i
=
n
2
−N
i−1
M
ed
−l
i−1
=⇒ M
ed
= l
i−1
+
n
2
−N
i−1
n
i
a
i
(2.2)
Esto equivale a decir que la mediana divide al histograma en dos partes de
´areas iguales a
1
2
.
Propiedades de la mediana
Entre las propiedades de la mediana, vamos a destacar las siguientes:
Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma
la variable, sino del orden de las mismas. Por ello es adecuado su uso
en distribuciones asim´etricas.
Es de c´alculo r´apido y de interpretaci´on sencilla.
A diferencia de la media, la mediana de una variable discreta es siem-
pre un valor de la variable que estudiamos (ej. La mediana de una
variable n´ umero de hijos toma siempre valores enteros).
Un ejemplo de c´alculo de mediana
Sea X una variable discreta que ha presentado sobre una muestra las
modalidades
X ;2, 5, 7, 9, 12 =⇒x = 7, M
ed
= 7
2.2. ESTAD
´
ISTICOS DE TENDENCIA CENTRAL 45
Si cambiamos la ´ ultima observaci´on por otra anormalmente grande, esto
no afecta a la mediana, pero si a la media:
X ;2, 5, 7, 9, 125 =⇒x = 29, 6; M
ed
= 7
En este caso la media no es un posible valor de la variable (discreta), y se
ha visto muy afectada por la observaci´on extrema. Este no ha sido el caso
para la mediana.
Un ejemplo de c´alculo de media y mediana
Obtener la media aritm´etica y la mediana en la distribuci´on adjunta.
Determinar gr´aficamente cu´al de los dos promedios es m´as significativo.
l
i−1
– l
i
n
i
0 – 10 60
10 – 20 80
20 – 30 30
30 – 100 20
100 – 500 10
Soluci´on:
l
i−1
– l
i
n
i
a
i
x
i
x
i
n
i
N
i
n
i

0 – 10 60 10 5 300 60 60
10 – 20 80 10 15 1.200 140 80
20 – 30 30 10 25 750 170 30
30 – 100 20 70 65 1.300 190 2,9
100 – 500 10 400 300 3.000 200 0,25
n = 200

x
i
n
i
= 6,550
La media aritm´etica es:
x =
1
n

x
i
=
6,550
200
= 32, 75
La primera frecuencia absoluta acumulada que supera el valor n/2 = 100
es N
i
= 140. Por ello el intervalo mediano es [10; 20). As´ı:
46 Bioestad´ıstica: M´etodos y Aplicaciones
M
ed
= l
i−1
+
n/2 −N
i−1
n
i
a
i
= 10 +
100 −60
80
10 = 15
Para ver la representatividad de ambos promedios, realizamos el histograma
de la figura 2.3, y observamos que dada la forma de la distribuci´on, la
mediana es m´as representativa que la media.
5
30
60
80
0 100 30 20 10
Media
Mediana
Figura 2.3: Para esta distribuci´on de frecuencias es m´as representativo usar
como estad´ıstico de tendencia central la mediana que la media.
2.2.3. La moda
Llamaremos moda a cualquier m´aximo relativo de la distribuci´on de fre-
cuencias, es decir, cualquier valor de la variable que posea una frecuencia
mayor que su anterior y su posterior.
Observaci´on
De la moda destacamos las siguientes propiedades:
Es muy f´acil de calcular.
Puede no ser ´ unica.
2.2. ESTAD
´
ISTICOS DE TENDENCIA CENTRAL 47
Cuadro 2.1: Resumen de las medidas de posici´on centrales.
Medidas de tendencia central
Datos sin agrupar Datos agrupados
(ordenados)
x
1
, x
2
, . . . , x
N
Interv. x
i
n
i
N
i
l
0
—l
1
x
1
n
1
N
1
l
1
—l
2
x
2
n
2
N
2
. . . . . . . . . . . .
l
k−1
—l
k
x
k
n
k
N
k
Media x =
x
1
+ +x
n
N
x =
n
1
x
1
+ +n
k
x
k
N
Mediana
Primera observaci´on que
deja debajo de s´ı estricta-
mente a las [N/2] observa-
ciones menores: x
[N/2]+1
M
ed
= l
i−1
+
N
2
−N
i−1
n
i
a
i
Moda M
oda
= x
i
de mayor frecuencia M
oda
== l
i−1
+
n

i
−n

i−1
(n

i
−n

i−1
)+(n

i
−n

i+1
)
a
i
2.2.4. Relaci´on entre media, mediana y moda
En el caso de distribuciones unimodales, la mediana est´a con frecuencia
comprendida entre la media y la moda (incluso m´as cerca de la media).
En distribuciones que presentan cierta inclinaci´on, es m´as aconsejable
el uso de la mediana. Sin embargo en estudios relacionados con prop´ositos
estad´ısticos y de inferencia suele ser m´as apta la media.
48 Bioestad´ıstica: M´etodos y Aplicaciones
2.3. Estad´ısticos de posici´on
Los estad´ısticos de posici´on van a ser valores de la variable caracte-
rizados por superar a cierto porcentaje de observaciones en la poblaci´on
(o muestra). Tenemos fundamentalmente a los percentiles como medidas
de posici´on, y asociados a ellos veremos tambi´en los cuartiles, deciles y
cuartiles.
Percentiles
Para una variable discreta, se define el percentil de orden k, como la
observaci´on, P
k
, que deja por debajo de si el k % de la poblaci´on. V´ease
la figura 2.4. Esta definici´on nos recuerda a la mediana, pues como conse-
cuencia de la definici´on es evidente que
M
ed
= P
50
Peso de 100 individuos
Peso
f
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
40 50 60 70 80 90
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
P
25
P
50
P
75
Figura 2.4: Percentiles 25, 50 y 75 de una variable. Los que se muestran
dividen a la muestra en cuatro intervalos con similar n´ umero de individuos
y reciben tambi´en el nombre de cuartiles.
2.3. ESTAD
´
ISTICOS DE POSICI
´
ON 49
En el caso de una variable continua, el intervalo donde se encuentra P
k

(l
i−1
, l
i
], se calcula buscando el que deja debajo de si al k % de las obser-
vaciones. Dentro de ´el, P
k
se obtiene seg´ un la relaci´on:
P
k
= l
i−1
+
n
k
100
−N
i−1
n
i
a
i
(2.3)
Cuartiles
Los cuartiles, Q
l
, son un caso particular de los percentiles. Hay 3, y se
definen como:
Q
1
= P
25
(2.4)
Q
2
= P
50
= M
ed
(2.5)
Q
3
= P
75
(2.6)
Deciles
Se definen los deciles como los valores de la variable que dividen a las
observaciones en 10 grupos de igual tama˜ no. M´as precisamente, definimos
D
1
,D
2
, . . . , D
9
como:
D
i
= P
10 i
i = 1, . . . , 9
Ejemplo de c´alculo de cuartiles con una variable discreta
Dada la siguiente distribuci´on en el n´ umero de hijos de cien familias,
calcular sus cuartiles.
50 Bioestad´ıstica: M´etodos y Aplicaciones
x
i
n
i
N
i
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Soluci´on:
1. Primer cuartil:
n
4
= 25; Primera N
i
> n/4 = 39; luego Q
1
= 2.
2. Segundo cuartil:
2 n
4
= 50; Primera N
i
> 2 n/4 = 65; luego Q
2
= 3.
3. Tercer cuartil:
3 n
4
= 75; Primera N
i
> 3 n/4 = 85; luego Q
3
= 4.
Ejemplo
Calcular los cuartiles en la siguiente distribuci´on de una variable conti-
nua:
l
i−1
– l
i
n
i
N
i
0 – 1 10 10
1 – 2 12 22
2 – 3 12 34
3 – 4 10 44
4 – 5 7 51
n = 51
2.3. ESTAD
´
ISTICOS DE POSICI
´
ON 51
Soluci´on:
1. Primer cuartil
N
4
= 12, 75; Primera N
i
> n/4 = 22; La l´ınea i es la del intervalo [1; 2)
Q
1
= l
i−1
+
n
4
−N
i−1
n
i
a
i
= 1 +
12, 75 −10
12
1 = 1, 23
2. Segundo cuartil:
2 n
4
= 25, 5; Primera N
i
> 2 n/4 = 34; La l´ınea i es la del intervalo [2; 3)
Q
2
= l
i−1
+
2 n
4
−N
i−1
n
i
a
i
= 2 +
25, 5 −22
12
1 = 2, 29
3. Tercer cuartil
3 n
4
= 38, 25; Primera N
i
> 3 n/4 = 44; La l´ınea i es la del intervalo [3; 4)
Q
3
= l
i−1
+
3 n
4
−N
i−1
n
i
a
i
= 3 +
38, 25 −34
10
1 = 3, 445
Ejemplo de c´alculo de cuartiles con una variable continua
Han sido ordenados los pesos de 21 personas en la siguiente tabla:
52 Bioestad´ıstica: M´etodos y Aplicaciones
Intervalos f.a.
l
i−1
— l
i
n
i
38 — 45 3
45 — 52 2
52 — 59 7
59 — 66 3
66 — 73 6
21
Encontrar aquellos valores que dividen a los datos en 4 partes con el
mismo n´ umero de observaciones.
Soluci´on: Las cantidades que buscamos son los tres cuartiles: Q
1
, Q
2
y
Q
3
. Para calcularlos, le a˜ nadimos a la tabla las columnas con las frecuen-
cias acumuladas, para localizar qu´e intervalos son los que contienen a los
cuartiles buscados:
l
i−1
— l
i
n
i
N
i
38 — 45 3 3
45 — 52 2 5
52 — 59 7 12 ÷ Q
1
, Q
2
59 — 66 3 15
66 — 73 6 21 ÷ Q
3
21
Q
1
y Q
2
se encuentran en el intervalo
52—59, ya que N
3
= 12 es la primera
f.a.a. que supera a 21 1/4 y 21 2/4.
Q
3
est´a en 66—73, pues N
5
= 21 es
el primer N
i
mayor que 21 3/4.
As´ı se tiene que:
1
4
21 = 5, 25 ⇒ i = 3 ⇒Q
1
= l
i−1
1
4
n −N
i−1
n
i
a
i
= 52 +
5, 25 −5
7
7 = 52, 25
2
4
21 = 10, 5 ⇒ i = 3 ⇒Q
2
= l
i−1
+
2
4
n −N
i−1
n
i
a
i
= 52 +
10, 5 −5
7
7 = 57, 5
2.3. ESTAD
´
ISTICOS DE POSICI
´
ON 53
3
4
21 = 15, 75 ⇒ i = 5 ⇒Q
3
= l
i−1
+
3
4
n −N
i−1
n
i
a
i
= 66 +
15, 75 −15
6
7 = 66, 875
Obs´ervese que Q
2
= M
ed
. Esto es l´ogico, ya que la mediana divide a
la distribuci´on en dos partes con el mismo n´ umero de observaciones, y Q
2
,
hace lo mismo, pues es deja a dos cuartos de los datos por arriba y otros
dos cuartos por abajo.
Ejemplo
La distribuci´on de una variable tiene por pol´ıgono acumulativo de fre-
cuencias el de la figura 2.5. Si el n´ umero total de observaciones es 50:
1. Elaborar una tabla estad´ıstica con los siguientes elementos: intervalos,
marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada,
frecuencias relativa y frecuencias relativa acumulada.
2. Cu´antas observaciones tuvieron un valor inferior a 10, cu´antas inferior
a 8 y cu´antas fueron superior a 11.
3. Determine los cuartiles.
Soluci´on:
1. En la siguiente tabla se proporciona la informaci´on pedida y algunos
c´alculos auxiliares que nos permitir´an responder a otras cuestiones.
Intervalos n
i
N
i
f
i
F
i
x
i
a
i
n
i

0 – 5 10 10 0,2 0,3 2,5 5 2
5 – 7 25 35 0,5 0,7 6 2 12,5
7 – 12 5 40 0,1 0,8 9,5 5 1
12 – 15 10 50 0,2 1 13,5 7 3,33
2. Calculemos el n´ umero de observaciones pedido:
54 Bioestad´ıstica: M´etodos y Aplicaciones
5 7 12 15
0,2
0,7
0,8
1
0
Figura 2.5: Diagrama acumulado de frecuencias relativas.
7 a 12 5
7 a 10 x

5 5
3 x
⇒ x =
3 5
5
= 3
10 + 25+3 = 38 observaciones tomaron un valor inferior a 10
7 a 12 5
7 a 8 x

5 5
1 x
⇒ x =
1 5
5
= 1
10 + 25+1 = 36 observaciones tomaron un valor inferior a 8
7 a 12 5
7 a 11 x

5 5
4 x
⇒ x =
4 5
5
= 4
50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11
3. Cuartiles:
Q
1
= l
i−1
+
n/4 −N
i−1
n
i
a
i
= 5 +
12, 5 −10
25
2 = 5, 2
Q
2
= l
i−1
+
2 n/4 −N
i−1
n
i
a
i
= 5 +
25 −10
25
2 = 6, 2
2.4. MEDIDAS DE VARIABILIDAD O DISPERSI
´
ON 55
Q
3
= l
i−1
+
3 n/4 −N
i−1
n
i
a
i
= 7 +
37, 5 −35
5
5 = 9, 5
2.4. Medidas de variabilidad o dispersi´on
Los estad´ısticos de tendencia central o posici´on nos indican donde se
sit´ ua un grupo de puntuaciones. Los de variabilidad o dispersi´on nos indican
si esas puntuaciones o valores est´an pr´oximas entre s´ı o si por el contrario
est´an o muy dispersas.
2.4.1. Rango
Una medida razonable de la variabilidad podr´ıa ser la amplitud o ran-
go, que se obtiene restando el valor m´as bajo de un conjunto de observa-
ciones del valor m´as alto.
Propiedades del rango
Es f´acil de calcular y sus unidades son las mismas que las de la varia-
ble.
No utiliza todas las observaciones (s´olo dos de ellas);
Se puede ver muy afectada por alguna observaci´on extrema;
El rango aumenta con el n´ umero de observaciones, o bien se queda
igual. En cualquier caso nunca disminuye.
2.4.2. Varianza
La varianza, o
2
, se define como la media de las diferencias cuadr´aticas
de n puntuaciones con respecto a su media aritm´etica, es decir
o
2
=
1
n
n

i=1
(x
i
−x)
2
(2.7)
56 Bioestad´ıstica: M´etodos y Aplicaciones
Esta medida es siempre una cantidad positiva, con propiedades intere-
sante para la realizaci´on de inferencia estad´ıstica. Como sus unidades son
las del cuadrado de la variable, es m´as sencillo usar su ra´ız cuadrada, que
es la que vemos en la siguiente secci´on.
2.4.3. Desviaci´on t´ıpica o est´andar
La varianza no tiene la misma magnitud que las observaciones (ej. si las
observaciones se miden en metros, la varianza lo hace en metros cuadrados.
Si queremos que la medida de dispersi´on sea de la misma dimensionalidad
que las observaciones bastar´a con tomar su ra´ız cuadrada. Por ello se define
la desviaci´on t´ıpica, o, como
o =

o
2
2.4.4. Ejemplo de c´alculo de medidas de dispersi´on
Calcular el rango, varianza y desviaci´on t´ıpica de las siguientes canti-
dades medidas en metros:
3, 3, 4, 4, 5
Soluci´on: El rango de esas observaciones es la diferencia entre la mayor
y menor de ellas, es decir, 5 −3 = 2. Para calcular las restantes medidas de
dispersi´on es necesario calcular previamente el valor con respecto al cual
vamos a medir las diferencias.
´
Este es la media:
x = (3 + 3 + 4 + 4 + 5)/5 = 3, 8 metros
La varianza es:
o
2
=
1
n
n

i=1
x
2
i
−x
2
=
1
5
_
3
2
+ 3
2
+ 4
2
+ 4
2
+ 5
2
_
−3, 8
2
= 0, 56 metros
2
siendo la desviaci´on t´ıpica su ra´ız cuadrada:
o =

o
2
=
_
0, 56 = 0, 748 metros
2.4. MEDIDAS DE VARIABILIDAD O DISPERSI
´
ON 57
Propiedades de la varianza y desviacion t´ıpica
Ambas son sensibles a la variaci´on de cada una de las puntuaciones,
es decir, si una puntuaci´on cambia, cambia con ella la varianza. La
raz´on es que si miramos su definici´on, la varianza es funci´on de cada
una de las puntuaciones.
La desviaci´on t´ıpica tiene la propiedad de que en el intervalo
(x −2 o, x + 2 o)
def
∼ x ±2 o
se encuentra, al menos, el 75 % de las observaciones Incluso si tene-
mos muchos datos y estos provienen de una distribuci´on normal (se
definir´a este concepto m´as adelante), podremos llegar al 95 %.
No es recomendable el uso de ellas, cuando tampoco lo sea el de la
media como medida de tendencia central.
2.4.5. Coeficiente de variaci´on
Hemos visto que las medidas de centralizaci´on y dispersi´on nos dan infor-
maci´on sobre una muestra. Nos podemos preguntar si tiene sentido usar
estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden
comparar la dispersi´on de los pesos de las poblaciones de elefantes de dos
circos diferentes, o nos dar´a informaci´on ´ util.
¿Pero qu´e ocurre si lo que comparamos es la altura de unos elefantes
con respecto a su peso? Tanto la media como la desviaci´on t´ıpica, x y o,
se expresan en las mismas unidades que la variable. Por ejemplo, en la
variable altura podemos usar como unidad de longitud el metro y en la
variable peso, el kilogramo. Comparar una desviaci´on (con respecto a la
media) medida en metros con otra en kilogramos no tiene ning´ un sentido.
El problema no deriva s´olo de que una de las medidas sea de longitud y la
otra sea de masa. El mismo problema se plantea si medimos cierta cantidad,
por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este
es el caso en que comparamos el peso en toneladas de una poblaci´on de
100 elefantes con el correspondiente en miligramos de una poblaci´on de 50
hormigas.
58 Bioestad´ıstica: M´etodos y Aplicaciones
El problema no se resuelve tomando las mismas escalas para ambas
poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las
mismas unidades que los elefantes (toneladas). Si la ingerier´ıa gen´etica no
nos sorprende con alguna barbaridad, lo l´ogico es que la dispersi´on de la
variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas
que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene
de la dimensionalidad de las variables, y en el tercero de la diferencia enorme
entre las medias de ambas poblaciones. El coeficiente de variaci´on es lo que
nos permite evitar estos problemas, pues elimina la dimensionalidad de las
variables y tiene en cuenta la proporci´on existente entre medias y desviaci´on
t´ıpica. Se define del siguiente modo:
(1 =
o
X
x
(2.8)
Propiedades del coeficiente de variaci´on
S´olo se debe calcular para variables con todos los valores positivos.
Todo ´ındice de variabilidad es esencialmente no negativo. Las ob-
servaciones pueden ser positivas o nulas, pero su variabilidad debe
ser siempre positiva. De ah´ı que s´olo debemos trabajar con variables
positivas, para la que tenemos con seguridad que x > 0.
No es invariante ante cambios de origen. Es decir, si a los resultados
de una medida le sumamos una cantidad positiva, b > 0, para tener
Y = X +b, entonces (1
Y
< (1
X
.
Es invariante a cambios de escala. As´ı por ejemplo el coeficiente de
variaci´on de una variable medida en metros es una cantidad adimen-
sional que no cambia si la medici´on se realiza en cent´ımetros.
Tipificaci´on
Se conoce por tipificaci´on al proceso de restar la media y dividir por su
desviaci´on t´ıpica a una variable X. De este modo se obtiene una nueva
2.5. ASIMETR
´
IA Y APUNTAMIENTO 59
variable
Z =
X −x
o
(2.9)
de media z = 0 y desviaci´on t´ıpica o
Z
= 1, que denominamos variable
tipificada.
Esta nueva variable carece de unidades y permite hacer comparables
dos medidas que en un principio no lo son. As´ı por ejemplo nos podemos
preguntar si un elefante es m´as grueso que una hormiga determinada, cada
uno en relaci´on a su poblaci´on. Tambi´en es aplicable al caso en que se quie-
ran comparar individuos semejantes de poblaciones diferentes. Por ejemplo
si deseamos comparar el nivel acad´emico de dos estudiantes de diferentes
Universidades para la concesi´on de una beca de estudios, en principio ser´ıa
injusto concederla directamente al que posea una nota media m´as elevada,
ya que la dificultad para conseguir una buena calificaci´on puede ser mucho
mayor en un centro que en el otro, lo que limita las posibilidades de uno de
los estudiante y favorece al otro. En este caso, lo m´as correcto es comparar
las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas
por las medias y desviaciones t´ıpicas respectivas de las notas de los alumnos
de cada Universidad.
No confundir coeficiente de variaci´on y tipificaci´on
Los coefientes de variaci´on sirven para comparar las variabilidades de
dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos, es necesario
usar los valores tipificados. Ninguno de ellos posee unidades y es un error
frecuente entre estudiantes de bioestad´ıstica confundirlos.
2.5. Asimetr´ıa y apuntamiento
Sabemos c´omo calcular valores alrededor de los cuales se distribuyen las
observaciones de una variable sobre una muestra y sabemos c´omo calcular
la dispersi´on que ofrecen los mismos con respecto al valor de central. Nos
60 Bioestad´ıstica: M´etodos y Aplicaciones
proponemos dar un paso m´as all´a en el an´alisis de la variable. En primer
lugar, nos vamos a plantear el saber si los datos se distribuyen de forma
sim´etrica con respecto a un valor central, o si bien la gr´afica que representa
la distribuci´on de frecuencias es de una forma diferente del lado derecho
que del lado izquierdo.
Si la simetr´ıa ha sido determinada, podemos preguntarnos si la curva
es m´as o menos apuntada (larga y estrecha). Este apuntamiento habr´a que
medirlo comparado a cierta distribuci´on de frecuencias que consideramos
normal (no por casualidad es ´este el nombre que recibe la distribuci´on de
referencia).
Estas ideas son las que vamos a desarrollar en lo que resta del cap´ıtulo.
2.5.1. Estad´ısticos de asimetr´ıa
Para saber si una distribuci´on de frecuencias es sim´etrica, hay que precisar
con respecto a qu´e. Un buen candidato es la mediana, ya que para variables
continuas, divide al histograma de frecuencias en dos partes de igual ´area.
Podemos basarnos en ella para, de forma natural, decir que una distri-
buci´on de frecuencias es sim´etrica si el lado derecho de la gr´afica (a
partir de la mediana) es la imagen por un espejo del lado izquierdo(figura
2.6).
Cuando la variable es discreta, decimos que es sim´etrica, si lo es con
respecto a la media.
Dentro de los tipos de asimetr´ıa posible, vamos a destacar los dos fun-
damentales:
Asimetr´ıa positiva: Si las frecuencias m´as altas se encuentran en el lado
izquierdo de la media, mientras que en derecho hay frecuencias m´as
peque˜ nas (cola).
Asimetr´ıa negativa: Cuando la cola est´a en el lado izquierdo.
Cuando realizamos un estudio descriptivo es altamente improbable que
la distribuci´on de frecuencias sea totalmente sim´etrica. En la pr´actica di-
remos que la distribuci´on de frecuencias es sim´etrica si lo es de un modo
2.5. ASIMETR
´
IA Y APUNTAMIENTO 61
Mediana
Cola
Asim. Positiva
Cola
Asim. Negativa
Mediana
Mediana Mediana
50% 50% 50% 50%
50% 50%
50% 50%
Figura 2.6: Distribuciones de frecuencias sim´etricas y asim´etricas
aproximado. Por otro lado, a´ un observando cuidadosamente la gr´afica, po-
demos no ver claro de qu´e lado est´an las frecuencias m´as altas. Se definen
entonces toda una familia de estad´ısticos que ayuden a interpretar la asi-
metr´ıa, denominados ´ındices de asimetr´ıa. El principal de ellos es el
momento central de tercer orden que definimos a continuaci´on.
Momento central de tercer orden
Sea X una variable cuantitativa y p ∈ IN. Llamamos momento de orden
p a:
µ
p
=
1
n
n

i=1
x
p
i
(2.10)
Se denomina momento central de orden p a la cantidad
62 Bioestad´ıstica: M´etodos y Aplicaciones
m
p
=
1
n
n

i=1
(x
i
−x)
p
(2.11)
Los momentos de orden p impar, son siempre nulos en el caso de va-
riables sim´etricas, ya que para cada i que est´e a un lado de la media, con
(x
i
−x) < 0, le corresponde una observaci´on j del otro lado de la media tal
que (x
j
−x) = −(x
i
−x). Elevando cada una de esas cantidades a p impar,
y sumando se tiene que
m
p
= 0 si la distribuci´on es sim´etrica.
Si la distribuci´on fuese asim´etrica positiva, las cantidades (x
i
−x)
p
, con p ≥
3 impar positivas estar´ıan muy aumentadas al elevarse a p. Esta propiedad
nos indica que un ´ındice de asimetr´ıa posible consiste en tomar p = 3 y
elegir como estad´ıstico de asimetr´ıa al momento central de tercer orden.
Apoyandonos en este ´ındice, diremos que hay asimetr´ıa positiva si a
3
>
0, y que la asimetr´ıa es negativa si a
3
< 0.
´
Indice basado en los tres cuartiles (Yule–Bowley)
Si una distribuci´on es sim´etrica, es claro que deben haber tantas obser-
vaciones entre la que deja por debajo de s´ı las tres cuartas partes de la
distribuci´on y la mediana, como entre la mediana y la que deja por debajo
de s´ı un quarto de todas las observaciones. De forma abreviada esto es,
Q
3
−Q
2
= Q
2
−Q
1
Una pista para saber si una distribuci´on de frecuencias es asim´etrica
positiva la descubrimos observando la figura 2.7):
Q
3
−Q
2
> Q
2
−Q
1
Por analog´ıa, si es asim´etrica negativa, se tendr´a
Q
3
−Q
2
< Q
2
−Q
1
2.5. ASIMETR
´
IA Y APUNTAMIENTO 63
Para quitar dimensionalidad al problema, utilizamos como ´ındice de asi-
metr´ıa la cantidad:
/
s
=
(Q
3
−Q
2
) −(Q
2
−Q
1
)
Q
3
−Q
1
(2.12)
Es claro que
−1 ≤ /
s
=
(Q
3
−Q
2
) −(Q
2
−Q
1
)
(Q
3
−Q
2
) + (Q
2
−Q
1
)
≤ 1 (2.13)
El n´ umero obtenido, /
s
, es invariante ante cambios de origen de referencia
y de escala.
Q
Q Q
1 2 3
Figura 2.7: Uso de los cuartiles para medir la asimetr´ıa
Otros ´ındices de asimetr´ıa
Bas´andonos en que si una distribuci´on de frecuencias es sim´etrica y unimo-
dal, entonces la media, la mediana y la moda coinciden, podemos definir
otras medidas de asimetr´ıa, como son:
/
s
=
x −M
oda
o
(2.14)
o bien,
64 Bioestad´ıstica: M´etodos y Aplicaciones
/
s
=
3(x −M
ed
)
o
(2.15)
Diremos que hay asimetr´ıa positiva si /
s
> 0 y negativa si /
s
< 0
Coef. Asim. ~ 0
Q
1
Q
2
Q
3
x
Coef. Asim.>0
D
e
n
s
i
t
y
Q
1
Q
2
Q
3
x
Figura 2.8: Diferencias entre las medidas de tendencia central, o bien entre
las distancias entre cuartiles consecutivos indican asimetr´ıa.
Ejemplo
Las edades de un grupo de personas se reflejan en la tabla siguiente:
Intervalos n
i
7 — 9 4
9 — 11 18
11 — 12 14
12 — 13 27
13 — 14 42
14 — 15 31
15 — 17 20
17 — 19 1
2.5. ASIMETR
´
IA Y APUNTAMIENTO 65
Determinar la variabilidad de la edad mediante los estad´ısticos varianza,
desviaci´on t´ıpica, coeficiente de variaci´on y rango intercuart´ılico. Estudie
la simetr´ıa de la variable.
Soluci´on:
En primer lugar realizamos los c´alculos necesarios a partir de la tabla
de frecuencias:
Intervalos n
i
x
i
N
i
x
i
n
i
x
2
i
n
i
7 — 9 4 8 4 32 256
9 — 11 18 10 22 180 1.800
11 — 12 14 11,5 36 161 1.851,5
12 — 13 27 12,5 63 337,5 4.218,75
13 — 14 42 13,5 105 567 7.654,5
14 — 15 31 14,5 136 449,5 6.517,75
15 — 17 20 16 156 320 5.120
17 — 19 1 18 157 18 324
157 2.065 27.742,25
La media es x = 2,065/157 = 13, 15 a˜ nos. La varianza la calculamos a
partir de la columna de la x
2
i
n
i
como sigue:
o
2
= 27,742, 25/157−13, 15
2
= 3, 78 a˜ nos
2
⇒ o =
_
3, 78 = 1, 94 a˜ nos
El coeficiente de variaci´on no posee unidades y es:
(1 =
1, 94
13, 15
= 0, 15 = 15 % de variabilidad.
En lo que concierne a la simetr´ıa podemos utilizar el coeficiente de asimetr´ıa
de Yule–Bowley, para el cual es preciso el c´alculo de los cuartiles:
Q
1
= 12 +
39, 25 −36
27
1 = 12, 12
M
ed
= Q
2
= 13 +
78, 5 −63
42
1 = 13, 37
66 Bioestad´ıstica: M´etodos y Aplicaciones
Q
3
= 14 +
117, 75 −105
31
1 = 14, 41
Lo que nos dice que aproximadamente en un rango de Q
3
−Q
1
= 2, 29 a˜ nos
se encuentra el 50 % central del total de observaciones
1
Adem´as:
= /
s
=
(Q
3
−Q
2
) −(Q
2
−Q
1
)
Q
3
−Q
1
=
(14, 41 −13, 37) −(13, 37 −12, 12)
14, 41 −12, 12
= −0, 09
Este resultado nos indica que existe una ligera asimetr´ıa a la izquierda
(negativa). Un resultado similar se obtiene si observamos (Figura 2.9) que
la distribuci´on de frecuencias es unimodal, siendo la moda:
M
oda
== 13 +
42 −27
(42 −27) + (42 −31)
1 = 13, 57
en cuyo caso podemos usar como medida del sesgo:
/
s
=
x −M
oda
o
=
13, 15 −13, 57
1, 94
= −0, 21
2.5.2. Estad´ısticos de apuntamiento
Se define el coeficiente de aplastamiento de Fisher (curtosis) como:
γ
2
=
m
4
σ
4
−3
donde m
4
es el momento emp´ırico de cuarto orden. Es ´este un coeficiente
adimensional, invariante ante c´ambios de escala y de origen. Sirve para
medir si una distribuci´on de frecuencias es muy apuntada o no. Para decir
si la distribuci´on es larga y estrecha, hay que tener un patr´on de referencia.
El patr´on de referencia es la distribuci´on normal o gaussiana
2
para la que
se tiene
1
Eso hace que dicha cantidad sea usada como medida de dispersi´on, denomin´andose
rango intercuart´ılico.
2
Ser´a introducida posteriormente.
2.5. ASIMETR
´
IA Y APUNTAMIENTO 67
5
10
15
20
25
30
35
40
edad
7 8 9 10 11 12 13 14 15 16 17 18 19
media=13,15
moda=13,57
Figura 2.9: La distribuci´on de frecuencias de la edad presenta una ligera
asimetr´ıa negativa.
m
4
σ
4
= 3 =⇒γ
2
= 0
De este modo, atendiendo a γ
2
, se clasifican las distribuciones de frecuencias
en
Leptoc´ urtica: Cuando γ
2
> 0, o sea, si la distribuci´on de frecuencias es
m´as apuntada que la normal;
Mesoc´ urtica: Cuando γ
2
= 0, es decir, cuando la distribuci´on de frecuen-
cias es tan apuntada como la normal;
Platic´ urtica: Cuando γ
2
< 0, o sea, si la distribuci´on de frecuencias es
menos apuntada que la normal;
68 Bioestad´ıstica: M´etodos y Aplicaciones
curtosis<0 curtosis=0 curtosis>0
Figura 2.10: Apuntamiento de distribuciones de frecuencias
2.6. Problemas
Ejercicio 2.1. En el siguiente conjunto de n´ umeros, se proporcionan los
pesos (redondeados a la libra m´as pr´oxima) de los beb´es nacidos durante
un cierto intervalo de tiempo en un hospital:
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7,
6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
1. Construir una distribuci´on de frecuencias de estos pesos.
2. Encontrar las frecuencias relativas.
3. Encontrar las frecuencias acumuladas.
4. Encontrar las frecuencias relativas acumuladas.
5. Dibujar un histograma con los datos de la parte a.
6. ¿Por qu´e se ha utilizado un histograma para representar estos datos,
en lugar de una gr´afica de barras?
7. Calcular las medidas de tendencia central.
2.6. PROBLEMAS 69
8. Calcular las medidas de dispersi´on.
9. Calcular las medidas de forma.
10. ¿Es esta una distribuci´on sesgada? De ser as´ı, ¿en qu´e direcci´on?
11. Encontrar el percentil 24.
Ejercicio 2.2. A continuaci´on se dan los resultados obtenidos con una
muestra de 50 universitarios. la caracter´ıstica es el tiempo de reacci´on ante
un est´ımulo auditivo:
0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122
0,113 0,098 0,122 0,105 0,103 0,119 0,100 0,117 0,113
0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109
0,117 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100
0,108 0,120 0,099 0,102 0,129 0,115 0,121 0,130 0,134
0,118 0,106 0,128 0,094 0,1114
1. ¿Cu´al es la amplitud total de la distribuci´on de los datos?
2. Obtenga la distribuci´on de frecuencias absolutas y relativas.
3. Obtenga la distribuci´on de frecuencias acumuladas, absolutas y rela-
tivas, con los intervalos anteriores.
4. Calcular la media y la varianza con los intervalos del apartado b y
despu´es calculense las mismas magnitudes sin ordenar los datos en
una tabla estad´ıstica.¿Con qu´e m´etodo se obtiene mayor precisi´on?
5. Dibuje el pol´ıgono de frecuencias relativas.
6. Dibuje el pol´ıgono de frecuencias relativas acumuladas.
Ejercicio 2.3. Con el fin de observar la relaci´on entre la inteligencia y el
nivel socioecon´omico (medido por el salario mensual familiar) se tomaron
dos grupos, uno formado con sujetos de cociente intelectual inferior a 95
70 Bioestad´ıstica: M´etodos y Aplicaciones
y otro formado por los dem´as; De cada sujeto se anot´o el salario mensual
familiar. Teniendo en cuenta los resultados que se indican en la tabla:
Nivel socioecon´omico Sujetos con CI < 95 Sujetos con CI ≥ 95
Intervalos Frecuencia Frecuencia
10 o menos ≡(4,10] 75 19
10 – 16 35 26
16 – 22 20 25
22 – 28 30 30
28 – 34 25 54
m´as de 34 ≡(34,40] 15 46
1. Dibuje un gr´afico que permita comparar ambos grupos.
2. Calcule las medidas de tendencia central para aquellos sujetos con
CI < 95.
3. Calcular las medidas de dispersi´on para aquellos sujetos con CI ≥ 95.
Ejercicio 2.4. Un estudio consisti´o en anotar el n´ umero de palabras le´ıdas
en 15 segundos por un grupo de 120 sujetos disl´exicos y 120 individuos
normales. Teniendo en cuenta los resultados de la tabla
N

de palabras le´ıdas Disl´exicos n
D
Normales n
N
25 o menos ≡25 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 o m´as ≡30 2 32
calcule:
1. Las medias aritm´eticas de ambos grupos.
2. Las medianas de ambos grupos.
2.6. PROBLEMAS 71
3. El porcentaje de sujetos disl´exicos que superaron la mediana de los
normales.
4. Compare la variabilidad relativa de ambos grupos.
Ejercicio 2.5. La tabla siguiente muestra la composici´on por edad, sexo y
trabajo de un grupo de personas con tuberculosis pulmonar en la provincia
de Vizcaya en el a˜ no 1979:
Edad Trabajadores No trabajadores Totales
Var´on Mujer Total Var´on Mujer Total Var´on Mujer Total
14–19 2 1 3 25 40 65 27 41 68
19–24 10 4 14 20 36 56 30 40 70
24–29 32 10 42 15 50 65 47 60 107
29–34 47 12 59 13 34 47 60 46 106
34–39 38 8 46 10 25 35 48 33 81
39–44 22 4 26 7 18 25 29 22 51
1. Representar gr´aficamente la distribuci´on de frecuencias de aquellas
personas trabajadoras que padecen tuberculosis.
2. Representar gr´aficamente la distribuci´on de frecuencias de los varones
no trabajadores que padecen tuberculosis.
3. Representar gr´aficamente la distribuci´on de frecuencias del n´ umero
total de mujeres que padecen tuberculosis.
4. ¿Cu´al es la edad en la que se observa con mayor frecuencia que no
trabajan los varones? ¿Y las mujeres? Determinar as´ımismo la edad
m´as frecuente (sin distinci´on de sexos ni ocupaci´on).
5. ¿Por debajo de qu´e edad est´a el 50 % de los varones?
6. ¿Por encima de qu´e edad se encuentra el 80 % de las mujeres?
7. Obtener la media, mediana y desviaci´on t´ıpica de la distribuci´on de
las edades de la muestra total.
8. Estudiar la asimetr´ıa de las tres distribuciones.
72 Bioestad´ıstica: M´etodos y Aplicaciones
Ejercicio 2.6. En una epidemia de escarlatina, se ha recogido el n´ umero
de muertos en 40 ciudades de un pa´ıs, obteni´endose la siguiente tabla:
N

de muertos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
1. Representar gr´aficamente estos datos.
2. Obtener la distribuci´on acumulada y representarla.
3. Calcular media, mediana y moda.
4. Calcular la varianza y la desviaci´on t´ıpica.
5. Porcentaje de ciudades con al menos 2 muertos.
6. Porcentaje de ciudades con m´as de 3 muertos.
7. Porcentaje de ciudades con a lo sumo 5 muertos.
Cap´ıtulo 3
Variables bidimensionales
3.1. introducci´on
En lo estudiado anteriormente hemos podido aprender c´omo a partir de
la gran cantidad de datos que describen una muestra mediante una varia-
ble, X, se representan gr´aficamente los mismos de modo que resulta m´as
intuitivo hacerse una idea de como se distribuyen las observaciones.
Otros conceptos que seg´ un hemos visto, tambi´en nos ayudan en el an´ali-
sis, son los estad´ısticos de tendencia central, que nos indican hacia donde
tienden a agruparse los datos (en el caso en que lo hagan), y los estad´ısticos
de dispersi´on, que nos indican si las diferentes modalidades que presenta
la variable est´an muy agrupadas alrededor de cierto valor central, o si por
el contrario las variaciones que presentan las modalidades con respecto al
valor central son grandes.
Tambi´en sabemos determinar ya si los datos se distribuyen de forma
sim´etrica a un lado y a otro de un valor central.
En este cap´ıtulo pretendemos estudiar una situaci´on muy usual y por
tanto de gran inter´es en la pr´actica:
Si Y es otra variable definida sobre la misma poblaci´on que
X, ¿ser´a posible determinar si existe alguna relaci´on entre las
modalidades de X y de Y ?
73
74 Bioestad´ıstica: M´etodos y Aplicaciones
Un ejemplo trivial consiste en considerar una poblaci´on formada por
alumnos de primero de Medicina y definir sobre ella las variables
X ≡ altura medida en cent´ımetros,
Y ≡ altura medida en metros,
ya que la relaci´on es determinista y clara: Y = X/100. Obs´ervese que
aunque la variable Y , como tal puede tener cierta dispersi´on, vista como
funci´on de X, su dispersi´on es nula.
Un ejemplo m´as parecido a lo que nos interesa realmente lo tenemos
cuando sobre la misma poblaci´on definimos las variables
X ≡ altura medida en cent´ımetros,
Y ≡ peso medida en kilogramos.
Intuitivamente esperamos que exista cierta relaci´on entre ambas variables,
por ejemplo,
Y = X −110± dispersi´on
que nos expresa que (en media) a mayor altura se espera mayor peso. La
relaci´on no es exacta y por ello ser´a necesario introducir alg´ un termino que
exprese la dispersi´on de Y con respecto a la variable X.
Es fundamental de cara a realizar un trabajo de investigaci´on expe-
rimental, conocer muy bien las t´ecnicas de estudio de variables bidimen-
sionales (y n–dimensionales en general). Baste para ello pensar que nor-
malmente las relaciones entre las variables no son tan evidentes como se
mencion´o arriba. Por ejemplo:
¿Se puede decir que en un grupo de personas existe alguna re-
laci´on entre X = tensi´on arterial e Y = edad?
Aunque en un principio la notaci´on pueda resultar a veces algo desa-
gradable, el lector podr´a comprobar, al final del cap´ıtulo, que es bastante
3.2. TABLAS DE DOBLE ENTRADA 75
accesible. Por ello le pedimos que no se asuste. Al final ver´a que no son
para tanto.
3.2. Tablas de doble entrada
Consideramos una poblaci´on de n individuos, donde cada uno de ellos pre-
senta dos caracteres que representamos mediante las variables X e Y . Re-
presentamos mediante
X;x
1
, x
2
, . . . , x
i
, . . . , x
k
las k modalidades que presenta la variable X, y mediante
Y ;y
1
, y
2
, . . . , y
j
, . . . , y
p
las p modalidades de Y .
Con la intenci´on de reunir en una s´ola estructura toda la informaci´on
disponible, creamos una tabla formada por k p casillas, organizadas de
forma que se tengan k filas y p columnas. La casilla denotada de forma
general mediante el sub´ındice
ij
har´a referencia a los elementos de la muestra
que presentan simult´aneamente las modalidades x
i
e y
j
.
Y y
1
y
2
. . . y
j
. . . y
p
X
x
1
n
11
n
12
. . . n
1j
. . . n
1p
n
1•
x
2
n
21
n
22
. . . n
2j
. . . n
2p
n
2•
. . . . . . . . . . . . . . . . . . . . . . . .
x
i
n
i1
n
i2
. . . n
ij
. . . n
ip
n
i•
. . . . . . . . . . . . . . . . . . . . . . . .
x
k
n
k1
n
k2
. . . n
kj
. . . n
kp
n
k•
n
•1
n
•2
. . . n
•j
. . . n
•p
n
••
De este modo, para i = 1, . . . , k, j = 1, . . . , p, se tiene que n
ij
es el n´ umero
de individuos o frecuencia absoluta, que presentan a la vez las modali-
dades x
i
e y
j
.
76 Bioestad´ıstica: M´etodos y Aplicaciones
El n´ umero de individuos que presentan la modalidad x
i
, es lo que lla-
mamos frecuencia absoluta marginal de x
i
y se representa como n
i•
.
Es evidente la igualdad
n
i•
= n
i1
+n
i2
+ +n
ip
=
p

j=1
n
ij
Obs´ervese que hemos escrito un s´ımbolo “•” en la “parte de las jotas” que
simboliza que estamos considerando los elemento que presentan la modali-
dad x
i
, independientemente de las modalidades que presente la variable Y .
De forma an´aloga se define la frecuencia absoluta marginal de la modalidad
y
j
como
n
•j
= n
1j
+n
2j
+ +n
kj
=
k

i=1
n
ij
Estas dos distribuciones de frecuencias n
i•
para i = 1, . . . , k, y n
•j
para
j = 1, . . . , p reciben el nombre de distribuciones marginales de X e Y
respectivamente.
El n´ umero total de elementos de la poblaci´on (o de la muestra), n lo
obtenemos de cualquiera de las siguientes formas, que son equivalentes:
n = n
••
=
k

i=1
n
i•
=
p

j=1
n
•j
=
k

i=1
p

j=1
n
ij
3.2.1. Distribuciones condicionadas
De todos los elementos de la poblaci´on, n, podemos estar interesados, en un
momento dado, en un conjunto m´as peque˜ no y que est´a formado por aque-
llos elementos que han presentado la modalidad y
j
, para alg´ un j = 1, . . . , p.
El n´ umero de elementos de este conjunto sabemos que es n
•j
. La variable
X definida sobre este conjunto se denomina variable condicionada y se
suele denotar mediante X
|y
j
o bien X
|Y =y
j
. La distribuci´on de frecuencias
absolutas de esta nueva variable es exactamente la columna j de la tabla.
3.3. DEPENDENCIA FUNCIONAL E INDEPENDENCIA 77
De la misma forma, es posible dividir la poblaci´on inicial en k subconjuntos,
cada uno de ellos caracterizados por la propiedad de que el i–´esimo conjunto
todos los elementos verifican la propiedad de presentar la modalidad x
i
.
Sobre cada uno de estos conjuntos tenemos la variable condicionada Y
|x
i

Y
|X=x
i
, cuya distribuci´on de frecuencias relativas condicionadas es:
f
i
j
=
n
ij
n
i•
∀j = 1, . . . , p
3.3. Dependencia funcional e independencia
La relaci´on entre las variables X e Y , parte del objetivo de este cap´ıtu-
lo y en general de un n´ umero importante de los estudios de las Ciencias
Sociales, puede ser m´as o menos acentuada, pudiendo llegar ´esta desde la
dependencia total o dependencia funcional hasta la independencia.
3.3.1. Dependencia funcional
La dependencia funcional, que nos refleja cualquier f´ormula matem´atica o
f´ısica, es a la que estamos normalmente m´as habituados. Al principio del
cap´ıtulo consideramos un ejemplo en el que sobre una poblaci´on de alumnos
defin´ıamos las variables
X ≡ altura medida en cent´ımetros,
Y ≡ altura medida en metros,
Al tomar a uno de los alumnos, hasta que no se realice una medida sobre
el mismo, no tendremos claro cual ser´a su altura. Podemos tener cierta
intuici´on sobre qu´e valor es m´as probable que tome (alrededor de la me-
dia, con cierta dispersi´on). Sin embargo, si la medida X ha sido realizada,
no es necesario practicar la de Y , pues la relaci´on entre ambas es exacta
(dependencia funcional):
Y = X/100
78 Bioestad´ıstica: M´etodos y Aplicaciones
3.3.2. Independencia
Existe un concepto que es radicalmente opuesto a la dependencia funcio-
nal, que es el de independencia. Se dice que dos variables X e Y son inde-
pendientes si la distibuci´on marginal de una de ellas es la misma que la
condicionada por cualquier valor de la otra.
Esta es una de entre muchas maneras de expresar el concepto de in-
dependencia, y va a implicar una estructura muy particular de la tabla
bidimensional, en el que todas las filas y todas las columnas van a ser
proporcionales entre s´ı.
3.4. Covarianza
La covarianza o
XY
, es una medida que nos hablar´a de la variabilidad
conjunta de dos variables num´ericas (cuantitativas). Se define como:
o
XY
=
1
n
n

i=1
(x
i
−x)(y
i
−y)
Una interpretaci´on geom´etrica de la covarianza
Consideremos la nube de puntos formadas por las n parejas de datos (x
i
, y
i
).
El centro de gravedad de esta nube de puntos es (x, y), o bien podemos
escribir simplemente (x, y) si los datos no est´an ordenados en una tabla de
doble entrada. Trasladamos los ejes XY al nuevo centro de coordenadas
(x, y). Queda as´ı dividida la nube de puntos en cuatro cuadrantes como
se observa en la figura 3.1. Los puntos que se encuentran en el primer y
tercer cuadrante contribuyen positivamente al valor de o
XY
, y los que se
encuentran en el segundo y el cuarto lo hacen negativamente.
De este modo:
Si hay mayor´ıa de puntos en el tercer y primer cuadrante, ocurrir´a que
o
XY
≥ 0, lo que se puede interpretar como que la variable Y tiende
a aumentar cuando lo hace X;
3.4. COVARIANZA 79
.
.
X X
Y
Y
− −
( x , y )
− −
( x , y )

+
− + +
− +

Casi todos los puntos pertenecen
a los cuadrantes primero y tercero
Cuando X crece, Y decrece
Casi todos los puntos pertenecen
a los cuadrantes segundo y cuarto
Cuando X crece, Y crece
Figura 3.1: Interpretaci´on geom´etrica de o
XY
Si la mayor´ıa de puntos est´an repartidos entre el segundo y cuarto
cuadrante entonces o
XY
≤ 0, es decir, las observaciones Y tienen
tendencia a disminuir cuando las de X aumentan;
Si los puntos se reparten con igual intensidad alrededor de (x, y),
entonces se tendr´a que o
XY
= 0. V´ease la figura 3.2 como ilustraci´on.
80 Bioestad´ıstica: M´etodos y Aplicaciones
.
.
S
xy
=0
xy
S
=0
Hay dependencia entre
las dos variables, aunque
independientes.
la covarianza sea nula.
Las dos variables son
Figura 3.2: Cuando los puntos se reparte de modo m´as o menos homog´eneo
entre los cuadrantes primero y tercero, y segundo y cuarto, se tiene que
o
XY
≈ 0. Eso no quiere decir de ning´ un modo que no pueda existir ninguna
relaci´on entre las dos variables, ya que ´esta puede existir como se aprecia
en la figura de la derecha.
La Covarianza
• Si o
XY
> 0 las dos variables crecen o decrecen a la vez (nube de
puntos creciente).
• Si o
XY
< 0 cuando una variable crece, la otra tiene tendencia a
decrecer (nube de puntos decreciente).
• Si los puntos se reparten con igual intensidad alrededor de (x, y),
o
XY
= 0 (no hay relaci´on lineal).
3.5. COEFICIENTE DE CORRELACI
´
ON LINEAL DE PEARSON 81
3.5. Coeficiente de correlaci´on lineal de Pearson
La covarianza es una medida de la variabilidad com´ un de dos variables
(crecimiento de ambas al tiempo o crecimiento de una y decremimiento
de la otra), pero est´a afectada por las unidades en las que cada variable
se mide. As´ı pues, es necesario definir una medida de la relaci´on entre dos
variables, y que no est´e afectada por los cambios de unidad de medida. Una
forma de conseguir este objetivo es dividir la covarianza por el producto de
las desviaciones t´ıpicas de cada variable, ya que as´ı se obtiene un coeficiente
adimensional, r, que se denomina coeficiente de correlaci´on lineal de
Pearson
r =
o
XY
o
X
o
Y
(3.1)
Propiedades del coeficiente de correlaci´on lineal
Carece de unidades de medida (adimensional).
Es invariante para transformaciones lineales (cambio de origen y es-
cala) de las variables.
S´olo toma valores comprendidos entre −1 y 1,
Cuando [r[ est´e pr´oximo a uno, se tiene que existe una relaci´on lineal
muy fuerte entre las variables.
Cuando r ≈ 0, puede afirmarse que no existe relaci´on lineal entre am-
bas variables. Se dice en este caso que las variables son incorreladas.
3.6. Regresi´on
Las t´ecnicas de regresi´on permiten hacer predicciones sobre los valores de
cierta variable Y (dependiente), a partir de los de otra X (independiente),
entre las que intuimos que existe una relaci´on. Para ilustrarlo retomemos
82 Bioestad´ıstica: M´etodos y Aplicaciones
r=0,53
r=−0,97 r=−1
r=1 r=0,97
r=0
Figura 3.3: r = ±1 es lo mismo que decir que las observaciones de ambas
variables est´an perfectamente alineadas. El signo de r, es el mismo que el
de o
XY
, por tanto nos indica el crecimiento o decrecimiento de la recta. La
relaci´on lineal es tanto m´as perfecta cuanto r est´a cercano a ±1.
los ejemplos mencionados al principio del cap´ıtulo. Si sobre un grupo de
personas observamos los valores que toman las variables
X ≡ altura medida en cent´ımetros, (3.2)
Y ≡ altura medida en metros, (3.3)
no es necesario hacer grandes esfuerzos para intuir que la relaci´on que hay
entre ambas es:
Y =
X
100
.
Obtener esta relaci´on es menos evidente cuando lo que medimos sobre
el mismo grupo de personas es
3.6. REGRESI
´
ON 83
X ≡ altura medida en cent´ımetros,
Y ≡ peso en kilogramos.
La raz´on es que no es cierto que conocida la altura x
i
de un individuo,
podamos determinar de modo exacto su peso y
i
(v.g. dos personas que
miden 1, 70m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna
relaci´on entre ellas debe existir, pues parece mucho m´as probable que un
individuo de 2m pese m´as que otro que mida 1, 20m. Es m´as, nos puede
parecer m´as o menos aproximada una relaci´on entre ambas variables como
la siguiente
Y = X −110 ± error.
A la deducci´on, a partir de una serie de datos, de este tipo de relaciones
entre variables, es lo que denominamos regresi´on.
Mediante las t´ecnicas de regresi´on inventamos una variable
ˆ
Y como
funci´on de otra variable X (o viceversa),
ˆ
Y = f(X).
Esto es lo que denominamos relaci´on funcional. El criterio para construir
ˆ
Y , tal como citamos anteriormente, es que la diferencia entre Y e
ˆ
Y sea
peque˜ na.
ˆ
Y = f(X), Y −
ˆ
Y = error,
El t´ermino que hemos denominado error debe ser tan peque˜ no como sea
posible (figura 3.4). El objetivo ser´a buscar la funci´on (tambi´en denominada
modelo de regresi´on)
ˆ
Y = f(X) que lo minimice. V´ease la figura 3.5.
84 Bioestad´ıstica: M´etodos y Aplicaciones
,
,
Aproximacion
Observacion
Y
X
y=f(x)
( x , y )
( x , y )
i i
i i
Figura 3.4: Mediante las t´ecnicas de regresi´on de una variable Y sobre una
variable X, buscamos una funci´on que sea una buena aproximaci´on de una
nube de puntos (x
i
, y
i
), mediante una curva del tipo
ˆ
Y = f(X). Para ello
hemos de asegurarnos de que la diferencia entre los valores y
i
e ˆ y
i
sea tan
peque˜ na como sea posible.
3.6.1. Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una po-
blaci´on, en los que se miden ciertas variables X e Y :
X ; x
1
, x
2
, . . . , x
n
Y ; y
1
, y
2
, . . . , y
n
Estamos interesamos en hacer regresi´on para determinar, de modo aproxi-
mado, los valores de Y conocidos los de X, debemos definir cierta variable
ˆ
Y = f(X), que debe tomar los valores
ˆ
Y ;ˆ y
1
= f(x
1
), ˆ y
2
= f(x
2
), . . . , ˆ y
n
= f(x
n
)
de modo que:
3.6. REGRESI
´
ON 85
Buen ajuste
Cuando x crece,
Modelo lineal
Modelo lineal
Buen ajuste
Cuando x crece,
Cuando x crece,
y crece y crece
y decrece
Cuando x crece,
y decrece
Modelo lineal
Mal ajuste
Modelo no lineal
Buen ajuste
Cuando x crece,
y crece
Modelo no lineal
Buen ajuste
Variables no relacionadas
Ninguna curva de regresion
es adecuada
Figura 3.5: Diferentes nubes de puntos y modelos de regresi´on para ellas.
Y −
ˆ
Y ;y
1
− ˆ y
1
≈ 0, y
2
− ˆ y
2
≈ 0, . . . , y
n
− ˆ y
n
≈ 0
Ello se puede expresar definiendo una nueva variable E que mida las dife-
rencias entre los aut´enticos valores de Y y los te´oricos suministrados por la
regresi´on,
E = Y −
ˆ
Y ;e
1
= y
1
− ˆ y
1
, e
2
= y
2
− ˆ y
2
, . . . , e
n
= y
n
− ˆ y
n
y calculando
ˆ
Y de modo que E tome valores cercanos a 0. Dicho de otro
modo, E debe ser una variable cuya media debe ser 0 , y cuya varianza
o
2
E
debe ser peque˜ na (en comparaci´on con la de Y ). Por ello se define el
86 Bioestad´ıstica: M´etodos y Aplicaciones
coeficiente de determinaci´on de la regresi´on de Y sobre X, R
2
Y
|X
,
como
R
2
Y
|X
= 1 −
o
2
E
o
2
Y
(3.4)
Si el ajuste de Y mediante la curva de regresi´on
ˆ
Y = f(X) es bueno, cabe
esperar que la cantidad R
2
Y
|X
tome un valor pr´oximo a 1.
La cantidad R
2
Y
|X
sirve entonces para medir de qu´e modo las diferen-
cias entre los verdaderos valores de una variable y los de su aproximaci´on
mediante una curva de regresi´on son peque˜ nos en relaci´on con los de la
variabilidad de la variable que intentamos aproximar. Por esta raz´on estas
cantidades miden el grado de bondad del ajuste.
3.6.2. Regresi´on lineal
La regresi´on lineal consiste en encontrar aproximar los valores de una
variable a partir de los de otra, usando una relaci´on funcional de tipo lineal,
es decir, buscamos cantidades a y b tales que se pueda escribir
ˆ
Y = a +b X (3.5)
con el menor error posible entre
ˆ
Y e Y .
Las cantidades a y b que minimizan dicho error son los llamados coefi-
cientes de regresi´on:
a = y −b x
b =
o
XY
o
2
X
La cantidad b se denomina coeficiente de regresi´on de Y sobre X.
En el modelo lineal de regresi´on la bondad del ajuste es simplemente
r
2
. Con lo cual el modelo lineal dar´a mejores predicciones cuando r sea
pr´oximo a 1 ´o -1.
3.6. REGRESI
´
ON 87
Interpretaci´on de los coeficientes de regresi´on
Obs´ervese que la relaci´on 3.5 explica cosas como que si X var´ıa en 1
unidad,
ˆ
Y var´ıa la cantidad b. Por tanto:
Si b > 0, las dos variables aumentan o disminuyen a la vez;
Si b < 0, cuando una variable aumenta, la otra disminuye.
Ejemplo de c´alculo con un modelo de regresi´on lineal
En una muestra de 1.500 individuos se recogen datos sobre dos medi-
das antropom´etricas X e Y . Los resultados se muestran resumidos en los
siguientes estad´ısticos:
x = 14 o
X
= 2
o
XY
= 45
y = 100 o
Y
= 25
Obtener el modelo de regresi´on lineal que mejor aproxima Y en funci´on
de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y
esperada cuando X = 15.
Soluci´on:
Lo que se busca es la recta,
ˆ
Y = a +b X, que mejor aproxima los valores
de Y (seg´ un el criterio de los m´ınimos cuadrados) en la nube de puntos
que resulta de representar en un plano (X, Y ) las 1.500 observaciones. Los
coeficientes de esta recta son:
b =
o
XY
o
2
X
=
45
4
= 11, 25
a = y −b x = 100 −11, 25 14 = −57, 5
As´ı, el modelo lineal consiste en:
ˆ
Y = −57, 5 + 11, 25 X
88 Bioestad´ıstica: M´etodos y Aplicaciones
Por tanto, si x = 15, el modelo lineal predice un valor de Y de:
ˆ y = −57, 5 + 11, 25 x = −57, 5 + 11, 25 15 = 111, 25
Propiedades de la regresi´on lineal
Una vez que ya tenemos perfectamente definida
ˆ
Y , (o bien
ˆ
X) nos pre-
guntamos las relaciones que hay entre la media y la varianza de esta y la
de Y (o la de X). La respuesta nos la ofrece la siguiente proposici´on:
Proposici´on
En los ajustes lineales se conservan las medias, es decir
ˆ y = y (3.6)
ˆ x = x (3.7)
En cuanto a la varianza, no necesariamente son las mismas para los
verdaderos valores de las variables X e Y y sus aproximaciones
ˆ
X y
ˆ
Y ,
pues s´olo se mantienen en un factor de r
2
, es decir,
o
2
ˆ
Y
= r
2
o
2
Y
(3.8)
o
2
ˆ
X
= r
2
o
2
X
(3.9)
Observaci´on
Como consecuencia de este resultado, podemos decir que la proporci´on
de varianza explicada por la regresi´on lineal es del r
2
100 %.
Nos gustar´ıa tener que r = 1, pues en ese caso ambas variables tendr´ıan
la misma varianza, pero esto no es cierto en general. Todo lo que se puede
afirmar, como sabemos, es que
−1 ≤ r ≤ 1
y por tanto
3.6. REGRESI
´
ON 89
0 ≤ o
2
ˆ
Y
≤ o
2
Y
La cantidad que le falta a la varianza de regresi´on, o
2
ˆ
Y
, para llegar hasta
la varianza total de Y , o
2
Y
, es lo que se denomina varianza residual,
Proposici´on
La varianza residual del modelo de regresi´on es de Y sobre X es la
varianza de la variable E = Y −
ˆ
Y .
Obs´ervese que entonces La bondad del ajuste es
R
2
Y
|X
= 1 −
o
2
E
o
2
Y
= 1 −(1 −r
2
) = r
2
Para el ajuste contrario se define el error como E = X−
ˆ
X, y an´alogamente
su varianza residual es tambi´en proporcional a 1 − r
2
. Todo esto se puede
resumir como sigue:
Proposici´on
Para los ajustes de tipo lineal se tiene que los dos coeficientes de deter-
minaci´on son iguales a r
2
, y por tanto representan adem´as la proporci´on
de varianza explicada por la regresi´on lineal:
R
2
X
|Y
= r
2
= R
2
Y
|X
Por ello:
Si [ r [≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante
aproximado a partir de X y viceversa).
Si [ r [≈ 0 las variables X e Y no est´an relacionadas (linealmente al
menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo
90 Bioestad´ıstica: M´etodos y Aplicaciones
no es seguro que las dos variables no posean ninguna relaci´on en el
caso r = 0, ya que si bien el ajuste lineal puede no ser procentente,
tal vez otro tipo de ajuste s´ı lo sea.
Ejemplo
De una muestra de ocho observaciones conjuntas de valores de dos va-
riables X e Y , se obtiene la siguiente informaci´on:

x
i
= 24;

x
i
y
i
= 64;

y
i
= 40;
o
2
Y
= 12; o
2
X
= 6.
Calcule:
1. La recta de regresi´on de Y sobre X. Explique el significado de los
par´ametros.
2. El coeficiente de determinaci´on. Comente el resultado e indique el
tanto por ciento de la variaci´on de Y que no est´a explicada por el
modelo lineal de regresi´on.
3. Si el modelo es adecuado, ¿cu´al es la predicci´on ˆ y para x = 4.
Soluci´on:
1. En primer lugar calculamos las medias y las covarianza entre ambas
variables:
x =

x
i
/n = 24/8 = 3
x =

y
i
/n = 40/8 = 5
o
XY
= (

x
i
y
i
)/n −xy = 64/8 −3 5 = −7 (3.10)
3.6. REGRESI
´
ON 91
Con estas cantidades podemos determinar los par´ametros a y b de la
recta. La pendiente de la misma es b, y mide la variaci´on de Y cuando
X aumenta en una unidad:
b =
o
XY
o
2
X
=
−7
6
= −1, 667
Al ser esta cantidad negativa, tenemos que la pendiente de la recta
es negativa, es decir, a medida que X aumenta, la tendencia es a la
disminuci´on de Y . En cuanto al valor de la ordenada en el origen, a,
tenemos:
a = y −b x = 5 −(
−7
6
) 3 = 8, 5
As´ı, la recta de regresi´on de Y como funci´on de X es:
ˆ
Y = 8, 5 −1, 1667 X
2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente
de determinaci´on:
R
2
Y/X
= r
2
=
_
o
XY
o
X
o
Y
_
2
=
(−7)
2
6 12
= 0, 6805 = 68, 05 %
Es decir, el modelo de regresi´on lineal explica el 68 % de la variabilidad
de Y en funci´on de la de X. Por tanto queda un 32 % de variabilidad
no explicada.
3. La predicci´on que realiza el modelo lineal de regresi´on para x = 4 es:
ˆ y = 8, 5 −1, 1667 x = 8, 5 −1, 6667 4 = 3, 833
la cual hay que considerar con ciertas reservas, pues como hemos visto
en el apartado anterior,hay una razonable cantidad de variabilidad
que no es explicada por el modelo.
92 Bioestad´ıstica: M´etodos y Aplicaciones
Ejemplo de c´alculo en regresi´on lineal
En un grupo de 8 pacientes se miden las cantidades antropom´etricas
peso y edad, obteni´endose los siguientes resultados:
Resultado de las mediciones
X ≡ edad 12 8 10 11 7 7 10 14
Y ≡ peso 58 42 51 54 40 39 49 56
¿Existe una relaci´on lineal importante entre ambas variables? Calcular la
recta de regresi´on de la edad en funci´on del peso y la del peso en funci´on de
la edad. Calcular la bondad del ajuste ¿En qu´e medida, por t´ermino medio,
var´ıa el peso cada a˜ no? ¿En cu´anto aumenta la edad por cada kilo de peso?
Soluci´on:
Para saber si existe una relaci´on lineal entre ambas variables se calcula el
coeficiente de correlaci´on lineal, que vale:
r =
o
XY
o
X
o
Y
=
15, 2031
2, 3150 6, 9631
= 0, 9431
ya que
8

i=1
x
i
= 79 =⇒ x =
79
8
= 9, 875 a˜ nos
8

i=1
y
i
= 389 =⇒ y =
389
8
= 48, 625 Kg
8

i=1
x
2
i
= 823 =⇒ o
2
X
=
823
8
−9, 875
2
= 5, 3594 a˜ nos
2
=⇒ o
X
= 2, 3150 a˜ nos
8

i=1
y
2
i
= 19,303 =⇒ o
2
Y
=
19,303
8
−48, 625
2
= 48, 4844 Kg
2
=⇒ o
Y
= 6, 9631 Kg
8

i=1
x
i
y
i
= 3,963 =⇒ o
XY
=
3,963
8
−9, 875 48, 625 = 15, 2031 Kg a˜ no
3.6. REGRESI
´
ON 93
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ´angulo entre
el vector formado por las desviaciones del peso con respecto a su valor
medio y el de la edad con respecto a su valor medio, θ, es:
r = cos θ =⇒ θ = arc cos r ≈ 19

es decir, entre esos vectores hay un buen grado de paralelismo (s´olo unos
19 grados de desviaci´on).
La recta de regresi´on del peso en funci´on de la edad es
ˆ
Y = a
1
+b
1
X = 20, 6126 + 2, 8367 X
a
1
= y −b
1
x = 20, 6126 Kg
b
1
=
o
XY
o
2
X
= 2, 8367 Kg/a˜ no (3.11)
La recta de regresi´on de la edad como funci´on del peso es
ˆ
X = a
2
+b
2
Y = −5, 3738 + 0, 3136 Y
a
2
= x −b
2
y = −5, 3738 a˜ nos
b
2
=
o
XY
o
2
Y
= 0, 3136 a˜ nos/Kg
que como se puede comprobar, no resulta de despejar en la recta de regre-
si´on de Y sobre X.
La bondad del ajuste es
R
2
X
|Y
= R
2
Y
|X
= r
2
= 0, 8894
por tanto podemos decir que el 88, 94 % de la variabilidad del peso
en funci´on de la edad es explicada mediante la recta de regresi´on corres-
pondiente. Lo mismo podemos decir en cuanto a la variabilidad de la
edad en funci´on del peso. Del mismo modo puede decirse que hay un
100 − 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas
94 Bioestad´ıstica: M´etodos y Aplicaciones
de regresi´on. Por tanto la varianza residual de la regresi´on del peso en
funci´on de la edad es
o
2
E
= (1 −r
2
) o
2
Y
= 0, 1106 48, 4844 = 5, 33 Kg
2
y la de la edad en funci´on del peso:
o
2
E
= (1 −r
2
) o
2
X
= 0, 1106 5, 3594 = 0, 59 a˜ nos
2
Por ´ ultimo la cantidad en que var´ıa el peso de un paciente cada a˜ no es,
seg´ un la recta de regresi´on del peso en funci´on de la edad, la pendiente de
esta recta, es decir, b
1
= 2, 8367 Kg/a˜ no. Cuando dos personas difieren en
peso, en promedio la diferencia de edad entre ambas se rige por la cantidad
b
2
= 0, 3136 a˜ nos/Kg de diferencia.
3.7. Problemas
Ejercicio 3.1. Se realiza un estudio para establecer una ecuaci´on mediante
la cual se pueda utilizar la concentraci´on de estrona en saliva(X) para
predecir la concentraci´on del esteroide en plasma libre (Y ). Se extrajeron
los siguientes datos de 14 varones sanos:
X 1,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68
1. Est´ udiese la posible relaci´on lineal entre ambas variables.
2. Obtener la ecuaci´on que se menciona en el enunciado del problema.
3. Determinar la variaci´on de la concentraci´on de estrona en plasma por
unidad de estrona en saliva.
Ejercicio 3.2. Los investigadores est´an estudiando la correlaci´on entre
obesidad y la respuesta individual al dolor. La obesidad se mide como por-
centaje sobre el peso ideal (X). La respuesta al dolor se mide utilizando el
3.7. PROBLEMAS 95
umbral de reflejo de flexi´on nociceptiva (Y ), que es una medida de sensaci´on
de punzada. Se obtienen los siguientes datos:
X 89 90 75 30 51 75 62 45 90 20
Y 2 3 4 4,5 5,5 7 9 13 15 14
1. ¿Qu´e porcentaje de la varianza del peso es explicada mediante un
modelo de regesei´on lineal por la variaci´on del umbral de reflejo?
2. Est´ udiese la posible relaci´on lineal entre ambas variables, obteniendo
su grado de ajuste.
3. ¿Qu´e porcentaje de sobrepeso podemos esperar para un umbral de
reflejo de 10?
Ejercicio 3.3. Se lleva a cabo un estudio, por medio de detectores radioac-
tivos, de la capacidad corporal para absorber hierro y plomo. Participan en
el estudio 10 sujetos. A cada uno se le da una dosis oral id´entica de hierro
y plomo. Despu´es de 12 d´ıas se mide la cantidad de cada componente rete-
nida en el sistema corporal y, a partir de ´esta, se determina el porcentaje
absorbido por el cuerpo. Se obtuvieron los siguientes datos:
Porcentaje de hierro ≡ X 17 22 35 43 80 85 91 92 96 100
Porcentaje de plomo ≡ Y 8 17 18 25 58 59 41 30 43 58
1. Comprobar la idoneidad del modelo lineal de regresi´on.
2. Obtener la recta de regresi´on, si el modelo lineal es adecuado.
3. Predecir el porcentaje de hierro absorbido por un individuo cuyo sis-
tema corporal absorbe el 15 % del plomo ingerido.
96 Bioestad´ıstica: M´etodos y Aplicaciones
Ejercicio 3.4. Para estudiar el efecto de las aguas residuales de las alcan-
tarillas que afluyen a un lago, se toman medidas de la concentraci´on de
nitrato en el agua. Para monitorizar la variable se ha utilizado un antiguo
m´etodo manual. Se idea un nuevo m´etodo autom´atico. Si se pone de mani-
fiesto una alta correlaci´on positiva entre las medidas tomadas empleando
los dos m´etodos, entonces se har´a uso habitual del m´etodo autom´atico. Los
datos obtenidos son los siguientes:
Manual ≡ X 25 40 120 75 150 300 270 400 450 575
Autom´atico ≡ Y 30 80 150 80 200 350 240 320 470 583
1. Hallar el coeficiente de determinaci´on para ambas variables.
2. Comprobar la idoneidad del modelo lineal de regresi´on. Si el modelo es
apropiado, hallar la recta de regresi´on de Y sobre X y utilizarla para
predecir la lectura que se obtendr´ıa empleando la t´ecnica autom´atica
con una muestra de agua cuya lectura manual es de 100.
3. Para cada una de las observaciones, halle las predicciones que ofrece
el modelo lineal de regresi´on para X en funci´on de Y , e Y en funci´on
de X, es decir,
ˆ
X e
ˆ
Y .
4. Calcule los errores para cada una de dichas predicciones, es decir, las
variables X −
ˆ
X e Y −
ˆ
Y .
5. ¿Que relaci´on hay entre las medias de X y
ˆ
X? ¿Y entre las de Y e
ˆ
Y ?
6. Calcule las medias de X −
ˆ
X e Y −
ˆ
Y . ¿Era de esperar el valor
obtenido?
7. Calcule las varianzas de X,
ˆ
X, Y ,
ˆ
Y , X −
ˆ
X e Y −
ˆ
Y .
8. ¿Qu´e relaci´on existe entre o
2
X
y o
2
ˆ
X
¿Y entre o
2
Y
y o
2
ˆ
Y
?
9. ¿Que relaci´on ecuentra entre o
2
X
y o
2
X−
ˆ
X
? ¿Tambi´en es v´alida para
o
2
Y
y o
2
Y −
ˆ
Y
?
3.7. PROBLEMAS 97
10. Justifique a partir de todo lo anterior porqu´e se denomina r
2
como
grado de bondad del ajuste lineal.
Ejercicio 3.5. Se ha medido el aclaramiento de creatinina en pacientes
tratados con Captopril tras la suspensi´on del tratamiento con di´alisis, re-
sultando la siguiente tabla:
D´ıas tras la di´alisis ≡ X 1 5 10 15 20 25 35
Creatinina (mg/dl) ≡ Y 5,7 5,2 4,8 4,5 4,2 4 3,8
1. H´allese la expresi´on de la ecuaci´on lineal que mejor exprese la va-
riaci´on de la creatinina, en funci´on de los dias transcurridos tras la
di´alisis, as´ı como el grado de bondad de ajuste y la varianza residual.
2. ¿En qu´e porcentaje la variaci´on de la creatinina es explicada por el
tiempo transcurrido desde la di´alisis?
3. Si un individuo presenta 4

1 mg/dl de creatinina, ¿cu´anto tiempo es
de esperar que haya transcurrido desde la suspensi´on de la di´alisis?
Ejercicio 3.6. En un ensayo cl´ınico realizado tras el posible efecto hipo-
tensor de un f´armaco, se eval´ ua la tensi´on arterial diast´olica (TAD) en
condiciones basales (X), y tras 4 semanas de tratamiento (Y ), en un total
de 14 pacientes hipertensos. Se obtienen los siguiente valores de TAD:
X 95 100 102 104 100 95 95 98 102 96 100 96 110 99
Y 85 94 84 88 85 80 80 92 90 76 90 87 102 89
1. ¿Existe relaci´on lineal entre la TAD basal y la que se observa tras el
tratamiento?
2. ¿Cu´al es el valor de TAD esperado tras el tratamiento, en un paciente
que present´o una TAD basal de 95 mm de Hg?
98 Bioestad´ıstica: M´etodos y Aplicaciones
Ejercicio 3.7. Se han realizado 9 tomas de presi´on intracraneal en animales
de laboratorio, por un m´etodo est´andar directo y por una nueva t´ecnica
experimental indirecta, obteni´endose los resultados siguientes en mm de
Hg:
M´etodo est´andar ≡ X 9 12 28 72 30 38 76 26 52
M´etodo experimental ≡ Y 6 10 27 67 25 35 75 27 53
1. Hallar la ecuaci´on lineal que exprese la relaci´on existente entre las
presiones intracraneales, determinadas por los dos m´etodos.
2. ¿Qu´e tanto por ciento de la variabilidad de Y es explicada por la
regresi´on? H´allese el grado de dependencia entre las dos variables y
la varianza residual del mismo.
Cap´ıtulo 4
C´alculo de probabilidades y
variables aleatorias
4.1. introducci´on
Si el ´ unico prop´osito del investigador es describir los resultados de un ex-
perimento concreto, los m´etodos analizados en los cap´ıtulos anteriores pue-
den considerarse suficientes. No obstante, si lo que se pretende es utilizar la
informaci´on obtenida para extraer conclusiones generales sobre todos aque-
llos objetos del tipo de los que han sido estudiados, entonces estos m´etodos
constituyen s´olo el principio del an´alisis, y debe recurrirse a m´etodos de
inferencia estad´ıstica, los cuales implican el uso inteligente de la teor´ıa de
la probabilidad.
Comenzamos este bloque interpretando la noci´on de probabilidad y la
terminolog´ıa subyacente a esta ´area de las matem´aticas, ya que la probabi-
lidad constituye por s´ı misma un concepto b´asico que refleja su relaci´on con
la faceta del mundo exterior que pretende estudiar: los fen´omenos aleato-
rios, los cuales obedecen unas ciertas reglas de comportamiento. De alguna
manera, el concepto de probabilidad, se relaciona o nos recuerda las pro-
piedades de la frecuencia relativa.
A partir de ella, y junto con las definiciones de probabilidad condiciona-
da y la de sucesos independientes, se deducen los teoremas fundamentales
99
100 Bioestad´ıstica: M´etodos y Aplicaciones
del C´alculo de Probabilidades.
Nos centraremos posteriormente en el eslab´on que une la teor´ıa de la
probabilidad y la estad´ıstica aplicada: la noci´on de variable aleatoria, mos-
trando de esta manera, como puede emplearse la teor´ıa de la probabilidad
para sacar conclusiones precisas acerca de una poblaci´on en base a una
muestra extra´ıda de ella, y que muchos de los estudios estad´ısticos son de
hecho, estudio de las propiedades de una o m´as variables aleatorias.
Tal como hemos citado anteriormente, en las aplicaciones pr´acticas es
importante poder describir los rasgos principales de una distribuci´on, es
decir, caracterizar los resultados del experimento aleatorio mediante unos
par´ametros. Llegamos as´ı al estudio de las caracter´ısticas asociadas a una
variable aleatoria introduciendo los conceptos de esperanza y varianza ma-
tem´atica, relacion´andolos con los conceptos de media y varianza de una
variable estad´ıstica.
El c´alculo de probabilidades nos suministra las reglas para el estudio
de los experimentos aleatorios o de azar, constituyendo la base para la
estad´ıstica inductiva o inferencial.
Para trabajar con el c´alculo de probabilidades es necesario fijar previa-
mente cierta terminolog´ıa. Vamos a introducir parte de ella en las pr´oximas
l´ıneas.
4.2. Experimentos y sucesos aleatorios
Diremos que un experimento es aleatorio si se verifican las siguientes con-
diciones:
1. Se puede repetir indefinidamente, siempre en las mismas condiciones;
2. Antes de realizarlo, no se puede predecir el resultado que se va a
obtener;
3. El resultado que se obtenga, e, pertenece a un conjunto conocido
4.2. EXPERIMENTOS Y SUCESOS ALEATORIOS 101
previamente de resultados posibles. A este conjunto, de resultados
posibles, lo denominaremos espacio muestral y lo denotaremos nor-
malmente mediante la letra E. Los elementos del espacio muestral se
denominan sucesos elementales.
e
1
, e
2
∈ E =⇒ e
1
, e
2
son sucesos elementales.
Cualquier subconjunto de E ser´a denominado suceso aleatorio, y se de-
notar´a normalmente con las letras A, B,. . .
A, B ⊂ E =⇒ A, B son sucesos aleatorios.
4.2.1. Operaciones b´asicas con sucesos aleatorios
Al ser los sucesos aleatorios nada m´as que subconjuntos de un conjunto
E —espacio muestral—, podemos aplicarles las conocidas operaciones con
conjuntos, como son la uni´on, intersecci´on y diferencia:
Uni´on:
Dados dos sucesos aleatorios A, B ⊂ E, se denomina suceso uni´on de
A y B al conjunto formado por todos los sucesos elementales que perte-
necen a A o bien que pertenecen a B (incluyendo los que est´an en ambos
simult´aneamente), es decir
A∪B = ¦e ∈ E : e ∈ A ´o e ∈ B¦ (4.1)
Intersecci´on:
Dados dos sucesos aleatorios A, B ⊂ E, se denomina suceso intersec-
ci´on de A y B al conjunto formado por todos los sucesos elementales que
pertenecen a A y B a la vez, es decir,
A∩B = ¦e ∈ E : e ∈ A y adem´as e ∈ B¦ (4.2)
102 Bioestad´ıstica: M´etodos y Aplicaciones
Diferencia:
Dados dos sucesos aleatorios A, B ⊂ E, se llama suceso diferencia de
A y B, y se representa mediante A¸B, o bien A − B, al suceso aleatorio
formado por todos los sucesos elementales que pertenecen a A, pero no a
B:
A¸B ≡ A−B = ¦e ∈ E : e ∈ A y adem´as e / ∈ B¦ = A∩B (4.3)
Diferencia sim´etrica:
Si A, B ⊂ E, se denomina suceso diferencia sim´etrica de A y B, y se
representa mediante A´B, al suceso aleatorio formado por todos los sucesos
elementales que pertenecen a A y no a B, y los que est´an en B y no en A:
A´B = (A¸B)∪(B¸A) = (A∪B)¸(A∩B) (4.4)
4.3. Experimentos aleatorios y probabilidad
Se denominan experimentos deterministas aquellos que realizados
de una misma forma y con las mismas condiciones iniciales, ofrecen siempre
el mismo resultado. Como ejemplo, tenemos que un objeto de cualquier
masa partiendo de un estado inicial de reposo, y dejado caer al vac´ıo desde
una torre, llega siempre al suelo con la misma velocidad: v =

2 g h.
Cuando en un experimento no se puede predecir el resultado final, ha-
blamos de experimento aleatorio. Este es el caso cuando lanzamos un
dado y observamos su resultado.
4.3.1. Noci´on frecuentista de probabilidad
En los experimentos aleatorios se observa que cuando el n´ umero de
experimentos aumenta, las frecuencias relativas con las que ocurre cierto
suceso e, f
n
(e),
4.3. EXPERIMENTOS ALEATORIOS Y PROBABILIDAD 103
A
B
A
B
A A
B
B
E
E E
E
(a) (b)
(c) (d)
Figura 4.1: Dados dos sucesos aleatorios A, B ⊂ E se representa: en (a)
A∪B; en (b) A∩B; en (c) A−B; en (d) A´B.
f
n
(e) =
n´ umero de ocurrencias de e
n
tiende a converger hacia cierta cantidad que denominamos probabilidad
de e. Esta es la noci´on frecuentista de probabilidad.
T
rob
[e] = l´ım
n→∞
f
n
(e)
En la Figura 4.2 se presenta la evoluci´on de la frecuencia relativa del
n´ umero de caras obtenido en el lanzamiento de una moneda en 100 ocasiones
104 Bioestad´ıstica: M´etodos y Aplicaciones
(simulado por un ordenador). En principio la evoluci´on de las frecuencias
relativas es err´atica, pero a medida que el n´ umero de tiradas aumenta,
tiende a lo que entendemos por probabilidad de cara.
0 10 20 30 40 50 60 70 80 90 100
0
0.1
0.2
0.3
0.4
0.5
0.6
Lanzamientos de moneda
f
r
e
c
u
e
n
c
i
a

d
e

c
a
r
a
s
Figura 4.2: Convergencia a 1/2 de la frecuencia relativa del n´ umero de
caras obtenido en lanzamientos sucesivos de una moneda (simulaci´on en
ordenador).
Problemas de la noci´on frecuentista de probabilidad
La noci´on frecuentista de probabilidad no puede usarse en la pr´actica
como definici´on de la probabilidad por que::
se requiere realizar un n´ umero infinito de veces un experimento pa-
ra calcular una probabilidad. Por ejemplo, lanzar infinitas veces un
4.3. EXPERIMENTOS ALEATORIOS Y PROBABILIDAD 105
dado para ver que las frecuencias relativas de la aparici´on de cada
cara convergen a 1/6. Esto puede suplirse en la pr´actica realizando el
experimento un n´ umero suficientemente elevado de veces, hasta que
tengamos la precisi´on que requieran nuestros c´alculos. Sin embargo,
los experimentos aleatorios a veces no pueden ser realizados, como
es el caso de calcular la probabilidad de morir jugando a la ruleta
rusa con un revolver: no es posible (o no se debe) calcular esta pro-
babilidad repitiendo el experimento un n´ umero indefinidamente alto
de veces para aproximarla mediante la frecuencia relativa). Para ello
existen m´etodos mucho m´as seguros, como los que mencionaremos a
continuaci´on.
4.3.2. Probabilidad de Laplace
Si un experimento cualquiera puede dar lugar a un n´ umero finito de resul-
tados posibles, y no existe ninguna raz´on que privilegie unos resultados en
contra de otros, se calcula la probabilidad de un suceso aleatorio A, seg´ un
la regla de Laplace como el cociente entre el n´ umero de casos favorables
a A, y el de todos los posibles resultados del experimento:
T[A] =
n´ umero de casos favorables a A
n´ umero de casos posibles
4.3.3. Definici´on axiom´atica de probabilidad
Para hacer una definici´on rigurosa de la probabilidad, necesitamos precisar
ciertas leyes o axiomas que deba cumplir una funci´on de probabilidad. Con
la definici´on axiom´atica de la probabilidad pretendemos dar el menor
conjunto posible de estas reglas, para que las dem´as se deduzcan como una
simple consecuencia de ellas.
Concepto axiom´atico de probabilidad
Dado un espacio muestral E, diremos que T es una probabilidad sobre /
si las siguientes propiedades (axiomas) son verificadas:
106 Bioestad´ıstica: M´etodos y Aplicaciones
Ax-1. La probabilidad es una funci´on definida sobre / y que s´olo
toma valores positivos comprendidos entre 0 y 1
T : / −→ [0, 1] ⊂ IR
A ⊂ E, A ∈ / −→ 0 ≤ T[A] ≤ 1
Ax-2. La probabilidad del suceso seguro es 1
T[E] = 1
Ax-3. La probabilidad de la uni´on numerable de sucesos disjuntos es
la suma de sus probabilidades (figura 4.3):
A
1
, A
2
, . . . , A
n
, . . . ∈ / =⇒T
_

_
i=1
A
i
_
=

i=1
T[A
i
]
A A A
A
A
1 3 2
4
5
A
Figura 4.3: El tercer axioma de probabilidad indica que si A = A
1
∪A
2

con A
i
∩A
j
= ∅, entonces T[A] = T[A
1
] +T[A
2
] +
4.4. Probabilidad condicionada e independencia
de sucesos
Sea B ⊂ E un suceso aleatorio de probabilidad no nula, T[B] > 0. Para
cualquier otro suceso A ⊂ E, llamamos probabilidad condicionada de
4.4. PROBABILIDAD CONDICIONADA E INDEPENDENCIA DE SUCESOS107
A a B a la cantidad que representamos mediante T[A
|B
] o bien T
B
[A] y
que se calcula como:
T[A
|B
] =
T[A∩B]
T[B]
Ejemplo de c´alculo de probabilidades condicionadas
Se lanza un dado al aire ¿Cu´al es la probabilidad de que salga el n´ umero
4? Si sabemos que el resultado ha sido un n´ umero par, ¿se ha modificado
esta probabilidad?
Soluci´on:
El espacio muestral que corresponde a este experimento es
E = ¦1, 2, 3, 4, 5, 6¦
y se ha de calcular la probabilidad del suceso A = ¦4¦. Si el dado no
est´a trucado, todos los n´ umeros tienen la misma probabilidad de salir, y
siguiendo la definici´on de probabilidad de Laplace,
T[A] =
casos favorables
casos posibles
=
n´ umero de elementos en ¦4¦
n´ umero de elementos en ¦1, 2, 3, 4, 5, 6¦
=
1
6
(4.5)
Obs´ervese que para calcular la probabilidad de A seg´ un la definici´on de
Laplace hemos tenido que suponer previamente que todos los elementos del
espacio muestral tienen la misma probabilidad de salir, es decir:
T[1] = T[2] = T[3] = T[4] = T[5] = T[6]
Por otro lado, si ha salido un n´ umero par, de nuevo por la definici´on de
probabilidad de Laplace tendr´ıamos
108 Bioestad´ıstica: M´etodos y Aplicaciones
T
par
[4] =
casos favorables
casos posibles
=
n´ umero de elementos en ¦4¦
n´ umero de elementos en ¦2, 4, 6¦
=
1
3
Esta misma probabilidad se podr´ıa haber calculado siguiendo la definici´on
de la probabilidad condicionada, ya que si escribimos
A = ¦4¦ ⇒ T[A] =
1
6
B = ¦2, 4, 6¦ ⇒ T[B] =
1
6
+
1
6
+
1
6
=
3
6
=
1
2
A∩B = ¦4¦ ⇒ T[A∩B] =
1
6
(4.6)
y entonces
T
par
[4] = T
B
[A] = T[A
|B
] =
T[A∩B]
T[B]
=
1/6
1/2
=
1
3
que por supuesto coincide con el mismo valor que calculamos usando la
definici´on de probabilidad de Laplace.
Independencia
Obs´ervese que seg´ un la definici´on de probabilidad condicionada, se pue-
de escribir la probabilidad de la intersecci´on de dos sucesos de probabilidad
no nula como
T[A∩B] =
_
¸
_
¸
_
T[A] T[B
|A
]
T[B] T[A
|B
]
4.5. TEOREMAS FUNDAMENTALES DEL C
´
ALCULO DE PROBABILIDADES109
O sea, la probabilidad de la intersecci´on de dos sucesos, es la probabilidad
de uno cualquiera de ellos, multiplicada por la probabilidad del segundo
sabiendo que ha ocurrido el primero.
Si entre dos sucesos no existe ninguna relaci´on cabe esperar que la
expresi´on “sabiendo que” no aporte ninguna informaci´on. De este modo
introducimos el concepto de independencia de dos sucesos A y B como:
A es independiente de B ⇐⇒ T[A∩B] = T[A] T[B]
4.5. Teoremas fundamentales del c´alculo de pro-
babilidades
Hay algunos resultados importantes del c´alculo de probabilidades que son
conocidos bajo los nombres de teorema de la probabilidad compuesta, teo-
rema de la probabilidad total y teorema de Bayes. Veamos cuales son estos
teoremas, pero previamente vamos a enunciar a modo de recopilaci´on, una
serie de resultados elementales.
Reglas de c´alculo de probabilidades b´asicas
Sean A, B ⊂ E no necesariamente disjuntos. Se verifican entonces las
siguientes propiedades:
1. Probabilidad de la uni´on de sucesos:
T[A∪B] = T[A] +T[B] −T[A∩B] (4.7)
2. Probabilidad de la intersecci´on de sucesos:
T[A∩B] =
_
¸
_
¸
_
T[A] T[B
|A
]
T[B] T[A
|B
]
(4.8)
110 Bioestad´ıstica: M´etodos y Aplicaciones
3. Probabilidad del suceso contrario:
T[A] = 1 −T[A] (4.9)
4. Probabilidad condicionada del suceso contrario:
T[A
|B
] = 1 −T[A
|B
] (4.10)
Ejemplo de c´alculo de probabilidades con intersecciones
En una universidad el 50 % de los alumnos habla ingl´es, el 20 % franc´es y
el 5 % los dos idiomas ¿Cu´al es la probabilidad de encontrar alumnos que
hablen alguna lengua extranjera?
Soluci´on:
Sea A el suceso hablar ingl´es: T[A] = 0, 5.
Sea B el suceso hablar franc´es: T[B] = 0, 2.
El suceso hablar franc´es e ingl´es es A∩B: T[A∩B] = 0, 05.
As´ı:
T[A∪B] = T[A] +T[B] −T[A∩B] = 0, 5 + 0, 2 −0, 05 = 0, 65
4.5.1. Teorema de la probabilidad compuesta
Sea A
1
, A
2
, . . . , A
n
⊂ E una colecci´on de sucesos aleatorios. Entonces:
T[A
1
A
2
A
n
] = T[A
1
] T[A
2
[ A
1
] T[A
3
[ A
1
A
2
] T[A
n
[ A
1
A
2
A
n−1
]
4.5.2. Sistema exhaustivo y excluyente de sucesos
Los teoremas que restan nos dicen como calcular las probabilidades de
sucesos cuando tenemos que el suceso seguro est´a descompuesto en una
serie de sucesos incompatibles de los que conocemos su probabilidad. Para
ello necesitamos introducir un nuevo concepto: Se dice que la colecci´on
4.5. TEOREMAS FUNDAMENTALES DEL C
´
ALCULO DE PROBABILIDADES111
A
1
A
2
A
3
A
4
E
Figura 4.4: A
1
, A
2
, A
3
, A
4
forman un sistema exhaustivo y excluyente se
sucesos.
A
1
, A
2
, . . . , A
n
⊂ E es un sistema exhaustivo y excluyente de sucesos
si se verifican las relaciones (v´ease la figura 4.4):
n
_
i=1
A
i
= E
A
i
∩A
j
= ∅ ∀ i ,= j
4.5.3. Teorema de la probabilidad total
Sea A
1
, A
2
, . . . , A
n
⊂ E un sistema exhaustivo y excluyente de sucesos.
Entonces
∀ B ⊂ E, ⇒ T[B] =
n

i=1
T[B
|A
i
] T[A
i
] (4.11)
112 Bioestad´ıstica: M´etodos y Aplicaciones
Ejemplo de c´alculo usando el teorema de la probabilidad total
Se tienen dos urnas, y cada una de ellas contiene un n´ umero diferente
de bolas blancas y rojas:
Primera urna, U
1
: 3 bolas blancas y 2 rojas;
Segunda urna, U
2
: 4 bolas blancas y 2 rojas.
Se realiza el siguiente experimento aleatorio:
Se tira una moneda al aire y si sale cara se elige una bola de la
primera urna, y si sale cruz de la segunda.
¿Cu´al es la probabilidad de que salga una bola blanca?
Soluci´on: La situaci´on que tenemos puede ser esquematizada como
3 B
2 R
U
1
T[U
1
] = 1/2
T[B
|U
1
] = 3/5
4 B
2 R
U
2
T[U
2
] = 1/2
T[B
|U
2
] = 4/6
Como U
1
y U
2
forman un sistema incompatible y excluyente de sucesos (la
bola resultado debe provenir de una de esas dos urnas y de una s´olo de
ellas), el teorema de la probabilidad total nos permite afirmar entonces que
T[B] = T[B
|U
1
] T[U
1
] +T[B
|U
2
] T[U
2
] =
3
5

1
2
+
4
6

1
2
=
19
30
4.5.4. Teorema de Bayes
Sea A
1
, A
2
, . . . , A
n
⊂ E un sistema exhaustivo y excluyente de sucesos.
Sea B ⊂ E un suceso del que conocemos todas las cantidades T[B
|A
i
],
i = 1, . . . , n, a las que denominamos verosimilitudes. entonces se verifica:
4.5. TEOREMAS FUNDAMENTALES DEL C
´
ALCULO DE PROBABILIDADES113
∀ j = 1, . . . , n, T[A
j
|B
] =
T[B
|A
j
] T[A
j
]
n

i=1
T[B
|A
i
] T[A
i
]
(4.12)
Ejemplo de c´alculo con el teorema de Bayes
Se tienen tres urnas. Cada una de ellas contiene un n´ umero diferente
de bolas blancas y rojas:
Primera urna, U
1
: 3 bolas blancas y 2 rojas;
Segunda urna, U
2
: 4 bolas blancas y 2 rojas;
Tercera urna, U
3
: 3 bolas rojas.
Se realiza el siguiente experimento aleatorio:
Alguien elije al azar y con la misma probabilidad una de las tres
urnas, y saca una bola.
Si el resultado del experimento es que ha salido una bola blanca, ¿cu´al es la
probabilidad de que provenga de la primera urna? Calcular lo mismo para
las otras dos urnas.
Soluci´on:
Vamos a representar en un esquema los datos de que disponemos:
3 B
2 R
U
1
T[U
1
] = 1/3
T[B
|U
1
] = 3/5
4 B
2 R
U
2
T[U
2
] = 1/3
T[B
|U
2
] = 4/6
0 B
3 R
U
3
T[U
3
] = 1/3
T[B
|U
3
] = 0
En este caso U
1
, U
2
y U
3
forman un sistema incompatible y excluyente de
sucesos (la bola resultado debe provenir de una de esas tres urnas y de una
114 Bioestad´ıstica: M´etodos y Aplicaciones
s´olo de ellas), por tanto es posible aplicar el teorema de Bayes:
T[U
1|B
] =
T[B
|U
1
] T[U
1
]
T[B
|U
1
] T[U
1
] +T[B
|U
2
] T[U
2
] +T[B
|U
3
] T[U
3
]
=
3
5

1
3
3
5

1
3
+
4
6

1
3
+ 0
1
3
=
9
19
Con respecto a las dem´as urnas hacemos lo mismo:
T[U
2|B
] =
T[B
|U
2
] T[U
2
]
T[B
|U
1
] T[U
1
] +T[B
|U
2
] T[U
2
] +T[B
|U
3
] T[U
3
]
=
4
6

1
3
3
5

1
3
+
4
6

1
3
+ 0
1
3
=
10
19
T[U
3|B
] =
T[B
|U
3
] T[U
3
]
T[B
|U
1
] T[U
1
] +T[B
|U
2
] T[U
2
] +T[B
|U
3
] T[U
3
]
=
0
1
3
3
5

1
3
+
4
6

1
3
+ 0
1
3
= 0
Comentario sobre el teorema de Bayes
Obs´ervese que en el ejemplo anterior, antes de realizar el experimento
aleatorio de extraer una bola para ver su resultado, ten´ıamos que la pro-
babilidad de elegir una urna i cualquiera es T[U
i
]. Estas probabilidades se
4.6. TESTS DIAGN
´
OSTICOS 115
denominan probabilidades a priori. Sin embargo, despu´es de realizar el
experimento, y observar que el resultado del mismo ha sido la extracci´on de
una bola blanca, las probabilidades de cada urna han cambiado a T[U
i|B
].
Estas cantidades se denominan probabilidades a posteriori. Vamos a
representar en una tabla la diferencia entre ambas:
a priori a posteriori
T[U
1
] = 1/3 T[U
1|B
] = 9/19
T[U
2
] = 1/3 T[U
2|B
] = 10/19
T[U
3
] = 1/3 T[U
3|B
] = 0
1 1
=⇒
Las probabilidades a priori cambian de tal
modo de las a posteriori que una vez obser-
vado el resultado del experimento aleatorio,
se puede afirmar con certeza que no fue ele-
gida la tercera urna.
Esta fen´omeno tiene aplicaciones fundamentales en Ciencia: Cuando se
tienen dos teor´ıas cient´ıficas diferentes, T
1
y T
2
, que pretenden explicar
cierto fen´omeno, y a las que asociamos unas probabilidades a priori de ser
ciertas,
T[T
1
] , T[T
2
]
podemos llevar a cabo la experimentaci´on que se considere m´as conveniente,
para una vez obtenido el cuerpo de evidencia, B, calcular como se modifican
las probabilidades de verosimilitud de cada teor´ıa mediante el teorema de
Bayes:
T[T
1|B
] , T[T
2|B
]
As´ı la experimentaci´on puede hacer que una teor´ıa sea descartada si T[T
i|B
] ≈
0 o reforzada si T[T
i|B
] ≈ 1. Una aplicaci´on b´asica de esta t´ecnica la te-
nemos en Medicina para decidir si un paciente padece cierta enfermedad o
no, en funci´on de los resultados de un test diagn´ostico.
4.6. Tests diagn´osticos
Los tests diagn´osticos son una aplicaci´on del teorema de Bayes a la Medi-
cina, y se basan en lo siguiente:
116 Bioestad´ıstica: M´etodos y Aplicaciones
1. Se sospecha que un paciente puede padecer cierta enfermedad, que
tiene una incidencia de la enfermedad en la poblaci´on (proba-
bilidad de que la enfermedad la padezca una persona elegida al azar)
de T[E];
2. Como ayuda al diagn´ostico de la enfermedad, se le hace pasar una
serie de pruebas (tests), que dan como resultado:
Positivo, T
+
, si la evidencia a favor de que el paciente est´e en-
fermo es alta en funci´on de estas pruebas;
Negativo, T

, en caso contrario.
Previamente, sobre el test diagn´ostico a utilizar, han debido ser esti-
madas las cantidades:
Sensibilidad: Es la probabilidad de el test de positivo sobre una
persona que sabemos que padece la enfermedad, T[T
+
|E
].
Especificidad: Es la probabilidad que el test de negativo sobre una
persona que no la padece, T[T

|E
].
Lo que interesa saber en la pr´actica es, predecir si una persona est´a sa-
na o enferma, a partir del resultado del test diagn´ostico, es decir, las
cantidades:
Indice predictivo positivo: Es la probabilidad de que un indivi-
duo est´e enfermo si el test di´o resultado positivo, T[E
|T
+].
Especificidad: Es la probabilidad que el test de negativo sobre una
persona que no la padece, E
|P[T
−].
La sensibilidad y especificidad se denominan tambi´en respectivamen-
te tasa de verdaderos positivos y tasa de verdaderos negati-
vos. Estas cantidades son calculadas de modo aproximado, antes de
utilizar el test diagn´ostico, considerando grupos suficientemente nu-
merosos de personas de las que sabemos si padecen la enfermedad o
no, y estimando los porcentajes correspondientes. T´ıpicamente esta
labor es realizada por un laboratorio que quiere probar la eficacia de
un test diagn´ostico. Los indices predictivos son interesantes sobre to-
do para el cl´ınico que efectivamente desea evaluar la probabilidad de
4.6. TESTS DIAGN
´
OSTICOS 117
que un individuo est´e o no enfermo, en funcion de los resultados de
las pruebas qu se realizan sobre el mismo.
Ejemplo de c´alculo en tests diagn´osticos
Se toman 100 personas sanas y 100 enfermas, y se observa que
E E
T
+
89 3
T

11 97
100 100
Tasa de verdaderos positivos: 89 %
Tasa de falsos positivos: 3 %
Tasa de verdaderos negativos: 97 %
Tasa de falsos negativos: 11 %
3. teniendo en cuenta el resultado del test diagn´ostico, se utiliza el teore-
ma de Bayes para ver cual es, a la vista de los resultados obtenidos, la
probabilidad de que realmente est´e enfermo si le dio positivo (´ındice
predictivo de verdaderos positivos),
T[E
|T
+] =
T[T
+
|E
] T[E]
T[T
+
|E
] T[E] +T[T
+
|E
] T[E]
,
o la de que est´e sano si le dio negativo (´ındice predictivo de ver-
daderos negativos):
T[E
|T
−] =
T[T

|E
] T[E]
T[T

|E
] T[E] +T[T

|E
] T[E]
Otro ejemplo de c´alculo con tests diagn´osticos
Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. Tal
t´ecnica tiene una sensibilidad del 91 % y una especificidad del 98 %. En la
poblaci´on que nos ocupa, la probabilidad de colelietasis es de 0, 2.
118 Bioestad´ıstica: M´etodos y Aplicaciones
1. Si a un individuo de tal poblaci´on se le aplican los ultrasonidos y dan
positivos, ¿cu´al es la probabilidad de que sufra la colelietasis?
2. Si el resultado fuese negativo, ¿cu´al ser´ıa la probabilidad de que no
tenga la enfermedad?
Soluci´on:
Vamos a utilizar la siguiente notaci´on:
E ≡ Padecer la enfermedad (colelietasis);
E ≡ No padecer la enfermedad;
T
+
≡ El resultado del test es positivo;
T

≡ El resultado del test es negativo;
Los datos de que disponemos son las probabilidades condicionadas
Sensibilidad o Tasa de Verdaderos Positivos ≡ T[T
+
|E
] = 091,
Especificidad o Tasa de verdaderos Negativos ≡ T[T

|E
] = 0, 98
y la incidencia de la enfermedad en la poblaci´on
T[E] = 0, 20
En el primer apartado se pide calcular el “
´
Indice Predictivo de Verdaderos
Positivos”, T[E
|T
+], que por el teorema de Bayes es:
T[E
|T
+] =
T[T
+
|E
] T[E]
T[T
+
|E
] T[E] + T[T
+
|E
]
. ¸¸ .
1−P[T

|E
]
T[E]
. ¸¸ .
1−P[E]
=
0, 91 0, 2
0, 91 0, 2 + 0, 02 0, 8
= 0, 9192
4.7. PROBLEMAS 119
En el segundo apartado, se ha de calcular el “
´
Indice Predictivo de Ver-
daderos Negativos”, T[E
|T
−],
T[E
|T
−] =
T[T

|E
] T[E]
T[T

|E
] T[E] + T[T

|E
]
. ¸¸ .
1−P[T
+
|E
]
T[E]
=
0, 98 0, 8
0, 98 0, 8 + 0, 09 0, 2
= 0, 9775
4.7. Problemas
Ejercicio 4.1. Una mujer portadora de hemofilia cl´asica da a luz tres hijos.
1. ¿Cual es la probabilidad de que de los tres hijos, ninguno est´e afectado
por la enfermedad?
2. ¿Cual es la probabilidad de que exactamente dos de los tres ni˜ nos
est´e afectado?
Ejercicio 4.2. El 60 % de los individuos de una poblaci´on est´an vacunados
contra una cierta enfermedad. Durante una epidemia se sabe que el 20 % la
ha contra´ıdo y que 2 de cada 100 individuos est´an vacunados y son enfermos.
Calcular el porcentaje de vacunados que enferma y el de vacunados entre
los que est´an enfermos..
Ejercicio 4.3. La proporci´on de alcoh´olicos que existe en la poblaci´on de
M´alaga es, aproximadamente, un 10 %; no obstante, en las bajas que dan
los m´edicos de la Seguridad Social dif´ıcilmente se encuentra el diagn´osti-
co de alcoholismo. Aparecen sin embargo diagnosticados de hepatopat´ıas,
lumbalgias, etc., que pueden hacer sospechar alcoholismo subyacente. Se
realiz´o un estudio que puso de manifiesto que el 85 % de los individuos al-
coh´olicos y el 7 % de los no alcoh´olicos sufr´ıan tales patolog´ıas. Se desea
saber cu´al es la probabilidad de que un individuo con esas patolog´ıas sea
realmente alcoh´olico.
120 Bioestad´ıstica: M´etodos y Aplicaciones
Ejercicio 4.4. Dos tratamientos A y B curan una determinada enferme-
dad en el 20 % y 30 % de los casos, respectivamente. Suponiendo que ambos
act´ uan de modo independiente, cu´al de las dos siguientes estrategias utili-
zar´ıa para curar a un individuo con tal enfermedad:
1. Aplicar ambos tratamientos a la vez.
2. Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.
Ejercicio 4.5. Se eligen al azar 3 deportistas de un equipo de 10 integrantes
para realizar un control antidopaje; Se sabe que 2 de los jugadores del
equipo han tomado sustancias prohibidas. ¿Cu´al es la probabilidad de elegir
para el an´alisis a alguno de los infractores?
Ejercicio 4.6. Estamos interesados en saber cu´al de dos an´alisis A y B es
mejor para el diagn´ostico de una determinada enfermedad, de la cual sabe-
mos que la presentan un 10 % de individuos de la poblaci´on. El porcentaje
de resultados falsos positivos del an´alisis A es del 15 % y el de B es del
22 %. El porcentaje de falsos negativos de A es del 7 % y de B es del 3 %.
¿Cu´al es la probabilidad de acertar en el diagn´ostico con cada m´etodo?
Ejercicio 4.7. Con objeto de diagnosticar la colelitiasis se usan los ultra-
sonidos. Tal t´ecnica tiene una sensibilidad del 91 % y una especificidad del
98 %. En la poblaci´on que nos ocupa la probabilidad de colelitiasis es del
20 %.
1. Si a un individuo de tal poblaci´on se le aplican los ultrasonidos y dan
positivos, ¿cu´al es la probabilidad de que sufra la colelitiasis?
2. Si el resultado fuese negativo, ¿cu´al es la probabilidad de que no tenga
la enfermedad?
Ejercicio 4.8. Entre los estudiantes de una Facultad de Filosof´ıa y Letras
se dan las siguientes proporciones: el 40 % son hombres. El 70 % de los
4.7. PROBLEMAS 121
varones fuman, mientras que entre las mujeres s´olo fuman el 20 %. Escogido
un estudiante al azar, calc´ ulese la probabilidad de que fume.
Ejercicio 4.9. Los estudios epidemiol´ogicos indican que el 20 % de los
ancianos sufren un deterioro neuropsicol´ogico. Sabemos que la tomograf´ıa
axial computerizada (TAC) es capaz de detectar este trastorno en el 80 %
de los que lo sufren, pero que tambi´en da un 3 % de falsos positivos entre
personas sanas. Si tomamos un anciano al azar y da positivo en el TAC,
¿cu´al es la probabilidad de que est´e realmente enfermo?
Ejercicio 4.10. Sabemos que tiene estudios superiores el 15 % de la po-
blaci´on espa˜ nola, estudios medios el 40 %, estudios primarios el 35 % y no
tiene estudios el 10 %. Los desempleados no se distribuyen proporcional-
mente entre esas categor´ıas, dado que de entre los de estudios superiores
est´an sin trabajo el 10 %, entre los de estudios medios el 35 %, entre los
de estudios primarios el 18 %, y entre los que no tienen estudios el 37 %.
Obtenga las probabilidades de que extra´ıdo uno al azar, ´este sea:
1. Titulado superior, sabiendo que est´a parado.
2. Un sujeto sin estudios que est´a en paro.
3. Un sujeto con estudios primarios o que est´a trabajando.
Ejercicio 4.11. Una enfermedad puede estar producida por tres virus A,
B, y C. En el laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos
con el virus B y 5 tubos con el virus C. La probabilidad de que el virus A
produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la
produzca el virus C es de 1/7. Se inocula un virus a un animal y contrae
la enfermedad. ¿Cu´al es la probabilidad de que el virus que se inocule sea
el C?
Ejercicio 4.12. El 70 % de los estudiantes aprueba una asignatura A y un
60 % aprueba otra asignatura B. Sabemos, adem´as, que un 35 % del total
122 Bioestad´ıstica: M´etodos y Aplicaciones
aprueba ambas. Elegido un estudiante al azar, calcular las probabilidades
de las siguientes situaciones:
1. Haya aprobado la asignatura B, sabiendo que ha aprobado la A.
2. Haya aprobado la asignatura B, sabiendo que no no ha aprobado la
A.
3. No haya aprobado la asignatura B, sabiendo que ha aprobado la A.
4. No haya aprobado la asignatura B, sabiendo que no ha aprobado la
A.
Ejercicio 4.13. La cuarta parte de los conductores de coche son mujeres.
La probabilidad de que una mujer sufra un accidente en un a˜ no es de
5/10.000, y para los hombres es de 1/10.000. Calc´ ulese la probabilidad de
que si acaece un accidente, el accidentado sea hombre.
Ejercicio 4.14. En un campus universitario existen 3 carreras sanitarias.
Se sabe que el 50 % cursan estudios de Enfermer´ıa, el 30 % Medicina y
el 20 % Veterinaria. Los que finalizaron sus estudios son el 20, 10 y 5 %
respectivamente. Elegido un estudiante al azar, h´allese la probabilidad de
que haya acabado la carrera.
Cap´ıtulo 5
Variables aleatorias
5.1. Introducci´on
Normalmente, los resultados posibles (espacio muestral E) de un expe-
rimento aleatorio no son valores num´ericos. Por ejemplo, si el experimento
consiste en lanzar de modo ordenado tres monedas al aire, para observar
el n´ umero de caras (() y cruces (¹) que se obtienen, el espacio muestral
asociado a dicho experimento aleatorio ser´ıa:
E = ¦(((, ((¹, (¹(, (¹¹, ¹((, ¹(¹, ¹¹(, ¹¹¹¦
En estad´ıstica resulta m´as f´acil utilizar valores num´ericos en lugar de
trabajar directamente con los elementos de un espacio muestral como el
anterior. As´ı preferimos identificar los sucesos ¦(¹¹, ¹(¹, ¹¹(¦ con el
valor num´erico 1 que representa el n´ umero de caras obtenidas al realizar
el experimento. De este modo aparece el concepto de variable aleatoria
unidimensional como el de toda funci´on
X : E −→ IR
e −→ X(e) = x
e
que atribuye un ´ unico n´ umero real x
e
, a cada suceso elemental e, del espacio
muestral E
123
124 Bioestad´ıstica: M´etodos y Aplicaciones
Por ejemplo, en el ejemplo anterior, se define la variable aleatoria (v.a.
en adelante)
X ≡ n´ umero de caras
del siguiente modo:
X : E −→IR
X(((() = 3
X(((¹) = X((¹() = X(¹(() = 2
X(¹¹() = X(¹(¹) = X((¹¹) = 1
X(¹¹¹) = 0
En funci´on de los valores que tome la variable, esta puede ser clasificada
en discreta o continua del siguiente modo:
v.a. discreta es aquella que s´olo puede tomar un n´ umero finito o infinito
numerable de valores. Por ejemplo,
X : E −→IN
v.a. continua es la que puede tomar un n´ umero infinito no numerable de
valores.
X : E −→IR
Vamos a estudiar los conceptos m´as importantes relacionados con la
distribuci´on de probabilidad de una v.a., diferenciando entre los casos de
v.a. discreta y v.a. continua.
5.2. VARIABLES ALEATORIAS DISCRETAS 125
5.2. Variables aleatorias discretas
Dada una v.a. discreta X : E −→ IN, su funci´on de probabilidad f, se
define de modo que f(x
i
) es la probabilidad de que X tome ese valor:
f : IN −→ [0, 1]
x
i
−→ f(x
i
) = T[X = x
i
] = T [¦e, t.q. X(e) = x
i
¦]
Si x
i
no es uno de los valores que puede tomar X, entonces f(x
i
) = 0. La
representaci´on gr´afica de la funci´on de probabilidad se realiza mediante un
diagrama de barras an´alogo al de distribuci´on de frecuencias relativas para
variables discretas. Por ejemplo, si retomamos el caso del lanzamiento de
3 monedas de forma que cada una de ellas tenga probabilidad 1/2 de dar
como resultado cara o cruz, se tiene que (v´ease la figura 5.1):
f(3) = T[X = 3] = T[¦(((¦] =
1
2

1
2

1
2
=
1
8
f(2) = T[X = 2] = T[¦¹((, ((¹, (¹(¦] =
1
8
+
1
8
+
1
8
=
3
8
f(1) = T[X = 3] = T[¦¹¹(, ¹(¹, (¹¹¦] =
1
8
+
1
8
+
1
8
=
3
8
f(0) = T[X = 0] = T[¦¹¹¹¦] =
1
2

1
2

1
2
=
1
8
Otro concepto importante es el de funci´on de distribuci´on de una
variable aleatoria discreta, F, que se define de modo que si x
i
∈ IR, F(x
i
)
es igual a la probabilidad de que X tome un valor inferior o igual a x
i
:
F : IN −→ [0, 1]
x
i
−→ F(x
i
) = T[X ≤ x
i
] = T [¦e, t.q. X(e) ≤ x
i
¦]
126 Bioestad´ıstica: M´etodos y Aplicaciones
Figura 5.1: Equivalencia entre las probabilidades calculadas directamente
sobre el espacio muestral E de resultados del experimento aleatorio, y las
calculadas sobre el subconjunto ¦0, 1, 2, 3¦ ⊂ IN ⊂ IR mediante la v.a. X.
Esta funci´on se representa gr´aficamente del mismo modo que la distribuci´on
de frecuencias relativas acumuladas (figura 5.2). Volviendo al ejemplo de
las tres monedas, se tiene que
F(0) = T[X ≤ 0] = T[X = 0] = f(0) =
1
8
F(1) = T[X ≤ 1] = f(0) +f(1) =
1
8
+
3
8
=
4
8
F(2) = T[X ≤ 2] = f(0) +f(1) +f(2) =
1
8
+
3
8
+
3
8
=
7
8
F(3) = T[X ≤ 3] = f(0) +f(1) +f(2) +f(3) =
1
8
+
3
8
+
3
8
+
1
8
=
8
8
= 1
5.3. Variables aleatorias continuas
Si una variable discreta toma los valores x
1
, . . . , x
k
, la probabilidad de que
al hacer un experimento, X tome uno de esos valores es 1, de modo que
cada posible valor x
i
contribuye con una cantidad f(x
i
) al total:
5.3. VARIABLES ALEATORIAS CONTINUAS 127
1
1/8
3/8
0 1 2 3
Func. Distribucion’
F f
Func. Probabilidad
1/8
4/8
7/8
Figura 5.2: Funci´on de probabilidad a la izquierda, y funci´on de distribuci´on
a la derecha de una v.a. discreta
k

i=1
f(x
i
) =
k

i=1
T[X = x
i
] = 1
Aun cuando la variable tomase un n´ umero infinito de valores, x
1
, x
2
, . . . ,
no hay ning´ un problema en comprobar que cada x
i
contribuye con una
cantidad f(x
i
) al total de modo que

i=1
f(x
i
) =

i=1
T[X = x
i
] = 1
Cuando la variable es continua, no tiene sentido hacer una suma de las
probabilidades de cada uno de los t´erminos en el sentido anterior, ya que el
conjunto de valores que puede tomar la variable es no numerable. En este
caso, lo que generaliza de modo natural el concepto de suma (

) es el de
integral (
_
). Por otro lado, para variables continuas no tiene inter´es hablar
de la probabilidad de que X = x ∈ IR, ya que esta debe de valer siempre 0,
para que la suma infinita no numerable de las probabilidades de todos los
valores de la variable no sea infinita.
128 Bioestad´ıstica: M´etodos y Aplicaciones
De este modo es necesario introducir un nuevo concepto que sustituya
en v.a. continuas, al de funci´on de probabilidad de una v.a. discreta. Este
concepto es el de funci´on de densidad de una v.a. continua, que se
define como una funci´on f : IR −→ IR integrable, que verifica las dos
propiedades siguientes:
_
¸
¸
_
¸
¸
_
f(x) ≥ 0
_
+∞
−∞
f(x) dx = 1
(5.1)
y que adem´as verifica que dado a < b, se tiene que
T[a ≤ X ≤ b] =
_
b
a
f(x) dx (5.2)
P[a<X<b]
a b
f
X
Figura 5.3: Funci´on de densidad f. La probabilidad de un intervalo, es el
´area que existe entre la funci´on y el eje de abscisas.
La funci´on de distribuci´on de la v.a. continua, F, se define de
modo que dado x ∈ IR, F(x) es la probabilidad de que X sea menor o igual
que x, es decir
F : IR −→ [0, 1]
x −→ F(x) = T[X ≤ x] =
_
x
−∞
f(t) dt
(5.3)
5.4. MEDIDAS DE TENDENCIA CENTRAL Y DISPERSI
´
ON DE V.A.129
x
F(x)
Area=F(x)
f(x)
Figura 5.4: Funci´on de distribuci´on F, calculada a partir de la funci´on de
densidad f.
5.4. Medidas de tendencia central y dispersi´on de
v.a.
De forma an´aloga a lo que se se hizo en el cap´ıtulo 2 sobre estad´ıstica
descriptiva podemos definir para variables aleatorias medidas de centrali-
zaci´on, dispersi´on, simetr´ıa y forma. Por su inter´es nos vamos a centrar en
dos medidas sobre v.a. que son la esperanza matem´atica que desempe˜ na un
papel equivalente al de la media y el momento central de segundo orden,
tambi´en denominado varianza.
130 Bioestad´ıstica: M´etodos y Aplicaciones
5.4.1. Valor esperado o esperanza matem´atica
La esperanza matem´atica o valor esperado de una variable aleatoria
es el concepto equivalente al de media aritm´etica.
Como las variables aleatorias se expresan de modo diferente en el caso
discreto que en el continuo, tratemos a cada una de llas por separado.
Sea X una v.a. discreta. Se denomina esperanza matem´atica de X
o valor esperado, y se denota bien E[X] o bien µ, a la cantidad que se
expresa como:
E[X] =

i∈II
x
i
f(x
i
) (5.4)
donde II es el conjunto numerable de ´ındices de los valores que puede tomar
la variable (por ejemplo II = ¦1, 2, . . . , k¦ para un n´ umero finito de valores
de la v.a. o bien II = IN para una cantidad infinita numerable de los mismos.
Si X es una v.a. continua, se define su esperanza a partir de la funci´on
de densidad como sigue:
E[X] =
_
+∞
−∞
x f(x) dx (5.5)
5.4.2. Varianza
La varianza la denotamos mediante Var [X] o bien σ
2
:
Var [X] = E
_
(X −E[X])
2
_
=
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_

i∈II
(x
i
−E[X])
2
f(x
i
) si X disc.
_
+∞
−∞
(x −E[X])
2
f(x) dx si X cont.
Cap´ıtulo 6
Principales leyes de
distribuci´on de variables
aleatorias
6.1. Introducci´on
Como complemento al cap´ıtulo anterior en el que definimos todos los con-
ceptos relativos a variables aleatorias, describimos en ´este las principales
leyes de probabilidad que encontramos en las aplicaciones del c´alculo de
probabilidades. Atendiendo a la clasificaci´on de las v.a. en discretas y con-
tinuas describiremos las principales leyes de probabilidad de cada una de
ellas, las cuales constituir´an el soporte subyacente de la inferencia estad´ısti-
ca y a las que ser´a necesario hacer referencia en el estudio de dicho bloque.
Iniciamos este cap´ıtulo con el estudio de las distribuciones para v.a. discre-
tas.
131
132 Bioestad´ıstica: M´etodos y Aplicaciones
6.2. Distribuciones discretas
6.2.1. Distribuci´on de Bernoulli
Consiste en realizar un experimento aleatorio una s´ola vez y observar si
cierto suceso ocurre o no, siendo p la probabilidad de que esto sea as´ı (´exito)
y q = 1−p el que no lo sea (fracaso). En realidad no se trata m´as que de una
variable dicot´omica, es decir que ´ unicamente puede tomar dos modalidades,
es por ello que el hecho de llamar ´exito o fracaso a los posibles resultados de
las pruebas obedece m´as una tradici´on literaria o hist´orica, en el estudio de
las v.a., que a la situaci´on real que pueda derivarse del resultado. Podr´ıamos
por tanto definir este experimento mediante una v.a. discreta X que toma
los valores X = 0 si el suceso no ocurre, y X = 1 en caso contrario, y que
se denota X;Ber (p)
X;Ber (p) ⇐⇒ X =
_
¸
_
¸
_
0 −→ q = 1 −p = T[X = 0]
1 −→ p = T[X = 1]
(6.1)
Un ejemplo t´ıpico de este tipo de variables aleatorias consiste en lanzar una
moneda al aire y considerar la v.a.
X ≡ n´ umero de caras obtenidas =
_
¸
¸
¸
_
¸
¸
¸
_
0 −→ q =
1
2
1 −→ p =
1
2
Para una v.a. de Bernouilli, tenemos que su funci´on de probabilidad es:
f(x) =
_
¸
_
¸
_
q si x = 0
p si x = 1
0 en cualquier otro caso;
Los principales momentos de X son:
6.2. DISTRIBUCIONES DISCRETAS 133
E[X] = p (6.2)
Var [X] = p q (6.3)
6.2.2. Distribuci´on binomial
Se dice que una v.a. X sigue una ley binomial de par´ametros n y p,
X;B(n, p), si es la suma de n v.a. independientes de Bernouilli con el
mismo par´ametro, p:
X;B(n, p) ⇐⇒ X = X
1
+ +X
n
, donde X
i
;Ber (p), ∀ i = 1, . . . , n
(6.4)
Esta definici´on puede interpretarse en el siguiente sentido: Supongamos que
realizamos n pruebas de Bernouilli, X
i
, donde en todas ellas, la probabili-
dad de ´exito es la misma (p), y queremos calcular el n´ umero de ´exitos, X,
obtenidos el el total de las n pruebas. Su ley de probabilidad es
1
En la Fi-
gura 6.1 se representa la funci´on de probabilidad de una variable binomial.
f(k) = P[X = k] =
_
n
k
_
p
k
q
n−k
∀ k = 0, 1, . . . , n (6.5)
El valor esperado y la varianza de esta variable son:
E[X] = np
Var [X] = npq
Ejemplo de uso de la distribuci´on binomial
Un m´edico aplica un test a 10 alumnos de un colegio para detectar
una enfermedad cuya incidencia sobre una poblaci´on de ni˜ nos es del 10 %.
1
Los valores f(k) los podemos encontrar tabulados para ciertos valores peque˜ nos de
n, y ciertos valores usuales de p en la tabla 1 (al final del libro).
134 Bioestad´ıstica: M´etodos y Aplicaciones
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
-1 0 1 2 3 4 5 6
Bin(5;0,5)
Figura 6.1: Funci´on de probabilidad de una variable binomial cunado n es
peque˜ no.
La sensibilidad del test es del 80 % y la especificidad del 75 %. ¿Cual es
la probabilidad de que exactamente a cuatro personas le de un resultado
positivo? Si en la muestra hay cuatro personas a las que el test le da positivo,
¿cu´al es la probabilidad de que entre estas, exactamente dos est´en sanas?
Calcular la probabilidad de que el test suministre un resultado incorrecto
para dos personas. Calcular la probabilidad de que el resultado sea correcto
para m´as de 7 personas.
Soluci´on:
Los datos de que disponemos son:
T[E] = 0, 1 prevalencia de la enfermedad en la poblaci´on
. ¸¸ .
Probabilidad a priori de estar enfermo
T[T
+
|E
] = 0, 8 sensibilidad (verdaderos positivos)
T[T

|E
] = 0, 75 especificidad (verdaderos negativos) (6.6)
6.2. DISTRIBUCIONES DISCRETAS 135
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0 5 10 15 20
Bin(20;0,5)
Figura 6.2: Funci´on de probabilidad de una variable binomial cuando n es
grande.
donde E, T
+
, y T

tienen el sentido que es obvio. Si queremos saber a
cuantas personas el test le dar´a un resultado positivo, tendremos que cal-
cular T[T
+
], para lo que podemos usar el teorema de la probabilidad total
(estar enfermo y no estarlo forman una colecci´on exhaustiva y excluyente
de sucesos):
T[T
+
] = T[T
+
|E
] T[E] + T[T
+
|E
]
. ¸¸ .
1−P[T

|E
]
T[E]
. ¸¸ .
1−P[E]
= 0, 8 0, 1 + 0, 25 0, 9 = 0, 305
Sea X
1
la v.a. que contabiliza el n´ umero de resultados positivos. Es claro
que llamando p
1
= T[T
+
], se tiene que X sigue una distribuci´on binomial
X
1
;B(n
1
= 10, p
1
= 0, 305) ⇐⇒ T[X
1
= k] =
_
n
1
k
_
p
k
1
q
n
1
−k
1
136 Bioestad´ıstica: M´etodos y Aplicaciones
Por ello la probabilidad de que a cuatro personas le de el resultado del test
positivo es:
T[X
1
= 4] =
_
10
4
_
0, 305
4
0, 695
6
= 0, 2048
Si queremos calcular a cuantas personas les dar´a el test un resultado positi-
vo aunque en realidad est´en sanas, hemos de calcular previamente T[E
|T
+],
o sea, el ´ındice predictivo de falsos positivos:
T[E
|T
+] =
T[E∩T
+
]
T[T
+
]
=
1−P[T

|E
]
¸ .. ¸
T[T
+
|E
]
1−P[E]
¸ .. ¸
T[E]
T[T
+
]
= 0, 7377
Es importante observar este resultado. Antes de hacer los c´alculos no era
previsible que si a una persona el test le da positivo, en realidad tiene una
probabilidad aproximadamente del 74 % de estar sana. Sea X
2
la variable
aleatoria que contabiliza al n´ umero de personas al que el test le da positivo,
pero que est´an sanas en realidad. Entonces
X
2
;B(n
2
= 4, p
2
= 0, 7377) ⇐⇒ T[X
2
= k] =
_
n
2
k
_
p
k
2
q
n
2
−k
2
y
T[X
2
= 2] =
_
4
2
_
0, 7377
2
0, 2623
2
= 0, 22465
Por ´ ultimo vamos a calcular la probabilidad p
3
de que el test de un
resultado err´oneo, que es:
p
3
= T[(T
+
∩E) ∪(T

∩E)
. ¸¸ .
incompatibles
]
6.2. DISTRIBUCIONES DISCRETAS 137
= T[T
+
∩E] +T[T

∩E]
= T[T
+
|E
] T[E] +T[T

|E
] T[E]
= 0, 25 0, 9 + 0, 2 0, 1 = 0, 245
La variable aleatoria que contabiliza el n´ umero de resultados err´oneos del
test es
X
3
;B(n
3
= 10, p
3
= 0, 245) ⇐⇒ T[X
3
= k] =
_
n
3
k
_
p
k
3
q
n
3
−k
3
Como la probabilidad de que el test sea correcto para m´as de siete personas,
es la de que sea incorrecto para menos de 3, se tiene
T[X
3
< 3] = T[X
3
≤ 2]
. ¸¸ .
F
X
3
(2)
=
2

i=0
_
n
3
i
_
p
i
3
q
n
3
−i
3
=
_
10
0
_
0, 245
0
0, 755
10
+
_
10
1
_
0, 245
1
0, 755
9
+
_
10
2
_
0, 245
2
0, 755
8
= 0, 5407
6.2.3. Distribuci´on geom´etrica ( o de fracasos)
Consideramos una sucesi´on de v.a. independientes de Bernouilli,
X
1
, X
2
, . . . , X
i
, . . . donde X
i
;Ber (p), i = 1, 2, . . . , ∞
Una v.a. X sigue posee una distribuci´on geom´etrica, X;Geo(p), si
esta es la suma del n´ umero de fracasos obtenidos hasta la aparici´on del
primer ´exito en la sucesi´on ¦X
i
¦

i=1
. Por ejemplo
138 Bioestad´ıstica: M´etodos y Aplicaciones
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
X
1
X
2
X
3
X
4
X
5
X
↓ ↓ ↓ ↓ ↓ ↓
1 0 0 1 1 =⇒ X = 0 f(0) = p
0 1 0 1 1 =⇒ X = 1 f(1) = qp
0 0 1 0 1 =⇒ X = 2 f(2) = qqp
0 0 0 1 1 =⇒ X = 3 f(3) = qqqp
. . .
De este modo tenemos que la ley de probabilidad de X es
f(k) = T[X = k] = pq
k
, k = 0, 1, 2, . . . , ∞ (6.7)
La media y varianza de esta variable aleatoria son:
E[X] =
q
p
Var [X] =
q
p
2
Ejemplo de uso de la distribuci´on geom´etrica
Un matrimonio quiere tener una hija, y por ello deciden tener hijos
hasta el nacimiento de una hija. Calcular el n´ umero esperado de hijos (entre
varones y hembras) que tendr´a el matrimonio. Calcular la probabilidad de
que la pareja acabe teniendo tres hijos o m´as.
Soluci´on: Este es un ejemplo de variable geom´etrica. Vamos a suponer
que la probabilidad de tener un hijo var´on es la misma que la de tener una
hija hembra. Sea X la v.a.
X = n´ umero de hijos varones antes de nacer la ni˜ na
Es claro que
6.2. DISTRIBUCIONES DISCRETAS 139
X;Geo
_
p =
1
2
_
⇐⇒ T[X = k] = q
k−1
p =
1
2
k
Sabemos que el n´ umero esperado de hijos varones es E[X] =
q
p
= 1, por
tanto el n´ umero esperado en total entre hijos varones y la ni˜ na es 2.
La probabilidad de que la pareja acabe teniendo tres o m´as hijos, es
la de que tenga 2 o m´as hijos varones (la ni˜ na est´a del tercer lugar en
adelante), es decir,
T[X ≥ 2] = 1 −
X discr.
¸ .. ¸
T[X < 2]
= 1 −T[X ≤ 1]
= 1 −T[X = 0] −T[X = 1] = 1 −p −q p =
1
4
Hemos preferido calcular la probabilidad pedida mediante el suceso com-
plementario, ya que ser´ıa m´as complicado hacerlo mediante la suma infinita
T[X ≥ 2] =

i=2
q
i
p.
6.2.4. Distribuci´on binomial negativa
Sobre una sucesi´on de v.a. de Bernouilli independientes,
X
1
, X
2
, . . . , X
i
, . . . donde X
i
;Ber (p), i = 1, 2, . . . , ∞
se define la v.a. X como el n´ umero de fracasos obtenidos hasta la aparici´on
de r ´exitos en la sucesi´on ¦X
i
¦

i=1
. En este caso se dice que X sigue una
ley de distribuci´on binomial negativa de par´ametros r y p y se denota
del modo: X;Bn(r, p). Su ley de probabilidad es:
140 Bioestad´ıstica: M´etodos y Aplicaciones
f(k) = T[X = k] =
_
k +r −1
r −1
_
p
r−1
q
k
p
. ¸¸ .
k +r −1
primeros experimentos
p
.¸¸.
´exito final
=
_
k +r −1
k
_
p
r
q
k
(6.8)
E[X] =
r q
p
(6.9)
Var [X] =
r q
p
2
(6.10)
Ejemplo de variable binomial negativa
Para tratar a un paciente de una afecci´on de pulm´on han de ser opera-
dos en operaciones independientes sus 5 l´obulos pulmonares. La t´ecnica a
utilizar es tal que si todo va bien, lo que ocurre con probabilidad de 7/11,
el l´obulo queda definitivamente sano, pero si no es as´ı se deber´a esperar el
tiempo suficiente para intentarlo posteriormente de nuevo. Se practicar´a la
cirug´ıa hasta que 4 de sus 5 l´obulos funcionen correctamente. ¿Cu´al es el va-
lor esperado de intervenciones que se espera que deba padecer el paciente?
¿Cu´al es la probabilidad de que se necesiten 10 intervenciones?
Soluci´on: Este es un ejemplo claro de experimento aleatorio regido por
una ley binomial negativa, ya que se realizan intervenciones hasta que se
obtengan 4 l´obulos sanos, y ´este es el criterio que se utiliza para detener el
proceso. Identificando los par´ametros se tiene:
X = n´ umero de operaciones hasta obtener r = 4 con resultado positivo
X;Bn
_
r = 4, p =
7
11
_
⇐⇒ T[X = k] =
_
k +r −1
k
_
q
k
p
r
Lo que nos interesa es medir el n´ umero de intervenciones, Y , m´as que
el n´ umero de ´exitos hasta el r–´esimo fracaso. La relaci´on entre ambas v.a.
6.2. DISTRIBUCIONES DISCRETAS 141
es muy simple:
Y = X +r
Luego
E[Y ] = E[X +r] = E[X] +r =
r p
q
+r =
4 7/11
4/11
+ 4 = 11
Luego el n´ umero esperado de intervenciones que deber´a sufrir el paciente
es de 11. La probabilidad de que el n´ umero de intervenciones sea Y = 10,
es la de que X = 10 −4 = 6. Por tanto:
T[Y = 10] = T[X = 6] =
_
6 + 4 −1
6
_
q
6
p
4
= 84
_
4
11
_
6
_
7
11
_
4
= 0, 03185
6.2.5. Distribuci´on hipergeom´etrica
Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de
cartas espa˜ nolas (N = 40 naipes), de las cuales nos vamos a interesar en el
palo de oros (D = 10 naipes de un mismo tipo). Supongamos que de esa
baraja extraemos n = 8 cartas de una vez (sin reemplazamiento) y se nos
plantea el problema de calcular la probabilidad de que hayan k = 2 oros
(exactamente) en esa extracci´on. La respuesta a este problema es
T
rob
[2 oros en un grupo de 8 cartas] =
casos favorables
casos posibles
=
2 naipes
entre los oros

6 naipes
de otros palos
8 naipes
cualesquiera
=
_
10
2
_

_
30
6
_
_
40
8
_ =
_
D
k
_

_
N −D
n −k
_
_
N
n
_
142 Bioestad´ıstica: M´etodos y Aplicaciones
En lugar de usar como dato D es posible que tengamos la proporci´on exis-
tente, p, entre el n´ umero total de oros y el n´ umero de cartas de la baraja
p =
D
N
=
10
40
=
1
4
=⇒
_
¸
_
¸
_
D = N p
N −D = N q (q = 1 −p)
de modo que podemos decir que
T
rob
[k oros en un grupo de n cartas] =
_
N p
k
_

_
N q
n −k
_
_
N
n
_
Este ejemplo sirve para representar el tipo de fen´omenos que siguen una
ley de distribuci´on hipergeom´etrica. Diremos en general que una v.a. X
sigue una distribuci´on hipergeom´etrica de par´ametros, N, n y p, lo que
representamos del modo X;HGeo(N, n, p), si su funci´on de probabilidad
es
T[X = k] =
_
N p
k
_

_
N q
n −k
_
_
N
n
_ si m´ax¦0, n −Nq¦ ≤ k ≤ m´ın¦n, NP¦
(6.11)
Cuando el tama˜ no de la poblaci´on (N) es muy grande, la ley hiper-
geom´etrica tiende a aproximarse a la binomial:
HGeo(N, n, p)
N→∞
−→ B(n, p)
El valor esperado de la hipergeom´etrica es el mismo que el de la bino-
mial,
E[X] = np
6.2. DISTRIBUCIONES DISCRETAS 143
sin embargo su varianza
Var [X] = npq
N −n
N −1
no es exactamente la de la binomial, pues est´a corregida por un factor,
N−n
N−1
, que tiende a 1 cuando N → ∞. A este factor se le denomina factor
de correcci´on para poblaci´on finita.
6.2.6. Distribuci´on de Poisson o de los sucesos raros
Una v.a. X posee una ley de distribuci´on de probabilidades del tipo
Poisson cuando
f(k) = T[X = k] =
e
−λ
λ
k
k!
, k = 0, 1, 2, . . . (6.12)
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir,
obteni´endose como la distribuci´on l´ımite de una sucesi´on de variable bino-
miales, B(n, p), donde n p = λ, y n →∞ (por tanto p →0
+
).
En general utilizaremos la distribuci´on de Poisson como aproximaci´on
de experimentos binomiales donde el n´ umero de pruebas es muy alto, pero
la probabilidad de ´exito muy baja. A veces se suele utilizar como criterio
de aproximaci´on:
n > 30, p ≤ 0, 1 ⇒B(n, p)

= Poi (n p)
Su valor esperado y varianza coinciden:
E[X] = Var [X] = λ (6.13)
Ejemplo de distribuci´on de Poisson
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p =
1/100,000. Calcular la probabilidad de que en una ciudad con 500,000 ha-
bitantes haya m´as de 3 personas con dicha enfermedad. Calcular el n´ umero
esperado de habitantes que la padecen.
144 Bioestad´ıstica: M´etodos y Aplicaciones
Soluci´on: Si consideramos la v.a. X que contabiliza el n´ umero de personas
que padecen la enfermedad, es claro que sigue un modelo binomial, pero
que puede ser muy bien aproximado por un modelo de Poisson, de modo
que
X;B
_
n = 500,000, p =
1
100,000
_
=⇒ X

;Poi (λ = 5)
As´ı el n´ umero esperado de personas que padecen la enfermedad es E[X] =
5. Como Var [X] = 5, existe una gran dispersi´on, y no ser´ıa extra˜ no encon-
trar que en realidad hay muchas m´as personas o menos que est´an enfermas.
La probabilidad de que haya m´as de tres personas enfermas es:
T[X > 3] = 1 −T[X ≤ 3]
= 1 −T[X = 0] −T[X = 1] −T[X = 2] −T[X = 3]
= 1 −
e
−5·0
0!

e
−5·1
1!

e
−5·2
2!

e
−5·3
3!
= 0, 735
6.3. Distribuciones continuas
En esta secci´on estudiaremos las distribuciones m´as importantes de v.a.
continuas unidimensionales. El soporte de una v.a. continua se define como
aquella regi´on de IR donde su densidad es no nula, f(x) ,= 0. Para las
distribuciones que enunciaremos, podr´a ser bien todo IR, IR
+
= (0, +∞) o
bien un segmento de la forma [a, b] ⊂ IR.
6.3.1. Distribuci´on uniforme o rectangular
Se dice que una v.a. X posee una distribuci´on uniforme en el intervalo
[a, b],
X;U(a, b)
6.3. DISTRIBUCIONES CONTINUAS 145
si su funci´on de densidad es la siguiente:
f(x) =
1
b −a
si a ≤ x ≤ b (6.14)
Con esta ley de probabilidad, la probabilidad de que al hacer un ex-
perimento aleatorio, el valor de X este comprendido en cierto subintervalo
de [a, b] depende ´ unicamente de la longitud del mismo, no de su posici´on.
Cometiendo un peque˜ no abuso en el lenguaje, podemos decir que en una
distribuci´on uniforme la probabilidad de todos los puntos del soporte es la
misma
2
.
−0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Unif(a = 0, b = 2)
f(x)
F(x)
Figura 6.3: Funci´on de densidad y de distribuci´on de U(a, b)
E[X] =
b +a
2
Var [X] =
(b −a)
2
12
2
Hay que observar que en principio esa afirmaci´on es cierta para cualquier v.a. conti-
nua, ya que para ellas la probabilidad de cualquier punto es nula. Ser´ıa m´as preciso decir
que la densidad de todos los puntos es constante en [a, b].
146 Bioestad´ıstica: M´etodos y Aplicaciones
6.3.2. Distribuci´on exponencial
La distribuci´on exponencial es el equivalente continuo de la distribuci´on
geom´etrica discreta. Esta ley de distribuci´on describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento,
sabiendo que,
el tiempo que pueda ocurrir desde cualquier instante dado t, hasta
que ello ocurra en un instante t
f
, no depende del tiempo transcurrido
anteriormente en el que no ha pasado nada.
Ejemplos de este tipo de distribuciones son:
El tiempo que tarda una part´ıcula radiactiva en desintegrarse. El
conocimiento de la ley que sigue este evento se utiliza en Ciencia
para, por ejemplo, la dataci´on de f´osiles o cualquier materia org´anica
mediante la t´ecnica del carbono 14, C
14
;
El tiempo que puede transcurrir en un servicio de urgencias, para la
llegada de un paciente;
En un proceso de Poisson donde se repite sucesivamente un experi-
mento a intervalos de tiempo iguales, el tiempo que transcurre entre la
ocurrencia de dos sucesos consecutivos sigue un modelo probabil´ıstico
exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos
dos veces una herida importante.
Concretando, si una v.a. continua X distribuida a lo largo de IR
+
, es
tal que su funci´on de densidad es
f(x) = λe
−λx
si 0 < x (6.15)
se dice que sigue una distribuci´on exponencial de par´ametro λ, X;Exp(λ).
Un c´alculo inmediato nos dice que si x > 0,
_
x
0
λe
−λt
dt = −e
−λt
_
x
0
= 1 −e
−λx
6.3. DISTRIBUCIONES CONTINUAS 147
0 1 2 3 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
f(x) = e
−λx
para λ = 1
Figura 6.4: Funci´on de densidad, f, de una Exp(λ).
luego la funci´on de distribuci´on es:
F(x) =
_
¸
_
¸
_
1 −e
−λx
si 0 < x
0 en otro caso.
E[X] =
1
λ
Var [X] =
1
λ
2
Ejemplo de variable exponencial
En un experimento de laboratorio se utilizan 10 gramos de
210
84
Po. Sa-
biendo que la duraci´on media de un ´atomo de esta materia es de 140 d´ıas,
148 Bioestad´ıstica: M´etodos y Aplicaciones
0 1 2 3 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
f(x) = e
−λx
F(x) = 1 −
1
λ
e
−λx
Figura 6.5: Funci´on de distribuci´on, F, de Exp(λ), calculada como el ´area
que deja por debajo de s´ı la funci´on de densidad.
¿cuantos idas transcurrir´an hasta que haya desaparecido el 90 % de este
material?
Soluci´on: El tiempo T de desintegraci´on de un ´atomo de
210
84
Po es una
v.a. de distribuci´on exponencial:
T;Exp
_
λ =
1
140
_
⇐⇒ f(t) = λe
−λt
si ∀ t ≥ 0
⇐⇒ F(t) = 1 −e
−λt
Como el n´ umero de ´atomos de
210
84
Po existentes en una muestra de 10
gramos es enorme, el histograma de frecuencias relativas formado por los
tiempos de desintegraci´on de cada uno de estos ´atomos debe ser extremada-
mente aproximado a la curva de densidad, f. Del mismo modo, el pol´ıgono
de frecuencias relativas acumuladas debe ser muy aproximado a la curva
de su funci´on de distribuci´on F. Entonces el tiempo que transcurre hasta
6.3. DISTRIBUCIONES CONTINUAS 149
que el 90 % del material radiactivo se desintegra es el percentil 90, t
90
, de
la distribuci´on exponencial, es decir
F(t
90
) = 0, 9 ⇔ e
−λt
90
= 1 −0, 9 ⇔ t
90
= −
1
λ
ln 0, 1 ≈ 322 d´ıas
Otro ejemplo de variable exponencial
Se ha comprobado que el tiempo de vida de cierto tipo de marcapa-
sos sigue una distribuci´on exponencial con media de 16 a˜ nos. ¿Cu´al es la
probabilidad de que a una persona a la que se le ha implantado este marca-
pasos se le deba reimplantar otro antes de 20 a˜ nos? Si el marcapasos lleva
funcionando correctamente 5 a˜ nos en un paciente, ¿cu´al es la probabilidad
de que haya que cambiarlo antes de 25 % a˜ nos?
Soluci´on: Sea T la variable aleatoria que mide la duraci´on de un marca-
pasos en una persona. Tenemos que
T;Exp
_
λ =
1
16
_
⇐⇒ f(t) = λe
−λt
si ∀ t ≥ 0
⇐⇒ F(t) = 1 −e
−λt
Entonces
T[T ≤ 20] =
_
20
0
f(t) dt = F(20) = 1 −e

20
16
= 0, 7135
En segundo lugar
T[T ≤ 25
|T≥5
] =
T[5 ≤ T ≤ 25]
T[T ≥ 5]
=
0, 522
0, 7316
= 0, 7135
(6.16)
T[5 ≤ T ≤ 25] =
_
25
5
f(t) dt = F(25) −F(5) = 1¸ −e

25
16
−1¸ +e

5
16
= 0, 522
T[T ≥ 5] =
_
+∞
5
f(t) dt = F(+∞) −F(5) = 1¸ −1¸ +e

5
16
= 0, 7316
150 Bioestad´ıstica: M´etodos y Aplicaciones
Luego como era de esperar, por ser propio a un mecanismo exponencial,
T[T ≤ 25
|T≥5
] = T[T ≤ 20]
o sea, en la duraci´on que se espera que tenga el objeto, no influye en nada
el tiempo que en la actualidad lleva funcionando. Es por ello que se dice
que “la distribuci´on exponencial no tiene memoria”.
6.3.3. Distribuci´on normal o gaussiana
La distribuci´on gaussiana, recibe tambi´en el nombre de distribuci´on normal,
ya que una gran mayor´ıa de las v.a continuas
3
de la naturaleza siguen esta
distribuci´on. Se dice que una v.a. X sigue una distribuci´on normal de
par´ametros µ y σ
2
, lo que representamos del modo X;N
_
µ, σ
2
_
si su
funci´on de densidad es:
f(x) =
1
σ


e

1
2
(
x−µ
σ
)
2
, ∀ x ∈ IR (6.17)
Observaci´on
Estos dos par´ametros µ y σ
2
coinciden adem´as con la media (esperanza)
y la varianza respectivamente de la distribuci´on como se demostrar´a m´as
adelante
4
:
E[X] = µ (6.18)
Var [X] = σ
2
(6.19)
La forma de la funci´on de densidad es la llamada campana de Gauss.
Para el lector es un ejercicio interesante comprobar que ´esta alcanza un
´ unico m´aximo (moda) en µ, que es sim´etrica con respecto al mismo, y por
3
Incluso v.a discretas pueden ser aproximadas por la ley gaussiana.
4
Hemos adelantado al lector el significado de µ y σ
2
pues esta es una distribuci´on que
queda definida en primera instancia por su media y varianza.
6.3. DISTRIBUCIONES CONTINUAS 151
−3 −2 −1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
N(µ = 0, σ = 1)
σ σ
µ
Figura 6.6: Campana de Gauss o funci´on de densidad de una v.a. de dis-
tribuci´on normal. EL par´ametro µ indica el centro y σ la dispersi´on. La
distancia del centro a los puntos de inflexi´on es precisamente σ.
tanto T[X ≤ µ] = T[X ≥ µ] = 1/2, con lo cual en µ coinciden la media, la
mediana y la moda, y por ´ ultimo,calcular sus puntos de inflexi´on.
El soporte de la distribuci´on es todo IR, de modo que la mayor parte
de la masa de probabilidad (´area comprendida entre la curva y el eje de
abcisas) se encuentra concentrado alrededor de la media, y las ramas de la
curva se extienden asint´oticamente a los ejes, de modo que cualquier valor
“muy alejado”de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los par´ametros µ y σ:
µ indica la posici´on de la campana (par´ametro de centralizaci´on);
σ
2
(o equivalentemente, σ) ser´a el par´ametro de dispersi´on. Cuanto
menor sea, mayor cantidad de masa de probabilidad habr´a concen-
trada alrededor de la media (grafo de f muy apuntado cerca de µ) y
cuanto mayor sea “m´as aplastado”ser´a.
152 Bioestad´ıstica: M´etodos y Aplicaciones
−3 −2 −1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
P(x ∈ µ ± 2σ) = 0.95
P(x ∈ µ ± σ) = 0.68
N(µ = 0, σ = 1)
Figura 6.7: A una distancia que no supera en una desviaci´on de la media
tenemos una probabilidad del 68 %. A dos desviaciones tenemos el 95 %.
Aproximaci´on a la normal de la ley binomial
Se demuestra que una v.a. discreta con distribuci´on binomial, X;B(n, p)
se puede aproximar mediante una distribuci´on normal si n es suficientemen-
te grande y p no est´a ni muy pr´oximo a 0 ni a 1. Como el valor esperado y
la varianza de X son respectivamente np y np q, la aproximaci´on consiste
en decir que X

;N(np, np q). El convenio que se suele utilizar para poder
realizar esta aproximaci´on es:
X;B(n, p) donde
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
n > 30
np > 4
nq > 4
=⇒ X

;N(np, np q)
aunque en realidad esta no da resultados muy precisos a menos que realmen-
te n sea un valor muy grande o p ≈ q ≈ 1/2. Como ilustraci´on obs´ervense
las figuras 6.10 y 6.11.
6.3. DISTRIBUCIONES CONTINUAS 153
0
0.1
0.2
0.3
0.4
0.5
-4 -2 0 2 4
N(0,1)
N(3,1)
N(-3,1)
Figura 6.8: Distribuciones gaussianas con diferentes medias e igual disper-
si´on.
6.3.4. Distribuci´on χ
2
Si consideramos una v.a. Z;N(0, 1), la v.a. X = Z
2
se distribuye seg´ un
una ley de probabilidad distribuci´on χ
2
con un grado de libertad, lo
que se representa como
X;χ
2
1
Si tenemos n v.a. independientes Z
i
;N(0, 1), la suma de sus cuadrados
respectivos es una distribuci´on que denominaremos ley de distribuci´on
χ
2
con n grados de libertad, χ
2
n
.
¦Z
i
¦
n
i=1
;N(0, 1) =⇒
n

i=1
Z
2
i

2
n
(6.20)
154 Bioestad´ıstica: M´etodos y Aplicaciones
0
0.1
0.2
0.3
0.4
0.5
-4 -3 -2 -1 0 1 2 3 4
N(0,1)
N(0,2)
N(0,4)
Figura 6.9: Distribuciones gaussianas con igual media pero varianza dife-
rente.
La media y varianza de esta variable son respectivamente:
E[X] = n (6.21)
Var [X] = 2n (6.22)
En consecuencia, si tenemos X
1
, . . . , X
n
, v.a. independientes, donde ca-
da X
i
;N
_
µ
i
, σ
2
i
_
, se tiene
n

i=1
_
X
i
−µ
i
σ
i
_
2

2
n
6.3. DISTRIBUCIONES CONTINUAS 155
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0 20 40 60 80 100
Bin(100;0,15)
N(np,npq)
Figura 6.10: Comparaci´on entre la funci´on de densidad de una v.a. continua
con distribuci´on N(np, np q) y el diagrama de barras de una v.a. discreta
de distribuci´on B(n, p) para casos en que la aproximaci´on normal de la
binomial es v´alida. Es peor esta aproximaci´on cuando p est´a pr´oximo a los
bordes del intervalo [0, 1].
6.3.5. Distribuci´on t de Student
La distribuci´on t–Student se construye como un cociente entre una normal y
la ra´ız de una χ
2
independientes. De modo preciso, llamamos distribuci´on
t–Student con n grados de libertad, t
n
a la de una v.a. T,
T =
Z
_
1
n
χ
2
n
;t
n
(6.23)
donde Z;N(0, 1), χ
2
n

2
n
. Este tipo de distribuciones aparece cuando
tenemos n + 1 v.a. independientes
X;N
_
µ, σ
2
_
156 Bioestad´ıstica: M´etodos y Aplicaciones
0
0.02
0.04
0.06
0.08
0.1
0 20 40 60 80 100
Bin(100;0,5)
N(np,npq)
Figura 6.11: La misma comparaci´on que en la figura anterior, pero realizada
con par´ametros con los que damos la aproximaci´on normal de la binomial
es mejor.
X
i
;N
_
µ
i
, σ
2
i
_
i = 1, . . . , n
y nos interesa la distribuci´on de
T =
X −µ
σ
¸
¸
¸
_
1
n
n

i=1
_
X
i
−µ
i
σ
i
_
2
;t
n
La distribuci´on t de Student tiene propiedades parecidas a N(0, 1):
Es de media cero, y sim´etrica con respecto a la misma;
Es algo m´as dispersa que la normal, pero la varianza decrece hasta 1
cuando el n´ umero de grados de libertad aumenta;
6.3. DISTRIBUCIONES CONTINUAS 157
0 2 4 6 8
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
χ
2
2
χ
4
2
χ
6
2
Figura 6.12: Funci´on de densidad de χ
2
n
para valores peque˜ nos de n.
Para un n´ umero alto de grados de libertad se puede aproximar la
distribuci´on de Student por la normal, es decir,
t
n
n→∞
−→ N(0, 1)
6.3.6. La distribuci´on F de Snedecor
Otra de la distribuciones importantes asociadas a la normal es la que se
define como cociente de distribuciones χ
2
independientes. Sean X;χ
2
n
e
Y ;χ
2
m
v.a. independientes. Decimos entonces que la variable
F =
1
n
X
1
m
Y
=
m
n
X
Y
;F
n,m
(6.24)
sigue una distribuci´on de probabilidad de Snedecor, con (n, m) gra-
dos de libertad. Obs´ervese que F
n,m
,= F
m,n
.
158 Bioestad´ıstica: M´etodos y Aplicaciones
−4 −2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
t
30
≈ t

= N(0, 1)
t
3
t
1
Figura 6.13: Cuando aumentan los grados de libertad, la distribuci´on de
Student se aproxima a la distribuci´on normal tipificada.
La forma m´as habitual en que nos encontraremos esta distribuci´on
ser´a en el caso en que tengamos n +m v.a. independientes
X
i
;N
_
µ
i
, σ
2
i
_
i = 1, . . . , n
Y
j
;N
_
m
j
, s
2
j
_
i = 1, . . . , m
y as´ı
F =
1
n
n

i=1
_
X
i
−µ
i
σ
i
_
2
1
m
m

j=1
_
Y
j
−m
j
s
j
_
2
;F
n,m
Es claro que la distribuci´on de Snedecor no es sim´etrica, pues s´olo tienen
densidad de probabilidad distinta de cero, los punto de IR
+
. Otra propiedad
interesante de la distribuci´on de Snedecor es:
6.4. PROBLEMAS 159
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
F
10, 10
F
10, 20
F
10, 5
Figura 6.14: Funci´ones de densidad para la distribuci´on F de Snedecor.
F;F
n,m
⇐⇒
1
F
;F
m,n
6.4. Problemas
Ejercicio 6.1. Para estudiar la regulaci´on hormonal de una l´ınea metab´oli-
ca se inyectan ratas albinas con un f´armaco que inhibe la s´ıntesis de pro-
te´ınas del organismo. En general, 4 de cada 20 ratas mueren a causa del
f´armaco antes de que el experimento haya concluido. Si se trata a 10 ani-
males con el f´armaco, ¿cu´al es la probabilidad de que al menos 8 lleguen
vivas al final del experimento?
Ejercicio 6.2. En una cierta poblaci´on se ha observado un n´ umero medio
anual de muertes por c´ancer de pulm´on de 12. Si el n´ umero de muertes
causadas por la enfermedad sigue una distribuci´on de Poisson, ¿cu´al es la
probabilidad de que durante el a˜ no en curso:
160 Bioestad´ıstica: M´etodos y Aplicaciones
1. Haya exactamente 10 muertes por c´ancer de pulm´on?
2. 15 o m´as personas mueran a causa de la enfermedad?
3. 10 o menos personas mueran a causa de la enfermedad?
Ejercicio 6.3. Da˜ nando los cromosomas del ´ovulo o del espermatozoide,
pueden causarse mutaciones que conducen a abortos, defectos de nacimien-
to, u otras deficiencias gen´eticas. La probabilidad de que tal mutaci´on se
produzca por radiaci´on es del 10 %. De las siguientes 150 mutaciones cau-
sadas por cromosomas da˜ nados, ¿cu´antas se esperar´ıa que se debiesen a
radiaciones? ¿Cu´al es la probabilidad de que solamente 10 se debiesen a
radiaciones?
Ejercicio 6.4. Entre los diab´eticos, el nivel de glucosa en sangre X,
en ayunas, puede suponerse de distribuci´on aproximadamente normal, con
media 106 mg/100 ml y desviaci´on t´ıpica 8 mg/100 ml, es decir
X;N
_
µ = 106, σ
2
= 64
_
1. Hallar T[X ≤ 120]
2. ¿Qu´e porcentaje de diab´eticos tienen niveles comprendidos entre 90
y 120 ?
3. Hallar T[106 ≤ X ≤ 110].
4. Hallar T[X ≤ 121].
5. Hallar el punto x caracterizado por la propiedad de que el 25 % de
todos los diab´eticos tiene un nivel de glucosa en ayunas inferior o
igual a x.
Ejercicio 6.5. Una prueba de laboratorio para detectar hero´ına en sangre
tiene un 92 % de precisi´on. Si se analizan 72 muestras en un mes, ¿cu´al es
la probabilidad de que:
6.4. PROBLEMAS 161
1. 60 o menos est´en correctamente evaluadas?
2. menos de 60 est´en correctamente evaluadas?
3. exactamente 60 est´en correctamente evaluadas?
Ejercicio 6.6. El 10 % de las personas tiene alg´ un tipo de alergia. Se
seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la pro-
babilidad de que, al menos, 12 tengan alg´ un tipo de alergia. Hallar la pro-
babilidad de que, como m´aximo, 8 sean al´ergicos a algo.
Ejercicio 6.7. La probabilidad de muerte resultante del uso de p´ıldoras
anticonceptivas es de 3/100,000. De 1,000,000 de mujeres que utilizan este
medio de control de natalidad:
1. ¿Cu´antas muertes debidas a esta causa se esperan?
2. ¿Cu´al es la probabilidad de que haya, como m´aximo, 25 de estas
muertes?
3. ¿Cu´al es la probabilidad de que el n´ umero de muertes debidas a esta
causa est´e entre 25 y 35, inclusive?
Ejercicio 6.8. La probabilidad de presentar una caracter´ıstica gen´etica
es de 1/20.
1. Tomando una muestra de 8 individuos, calcular la probabilidad de
que 3 individuos presenten la caracter´ıstica.
2. Tomando una muestra de 80 personas, ¿cu´al ser´a la probabilidad de
que aparezcan m´as de 5 individuos con la caracter´ıstica?
Ejercicio 6.9. Se supone que en una cierta poblaci´on humana el ´ındice
cef´alico i, (cociente entre el di´ametro transversal y el longitudinal expre-
sado en tanto por ciento), se distribuye seg´ un una Normal. El 58 % de los
162 Bioestad´ıstica: M´etodos y Aplicaciones
habitantes son dolicoc´efalos (i ≤ 75), el 38 % son mesoc´efalos (75 < i ≤ 80)
y el 4 % son braquic´efalos (i > 80). H´allese la media y la desviaci´on t´ıpica
del ´ındice cef´alico en esa poblaci´on.
Ejercicio 6.10. Se supone que la glucemia basal en individuos sanos, X
s
sigue una distribuci´on
X
s
;N(µ = 80, σ = 10),
mientras que en los diab´eticos X
d
, sigue una distribuci´on
X
d
;N(µ = 160, σ = 31, 4).
Si se conviene en clasificar como sanos al 2 % de los diab´eticos:
1. ¿Por debajo de qu´e valor se considera sano a un individuo? ¿Cu´antos
sanos ser´an clasificados como diab´eticos?
2. Se sabe que en la poblaci´on en general el 10 % de los individuos son
diab´eticos ¿cu´al es la probabilidad de que un individuo elegido al azar
y diagnosticado como diab´etico, realmente lo sea?
Ejercicio 6.11. Sup´ongase que se van a utilizar 20 ratas en un estudio
de agentes coagulantes de la sangre. Como primera experiencia, se dio un
anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin
marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del
estudio y se les tom´o al azar sin reemplazamiento. ¿Cu´al es la probabilidad
de que de las 12 elegidas 6 tengan la droga y 6 no la tengan?
Cap´ıtulo 7
Introducci´on a la inferencia
7.1. Introducci´on
El prop´osito de un estudio estad´ıstico suele ser, como hemos venido citan-
do, extraer conclusiones acerca de la naturaleza de una poblaci´on. Al ser la
poblaci´on grande y no poder ser estudiada en su integridad en la mayor´ıa
de los casos, las conclusiones obtenidas deben basarse en el examen de sola-
mente una parte de ´esta, lo que nos lleva, en primer lugar a la justificaci´on,
necesidad y definici´on de las diferentes t´ecnicas de muestreo.
Los primeros t´erminos obligados a los que debemos hacer referencia,
definidos en el primer cap´ıtulo, ser´an los de estad´ıstico y estimador.
Dentro de este contexto, ser´a necesario asumir un estad´ıstico o estima-
dor como una variable aleatoria con una determinada distribuci´on, y que
ser´a la pieza clave en las dos amplias categor´ıas de la inferencia estad´ıstica:
la estimaci´on y el contraste de hip´otesis.
El concepto de estimador, como herramienta fundamental, lo caracte-
rizamos mediante una serie de propiedades que nos servir´an para elegir el
“mejor”para un determinado par´ametro de una poblaci´on, as´ı como algunos
m´etodos para la obtenci´on de ellos, tanto en la estimaci´on puntual como
por intervalos.
En el cap´ıtulo anterior dedujimos ciertas leyes de probabilidad mediante
un m´etodo deductivo a partir del conocimiento del mecanismo generador
163
164 Bioestad´ıstica: M´etodos y Aplicaciones
de los sucesos aleatorios. De este modo pudimos deducir las leyes de proba-
bilidad binomial o hipergeom´etrica por ejemplo. As´ı una vez precisamente
determinada la ley probabil´ıstica que subyace en el experimento aleatorio,
podemos obtener muestras de la v.a. siguiendo esa ley de probabilidad. En
este momento nos interesamos por el proceso contrario, es decir:
¿C´omo deducir la ley de probabilidad sobre determinado car´acter de
una poblaci´on cuando s´olo conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo trata-
mos de estudiar la relaci´on entre el fumar y el c´ancer de pulm´on e inten-
tamos extender las conclusiones obtenidas sobre una muestra al resto de
individuos de la poblaci´on.
La tarea fundamental de la estad´ıstica inferencial, es hacer inferencias
acerca de la poblaci´on a partir de una muestra extra´ıda de la misma.
7.2. T´ecnicas de muestreo sobre una poblaci´on
La teor´ıa del muestreo tiene por objetivo, el estudio de las relaciones exis-
tentes entre la distribuci´on de un car´acter en dicha poblaci´on y las distri-
buciones de dicho car´acter en todas sus muestras.
Las ventajas de estudiar una poblaci´on a partir de sus muestras son
principalmente:
Coste reducido: Si los datos que buscamos los podemos obtener a partir
de una peque˜ na parte del total de la poblaci´on, los gastos de recogida
y tratamiento de los datos ser´an menores. Por ejemplo, cuando se
realizan encuestas previas a un refer´endum, es m´as barato preguntar
a 4,000 personas su intenci´on de voto, que a 30,000,000;
Mayor rapidez: Estamos acostumbrados a ver c´omo con los resultados
del escrutinio de las primeras mesas electorales, se obtiene una aproxi-
maci´on bastante buena del resultado final de unas elecciones, muchas
horas antes de que el recuento final de votos haya finalizado;
M´as posibilidades: Para hacer cierto tipo de estudios, por ejemplo el
de duraci´on de cierto tipo de bombillas, no es posible en la pr´actica
7.2. T
´
ECNICAS DE MUESTREO SOBRE UNA POBLACI
´
ON 165
destruirlas todas para conocer su vida media, ya que no quedar´ıa nada
que vender. Es mejor destruir s´olo una peque˜ na parte de ellas y sacar
conclusiones sobre las dem´as.
De este modo se ve que al hacer estad´ıstica inferencial debemos enfren-
tarnos con dos problemas:
Elecci´on de la muestra (muestreo), que es a lo que nos dedicaremos
en este cap´ıtulo.
Extrapolaci´on de las conclusiones obtenidas sobre la muestra, al resto
de la poblaci´on (inferencia).
El tipo de muestreo m´as importante es el muestreo aleatorio, en el que
todos los elementos de la poblaci´on tienen la misma probabilidad de ser
extra´ıdos; Aunque dependiendo del problema y con el objetivo de reducir
los costes o aumentar la precisi´on, otros tipos de muestreo pueden ser con-
siderados como veremos m´as adelante: muestreo sistem´atico, estratificado
y por conglomerados.
7.2.1. Muestreo aleatorio
Consideremos una poblaci´on finita, de la que deseamos extraer una
muestra. Cuando el proceso de extracci´on es tal que garantiza a cada uno
de los elementos de la poblaci´on la misma oportunidad de ser incluidos en
dicha muestra, denominamos al proceso de selecci´on muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
Sin reposici´on de los elementos;
Con reposici´on.
Muestreo aleatorio sin reposici´on
Consideremos una poblaci´on E formada por N elementos. Si observamos
un elemento particular, e ∈ E, en un muestreo aleatorio sin reposici´on se
da la siguiente circunstancia:
166 Bioestad´ıstica: M´etodos y Aplicaciones
La probabilidad de que e sea elegido en primer lugar es
1
N
;
Si no ha sido elegido en primer lugar (lo que ocurre con una probabili-
dad de
N−1
N
), la probabilidad de que sea elegido en el segundo intento
es de
1
N−1
.
en el (i + 1)–´esimo intento, la poblaci´on consta de N − i elementos,
con lo cual si e no ha sido seleccionado previamente, la probabilidad
de que lo sea en este momento es de
1
N−i
.
Muestreo aleatorio con reposici´on
Sobre una poblaci´on E de tama˜ no N podemos realizar extracciones de n
elementos, pero de modo que cada vez el elemento extra´ıdo es repuesto al
total de la poblaci´on. De esta forma un elemento puede ser extra´ıdo varias
veces.
El muestreo aleatorio con reposici´on es tambi´en denominado muestreo
aleatorio simple, y se caracteriza porque cada elemento de la poblaci´on
tiene la misma probabilidad de ser elegido, y las observaciones se realizan
con reemplazamiento. De este modo, cada observaci´on es realizada sobre la
misma poblaci´on (que no disminuye con las extracciones sucesivas).
7.2.2. Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es aquel en el que se divide la
poblaci´on de N individuos, en k subpoblaciones o estratos, atendiendo a
criterios que puedan ser importantes en el estudio, de tama˜ nos respectivos
N
1
, . . . , N
k
,
N = N
1
+N
2
+ +N
k
y realizando en cada una de estas subpoblaciones muestreos aleatorios sim-
ples de tama˜ no n
i
i = 1, . . . , k.
A continuaci´on nos planteamos el problema de cuantos elementos de
muestra se han de elegir de cada uno de los estratos. Para ello tenemos
7.2. T
´
ECNICAS DE MUESTREO SOBRE UNA POBLACI
´
ON 167
fundamentalmente dos t´ecnicas: la asignaci´on proporcional y la asignaci´on
optima.
Asignaci´on proporcional
Sea n el n´ umero de individuos de la poblaci´on total que forman parte
de alguna muestra:
n = n
1
+n
2
+ +n
k
Cuando la asignaci´on es proporcional el tama˜ no de la muestra de cada
estrato es proporcional al tama˜ no del estrato correspondiente con respecto
a la poblaci´on total:
n
i
= n
N
i
N
Asignaci´on ´optima
Cuando se realiza un muestreo estratificado, los tama˜ nos muestrales en
cada uno de los estratos, n
i
, los elige quien hace el muestreo, y para ello
puede basarse en alguno de los siguientes criterios:
Elegir los n
i
de tal modo que se minimice la varianza del estimador,
para un coste especificado, o bien,
habiendo fijado la varianza que podemos admitir para el estimador,
minimizar el coste en la obtenci´on de las muestras.
As´ı en un estrato dado, se tiende a tomar una muestra m´as grande
cuando:
El estrato es m´as grande;
El estrato posee mayor variabilidad interna (varianza);
El muestreo es m´as barato en ese estrato.
168 Bioestad´ıstica: M´etodos y Aplicaciones
7.2.3. Muestreo sistem´atico
Cuando los elementos de la poblaci´on est´an ordenados en fichas o en
una lista, una manera de muestrear consiste en
Sea k =
_
N
n
_
;
Elegir aleatoriamente un n´ umero m, entre 1 y k;
Tomar como muestra los elementos de la lista:
_
e
m
, e
m+k
, e
m+2k
, . . . , e
m+(n−1)k
_
Esto es lo que se denomina muestreo sistem´atico. Cuando el criterio
de ordenaci´on de los elementos en la lista es tal que los elementos m´as
parecidos tienden a estar m´as cercanos, el muestreo sistem´atico suele ser
m´as preciso que el aleatorio simple, ya que recorre la poblaci´on de un modo
m´as uniforme. Por otro lado, es a menudo m´as f´acil no cometer errores con
un muestreo sistem´atico que con este ´ ultimo.
El m´etodo tal como se ha definido anteriormente es sesgado si
N
n
no es
entero, ya que los ´ ultimos elementos de la lista nunca pueden ser escogidos.
Un modo de evitar este problema consiste en considerar la lista como si
fuese circular (el elemento N + 1 coincide con el primero) y:
Sea k el entero m´as cercano a
N
n
;
Se selecciona un n´ umero al azar m, entre 1 y N;
Se toma como muestra los elementos de la lista que consisten en ir
saltando de k elementos en k, a partir de m, teniendo en cuenta que
la lista es circular.
Se puede comprobar que con este m´etodo todos los elementos de la lista
tienen la misma probabilidad de selecci´on.
7.3. PROPIEDADES DESEABLES DE UN ESTIMADOR 169
7.2.4. Muestreo por conglomerados
Si intentamos hacer un estudio sobre los habitantes de una ciudad, el
muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una
muestra de tama˜ no n implica enviar a los encuestadores a n puntos distintos
de la misma, de modo que en cada uno de ellos s´olo se realiza una entrevis-
ta. En esta situaci´on es m´as econ´omico realizar el denominado muestreo
por conglomerados, que consiste en elegir aleatoriamente ciertos barrios
dentro de la ciudad, para despu´es elegir calles y edificios. Una vez elegido
el edificio, se entrevista a todos los vecinos.
7.3. Propiedades deseables de un estimador
Sea X una v.a. cuya funci´on de probabilidad (o densidad de probabili-
dad si es continua) depende de unos par´ametros θ
1
, . . . , θ
k
desconocidos.
f(x; θ
1
, θ
2
, . . . , θ
k
)
Representamos mediante X
1
, . . . , X
n
una muestra aleatoria simple de
la variable. Denotamos mediante f
c
a la funci´on de densidad conjunta de
la muestra, que por estar formada por observaciones independientes, puede
factorizarse del siguiente modo:
f
c
(x
1
, x
2
, . . . , x
n
; θ
1
, . . . , θ
k
) = f(x
1
; θ
1
, . . . , θ
k
)f(x
2
; θ
1
, . . . , θ
k
) f(x
n
; θ
1
, . . . , θ
k
)
Se denomina estimador de un par´ametro θ
i
, a cualquier v.a.
ˆ
θ
i
que
se exprese en funci´on de la muestra aleatoria y que tenga por objetivo
aproximar el valor de θ
i
,
ˆ
θ
i
(X
1
, . . . , X
n
) ←− estimador de θ
i
. (7.1)
Obs´ervese que el estimador no es un valor concreto sino una variable
aleatoria, ya que aunque depende un´ıvocamente de los valores de la muestra
observados (X
i
= x
i
), la elecci´on de la muestra es un proceso aleatorio.
Una vez que la muestra ha sido elegida, se denomina estimaci´on el valor
num´erico que toma el estimador sobre esa muestra.
170 Bioestad´ıstica: M´etodos y Aplicaciones
Intuitivamente, las caracter´ısticas que ser´ıan deseables para esta nueva
variable aleatoria (que usaremos para estimar el par´ametro desconocido)
deben ser:
Consistencia: Cuando el tama˜ no de la muestra crece arbitrariamente, el valor esti-
mado se aproxima al par´ametro desconocido.
Carencia de sesgo: El valor medio que se obtiene de la estimaci´on para diferentes mues-
tras debe ser el valor del par´ametro.
Eficiencia: Al estimador, al ser v.a., no puede exig´ırsele que para una muestra
cualquiera se obtenga como estimaci´on el valor exacto del par´ametro.
Sin embargo podemos pedirle que su dispersi´on con respecto al valor
central (varianza) sea tan peque˜ na como sea posible.
Suficiencia: El estimador deber´ıa aprovechar toda la informaci´on existente en la
muestra.
7.3.1. Estimadores de m´axima verosimilitud
Sea X una v.a. con funci´on de probabilidad
f(x; θ)
Las muestras aleatorias simples de tama˜ no n, X
1
, X
2
, . . . , X
n
tienen por
distribuci´on de probabilidad conjunta
f
c
(x
1
, x
2
, . . . , x
n
; θ) = f(x
1
, x
2
, . . . , x
n
; θ)f(x
1
; θ) f(x
2
; θ) f(x
n
; θ)
Esta funci´on que depende de n+1 cantidades podemos considerarla de dos
maneras:
Fijando θ, es una funci´on de las n cantidades x
i
. Esto es la funci´on
de probabilidad o densidad.
Fijados los x
i
como consecuencia de los resultados de elegir una mues-
tra mediante un experimento aleatorio, es ´ unicamente funci´on de θ.
A esta funci´on de θ la denominamos funci´on de verosimilitud.
7.3. PROPIEDADES DESEABLES DE UN ESTIMADOR 171
En este punto podemos plantearnos el que dado una muestra sobre la
que se ha observado los valores x
i
, una posible estimaci´on del par´ametro es
aquella que maximiza la funci´on de verosimilitud. (cf. figura 7.1)
x
1
, . . . , x
n
fijados =⇒ Verosimilitud ≡ V (θ) = f(x
1
, x
2
, . . . , x
n
; θ)
Figura 7.1: La funci´on de verosimilitud se obtiene a partir de la funci´on
de densidad, intercambiando los papeles entre par´ametro y estimador. En
una funci´on de verosimilitud consideramos que las observaciones x
1
, . . . ,
x
n
,est´an fijadas, y se representa la gr´afica con el valor de los valores que
tomar´ıa la funci´on de densidad para todos los posibles valores del par´ametro
θ. El estimador m´aximo veros´ımil del par´ametro buscado,
ˆ
θ
MV
, es aquel
que maximiza su funci´on de verosimilitud, V (θ).
Como es lo mismo maximizar una funci´on que su logaritmo (al ser
este una funci´on estrictamente creciente), este m´aximo puede calcularse
derivando con respecto a θ la funci´on de verosimilitud ( bien su logaritmo)
y tomando como estimador m´aximo veros´ımil al que haga la derivada nula:
∂ log V
∂ θ
_
ˆ
θ
MV
_
= 0.
De modo m´as preciso, se define el estimador m´aximo veros´ımil como
la v.a.
ˆ
θ
MV
= m´ax
˜
θ∈IR
f(X
1
, X
2
, . . . , X
n
;
˜
θ)
172 Bioestad´ıstica: M´etodos y Aplicaciones
Los estimadores de m´axima verosimilitud tienen ciertas propiedades en
general que a continuaci´on enunciamos:
1. Son consistentes;
2. Son invariantes frente a transformaciones biun´ıvocas, es decir, si
ˆ
θ
MV
es el estimador m´aximo veros´ımil de θ y g(
˜
θ) es una funci´on biun´ıvoca
de
˜
θ, entonces g(
ˆ
θ
MV
) es el estimador m´aximo veros´ımil de g(θ).
3. Si
ˆ
θ es un estimador suficiente de θ, su estimador m´aximo veros´ımil,
ˆ
θ
MV
es funci´on de la muestra a trav´es de
ˆ
θ;
4. Son asint´oticamente normales;
5. Son asint´oticamente eficientes, es decir, entre todos los estimadores
consistentes de un par´ametro θ, los de m´axima verosimilitud son los
de varianza m´ınima.
6. No siempre son insesgados.
7.3.2. Algunos estimadores fundamentales
Vamos a estudiar las propiedades de ciertos estimadores que por su
importancia en las aplicaciones resultan fundamentales: estimadores de la
esperanza matem´atica y varianza de una distribuci´on de probabilidad.
Estimador de la esperanza matem´atica
Consideremos las muestras de tama˜ no n, X
1
, X
2
, . . . , X
n
, de un car´acter
sobre una poblaci´on que viene expresado a trav´es de una v.a. X que posee
momentos de primer y segundo orden, es decir, existen E[X] y Var [X]:
X
1
, X
2
, . . . , X
n
,
_
¸
_
¸
_
E[X
i
] = µ
Var [X
i
] = σ
2
El estimador media muestral que denotaremos normalmente como X
(en lugar de ˆ µ es
7.3. PROPIEDADES DESEABLES DE UN ESTIMADOR 173
X =
1
n
(X
1
+X
2
+ +X
n
)
verifica:
E
_
X
_
= µ
Var
_
X
_
=
σ
2
n
Por tanto es un estimador insesgado. Si adem´as sabemos que X se distribuye
seg´ un una ley gaussiana, se puede comprobar que coincide con el estimador
de m´axima verosimilitud:
Proposici´on
X
i
;N(µ, σ) =⇒X ≡ ˆ µ
MV
;N
_
µ,
σ
2
n
_
Estimador de la varianza
Al elegir un estimador de σ
2
= Var [X], podemos comenzar con el
estimador m´as natural (que es el estimador m´aximo verosimil) sin embargo
´este no es insesgado, ya que el valor esperado del estimador
o
2
=
1
n
n

i=1
(X
i
−X)
2
se demuestra que es (n − 1)/n σ
2
. De esta manera, para conseguir un
estimador insesgado de la varianza se introduce la cuasivarianza muestral:
ˆ
o
2
=
n
n −1
o
2
(7.2)
la cual presenta como valor esperado σ
2
. Se puede comprobar adem´as que
(n −1)
ˆ
o
2
σ
2

n−1
174 Bioestad´ıstica: M´etodos y Aplicaciones
Cap´ıtulo 8
Estimaci´on confidencial
8.1. Introducci´on
En el cap´ıtulo anterior establecimos toda la teor´ıa que concierne a la defini-
ci´on y concepto de un estimador puntual, as´ı como las propiedades deseables
que debe verificar para considerar el producto una “buena.
es
timaci´on del
par´ametro.
Existen, no obstante, multitud de circunstancias en las que el inter´es
de un estudio no estriba tanto en obtener una estimaci´on puntual para un
par´ametro, como determinar un posible “rango”de valores o “intervalo.
en
los
que pueda precisarse, con una determinada probabilidad, que el verdadero
valor del par´ametro se encuentra dentro de esos l´ımites.
Las t´ecnicas que abordan este tipo de situaciones, se encuadran dentro
de la estad´ıstica Inferencial bajo el t´ıtulo de “Estimaci´on Confidencial.
o
“Estimaci´on por Intervalos de Confianza”. El desarrollo te´orico de como
llega a constituirse un intervalo, realizado en el caso m´as intuitivo y senci-
llo, as´ı como los intervalos de confianza para los par´ametros m´as usuales:
medias, varianzas y proporciones, para una y dos poblaciones, son el obje-
tivo de este cap´ıtulo. Para ello empezamos bajo el supuesto de que nuestra
variable en estudio es una variable aleatoria que sigue una distribuci´on
cualquiera Nuestro objetivo ser´a determinar los l´ımites del intervalo de
confianza para ´estos.
175
176 Bioestad´ıstica: M´etodos y Aplicaciones
Sea X;Fam(θ) una v.a. de cierta familia, que se distribuye seg´ un un
par´ametro θ que desconocemos. Para estimar dicho par´ametro a partir de
una muestra aleatoria simple

X
def
≡ X
1
, X
2
, . . . , X
n
hemos definido lo que es un estimador
ˆ
θ(

X) y hemos enunciado las buenas
propiedades que es deseable que posea. Cuando se realiza el experimento
aleatorio de extraer una muestra concreta de la poblaci´on, el estimador
(que a veces denominaremos estimador puntual) nos da una aproximaci´on
de θ.
X
1
= x
1
X
2
= x
2
. . .
X
n
= x
n
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
=⇒
ˆ
θ(x
1
, x
2
, . . . , x
n
. ¸¸ .
x=(x
1
,x
2
,...,x
n
)
) ≈ θ
Esto es lo que se denomina estimaci´on puntual, pues se asigna un punto
como estimaci´on del valor del par´ametro.
La estimaci´on confidencial o estimaci´on por intervalos de con-
fianza asigna un conjunto de valores como estimaci´on del par´ametro, que
generalmente tiene forma de intervalo: I(

X).
Diremos que I(

X) es un intervalo aleatorio al nivel de significaci´on
α, o equivalentemente, intervalo aleatorio al nivel de confianza 1 −α
si
T
_
θ ∈ I(

X)
_
≥ 1 −α,
o lo que es lo mismo
T
_
θ ∈¸I(

X)
_
< α.
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 177
Cuando un intervalo aleatorio I(

X) tiene una probabilidad menor del
100 α% de que el par´ametro no est´e en el intervalo decimos que el
intervalo es de confianza 1 −α, o de significaci´on α.
Es importante comprender correctamente esta idea: I(

X) es un con-
junto aleatorio que depende de la muestra elegida. Por tanto para cada
muestra tenemos un intervalo de confianza diferente. Si elegimos un nivel
de confianza por ejemplo de α = 95 %, y encontramos (mediante la t´ecnica
que sea) intervalos de confianza al 95 % que se correspondan con cada una
de las muestras, lo que sabemos es que en el 95 % de los casos los intervalos
de confianza dieron una respuesta correcta. En el 5 % restante se obtuvo
una respuesta incorrecta.
Cuando una muestra ha sido elegida mediante un muestreo aleatorio
simple, no tiene sentido decir θ ∈ I(x) con probabilidad 1 − α, pues s´olo
puede ocurrir que (fijada la muestra) el par´ametro est´e o que no est´e dentro
del intervalo. Sin embargo por comodidad a veces se utiliza esa expresi´on,
donde lo que queremos con esa frase es expresar la idea de que “si hu-
bi´esemos tomados muestras del mismo tama˜ no en una gran cantidad de
ocasiones, hubi´esemos acertado por lo menos en un 100 (1 − α) % de las
ocasiones al decir que el par´ametro estaba en el intervalo que cada muestra
suministra”.
8.2. Intervalos de confianza para la distribuci´on
normal
Dada una variable aleatoria de distribuci´on gaussiana X;N
_
µ, σ
2
_
, nos
interesamos en primer lugar, en calcular intervalos de confianza para sus
dos par´ametros, µ y σ
2
.
He aqu´ı un resumen de las situaciones que consideraremos:
Intervalo para la media si se conoce la varianza: Este no es un caso pr´actico (no se puede conocer σ
2
sin conocer
previamente µ), pero sirve para introducirnos en el problema de la
estimaci´on confidencial de la media;
178 Bioestad´ıstica: M´etodos y Aplicaciones
Intervalos de confianza para la media (caso general): Este se trata del caso con verdadero inter´es pr´actico. Por ejemplo
sirve para estimar intervalos que contenga la media del colesterol en
sangre en una poblaci´on, la altura, el peso, etc, cuando disponemos
de una muestra de la variable.
Intervalo de confianza para la varianza:
´
Este es otro caso de inter´es en las aplicaciones. El objetivo es calcular
un intervalo de confianza para σ
2
, cuando s´olo se dispone de una
muestra.
Estimaci´on de tama˜ no muestral La utilidad consiste en decidir cu´al deber´a ser el tama˜ no necesario
de una muestra para obtener intervalos de confianza para una media,
con precisi´on y significaci´on dadas de antemano. Para que esto sea
posible es necesario poseer cierta informaci´on previa, que se obtiene
a partir de las denominadas muestras piloto.
M´as adelante, consideramos el caso en que tenemos dos poblaciones
donde cada una sigue su propia ley de distribuci´on N
_
µ
1
, σ
2
1
_
y N
_
µ
2
, σ
2
2
_
.
Los problemas asociados a este caso son
Diferencia de medias homoced´asticas Se realiza el c´alculo del intervalo de confianza suponiendo que ambas
variables tienen la misma varianza, es decir son homoced´asticas.
En la pr´actica se usa este c´alculo, cuando ambas variables tienen
parecida dispersi´on.
Diferencia de medias (caso general) Es el mismo caso que el anterior, pero se realiza cuando se observa
que hay diferencia notable en la dispersi´on de ambas variables.
8.2.1. Intervalo para la media si se conoce la varianza
Este caso que planteamos es m´as a nivel te´orico que pr´actico: dif´ıcilmen-
te vamos a poder conocer con exactitud σ
2
mientras que µ es desconocido.
Sin embargo nos aproxima del modo m´as simple a la estimaci´on confidencial
de medias.
Para estimar µ, el estad´ıstico que mejor nos va a ayudar es X, del que
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 179
conocemos su ley de distribuci´on:
X; N
_
µ,
σ
2
n
_
. ¸¸ .
un par´ametro
desconocido
Esa ley de distribuci´on depende de µ (desconocida). Lo m´as conveniente es
hacer que la ley de distribuci´on no dependa de ning´ un par´ametro descono-
cido, para ello tipificamos:
Z =
X −µ
σ

n
. ¸¸ .
par. desconocido
+
estimador
+
cosas conocidas
; N(0, 1)
. ¸¸ .
tabulada
Este es el modo en que haremos siempre la estimaci´on puntual: busca-
remos una relaci´on en la que intervengan el par´ametro desconocido junto
con su estimador y de modo que estos se distribuyan seg´ un una ley de pro-
babilidad que es bien conocida y a ser posible tabulada.
De este modo, fijado α ∈ (0, 1), consideramos la v.a. Z;N(0, 1) y
tomamos un intervalo que contenga una masa de probabilidad de 1 − α.
Este intervalo lo queremos tan peque˜ no como sea posible. Por ello lo mejor
es tomarlo sim´etrico con respecto a la media (0), ya que all´ı es donde se
acumula m´as masa (v´ease la figura 8.1). As´ı las dos colas de la distribuci´on
(zonas m´as alejadas de la media) se repartir´an a partes iguales el resto de
la masa de probabilidad, α.
Vamos a precisar c´omo calcular el intervalo de confianza:
Sea z
α/2
el percentil 100
α
2
de Z, es decir, aquel valor de IR que deja
por debajo de si la cantidad
α
2
de la masa de probabilidad de Z, es
decir:
180 Bioestad´ıstica: M´etodos y Aplicaciones
−3 −2 −1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
z
1−α 2 z
α 2
Intervalo de confianza 1 − α
Figura 8.1: La distribuci´on N(0, 1) y el intervalo m´as peque˜ no posible cuya
probabilidad es 1 −α. Por simetr´ıa, los cuantiles z
α/2
y z
1−α/2
s´olo difieren
en el signo.
T[Z ≤ z
α/2
] =
α
2
Sea z
1−α/2
el percentil 100
1−α
2
, es decir,
T[Z ≤ z
1−α/2
] = 1 −
α
2
Es ´ util considerar en este punto la simetr´ıa de la distribuci´on normal,
y observar que los percentiles anteriores son los mismos aunque con
el signo cambiado:
z
α/2
= −z
1−α/2
El intervalo alrededor del origen que contiene la mayor parte de la
masa de probabilidad (1−α) es el intervalo siguiente (cf. Figura 8.1):
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 181
_
z
α/2
, z
1−α/2
_
=
_
−z
1−α/2
, z
1−α/2
_
lo que habitualmente escribiremos como:
[Z[ ≤ z
1−α/2
De este modo podemos afirmar que existe una probabilidad de 1 −α
de que al extraer una muestra aleatoria de la variable en estudio,
ocurra:
[Z[ ≤ z
1−α/2


¸
¸
¸X −µ
¸
¸
¸
σ

n
≤ z
1−α/2

¸
¸
¸X −µ
¸
¸
¸ ≤ z
1−α/2

σ

n
De este modo un intervalo de confianza al nivel 1 −α para la esperanza
de una normal de varianza conocida es el comprendido entre los valores
x
α/2
= X −z
1−α/2

σ

n
x
1−α/2
= X +z
1−α/2

σ

n
µ = X ±z
1−α/2

σ

n
(8.1)
Ejemplo
Se sabe que el peso de los reci´en nacidos sigue una distribuci´on normal
con una desviaci´on t´ıpica de 0,75 kg. Si en una muestra aleatoria simple de
182 Bioestad´ıstica: M´etodos y Aplicaciones
100 de ellos se obtiene una media muestral de 3 kg, y una desviaci´on t´ıpica
de 0,5 kg, calcular un intervalo de confianza para la media poblacional que
presente una confianza del 95 %.
Soluci´on: En primer lugar hay que mencionar que la situaci´on planteada
no es habitual, ya que si somos capaces de obtener σ = 0, 75, es natural
que hayamos podido calcular tambien µ, y no necesitariamos una muestra
aleatoria para estimar µ confidencialmente. Esto ocurre porque el ejemplo
tiene utilidad puramente acad´emica.
Para calcular µ usamos el estad´ıstico:
Z =
X −µ
σ/

n
;N(0, 1)
que como se observa no depende de la dispersi´on de la muestra, ya que
tenemos la “fortuna” de disponer de la dispersi´on exacta de la poblaci´on.
Esto no es lo habitual en una situaci´on pr´actica, y como veremos m´as
adelante, el papel del la dispersi´on exacta de la poblaci´on (desconocido)
ser´a sustituido por el de la dispersi´on de la muestra.
Un intervalo de confianza al 95 % se calcula teniendo en cuenta que
Z;N(0, 1), y dicha distribuci´on presenta un 95 % de probabilidad de
ocurrir entre sus cuantiles z
0,025
= −1, 96 y z
0,975
= 1, 96 (son de signo
opuesto por simetr´ıa de la distribuci´on normal). Luego con una confianza
del 95 % ocurre:
−1, 96 ≤ Z ≤ +1, 96 ⇔[Z[ ≤ +1, 96 ⇔[x−µ[ ≤ +1, 96
σ

n
⇔[µ−3[ ≤ 0, 147
Es decir con una confianza del 95 % tenemos que µ = 3±0, 147kg. Esto debe
ser interpretado como que la t´ecnica que se usa para el calcular el intervalo
de confianza da una respuesta correcta en 95 de cada 100 estudios basados
en una muestra aleatoria simple diferente sobre la misma poblaci´on.
8.2.2. Intervalo para la media (caso general)
El intervalo de confianza al nivel 1 −α para la esperanza de una distri-
buci´on gaussiana cuando sus par´ametros son desconocidos es:
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 183
2.0 2.5 3.0 3.5 4.0
distrib. muestra
distrib. media muestral
Figura 8.2: Un intervalo de confianza para la media podemos visualizarlo
como el que corresponder´ıa a una distribuci´on normal con el mismo centro
que la de la poblaci´on, pero cuya desviaci´on est´a reducida en

n.
µ = X ±t
n−1,1−α/2

ˆ
S

n
Ejemplo
Se sabe que el peso de los reci´en nacidos sigue una distribuci´on normal.
Si en una muestra aleatoria simple de 100 de ellos se obtiene una media
muestral de 3 kg, y una desviaci´on t´ıpica de 0,5 kg, calcular un intervalo de
confianza para la media poblacional que presente una confianza del 95 %.
Soluci´on: Para calcular µ usamos el estad´ıstico:
T =
X −µ
ˆ
o/

n
;t
n−1
que a diferencia del ejemplo mencionado anteriormente, no depende se σ
184 Bioestad´ıstica: M´etodos y Aplicaciones
(desconocido) si no de su estimaci´on puntual insesgada:
ˆ
o =
_
n/(n −1) o =
_
100/99 0, 5 = 0,503
Un intervalo de confianza al 95 % se calcula teniendo en cuenta que T;t
n−1
,
y dicha distribuci´on presenta un 95 % de probabilidad de ocurrir entre sus
cuantiles T
n−1;0,025
= −1, 98 y T
n−1;0,975
= 1, 98 (son de signo opuesto por
simetr´ıa de la distribuci´on de Student). Luego con una confianza del 95 %
ocurre:
[x −µ[ ≤ +1, 98
ˆ
o

n
⇔[µ −3[ ≤ 0, 1
Es decir con una confianza del 95 % tenemos que µ = 3 ±0, 1kg.
Ejemplo
Se quiere estimar un intervalo de confianza al nivel de significaci´on
α = 0, 05 para la altura media µ de los individuos de una ciudad. En
principio s´olo sabemos que la distribuci´on de las alturas es una v.a. X de
distribuci´on normal. Para ello se toma una muestra de n = 25 personas y
se obtiene
x = 170 cm
o = 10 cm
Soluci´on:
Este ejemplo es similar al anterior, pero vamos a resolverlo de una manera
m´as detallada.
En primer lugar, en estad´ıstica inferencial, los estad´ısticos para medir
la dispersi´on m´as convenientes son los insesgados. Por ello vamos a dejar de
lado la desviaci´on t´ıpica muestral, para utilizar la cuasidesviaci´on t´ıpica:
o = 10 =⇒
ˆ
o = o
_
n
n −1
= 10
_
25
24
= 10

206
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 185
µ = 170 ±2, 06
10, 206
5
= 170 ±4, 204
o dicho de forma m´as precisa: Con un nivel de confianza del 95 % podemos
decir que la media poblacional est´a en el intervalo siguiente:
µ ∈ [165, 796 ; 174, 204]
Ejemplo
Este ejemplo se puede considerar como una introducci´on a los contrastes
de hip´otesis. La variable IL se presenta en los ni˜ nos reci´en nacidos con una
distribuci´on normal de media 2,5. En un grupo de 31 ni˜ nos con sepsis
neonatal se encuentra que el valor medio de IL es de x = 1, 8 y
ˆ
o = 0, 2.
¿Cree que presenta la presencia de sepsis neonatal afecta el valor de IL?
Soluci´on: Si no hubiese relaci´on entre la sepsis neonatal y el valor de
IL deber´ıa ocurrir que el valor de IL en ni˜ nos nacidos con sepsis se com-
porte del mismo modo que en los ni˜ nos normales. Por tanto deber´ıa seguir
una distribuci´on normal. Adem´as un intervalo de confianza al 95 % para
la media de la poblaci´on de ni˜ nos s´epticos, calculado a partir de los datos
de la muestra deber´ıa contener (con una confianza del 95 %) a la media de
la poblaci´on de ni˜ nos normales. Si no fuese as´ı habr´ıa que pensar que la
variable IL est´a relacionada con la presencia de sepsis.
Calculemos el intervalo de confianza para la media de los ni˜ nos con
sepsis. Para ello elegimos el estadistico m´as adecuado a los datos que po-
seemos:
T =
x −µ
ˆ
o/

31
;t
30
Un intervalo de confianza al 95 % se calcula teniendo en cuenta que T;t
30
,
y dicha distribuci´on presenta un 95 % de probabilidad de ocurrir entre sus
cuantiles T
30;0,025
= −2, 04 y T
30;0,975
= 2, 04 (son de signo opuesto por
simetr´ıa de la distribuci´on de Student). Luego con una confianza del 95 %
ocurre:
186 Bioestad´ıstica: M´etodos y Aplicaciones
[1, 8 −µ[ ≤ +2, 04
0, 2

31
⇔[µ −1, 8[ ≤ 0, 07
Por tanto podemos afirmar (con una confianza del 95 %) que la media
poblacional de los ni˜ nos con sepsis estar´ıa comprendida entre los valores 1,73
y 1,87, que est´an muy alejados de 2,5 (media de los ni˜ nos normales). Por
tanto, podemos afirmar con una confianza del 95 % que est´an relacionados
la IL y la s´epsis en ni˜ nos recien nacidos.
8.2.3. Intervalo de confianza para la varianza
Un intervalo de confianza al nivel 1 −α para la varianza de una distri-
buci´on gaussiana (cuyos par´ametros desconocemos) lo obtenemos como
σ
2

_
(n −1)
ˆ
o
2
χ
2
n−1,1−α/2
,
(n −1)
ˆ
o
2
χ
2
n−1,α/2
_
Ejemplo
Se estudia la altura de los individuos de una ciudad, obteni´endose en
una muestra de tama˜ no 25 los siguientes valores:
x = 170 cm
o = 10 cm
Calcular un intervalo de confianza con α = 0, 05 para la varianza σ
2
de
la altura de los individuos de la ciudad.
Soluci´on:
σ
2
∈ [63, 45 ; 201, 60]
Por tanto, para el valor poblacional de la desviaci´on t´ıpica tenemos que
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 187
7, 96 ≤ σ ≤ 14, 199
con una confianza del 95 %, que por supuesto contiene a las estimaciones
puntuales o = 10 y
ˆ
o = 10, 206 calculados sobre la muestra.
8.2.4. Estimaci´on del tama˜ no muestral
Antes de realizar un estudio de inferencia estad´ıstica sobre una variable,
lo primero es decidir el n´ umero de elementos, n, a elegir en la muestra
aleatoria. Para ello consideremos que el estudio se basara en una variable
de distribuci´on normal, y nos interesa obtener para un nivel de significaci´on
α dado, una precisi´on (error) d.
Para ello, recordemos que un intervalo de confianza para una media en
el caso general se escribe como:
µ = X ±t
n−1,1−α/2

ˆ
o

n
. ¸¸ .
precisi´on d
Si n es suficientemente grande, la distribuci´on t de Student se aproxima
a la distribuci´on normal. Luego una manera de obtener la precisi´on buscada
consiste en elegir n con el siguiente criterio:
n ≥
z
2
1−α/2
d
2
ˆ
o
2
Donde
ˆ
o
2
es una estimaci´on puntual a priori de la varianza de la mues-
tra. Para obtenerla nos podemos basar en una cota superior conocida por
nuestra experiencia previa, o simplemente, tomando una muestra piloto
que sirve para dar una idea previa de los par´ametros que describen una
poblaci´on.
Ejemplo
En los ´ ultimos ejemplos se ha estudiado la variable altura de los in-
dividuos de una poblaci´on, considerando que ´esta es una variable que se
188 Bioestad´ıstica: M´etodos y Aplicaciones
X;
?
¸ .. ¸
N
_
µ, σ
2
_
← poblaci´on normal
X ← media de la muestra
ˆ
o
2
← cuasivarianza de la muestra
n ← tama˜ no de la muestra
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
Intervalos de confianza
Para µ cuando σ
2
se conoce µ ∈ X ±z
1−α/2

σ

n
Para µ cuando σ
2
no se conoce µ ∈ X ±t
n−1,1−α/2

ˆ
o

n
Para σ
2
con µ desconocido σ
2

_
(n −1)
ˆ
o
2
χ
2
n−1,1−α/2
,
(n −1)
ˆ
o
2
χ
2
n−1,α/2
_
Cuadro 8.1: Intervalos de confianza para los par´ametros de una poblaci´on
normal, a partir de una muestra aleatoria simple de la misma.
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 189
distribuye de modo gaussiana.
Para ello se tom´o una muestra de 25 individuos (que podemos considerar
piloto), que ofreci´o los siguientes resultados:
x = 170 cm
o = 10 cm
Calcular el tama˜ no que deber´ıa tener una muestra para que se obtu-
viese un intervalo de confianza para la media poblacional con un nivel de
significaci´on α = 0, 01 (al 99 %) y con una precisi´on de d = 1 cm.
Soluci´on:
Obs´ervese que sobre la muestra piloto, el error cometido al estimar el
intervalo al 95 % fue aproximadamente de 4

2 cm por lo que si buscamos un
intervalo de confianza tan preciso, el tama˜ no de la muestra, n, deber´a ser
bastante mayor. En este caso se obtiene:
n ≈
z
2
0,995
10, 206
2
1
2
= 2, 58
2
10, 206
2
≈ 694
Por tanto, si queremos realizar un estudio con toda la precisi´on requerida
en el enunciado se deber´ıa tomar una muestra de 694 individuos. Esto es
una indicaci´on de gran utilidad antes de comenzar el estudio. Una vez que
el muestreo haya sido realizado, debemos confirmar que el error para el
nivel de significaci´on dado es inferior o igual a 1 cm, utilizando la muestra
obtenida.
8.2.5. Intervalos para la diferencia de medias de dos pobla-
ciones
Consideremos el caso en que tenemos dos poblaciones de modo que el
car´acter que estudiamos en ambas (X
1
y X
2
) son v.a. distribuidas seg´ un
leyes gaussianas
X
1
; N
_
µ
1
, σ
2
1
_
190 Bioestad´ıstica: M´etodos y Aplicaciones
X
2
; N
_
µ
2
, σ
2
2
_
En cada una de estas poblaciones se extrae mediante muestreo aleato-
rio simple, muestras que no tienen por que ser necesariamente del mismo
tama˜ no (respectivamente n
1
y n
2
)

X
1
≡ X
11
, X
12
, . . . , X
1n
1

X
2
≡ X
21
, X
22
, . . . , X
2n
2
Podemos plantearnos a partir de las muestras el saber qu´e diferencias
existen entre las medias de ambas poblaciones, o por ejemplo estudiar las
relaci´on existente entre sus dispersiones respectivas. A ello vamos a dedicar
los siguientes puntos.
Intervalo para la diferencia de medias homoced´aticas
Supongamos que dos poblaciones tengan varianzas id´enticas (homocedasticidad),σ
2
.
Es decir
σ
2
= σ
2
1
= σ
2
2
.
Por razones an´alogas a las expuestas en el caso de una poblaci´on una po-
blaci´on, se tiene que
χ
2
n
1
−1
=
(n
1
−1)
ˆ
o
2
1
σ

2
n
1
−1
χ
2
n
2
−1
=
(n
2
−1)
ˆ
o
2
2
σ

2
n
2
−1
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
χ
2
reprod.
=⇒ χ
2
n
1
+n
2
−2
= χ
2
n
1
−1

2
n
2
−1

2
n
1
+n
2
−2
De manera similar al caso de la media de una poblaci´on, si las varianzas
fuesen conocidas, podemos definir la v.a.
Z =
(X
1
−X
2
) −(µ
1
−µ
2
)
¸
σ
2
1
n
1
+
σ
2
2
n
2
=
(X
1
−X
2
) −(µ
1
−µ
2
)
¸
σ
2
_
1
n
1
+
1
n
2
_
;N(0, 1)
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 191
Cuando las varianzas de las poblaciones son desconocidas, pero podemos
asumir que al menos son iguales, el siguiente estad´ıstico se distribuye como
una t de Student con n
1
+n
2
−2 grados de libertad:
T
n
1
+n
2
−2
=
Z
¸
1
n
1
+n
2
−2
χ
2
n
1
+n
2
−2
=
(X
1
−X
2
) −(µ
1
−µ
2
)
ˆ
o
_
1
n
1
+
1
n
2
;t
n
1
+n
2
−2
(8.2)
donde se ha definido a
ˆ
o
2
como la cuasivarianza muestral ponderada
de
ˆ
o
2
1
y
ˆ
o
2
2
ˆ
o
2
=
(n
1
−1)
ˆ
o
2
1
+ (n
2
−1)
ˆ
o
2
2
n
1
+n
2
−2
Si 1−α es el nivel de significaci´on con el que deseamos establecer el inter-
valo para la diferencia de las dos medias, calculamos el valor t
n
1
+n
2
−1,1−α/2
que deja por encima de si α/2 de la masa de probabilidad de T
n
1
+n
2
−2
T[T
n
1
+n
2
−2
> t
n
1
+n
2
−2,1−α/2
] =
α
2
⇔T[[T
n
1
+n
2
−2
[ ≤ t
n
1
+n
2
−2,1−α/2
] = 1−α
Repitiendo un proceso que ya hemos realizado en ocasiones anteriores, te-
nemos una probabilidad de 1 − α de que a extraer una muestra aleatoria
simple ocurra:
[T
n
1
+n
2
−2
[ ≤ t
n
1
+n
2
−2,1−α/2


¸
¸
¸(X
1
−X
2
) −(µ
1
−µ
2
)
¸
¸
¸
ˆ
o
_
1
n
1
+
1
n
2
≤ t
n
1
+n
2
−2,1−α/2
⇔ [µ
1
−µ
2
[ ≤ (X
1
−X
2
) +t
n
1
+n
2
−2,1−α/2

ˆ
o
¸
1
n
1
+
1
n
2
Luego el intervalo de confianza al nivel 1−α para la diferencia de esperanzas
de dos poblaciones con la misma varianza (aunque esta sea desconocida)
es:
192 Bioestad´ıstica: M´etodos y Aplicaciones
µ
1
−µ
2
= (X
1
−X
2
) ±t
n
1
+n
2
−2,1−α/2

ˆ
o
¸
1
n
1
+
1
n
2
Ejemplo
Queremos estudiar la influencia que puede tener el tabaco con el peso
de los ni˜ nos al nacer. Para ello se consideran dos grupos de mujeres emba-
razadas (unas que fuman y otras que no) y se obtienen los siguientes datos
sobre el peso X, de sus hijos:
_
¸
_
¸
_
Madres fumadoras → n
1
= 35 mujeres, x
1
= 3, 6 Kg
ˆ
o
1
= 0, 5 Kg
Madres no fumadoras → n
2
= 27 mujeres, x
2
= 3, 2 Kg
ˆ
o
2
= 0, 8 Kg
En ambos grupos los pesos de los reci´en nacidos provienen de sendas dis-
tribuciones normales de medias desconocidas, y con varianzas que si bien
son desconocidas, podemos suponer que son las mismas. Calcular en cuanto
influye el que la madre sea fumadora en el peso de su hijo.
Soluci´on:
Si X
1
es la v.a. que describe el peso de un ni˜ no que nace de madre no
fumadora, y X
2
el de un hijo de madre fumadora, se tiene por hip´otesis que
∃ µ
1
, µ
2
, σ
2
, tales que
_
¸
_
¸
_
X
1
;N
_
µ
1
, σ
2
_
X
2
;N
_
µ
2
, σ
2
_
Si queremos estimar en cuanto influye el que la madre sea fumadora en el
peso de su hijo, podemos estimar un intervalo de confianza para µ
1
−µ
2
, lo
que nos dar´a la diferencia de peso esperado entre un ni˜ no del primer grupo
y otro del segundo. El estad´ıstico que se ha de aplicar para esta cuesti´on
es:
(x
1
−x
2
) −(µ
1
−µ
2
)
ˆ
o
_
1
n
1
+
1
n
2
;t
n
1
+n
2
−2
= t
35+27−2
= t
60
8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCI
´
ON NORMAL 193
donde
ˆ
o
2
=
(n
1
−1)
ˆ
o
2
1
+ (n
2
−1)
ˆ
o
2
2
n
1
+n
2
−2
=
34 0, 5
2
+ 26 0, 8
2
60
= 0, 419 =⇒
ˆ
o = 0, 6473
Consideramos un nivel de significaci´on que nos parezca aceptable, por ejem-
plo α = 0, 05, y el intervalo buscado se obtiene a partir de:
[
0,4
¸ .. ¸
(3, 6 −3, 2) −(µ
1
−µ
2
) [
0, 6473
_
1
35
+
1
27
. ¸¸ .
0,1658
≤ t
60;1−0,05/2
= t
60;0,975
= 2
=⇒µ
1
−µ
2
= 0, 4 ±2 0, 1658 =⇒µ
1
−µ
2
= 0, 4 ±0, 3316
con lo cual se puede decir que un intervalo de confianza para el peso es-
perado en que supera un hijo de madre no fumadora al de otro de madre
fumadora est´a comprendido con un nivel de confianza del 95 % entre los
0, 068 Kg y los 0, 731 Kg.
194 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
_
X
1
;
?
¸ .. ¸
N
_
µ
1
, σ
2
1
_
X
2
;N
_
µ
2
, σ
2
2
_
. ¸¸ .
?
← poblaciones normales
X
1
, X
2
← medias de las muestras
ˆ
o
2
1
,
ˆ
o
2
2
← cuasivarianzas de las muestras
n
1
, n
2
← tama˜ nos de las muestras
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
Intervalos de confianza para µ
1
−µ
2
Si σ
2
1
= σ
2
2
(desconocidos) µ
1
−µ
2
∈ (X
1
−X
2
) ±t
n
1
+n
2
−2,1−α/2

ˆ
o
¸
1
n
1
+
1
n
2
Si σ
2
1
,= σ
2
2
(desconocidos) µ
1
−µ
2
∈ (X
1
−X
2
) ±t
f,1−α/2

¸
ˆ
o
2
1
n
1
+
ˆ
o
2
2
n
2
donde
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
ˆ
o
2
=
(n
1
−1)
ˆ
o
2
1
+ (n
2
−1)
ˆ
o
2
2
n
1
+n
2
−2
f =
_
ˆ
o
2
1
n
1
+
ˆ
o
2
2
n
2
_
2
1
n
1
+ 1
_
ˆ
o
2
1
n
1
_
2
+
1
n
2
+ 1
_
ˆ
o
2
2
n
2
_
2
−2 ←Welch.
Cuadro 8.2: Intervalos de confianza para la diferencia de las medias de dos
poblaciones normales, calculados a partir de sendas muestras independien-
tes de cada una de ellas.Los resultados dependen de que podamos suponer
cierta o no la condici´on de homocedasticidad.
8.3. INTERVALOS DE CONFIANZA PARA VARIABLES DICOT
´
OMICAS 195
8.3. Intervalos de confianza para variables dicot´omi-
cas
Cuando tenemos una variable dicot´omica (o de Bernoulli) a menudo
interesa saber en qu´e proporci´on de casos, p ocurre el ´exito en la realizaci´on
de un experimento. Tambi´en nos puede interesar el comparar la diferencia
existente entre las proporciones en distintas poblaciones. Tambi´en es de
inter´es calcular para un nivel de significaci´on dado, el tama˜ no muestral
necesario para calcular un intervalo de confianza de cuyo radio sea menor
que cierta cantidad.
8.3.1. Intervalo para una proporci´on
Sean X
1
, . . . , X
n
;Ber (p). Si queremos estimar el par´ametro p, la ma-
nera m´as natural de hacerlo consiste en definir la suma de estas —lo que
nos proporciona una distribuci´on Binomial
X = X
1
+ +X
n
;B(n, p)
y tomar como estimador suyo la v.a.
ˆ p =
X
n
.
Es decir, tomamos como estimaci´on de p la proporci´on de ´exitos obtenidos
en las n pruebas. ˆ p.
La distribuci´on del n´ umero de ´exitos es binomial, y puede ser aproxi-
mada a la normal cuando el tama˜ no de la muestra n es grande, y p no es
una cantidad muy cercana a cero o uno:
X;B(n, p) ⇒ X

;N(np, npq)
El estimador ˆ p no es m´as que un cambio de escala de X, por tanto
ˆ p =
X
n

;N
_
p,
pq
n
_
=⇒
ˆ p −p
_
pq
n
≈ Z ;N(0, 1)
196 Bioestad´ıstica: M´etodos y Aplicaciones
Esta expresi´on presenta dificultades para el c´alculo, siendo m´as c´omodo
sustituirla por la siguiente aproximaci´on:
ˆ p −p
_
ˆ pˆ q
n
≈ Z ;N(0, 1)
Para encontrar el intervalo de confianza al nivel de significaci´on α para
p se considera el intervalo que hace que la distribuci´on de Z;N(0, 1) deje
la probabilidad α fuera del mismo. Es decir, se considera el intervalo cuyos
extremos son los cuantiles α/2 y 1 − α/2. As´ı se puede afirmar con una
confianza de 1 −α que:
p = ˆ p ±z
1−α/2
¸
ˆ pˆ q
n
con una confianza de 1 −α
Ejemplo
Se quiere estimar el resultado de un refer´endum mediante un sondeo.
Para ello se realiza un muestreo aleatorio simple con n = 100 personas y
se obtienen 35 % que votar´an a favor y 65 % que votar´an en contra (su-
ponemos que no hay indecisos para simplificar el problema a una variable
dicot´omica). Con un nivel de significaci´on del 5 %, calcule un intervalo de
confianza para el verdadero resultado de las elecciones.
Soluci´on: Dada una persona cualquiera (i) de la poblaci´on, el resultado
de su voto es una variable dicot´omica:
X
i
;Ber (p)
El par´ametro a estimar en un intervalo de confianza con α = 0, 05 es p,
y tenemos sobre una muestra de tama˜ no n = 100, la siguiente estimaci´on
puntual de p:
ˆ p =
35
100
= 0, 35 =⇒ ˆ q = 0, 65
El intervalo de confianza buscado es:
p = 0, 65 ±0, 0935
Por tanto, tenemos con esa muestra un error aproximado de 9, 3 puntos al
nivel de confianza del 95 %.
8.3. INTERVALOS DE CONFIANZA PARA VARIABLES DICOT
´
OMICAS 197
8.3.2. Elecci´on del tama˜ no muestral para una proporci´on
En unejemplo previo con una muestra de 100 individuos se realiz´o una
estimaci´on confidencial, con un 95 % de confianza, del porcentaje de votan-
tes a una cuesti´on en un refer´endum, obteni´endose un margen de error de
9, 3 puntos.
Si pretendemos reducir el error a 1 punto y queremos aumentar el ni-
vel de confianza hasta el 97 % (α = 0

03) hemos de tomar una muestra
l´ogicamente de mayor tama˜ no, N.
Un valor de N que satisface nuestros requerimientos con respecto al
error es:
N ≥ ˆ pˆ q
z
2
1−α/2
error
2
Si en un principio no tenemos una idea sobre que valores puede tomar
p, debemos considerar el peor caso posible, que es en el que se ha de estimar
el tama˜ no muestral cuando p = q = 1/2. As´ı:
N ≥
1
4
z
2
1−α/2
error
2
cuando no se tiene estimaci´on de p
Ejemplo
Se quiere estimar el resultado de un refer´endum mediante un sondeo, y
sin tener una idea sobre el posible resultado del mismo, se desea conocer el
tama˜ no de muestra que se ha de tomar para obtener un intervalo al 97 %
de confianza, con un error del 1
Soluci´on:
Como no se tiene una idea previa del posible resultado del refer´endum,
hay que tomar un tama˜ no de muestra, N, que se calcula mediante:
N ≥
1
4
z
2
0,985
0, 01
2
=
0, 25 2, 17
2
0, 01
2
= 11,773
As´ı para tener un resultado tan fiable, el n´ umero de personas a entre-
vistar debe ser muy elevado —lo que puede volver excesivamente costoso
198 Bioestad´ıstica: M´etodos y Aplicaciones
el sondeo.
8.3.3. Intervalo para la diferencia de dos proporciones
Vamos a considerar que tenemos dos poblaciones de modo que en cada
una de ellas estudiamos una v.a. dicot´omica (Bernoulli) de par´ametros res-
pectivos p
1
y p
2
. De cada poblaci´on vamos a extraer muestras de tama˜ no
n
1
y n
2

X
1
≡ X
11
, X
12
, . . . , X
1n
1

X
2
≡ X
21
, X
22
, . . . , X
2n
2
Entonces
X
1
=
n
1

i=1
X
1i
;B(n
1
, p
1
)
X
2
=
n
2

i=1
X
2i
;B(n
2
, p
2
)
Si las muestras son suficientemente grandes ocurre que una aproximaci´on
para un intervalo de confianza al nivel 1 − α para la diferencia de propor-
ciones de dos poblaciones es:
p
1
−p
2
∈ ( ˆ p
1
− ˆ p
2
) ±z
1−α/2

¸
ˆ p
1
ˆ q
1
n
1
+
ˆ p
2
ˆ q
2
n
2
Ejemplo
Se cree que la osteoporosis est´a relacionada con el sexo. Para ello se
elige una muestra de 100 hombres de m´as de 50 a˜ nos y una muestra de 200
mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres
con alg´ un grado de osteoporosis. ¿Qu´e podemos concluir con una confianza
del 95 %? Soluci´on:
8.3. INTERVALOS DE CONFIANZA PARA VARIABLES DICOT
´
OMICAS 199
Llamamos p
1
a la incidencia de la osteoporosis en las mujeress de m´as
de 50 a˜ nos y p
2
a la de los hombres. Calculemos un intervalo de confianza
para la diferencia (p
1
−p
2
). Si 0 no forma parte de dicho intervalo con una
confianza del 95 % podemos decir que p
1
es diferente a p
2
(con tal grado de
confianza, por supuesto).
La estimaci´on puntual insesgada que podemos hacer de ambos par´ame-
tros a partir de los datos muestrales son:
ˆ p
1
= 40/200 = 0, 2
ˆ p
2
= 10/100 = 0, 1
(p
1
−p
2
) = (0, 2 −0, 1) ±
_
0, 2 0, 8
200
+
0, 1 0, 9
100
= 0, 08
Es decir, enemos una confianza del 95 % en la afirmaci´on de que la dife-
rencia entre la incidencia de osteoporosis en mujeres y hombres est´a entre
0,02 (2 %) y 0,18 (18 %).
Obs´ervese que como 0 % no es un valor de dicho intervalo puede con-
cluirse con una confianza del 95 % que hay diferente incidencia de osteopo-
rosis en hombres que en mujeres para las personas de m´as de 50 a˜ nos. Esta
conclusi´on es algo m´as pobre de lo que hemos obtenido con el intervalo de
confianza, pero visto de esta manera, este ejemplo puede considerarse como
una introducci´on a los contrastes de hip´otesis.
200 Bioestad´ıstica: M´etodos y Aplicaciones
8.4. Problemas
Ejercicio 8.1. Se ha medido el volumen diario de bilis, expresado en litros,
en 10 individuos sanos, obteni´endose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
¿Cuanto vale la producci´on diaria media de bilis en individuos sanos supo-
niendo que la muestra ha sido obtenida por muestreo aleatorio simple sobre
una poblaci´on normal?
Ejercicio 8.2. La cantidad m´ınima requerida para que un anest´esico surta
efecto en una intervenci´on quir´ urgica fue por t´ermino medio de 50 mg, con
una desviaci´on t´ıpica de 10,2 mg, en una muestra de 60 pacientes. Obtener
un intervalo de confianza para la media al 99 %, suponiendo que la mues-
tra fue extra´ıda mediante muestreo aleatorio simple sobre una poblaci´on
normal.
Ejercicio 8.3. Un investigador est´a interesado en estimar la proporci´on de
muertes debidas a c´ancer de est´omago en relaci´on con el n´ umero de defun-
ciones por cualquier tipo de neoplasia. Su experiencia le indica que ser´ıa
sorprendente que tal proporci´on supere el valor de 1/3. ¿Qu´e tama˜ no de
muestra debe tomar para estimar la anterior proporci´on, con una confianza
del 99 %, para que el valor estimado no difiera del valor real en m´as de
0,03?.
Ejercicio 8.4. Se desea realizar una estimaci´on confidencial de la varianza
de la estatura de los ni˜ nos varones de 10 a˜ nos de una ciudad con una
confianza del 95 %. ¿Cu´al ser´a dicho intervalo si se toma una muestra de
101 ni˜ nos al azar, entre todos los que re´ unen las caracter´ısticas deseadas, y
medimos sus estaturas, y se obtienen las siguientes estimaciones puntuales:
x = 138, 6 cm, o
2
= 29, 16 cm
2
?
Ejercicio 8.5. Un cardi´ologo se encuentra interesado en encontrar l´ımites
de confianza al 90 %, para la presi´on sist´olica tras un cierto ejercicio f´ısico.
Obtenerlos si en 50 individuos se obtuvo x = 13, o = 3 y suponemos que
el comportamiento de la v.a. es normal.
8.4. PROBLEMAS 201
Ejercicio 8.6. En una muestra de 25 beb´es varones de 12 semanas de vida,
se obtuvo un peso medio de 5.900 gr y una desviaci´on t´ıpica de 94 gr.
1. Obtener un intervalo de confianza (al 95 %) para el peso medio po-
blacional.
2. ¿Cu´antos ni˜ nos habr´ıa que tomar para estimar dicha media con una
precisi´on de 15 gr?
Ejercicio 8.7. En un determinado servicio de odontolog´ıa se sabe que el
22 % de las visitas llevan consigo una extracci´on dentaria inmediata. En
cierto a˜ no, de 2.366 visitas, 498 dieron lugar a una extracci´on inmediata.
¿Entran en contradicci´on las cifras de ese a˜ no con el porcentaje establecido
de siempre?
Ejercicio 8.8. S´olo una parte de los pacientes que sufren un determinado
s´ındrome neurol´ogico consiguen una curaci´on completa; Si de 64 pacientes
observados se han curado 41, dar una estimaciones puntual y un intervalos
de la proporci´on de los que sanan. ¿Qu´e n´ umero de enfermos habr´ıa que
observar para estimar la proporci´on de curados con un error inferior a 0,05
y una confianza del 95 %?
Ejercicio 8.9. Se desea estimar el tiempo medio de sangr´ıa en fumadores de
m´as de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 a˜ nos,
con una precisi´on de 5 segundos. Ante la ausencia de cualquier informaci´on
acerca de la variabilidad del tiempo de sangr´ıa es este tipo de individuos,
se tom´o una muestra preliminar de 5 individuos, en los que se obtuvieron
los siguientes tiempos (en segundos):
97, 80, 67, 91, 73.
Determinar el tama˜ no m´ınimo de muestra, al 95 %, para cumplir el objetivo
anterior.
Ejercicio 8.10. En una determinada regi´on se tom´o una muestra aleatoria
de 125 individuos, de los cuales 12 padec´ıan afecciones pulmonares.
202 Bioestad´ıstica: M´etodos y Aplicaciones
1. Est´ımese la proporci´on de afecciones pulmonares en dicha regi´on.
2. Si queremos estimar dicha proporci´on con un error m´aximo del 4 %,
para una confianza del 95 %, ¿qu´e tama˜ no de muestra debemos to-
mar?
Ejercicio 8.11. En una muestra de tabletas de aspirinas, de las cuales
observamos su peso expresado en gramos, obtenemos:
1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2
Suponiendo la Normalidad para esta distribuci´on de pesos, determinar un
intervalo al 80 % de confianza para la varianza.
Ejercicio 8.12. Se quiere estimar la incidencia de la hipertensi´on arterial
en el embarazo. ¿Cuantas embarazadas tenemos que observar para, con
una confianza del 95 %, estimar dicha incidencia con un error del 2 % en los
siguientes casos:
1. Sabiendo que un sondeo previo se ha observado un 9 % de hipertensas.
2. Sin ninguna informaci´on previa.
Cap´ıtulo 9
Contrastes de hip´otesis
9.1. Introducci´on
Hasta ahora hemos estudiado c´omo a partir de una muestra de una
poblaci´on podemos obtener una estimaci´on puntual o bien establecer un
intervalo m´as o menos aproximado para encontrar los par´ametros que ri-
gen la ley de probabilidad de una v.a. definida sobre la poblaci´on. Es lo
que denomin´abamos estimaci´on puntual y estimaci´on confidencial respec-
tivamente.
Pueden presentarse en la pr´actica, situaciones en las que exista una
teor´ıa preconcebida relativa a la caracter´ıstica de la poblaci´on sometida
a estudio. Tal ser´ıa el caso, por ejemplo si pensamos que un tratamiento
nuevo puede tener un porcentaje de mejor´ıa mayor que otro est´andar, o
cuando nos planteamos si los ni˜ nos de las distintas comunidades espa˜ nolas
tienen la misma altura. Este tipo de circunstancias son las que nos llevan
al estudio de la parcela de la Estad´ıstica Inferencial que se recoge bajo el
t´ıtulo gen´erico de Contraste de Hip´otesis. Implica, en cualquier investi-
gaci´on, la existencia de dos teor´ıas o hip´otesis impl´ıcitas, que denominare-
mos hip´otesis nula e hip´otesis alternativa, que de alguna manera reflejar´an
esa idea a priori que tenemos y que pretendemos contrastar con la “rea-
lidad”. De la misma manera aparecen, impl´ıcitamente, diferentes tipos de
errores que podemos cometer durante el procedimiento. No podemos olvi-
203
204 Bioestad´ıstica: M´etodos y Aplicaciones
dar que, habitualmente, el estudio y las conclusiones que obtengamos para
una poblaci´on cualquiera, se habr´an apoyado exclusivamente en el an´alisis
de s´olo una parte de ´esta. De la probabilidad con la que estemos dispuestos
a asumir estos errores, depender´a, por ejemplo, el tama˜ no de la muestra re-
querida. Desarrollamos en este cap´ıtulo los contrastes de hip´otesis para los
par´ametros m´as usuales que venimos estudiando en los cap´ıtulos anteriores:
medias, varianzas y proporciones, para una o dos poblaciones. Los contras-
tes desarrollados en este cap´ıtulo se apoyan en que los datos de partida
siguen una distribuci´on normal.
Los contrastes de significaci´on se realizan:
• suponiendo a priori que la ley de distribuci´on de la poblaci´on es conocida.
• Se extrae una muestra aleatoria de dicha poblaci´on.
• Si la distribuci´on de la muestra es “diferente” de la distribuci´on
de probabilidad que hemos asignado a priori a la poblaci´on, concluimos
que probablemente sea err´onea la suposici´on inicial.
Ejemplo
Supongamos que debemos realizar un estudio sobre la altura media de
los habitantes de cierto pueblo de Espa˜ na. Antes de tomar una muestra,
lo l´ogico es hacer la siguiente suposici´on a priori, (hip´otesis que se desea
contrastar y que denotamos H
0
):
H
0
: La altura media no difiere de la del resto del pa´ıs.
Al obtener una muestra de tama˜ no n = 8, podr´ıamos encontrarnos ante
uno de los siguientes casos:
1. Muestra = ¦1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63¦
9.1. INTRODUCCI
´
ON 205
2. Muestra = ¦1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78¦
Intuitivamente, en el caso a ser´ıa l´ogico suponer que salvo que la muestra
obtenida sobre los habitantes del pueblo sea muy poco representativa
1
, la
hip´otesis H
0
debe ser rechazada. En el caso b tal vez no podamos afirmar
con rotundidad que la hip´otesis H
0
sea cierta, sin embargo no podr´ıamos
descartarla y la admitimos por una cuesti´on de simplicidad.
Este ejemplo sirve como introducci´on de los siguientes conceptos: En un
contraste de hip´otesis (tambi´en denominado test de hip´otesis o Contraste de
significaci´on) se decide si cierta hip´otesis H
0
que denominamos hip´otesis
nula puede ser rechazada o no a la vista de los datos suministrados por una
muestra de la poblaci´on. Para realizar el contraste es necesario establecer
previamente una hip´otesis alternativa (H
1
) que ser´a admitida cuando
H
0
sea rechazada. Normalmente H
1
es la negaci´on de H
0
, aunque esto no
es necesariamente as´ı.
El procedimiento general consiste en definir un estad´ıstico T relacio-
nado con la hip´otesis que deseamos contrastar. A ´este lo denominamos
estad´ıstico del contraste. A continuaci´on suponiendo que H
0
es verda-
dera se calcula un intervalo de denominado intervalo de aceptaci´on
2
de la
hip´otesis nula, (T
i
, T
s
) de manera que al calcular sobre la muestra T = T
exp
el criterio a seguir sea:
_
¸
_
¸
_
Si T
exp
∈ (T
i
, T
s
) =⇒ no rechazamos H
0
(⇒¸ rechazamos H
1
);
Si T
exp
/ ∈ (T
i
, T
s
) =⇒ rechazamos H
0
y aceptamos H
1
El intervalo de aceptaci´on o m´as precisamente, de no rechazo de la
hip´otesis nula, se establece fijando una cantidad α suficientemente peque˜ na
denominada nivel de significaci´on, de modo que la probabilidad de que el
estad´ıstico del contraste tome un valor fuera del mismo —regi´on cr´ıtica—
regi´on cr´ıtica ≡ ( = IR ¸ (T
i
, T
s
)
1
Esto ocurre con muy baja probabilidad en un muestreo aleatorio simple cuando el
n´ umero de observaciones es alto
2
Se entiende la palabra “aceptaci´on¸como en el sentido de “no rechazo”.
206 Bioestad´ıstica: M´etodos y Aplicaciones
cuando la hip´otesis nula es cierta sea inferior o al 100 α%; Esto se ha de
entender como sigue:
Si H
0
es correcta el criterio de rechazo s´olo se equivoca con probabilidad α,
que es la probabilidad de que una muestra ofrezca un valor del estad´ıstico
del contraste extra˜ no (en la regi´on cr´ıtica).
La decisi´on de rechazar o no la hip´otesis nula est´a al fin y al cabo basado en
la elecci´on de una muestra tomada al azar, y por tanto es posible cometer
decisiones err´oneas. Los errores que se pueden cometer se clasifican como
sigue:
Error de tipo I: Es el error que consiste en rechazar H
0
cuando es cierta. La probabili-
dad de cometer este error es lo que anteriormente hemos denominado
nivel de significaci´on. Es una costumbre establecida el denotarlo siem-
pre con la letra α
α = T
_
rechazar H
0
|H
0
es cierta
_
= T
_
aceptar H
1
|H
0
es cierta
_
.
Error de tipo II: Es el error que consiste en no rechazar H
0
cuando es falsa. La proba-
bilidad de cometer este error la denotamos con la letra β
β = T
_
no rechazar H
0
|H
0
es falsa
_ _
,= T
_
no rechazar H
0
|H
1
es cierta
_
.
_
9.1.1. Observaciones
1. Los errores de tipo I y II no est´an relacionados m´as que del si-
guiente modo: Cuando α decrece β crece. Por tanto no es posible
encontrar tests que hagan tan peque˜ nos como queramos ambos erro-
res simult´aneamente. De este modo es siempre necesario privilegiar
a una de las hip´otesis, de manera que no ser´a rechazada, a menos
que su falsedad se haga muy evidente. En los contrastes, la hip´otesis
privilegiada es H
0
que s´olo ser´a rechazada cuando la evidencia de su
falsedad supere el umbral del 100 (1 −α) %.
2. Al tomar α muy peque˜ no tendremos que β se puede aproximar a uno.
Lo ideal a la hora de definir un test es encontrar un compromiso sa-
9.1. INTRODUCCI
´
ON 207
tisfactorio entre α y β (aunque siempre a favor de H
0
). Denominamos
potencia de un contraste a la cantidad 1 −β, es decir
potencia del contraste ≡ 1 −β = T
_
rechazar H
0
|H
0
es falsa
_
no rechazar H
0
rechazar H
0
H
0
es cierta Correcto Error tipo I
Probabilidad 1 −α Probabilidad α
H
0
es falsa Error tipo II Correcto
Probabilidad β Probabilidad 1 −β
3. En el momento de elegir una hip´otesis privilegiada podemos en prin-
cipio dudar entre si elegir una dada o bien su contraria. Criterios a
tener en cuenta en estos casos son los siguientes:
Simplicidad cient´ıfica: A la hora de elegir entre dos hip´otesis
cient´ıficamente razonables, tomaremos como H
0
aquella que sea
m´as simple.
Las consecuencias de equivocarnos: Por ejemplo al juzgar el
efecto que puede causar cierto tratamiento m´edico que est´a en fa-
se de experimentaci´on, en principio se ha de tomar como hip´ote-
sis nula aquella cuyas consecuencias por no rechazarla siendo
falsa son menos graves, y como hip´otesis alternativa aquella en
la que el aceptarla siendo falsa trae peores consecuencias. Es
decir,
_
¸
_
¸
_
H
0
: el paciente empeora o queda igual ante el tratamiento
H
1
: el paciente mejora con el tratamiento
Otro ejemplo claro es cuando acaban de instalar un nuevo ascen-
sor en el edificio que habitamos y queremos saber si el ascensor
caer´a o no al vac´ıo cuando nosotros estemos dentro. Una persona
prudente es la que espera a que un n´ umero suficiente de vecinos
suyos hayan usado el ascensor (muestra aleatoria) y realiza un
test del tipo
208 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
_
¸
_
H
0
: el ascensor se caer´a
H
1
: el ascensor no se caer´a
y s´olo aceptar´a la hip´otesis alternativa para α ≈ 0 aunque para
ello tenga que ocurrir que β ≈ 1, ya que las consecuencias del
error de tipo I (ir al hospital) son mucho m´as graves que las del
error del tipo II (subir a pie varios pisos).
Es decir a la hora de decidirse por una de las dos hip´otesis no
basta con elegir la m´as probable (nadie dir´ıa “voy a tomar el
ascensor pues la probabilidad de que no se caiga es del 60 %”).
Hay que elegir siempre la hip´otesis H
0
a menos que la evidencia
a favor de H
1
sea muy significativa.
Volviendo al ejemplo de la estatura de los habitantes de un pueblo, un
estad´ıstico de contraste adecuado es X. Si la hip´otesis H
0
fuese cierta se
tendr´ıa que
X;N
_
µ,
σ
2
n
_
(suponiendo claro est´a que la distribuci´on de las alturas de los espa˜ noles
siga una distribuci´on normal de par´ametros conocidos, por ejemplo
3
N
_
µ = 1, 74, σ
2
= 10
2
_
Denotemos mediante µ
0
el verdadero valor de la media en el pueblo que
estudiamos. Como la varianza de X es peque˜ na para grandes valores de n,
lo l´ogico es pensar que si el valor obtenido con la muestra X = x est´a muy
alejado de µ = 1, 74 (regi´on cr´ıtica), entonces
o bien la muestra es muy extra˜ na si H
0
es cierta (probabilidad α);
3
Estos valores de la media y la desviaci´on t´ıpica no han sido tomados de ning´ un
estudio.
9.1. INTRODUCCI
´
ON 209
o bien la hip´otesis H
0
no es cierta.
Concretamente en el caso a, donde la muestra es
Muestra = ¦1, 50; 1, 52; 1, 48; 1, 55; 1, 60; 1, 49; 1, 55; 1, 63¦
el contraste de hip´otesis conveniente es:
_
¸
_
¸
_
H
0
: µ = µ
0
H
1
: µ > µ
0
En este caso H
1
no es estrictamente la negaci´on de H
0
. Esto dar´a lugar
a un contraste unilateral, que son aquellos en los que la regi´on cr´ıtica
est´a formada por un s´olo intervalo:
Intervalo de no rechazo de H
0
≡ (T
i
, +∞)
Regi´on cr´ıtica ≡ (−∞, T
i
]
En el caso b, donde la muestra es
Muestra = ¦1, 65; 1, 80; 1, 73; 1, 52; 1, 75; 1, 65; 1, 75; 1, 78¦
el contraste de hip´otesis que deber´ıamos realizar es:
_
¸
_
¸
_
H
0
: µ = µ
0
H
1
: µ ,= µ
0
Como vemos, ahora s´ı se puede decir que H
1
es la negaci´on de H
0
. Esto
es un contraste bilateral, que son aquellos en los que la regi´on cr´ıtica
est´a formada por dos intervalos separados:
Intervalo donde no se rechaza H
0
≡ (T
i
, T
s
)
Regi´on cr´ıtica ≡ (−∞, T
i
] ∪ [T
s
, +∞)
Los ´ ultimos conceptos que introducimos son:
210 Bioestad´ıstica: M´etodos y Aplicaciones
Hip´otesis simple: Aquella en la que se especifica un ´ unico valor del par´ametro. Este es el
caso de las hip´otesis nulas en los dos ´ ultimos contrastes mencionados.
Hip´otesis compuesta: Aquella en la que se especifica m´as de un posible valor del par´ametro.
Por ejemplo tenemos que son compuestas las hip´otesis alternativas de
esos mismos contrastes.
9.2. Contrastes param´etricos en una poblaci´on nor-
mal
Supongamos que la caracter´ıstica X que estudiamos sobre la poblaci´on
sigue una distribuci´on normal y tomamos una muestra de tama˜ no n

X ≡ X
1
, . . . , X
n
mediante muestreo aleatorio simple. Vamos a ver cuales son las t´ecnicas
para contrastar hip´otesis sobre los par´ametros que rigen X. Vamos a co-
menzar haciendo diferentes tipos de contrastes para medias y despu´es sobre
las varianzas y desviaciones t´ıpicas.
9.2.1. Contrastes para la media
Test de dos colas con varianza desconocida
Sea X;N
_
µ, σ
2
_
donde ni µ ni σ
2
son conocidos y queremos realizar
el contraste
_
¸
_
¸
_
H
0
: µ = µ
0
H
1
: µ ,= µ
0
Al no conocer σ
2
va a ser necesario estimarlo a partir de su estimador inses-
gado: la cuasivarianza muestral,
ˆ
o
2
. Por ello la distribuci´on del estimador
del contraste ser´a una t de Student, que ha perdido un grado de libertad:
H
0
cierta ⇐⇒ T
exp
=
X −µ
0
ˆ
S

n
;t
n−1
9.2. CONTRASTES PARAM
´
ETRICOS EN UNA POBLACI
´
ON NORMAL211
Consideramos como regi´on cr´ıtica (, a las observaciones de T
exp
extremas
( =
_
T
exp
< −t
n−1,1−α/2
´o t
n−1,1−α/2
< T
exp
_
Observaci´on
Para dar una forma homog´enea a todos los contrastes de hip´otesis es
costumbre denominar al valor del estad´ıstico del contraste calculado sobre
la muestra como valor experimental y a los extremos de la regi´on cr´ıtica,
como valores te´oricos. Definiendo entonces
T
exp
=
X −µ
0
ˆ
S

n
T
teo
= t
n−1,1−α/2
el resultado del contraste es el siguiente:
_
¸
_
¸
_
si [T
exp
[ ≤ T
teo
=⇒ no rechazamos H
0
;
si [T
exp
[ > T
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Tests de una cola con varianza desconocida
Si realizamos el contraste
_
¸
_
¸
_
H
0
: µ = µ
0
H
1
: µ < µ
0
_
_
_o bien
_
¸
_
¸
_
H
0
: µ ≥ µ
0
H
1
: µ < µ
0
_
_
_
por analog´ıa con el contraste bilateral, definiremos
T
exp
=
X −µ
0
ˆ
S

n
T
teo
= t
n−1,1−α
212 Bioestad´ıstica: M´etodos y Aplicaciones
−3 −2 −1 0 1 2 3
t
n−1, 1−α 2 t
n−1, α 2
No hay evidencia contra H
0
Figura 9.1: Sombreada apreciamos la regi´on cr´ıtica sombreada para el con-
traste bilateral de una media.
y el criterio para contrastar al nivel de significaci´on α es
_
¸
_
¸
_
si T
exp
≥ −T
teo
=⇒ no rechazamos H
0
;
si T
exp
≤ −T
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Para el contraste contrario,
_
¸
_
¸
_
H
0
: µ = µ
0
H
1
: µ > µ
0
_
_
_o bien
_
¸
_
¸
_
H
0
: µ ≤ µ
0
H
1
: µ > µ
0
_
_
_
definimos T
exp
y T
teo
como anteriormente y el criterio a aplicar es (v´ease la
figura 9.3):
_
¸
_
¸
_
si T
exp
≤ T
teo
=⇒ no rechazamos H
0
;
si T
exp
> T
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
9.2. CONTRASTES PARAM
´
ETRICOS EN UNA POBLACI
´
ON NORMAL213
−3 −2 −1 0 1 2 3
t
n−1, 1−α
No hay evidencia contra H
0
Figura 9.2: Regi´on cr´ıtica a la derechapara el contrastes unilaterales de una
media.
Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distri-
buyen de modo gaussiano. Deseamos contrastar con un nivel de significaci´on
de α = 0, 05 si la altura media es diferente de 174 cm. Para ello nos basamos
en un estudio en el que con una muestra de n = 25 personas se obtuvo:
x = 170 cm
o = 10 cm
Soluci´on:
El contraste que se plantea es:
_
¸
_
¸
_
H
0
: µ = 174 cm
H
1
: µ ,= 174 cm
214 Bioestad´ıstica: M´etodos y Aplicaciones
−3 −2 −1 0 1 2 3
t
n−1, α
No hay evidencia contra H
0
Figura 9.3: Regi´on cr´ıtica a la izquierda para el contrastes unilateral de una
media.
La t´ecnica a utilizar consiste en suponer que H
0
es cierta y ver si el valor
que toma el estad´ıstico
T
exp
=
x −174
ˆ
S

n
;t
n−1
= t
24
es “razonable.
o
no bajo esta hip´otesis, para el nivel de significaci´on dado.
Aceptaremos la hip´otesis alternativa (y en consecuencia se rechazar´a la
hip´otesis nula) si no lo es, es decir, si
[T
exp
[ ≥ t
24;1−α/2
= t
24,0,975
= 2, 06
Para ello procedemos al c´alculo de T
exp
:
o = 10 =⇒
ˆ
o = o
_
n
n −1
= 10
_
25
24
= 10

206
9.2. CONTRASTES PARAM
´
ETRICOS EN UNA POBLACI
´
ON NORMAL215
[T
exp
[ =
[170 −174[
10,206

25
= [−1, 959[ ≤ t
24;0,975
= 2, 06
Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no
es 174, no hay una evidencia suficiente para rechazar esta hip´otesis al nivel
de confianza del 95 %. Es decir, no se rechaza H
0
.
Figura 9.4: El valor de T
exp
no est´a en la regi´on cr´ıtica (aunque ha quedado
muy cerca), por tanto al no ser la evidencia en contra de H
0
suficientemente
significativa, ´esta hip´otesis no se rechaza.
Ejemplo
Consideramos el mismo ejemplo de antes. Visto que no hemos podido
rechazar el que la altura media de la poblaci´on sea igual a 174 cm, deseamos
realizar el contraste sobre si la altura media es menor de 174 cm.
Soluci´on:
Ahora el contraste es
216 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
_
¸
_
H
0
: µ ≥ 174 cm
H
1
: µ < 174 cm
Para realizar este contraste, consideramos el caso l´ımite y observamos si la
hip´otesis nula debe ser rechazada o no. Este es:
_
¸
_
¸
_
H

0
: µ = 174 cm
H
1
: µ < 174 cm
De nuevo la t´ecnica a utilizar consiste en suponer que H

0
es cierta y ver si
el valor que toma el estad´ıstico
T
exp
=
x −174
ˆ
S

n
;t
n−1
= t
24
es aceptable bajo esta hip´otesis, con un nivel de confianza del 95 %. Se
aceptar´a la hip´otesis alternativa (y en consecuencia se rechazar´a la hip´otesis
nula) si
T
exp
≤ t
24;α
= −t
24;1−α
= −t
24;0,95
= −1, 71
Recordamos que el valor de T
exp
obtenido fue de
T
exp
= −1, 959 < t
24;0,05
= −t
24;0,95
= −1, 71
Por ello hemos de aceptar la hip´otesis alternativa
Es importante observar este hecho curioso: Mientras que en el ejemplo
anterior no exist´ıa una evidencia significativa para decir que µ ,= 174 cm,
el “simple hecho”de plantearnos un contraste que parece el mismo pero en
versi´on unilateral nos conduce a rechazar de modo significativo que µ = 174
y aceptamos que µ < 174 cm. Es por ello que podemos decir que no s´olo
9.2. CONTRASTES PARAM
´
ETRICOS EN UNA POBLACI
´
ON NORMAL217
Figura 9.5: El valor te T
exp
est´a en la regi´on cr´ıtica, por tanto existe una
evidencia significativa en contra de H
0
, y a favor de H
1
.
H

0
es rechazada, sino tambi´en H
0
. Es en este sentido en el que los tests
con H
0
y H

0
los consideramos equivalentes:
_
¸
_
¸
_
H

0
: µ = 174 cm
H
1
: µ < 174 cm
⇐⇒
_
¸
_
¸
_
H
0
: µ ≥ 174 cm
H
1
: µ < 174 cm
218 Bioestad´ıstica: M´etodos y Aplicaciones
9.2.2. Contrastes para la varianza
Consideremos que el car´acter que estudiamos sobre la poblaci´on sea una
v.a. normal cuya media y varianza son desconocidas. Vamos a contrastar
la hip´otesis
H
0
: σ
2
= σ
2
0
, donde σ
2
0
es un valor prefijado
frente a otras hip´otesis alternativas que podr´an dar lugar a contrastes bila-
terales o unilaterales. La t´ecnica consiste en utilizar el teorema de Cochran,
para observar que el siguiente estad´ıstico experimental que utiliza el esti-
mador insesgado de la varianza, posee una distribuci´on χ
2
, con n−1 grados
de libertad:
H
0
cierta =⇒χ
2
exp
= (n −1)
ˆ
o
2
σ
2
0

2
n−1
Entonces construimos las regiones cr´ıticas que correspondan a las hip´otesis
alternativas que se formulen en cada caso atendiendo a la ley de distribuci´on
χ
2
.
Contraste bilateral
Cuando el contraste a realizar es
_
¸
_
¸
_
H
0
: σ
2
= σ
2
0
H
1
: σ
2
,= σ
2
0
definimos
χ
2
exp
= (n −1)
ˆ
o
2
σ
2
0
a
teo
= χ
2
n−1,α/2
b
teo
= χ
2
n−1,1−α/2
9.3. CONTRASTES DE UNA PROPORCI
´
ON 219
y el criterio que suministra el contraste es
_
¸
_
¸
_
si a
teo
≤ χ
2
exp
≤ b
teo
=⇒ no rechazamos H
0
;
si χ
2
exp
< a
teo
´o χ
2
exp
> b
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Contrastes unilaterales
Para un contraste de significaci´on al nivel α del tipo
_
¸
_
¸
_
H
0
: σ
2
= σ
2
0
H
1
: σ
2
< σ
2
0
_
_
_o bien
_
¸
_
¸
_
H
0
: σ
2
≥ σ
2
0
H
1
: σ
2
< σ
2
0
_
_
_
se tiene que el resultado del mismo es:
a
teo
= χ
2
n−1,α
−→
_
¸
_
¸
_
si a
teo
≤ χ
2
exp
=⇒ no rechazamos H
0
;
si χ
2
exp
< a
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Para el contraste contrario tenemos la formulaci´on an´aloga
_
¸
_
¸
_
H
0
: σ
2
= σ
2
0
H
1
: σ
2
> σ
2
0
_
_
_o bien
_
¸
_
¸
_
H
0
: σ
2
≤ σ
2
0
H
1
: σ
2
> σ
2
0
_
_
_
calculamos el extremo inferior de la regi´on cr´ıtica en una tabla de la distri-
buci´on χ
2
n−1
b
teo
= χ
2
n−1,1−α
−→
_
¸
_
¸
_
si χ
2
exp
≤ b
teo
=⇒ no rechazamos H
0
;
si b
teo
< χ
2
exp
=⇒ rechazamos H
0
y aceptamos H
1
.
9.3. Contrastes de una proporci´on
Supongamos que poseemos una sucesi´on de observaciones independien-
tes, de modo que cada una de ellas se comporta como una distribuci´on de
Bernoulli de par´ametro p:
220 Bioestad´ıstica: M´etodos y Aplicaciones

X ≡ X
1
, . . . , X
i
, . . . , X
n
, donde X
i
;Ber (p)
La v.a. X, definida como el n´ umero de ´exitos obtenidos en una muestra de
tama˜ no n es por definici´on una v.a. de distribuci´on binomial:
X =
n

i=1
X
i
;B(n, p)
La proporci´on muestral (estimador del verdadero par´ametro p a partir de
la muestra) es
ˆ
P =
X
n
Nos interesamos en el contraste de significaci´on de
H
0
: p = p
0
, donde p
0
es un valor prefijado
frente a otras hip´otesis alternativas. Para ello nos basamos en un estad´ısti-
co (de contraste) que ya fue considerado anteriormente en la construcci´on
de intervalos de confianza para proporciones y que sigue una distribuci´on
aproximadamente normal para tama˜ nos muestrales suficientemente gran-
des:
ˆ
P =
X
n

;N
_
p,
pq
n
_
Si la hip´otesis H
0
es cierta se tiene
ˆ
P =
X
n

;N
_
p
0
,
p
0
q
0
n
_
⇐⇒
ˆ
P −p
0
_
p
0
q
0
n
= Z
exp

;N(0, 1)
9.3. CONTRASTES DE UNA PROPORCI
´
ON 221
Contraste bilateral
Para el contraste
_
¸
_
¸
_
H
0
: p = p
0
H
1
: p ,= p
0
extraemos una muestra y observamos el valor X = x ⇒ ˆ p =
x
n
. Entonces
se define
Z
exp
=
ˆ p −p
0
_
p
0
q
0
n
Z
teo
= z
1−α/2
siendo el criterio de aceptaci´on o rechazo de la hip´otesis nula el que refleja
lafigura 9.6:
_
¸
_
¸
_
si [Z
exp
[ ≤ Z
teo
=⇒ aceptamos H
0
;
si [Z
exp
[ > Z
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Contrastes unilaterales
Consideremos un contraste del tipo
_
¸
_
¸
_
H
0
: p = p
0
H
1
: p < p
0
_
_
_o bien
_
¸
_
¸
_
H
0
: p ≥ p
0
H
1
: p < p
0
_
_
_
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
Z
exp
=
ˆ p −p
0
_
p
0
q
0
n
Z
teo
= z
α

_
¸
_
¸
_
si Z
exp
≤ Z
teo
=⇒ rechazamos H
0
y aceptamos H
1
;
si Z
exp
> Z
teo
=⇒ no rechazamos H
0
.
222 Bioestad´ıstica: M´etodos y Aplicaciones
−3 −2 −1 0 1 2 3
No hay evidencia contra H
0
z
1−α 2 z
α 2
N(0, 1)
Figura 9.6: Contraste bilateral de una proporci´on.
Para el test unilateral contrario, se tiene la expresi´on sim´etrica
_
¸
_
¸
_
H
0
: p = p
0
H
1
: p > p
0
_
_
_o bien
_
¸
_
¸
_
H
0
: p ≤ p
0
H
1
: p > p
0
_
_
_
Luego
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
Z
exp
=
ˆ p −p
0
_
p
0
q
0
n
Z
teo
= z
1−α

_
¸
_
¸
_
si Z
exp
≤ Z
teo
=⇒ no rechazamos H
0
;
si Z
exp
> Z
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Ejemplo
Se cree que determinada enfermedad se presenta en mayor medida en
hombres que en mujeres. Para ello se elige una muestra aleatoria de 100 de
9.3. CONTRASTES DE UNA PROPORCI
´
ON 223
−3 −2 −1 0 1 2 3
N(0, 1)
No hay evidencia contra H
0
z
α
Figura 9.7: Contraste unilateral cuando se tiene H
0
: p ≥ p
0
estos enfermos y se observa que 70 son hombres. ¿Qu´e podemos concluir?
Soluci´on: Sea p la proporci´on de hombres que existen entre los enfermos.
Queremos encontrar evidencia a favor (H
1
) de que p > 1/2, pero nuestra
hip´otesis de partida (mientras no tengamos evidencia en contra) es que
p = 1/2 (H
0
). Es decir, plantemos el siguiente contraste unilateral para
una proporci´on:
_
¸
_
¸
_
H
0
: p = 1/2
H
1
: p > 1/2
La estimaci´on puntual de p es ˆ p = 70/100 = 0, 7. El estad´ıstico que
usamos para el contraste es:
Z =
ˆ p −p
_
pq/n
;N(0, 1)
Est´a claro que se obtien mayor evidencia a favor de H
1
cuando los valores
de ˆ p se acercan a 1, o lo que es lo mismo, cuando Z se hace “suficientemente
grande”. Dicho de otro modo, los valores cr´ıticos de Z (los que nos conducen
224 Bioestad´ıstica: M´etodos y Aplicaciones
a rechazar H
0
y aceptar H
1
son los de la cola de la derecha de la distribuci´on
N(0, 1).
Si elegimos α = 5 %, los valores cr´ıticos son los que est´an situados a la
derecha del percentil 95 de esta distribuci´on, es decir, los valores superiores
a z
teo
= z
1−α
= 1, 96.
Veamos si el valor experimental del estad´ıstico (el calculado a partir de
la muestra si suponemos cierta H
0
) supera o no dicho valor:
Z
exp
=
ˆ p −p
_
pq/n
=
0, 7 −0, 5
_
0, 5 0, 5/100
= 4
Como se aprecia, Z
e
xp entra ampliamente dentro de la regi´on cr´ıtica, por
tanto hemos de concluir con el rechazo de la hip´otesis nula y la aceptaci´on
de la hip´otesis alternativa.
Resumamos el ejemplo con otras palabras: Si la hip´otesis nula fuese
cierta, deber´ıamos esperar que el valor del estad´ıstico Z no fuese “demasia-
do grande”. Por tanto como hemos obtenido un valor “grande” del mismo,
debemos concluir que la hip´otesis de partida (H
0
) ha de ser rechazada. El
valor z
teo
se calcula exclusivamente a partir de α, y nos sirve para saber a
que nos referimos por un valor “demasiado grande” para Z.
9.4. Contrastes para la diferencia de medias apa-
readas
Las muestras apareadas aparecen como distintas observaciones realiza-
das sobre los mismos individuos. Un ejemplo de observaciones apareadas
consiste en considerar a un conjunto de n personas a las que se le aplica un
tratamiento m´edico y se mide por ejemplo el nivel de insulina en la sangre
antes (X) y despu´es del mismo (Y )
Paciente x
i
y
i
d
i
1 150 120 30
2 180 130 50
. . . . . . . . . . . .
n 140 90 50
9.4. CONTRASTES PARA LA DIFERENCIA DE MEDIAS APAREADAS225
No es posible considerar a X e Y como variables independientes ya
que va a existir una dependencia clara entre las dos variables. Si queremos
contrastar el que los pacientes han experimentado o no una mejor´ıa con
el tratamiento, llamemos d
i
a la diferencia entre las observaciones antes y
despu´es del tratamiento
d
i
= x
i
−y
i
Supongamos que la v.a. que define la diferencia entre el antes y despu´es del
tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media
y varianza son desconocidas
d;N
_
µ
d
, σ
2
d
_
Si queremos contrastar la hip´otesis de que el tratamiento ha producido
cierto efecto ∆
H
0
: µ
d
= ∆,
en el caso en que H
0
fuese cierta tendr´ıamos que el estad´ıstico de contraste
que nos conviene es
T
exp
=
d −∆
1

n
ˆ
o
d
;t
n−1
donde d es la media muestral de las diferencias d
i
y
ˆ
o
d
es la cuasivarianza
muestral de las mismas. El tipo de contraste ser´ıa entonces del mismo tipo
que el realizado para la media con varianza desconocida.
Contraste bilateral
Consideramos el contraste de tipo
_
¸
_
¸
_
H
0
: µ
d
= ∆
H
1
: µ
d
,= ∆
226 Bioestad´ıstica: M´etodos y Aplicaciones
Entonces se define
T
exp
=
d −∆
1

n
ˆ
o
d
y se rechaza la hip´otesis nula cuando T
exp
< −t
n−1,1−α/2
´o T
exp
> t
n−1,1−α/2
.
Contrastes unilaterales
Si el contraste es
_
¸
_
¸
_
H
0
: µ
d
= ∆
H
1
: µ
d
< ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: µ
d
≥ ∆
H
1
: µ
d
< ∆
_
_
_
entonces se rechaza H
0
si T
exp
< −t
n−1,1−α
. Para el test contrario
_
¸
_
¸
_
H
0
: µ
d
= ∆
H
1
: µ
d
> ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: µ
d
≤ ∆
H
1
: µ
d
> ∆
_
_
_
se rechaza H
0
si T
exp
> t
n−1,1−α
.
Ejemplo
Se pretende demostrar que cierto tratamiento practicado durante un
mes, ayuda a reducir el colesterol. Para ello se reliza un estudio con una
muestra aleatoria simple de 10 personas. Los resultados se muestran a con-
tinuaci´on.
Antes 200 210 330 240 260 300 245 210 190 225
Despu´es 150 200 275 250 200 250 200 180 190 205
¿Que podemos concluir de estos datos.
Soluci´on: Obs´ervese que las mediciones se realizan sobre las mismas
personas, por tanto no tenemos dos muestras aleatorias independientes,
sino una sola, en la cual lo que nos interesa es la diferencia producida
entre el colesterol antes del tratamiento y despu´es del mismo. Para ello
9.4. CONTRASTES PARA LA DIFERENCIA DE MEDIAS APAREADAS227
introducimos una nueva variable que expresa la diferencia existente entre
el colesterol antes del tratamiento y despu´es del mismo:
d = X
ant
−X
des
Antes 200 210 330 240 260 300 245 210 190 225
Despu´es 150 200 275 250 200 250 200 180 190 205
Diferencia 50 10 55 -10 60 50 45 30 0 20
Encontrar evidencia a favor de que el tratamiento surgen el efecto desea-
do (baja el colesterol) es lo mismo que encontrar evidencia estad´ısticamente
significativa en el contraste:
_
¸
_
¸
_
H
0
: µ
d
= 0
H
1
: µ
d
> 0
Esto es de nuevo un contraste para una media, que se realiza sobre la
variable diferencia. El estad´ıstico que usamos es:
T
exp
=
d −µ
d
ˆ
S
d

n
;t
n−1
= t
9
Si d es “muy grande” deberemos concluir que la hip´otesis H
1
es correcta,
lo que equivale a decir que la regi´on cr´ıtica del contraste est´a en la cola
de la derecha de la distribuci´on t
9
. Si elegimos un nivel de significaci´on
α = 0, 05, los valores cr´ıticos del contraste son los que superan al percentil
95 de la distribuci´on mencionada, es decir, son los que superan la cantidad
T
teo
= T
9;0,95
= 1, 8331.
Para ver si T
exp
supera el valor te´orico hemos de calcular previamente a
partir de la muestra las estimaciones insesgadas de la media y la desviaci´on
t´ıpica:
d = 31
ˆ
o
d
= 7, 43
228 Bioestad´ıstica: M´etodos y Aplicaciones
Luego si suponemos que la hip´otesis nula es cierta y que la variable dife-
rencia sigue una distribuci´on normal de par´ametros desconocidos, tenemos:
T
exp
=
31 −0
7, 43/

10
= 13, 19
El valor experimental se encuentra claramente en la regi´on cr´ıtica del
contraste (T
exp
> T
teo
) por tanto concluimos que existe evidencia estad´ısti-
camente significativa en contra de la hip´otesis nula y a favor de la hip´otesis
alternativa (al menos con un nivel de significaci´on del 5 %).
9.5. Contrastes de dos distribuciones normales in-
dependientes
Consideramos a lo largo de toda esta secci´on a dos poblaciones normales
que representamos mediante
X
1
;N
_
µ
1
, σ
2
1
_
X
2
;N
_
µ
2
, σ
2
2
_
De las que de modo independiente se extraen muestras de tama˜ no respectivo
n
1
y n
2
. Los tests que vamos a realizar est´an relacionados con la diferencias
existentes entre ambas medias o los cocientes de sus varianzas.
9.5.1. Contraste de medias con varianzas conocidas
De manera similar al caso del contraste para una media, queremos en
esta ocasi´on contrastar la hip´otesis de que las dos poblaciones (cuyas va-
rianzas suponemos conocidas) s´olo difieren en una cantidad ∆
H
0
: µ
1
−µ
2
= ∆
frente a hip´otesis alternativas que dar´an lugar a contrastes unilaterales o bi-
laterales como veremos m´as tarde. Para ello nos basamos en la distribuci´on
del siguiente estad´ıstico de contraste:
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 229
H
0
cierta =⇒
_
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
_
X
1
;N
_
µ
1
,
σ
2
1
n
1
_
X
2
;N
_
µ
2
,
σ
2
2
n
2
_
=⇒ X
1
−X
2
;N
_
∆,
σ
2
1
n
1
+
σ
2
2
n
2
_
⇐⇒ Z =
(X
1
−X
2
) −∆
_
σ
2
1
n
1
+
σ
2
2
n
2
;N(0, 1)
Contraste bilateral
Consideremos en primer lugar el contraste de dos colas
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= ∆
H
1
: µ
1
−µ
2
,= ∆
Se define entonces
Z
exp
=
(X
1
−X
2
) −∆
_
σ
2
1
n
1
+
σ
2
2
n
2
Z
teo
= z
1−α/2
y el test consiste en
_
¸
_
¸
_
si [Z
exp
[ ≤ Z
teo
=⇒ no rechazamos H
0
;
si [Z
exp
[ > Z
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
230 Bioestad´ıstica: M´etodos y Aplicaciones
Contrastes unilaterales
Para el test
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= ∆
H
1
: µ
1
−µ
2
< ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: µ
1
−µ
2
≥ ∆
H
1
: µ
1
−µ
2
< ∆
_
_
_
el contraste consiste en
Z
teo
= z
α
= −z
1−α

_
¸
_
¸
_
si Z
exp
≥ Z
teo
=⇒ no rechazamos H
0
;
si Z
exp
< Z
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
y para el contraste de significaci´on contrario
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= ∆
H
1
: µ
1
−µ
2
> ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: µ
1
−µ
2
≤ ∆
H
1
: µ
1
−µ
2
> ∆
_
_
_
se tiene
Z
teo
= z
1−α

_
¸
_
¸
_
si Z
exp
≤ Z
teo
=⇒ no rechazamos H
0
;
si Z
exp
> Z
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 231
9.5.2. Contraste de medias homoced´aticas
Ahora consideramos el problema de contrastar
H
0
: µ
1
−µ
2
= ∆
cuando s´olo conocemos que las varianzas de ambas poblaciones son iguales,
pero desconocidas. El estad´ıstico que usaremos para el contraste fue ya
introducido en la relaci´on (8.2), pues si suponemos que H
0
es cierta se
tiene
T
exp
=
(X
1
−X
2
) −(µ
1
−µ
2
)
ˆ
o
_
1
n
1
+
1
n
2
;t
n
1
+n
2
−2
donde
ˆ
o
2
es la cuasivarianza muestral ponderada de
ˆ
o
2
1
y
ˆ
o
2
2
ˆ
o
2
=
(n
1
−1)
ˆ
o
2
1
+ (n
2
−1)
ˆ
o
2
2
n
1
+n
2
−2
Obs´ervese que se han perdido dos grados de libertad a causa de la estima-
ci´on de σ
2
1
= σ
2
2
mediante
ˆ
o
2
1
y
ˆ
o
2
2
.
Contraste bilateral
Para el contraste de significaci´on
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= ∆
H
1
: µ
1
−µ
2
,= ∆
se tiene como en casos anteriores que el contraste adecuado consiste en
definir
T
exp
=
(X
1
−X
2
) −(µ
1
−µ
2
)
ˆ
o
_
1
n
1
+
1
n
2
T
teo
= t
n
1
+n
2
−2,1−α/2
232 Bioestad´ıstica: M´etodos y Aplicaciones
y rechazar o admitir la hip´otesis nula siguiendo el criterio
_
¸
_
¸
_
si [T
exp
[ ≤ T
teo
=⇒ no rechazamos H
0
;
si [T
exp
[ > T
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
Contrastes unilaterales
Cuando el contraste es unilateral del modo
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= ∆
H
1
: µ
1
−µ
2
< ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: µ
1
−µ
2
≥ ∆
H
1
: µ
1
−µ
2
< ∆
_
_
_
el contraste se realiza siguiendo el mismo proceso que en otros realizados
anteriormente, lo que nos lleva a
T
teo
= −t
n
1
+n
2
−2,1−α

_
¸
_
¸
_
si T
exp
≥ T
teo
=⇒ no rechazamos H
0
;
si T
exp
< T
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
y cuando el contraste de significaci´on es el contrario
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= ∆
H
1
: µ
1
−µ
2
> ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: µ
1
−µ
2
≤ ∆
H
1
: µ
1
−µ
2
> ∆
_
_
_
del mismo modo
T
teo
= t
n
1
+n
2
−2,1−α

_
¸
_
¸
_
si T
exp
≤ T
teo
=⇒ no rechazamos H
0
;
si T
exp
> T
teo
=⇒ rechazamos H
0
y aceptamos H
1
.
9.5.3. Contraste de medias no homoced´aticas
Consideramos el contraste
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 233
H
0
: µ
1
−µ
2
= ∆
en el caso m´as problem´atico, es decir cuando s´olo conocemos de las dos
poblaciones que su distribuci´on es normal, y que sus varianzas no son cono-
cidas y significativamente diferentes. En este caso el estad´ıstico de contraste
tendr´a una ley de distribuci´on muy particular. Consistir´a en una distribu-
ci´on t de Student, con un n´ umero de grados de libertad que en lugar de
depender de modo determinista de la muestra (a trav´es de su tama˜ no),
depende de un modo aleatorio mediante las varianzas muestrales. Concre-
tamente, el estad´ıstico que nos interesa es
T =
(X
1
−X
2
) −∆
¸
ˆ
o
2
1
n
1
+
ˆ
o
2
2
n
2
;t
f
donde f es el n´ umero de grados de libertad que se calcula mediante la
f´ormula de Welch
f =
_
ˆ
o
2
1
n
1
+
ˆ
o
2
2
n
2
_
2
1
n
1
+ 1
_
ˆ
o
2
1
n
1
_
2
+
1
n
2
+ 1
_
ˆ
o
2
2
n
2
_
2
−2
No desarrollamos en detalle los c´alculos a realizar, pues la t´ecnica para
efectuar los contrastes son an´alogos a los vistos anteriormente cuando las
varianzas son desconocidas e iguales.
Observaci´on
Si lo que pretendemos contrastar es si las medias poblacionales de dos
muestras independientes obtenidas de poblaciones normales son id´enticas,
esto se reduce a los casos anteriores tomando ∆ = 0, es decir, realizando el
contraste:
234 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= 0
H
1
: µ
1
−µ
2
,= 0
9.5.4. Contrastes de la raz´on de varianzas
Consideramos dos muestras independientes de dos poblaciones que se
distribuyen normalmente (cuyas medias y varianzas son desconocidas). Va-
mos a abordar cuestiones relacionadas con saber si las varianzas de ambas
poblaciones son las mismas, o si la raz´on (cociente) entre ambas es una
cantidad conocida, R. La igualdad entre las dos varianzas puede escribirse
σ
2
1
− σ
2
2
= 0 o bien, la existencia de una diferencia entre ambas (∆), del
modo σ
2
1
−σ
2
2
= ∆. Este modo de escribir la diferencia entre varianzas (que
era el adecuado para las medias) no es sin embargo f´acil de utilizar para las
varianzas, de modo que nos ser´a m´as f´acil sacarle partido a las expresiones
de las relaciones entre varianzas como
σ
2
1
σ
2
2
= R.
Por ejemplo, si R = 1 tenemos que ambas varianzas son iguales.
Consideramos entonces la hip´otesis nula
H
0
:
σ
2
1
σ
2
2
= R
la cual vamos a contrastar teniendo en cuenta que:
(n
1
−1)
ˆ
o
2
1
σ
2
1

2
n
1
−1
(n
2
−1)
ˆ
o
2
2
σ
2
2

2
n
2
−1
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
=⇒
1
(n
1
−1) ¸
(n
1
−1) ¸
ˆ
o
2
1
σ
2
1
1
(n
2
−1) ¸
(n
2
−1) ¸
ˆ
o
2
2
σ
2
2
=
σ
2
2
σ
2
1
ˆ
o
2
1
ˆ
o
2
2
;F
n
1
−1,n
2
−1
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 235
Por tanto el estad´ıstico del contraste que nos conviene tiene una distribuci´on
conocida cuando H
0
es cierta —v´ease la definici´on de la distribuci´on de
Snedecor:
F =
1
R
ˆ
o
2
1
ˆ
o
2
2
;F
n
1
−1,n
2
−1
Contraste bilateral
El contraste bilateral para el cociente de varianzas se escribe como:
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
H
0
:
σ
2
1
σ
2
2
= R
H
1
:
σ
2
1
σ
2
2
,= R
Habida cuenta que la distribuci´on F de Snedecor no es sim´etrica sino que
s´olo toma valores positivos, se rechazar´a la hip´otesis nula cuando el el valor
que tome el estad´ıstico del contraste al aplicarlo sobre una muestra sea
muy cercano a cero, o bien, muy grande. Es decir, se define el estad´ıstico
experimental y los l´ımites de la regi´on cr´ıtica como:
F
exp
=
1
R
ˆ
o
2
1
ˆ
o
2
2
a
teo
= F
n
1
−1,n
2
−1,α/2
b
teo
= F
n
1
−1,n
2
−1,1−α/2
y el criterio de aceptaci´on o rechazo es:
_
¸
_
¸
_
si a
teo
≤ F
exp
≤ b
teo
=⇒ no rechazamos H
0
;
si F
exp
< a
teo
´o F
exp
> b
teo
=⇒ rechazamos H
0
.
236 Bioestad´ıstica: M´etodos y Aplicaciones
9.5.5. Caso particular: Contraste de homocedasticidad
En la pr´actica un contraste de gran inter´es es el de la homocedasticidad
o igualdad de varianzas. Decimos que dos poblaciones son homoced´aticas
si tienen la misma varianza. El test de homocedasticidad ser´ıa entonces el
mismo que el de un cociente de varianzas, donde R = 1, es decir:
_
¸
_
¸
_
H
0
: σ
2
1
= σ
2
2
H
1
: σ
2
1
,= σ
2
2
⇐⇒
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
H
0
:
σ
2
1
σ
2
2
= 1
H
1
:
σ
2
1
σ
2
2
,= 1
Observaci´on
Una de las razones de la importancia de este contraste es la siguiente:
Si queremos estudiar la diferencia entre las medias de dos poblaciones nor-
males, el caso m´as realista es considerar un contraste donde las varianzas
de las poblaciones son desconocidas. Ante esta situaci´on podemos encon-
trarnos dos situaciones:
1. Las dos varianzas son iguales. Este es el caso m´as favorable pues
utilizamos la distribuci´on de Student para el contraste con un n´ umero
de grados de libertad que s´olo depende del tama˜ no de la muestra.
2. Las varianzas son distintas. En este caso el n´ umero de grados de
libertad es una v.a. (f´ormula de Welch) y por tanto al realizar el
contraste se pierde cierta precisi´on.
En esta situaci´on lo recomendable es
En primer lugar realizar un test de homocedasticidad.
Si la igualdad de varianzas no puede ser rechazada de modo signi-
ficativo, aplicamos un test de diferencia de medias suponiendo que
las varianzas son desconocidas pero iguales. En otro caso se utiliza la
aproximaci´on de Welch.
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 237
Observaci´on
Al realizar el contraste bilateral sobre la igualdad de varianzas podemos
tambi´en economizar parte de trabajo definiendo F
exp
como el cociente entre
la mayor varianza muestral y la menor
F
exp
=
_
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
_
ˆ
o
2
1
ˆ
o
2
2
si
ˆ
o
2
1

ˆ
o
2
2
ˆ
o
2
2
ˆ
o
2
1
si
ˆ
o
2
2
>
ˆ
o
2
1
=⇒F
exp
≥ 1
ya que as´ı no es necesario calcular el extremo inferior para la regi´on donde
no se rechaza H
0
, pues F
exp
nunca estar´a pr´oxima a 0. Con esta definici´on
de F
exp
el criterio a seguir frente al contraste de significaci´on para un valor
α dado es:
F
teo
=
_
¸
_
¸
_
F
n
1
−1,n
2
−1,1−α
si
ˆ
o
2
1

ˆ
o
2
2
F
n
2
−1,n
1
−1,1−α
si
ˆ
o
2
2
>
ˆ
o
2
1
=⇒
_
¸
_
¸
_
si F
exp
≤ b
teo
=⇒ no rechazamos H
0
;
si F
exp
> b
teo
=⇒ rechazamos H
0
.
Ejemplo
Se desea comparar la actividad motora espont´anea de un grupo de 25
ratas control y otro de 36 ratas desnutridas. Se midi´o el n´ umero de veces
que pasaban delante de una c´elula fotoel´ectrica durante 24 horas. Los datos
obtenidos fueron los siguientes:
Ratas de control n
1
= 25 x
1
= 869, 8 o
1
= 106, 7
Ratas desnutridas n
2
= 36 x
2
= 465 o
2
= 153, 7
¿Se observan diferencias significativas entre el grupo control y el grupo
desnutrido?
238 Bioestad´ıstica: M´etodos y Aplicaciones
Soluci´on:
En primer lugar, por tratarse de un problema de inferencia estad´ıstica,
nos ser´an m´as ´ utiles las cuasivarianzas que las varianzas. Por ello calcula-
mos:
ˆ
o
2
1
=
n
1
n
1
−1
o
2
1
=
25
24
106, 7
2
= 11,859, 26
ˆ
o
2
2
=
n
2
n
2
−1
o
2
2
=
36
35
153, 7
2
= 24,298, 653
El contraste que debemos realizar est´a basado en el de la t de Student
para la diferencia de medias de dos poblaciones. Para ello conocemos dos
estad´ısticos posibles, seg´ un que las varianzas poblacionales de ambos gru-
pos de ratas puedan ser supuestas iguales (homocedasticidad) o distintas
(heterocedasticidad). Para ello realizamos previamente el contraste:
_
¸
_
¸
_
H
0
: σ
2
1
= σ
2
2
H
1
: σ
2
1
,= σ
2
2
⇐⇒
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
H
0
:
σ
2
1
σ
2
2
= 1
H
1
:
σ
2
1
σ
2
2
,= 1
Suponiendo H
0
cierta, tenemos que el estad´ıstico del contraste conveniente
es
F
exp
=
_
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
_
ˆ
o
2
1
ˆ
o
2
2
si
ˆ
o
2
1

ˆ
o
2
2
ˆ
o
2
2
ˆ
o
2
1
si
ˆ
o
2
2
>
ˆ
o
2
1
=⇒F
exp
≥ 1
ya que as´ı no es necesario calcular el extremo inferior para la regi´on donde
no se rechaza H
0
. En este caso:
F
exp
=
ˆ
o
2
2
ˆ
o
2
1
= 2

0489 ;F
n
2
−1,n
1
−1
F
teo
= F
35,24,0

95
≈ 2

97
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 239
Como F
exp
≤ F
teo
, no podemos concluir (al menos al nivel de significaci´on
α = 0

05) que H
0
deba ser rechazada (figura 9.8).
Figura 9.8: No hay evidencia significativa para rechazar la homocedastici-
dad. El estad´ıstico del contraste ha sido elegido modo que el numerador de
F
exp
sea mayor que el denominador, es decir, F
exp
> 1.
Por lo tanto no rechazamos la hip´otesis de homocedasticidad de ambas
poblaciones, y pasamos a contrastar la igualdad de las medias
_
¸
_
¸
_
H
0
: µ
1
−µ
2
= 0
H
1
: µ
1
−µ
2
,= 0
utilizando el estad´ıstico m´as sencillo (el que no necesita aproximar los gra-
dos de libertad mediante la f´ormula de Welch). Para ello calculamos en
primer lugar la cuasivarianza muestral ponderada:
ˆ
o
2
=
(n
1
−1)
ˆ
o
2
1
+ (n
2
−1)
ˆ
o
2
2
n
1
+n
2
−2
= 19,238

6
y posteriormente
240 Bioestad´ıstica: M´etodos y Aplicaciones
T
exp
=
x
1
−x
2
ˆ
o
_
1
n
1
+
1
n
2
= 11

2101;t
n
1
+n
2
−2
= t
59
T
teo
= t
n
1
+n
2
−2,1−α/2
= t
59,0

975
≈ 2
Como [T
teo
[ ≤ T
exp
concluimos que se ha de rechazar la hip´otesis de igual-
dad de las medias, y por tanto aceptamos que las medias son diferentes.
Figura 9.9: Hay una gran evidencia en contra de la hip´otesis de que ambas
medias poblacionales coincidan, y a favor de que la de la primera poblaci´on
es mayor que la de la segunda.
Ejemplo
Supongamos que cierta variable num´erica se comporta de modo gaus-
siano sobre dos poblaciones, de las que se han extraido respectivamente una
muestra aleatoria simple. Los resultados se muestran a continuaci´on:
Muestra 1 10 30 32 23 23 24 20 18 19 45
Muestra 2 32 39 35 30 37 28 34 33 25 30 37 33
¿Cree que las distribuciones normales que describen a ambas poblaciones,
poseen los mismos par´ametros?
Soluci´on: La distribuci´on normal est´a descrita por dos par´ametros: La
media y la varianza. Vamos a realizar entonces el contraste adecuado para
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 241
cada uno de estos par´ametros. Como el contraste de igualdad de medias
depende de que las varianzas sean iguales o distintas, vamos a comenzar
por el contraste de homocedasticidad (igualdad de varianzas).
Previamente, resumimos la informaci´on existente en las muestras con
los estimadores insesgados de los par´ametros:
Primera muestra Segunda muestra
X
1
;N
_
µ
1
, σ
2
1
_
X
2
;N
_
µ
2
, σ
2
2
_
n
1
= 10 n
2
= 12
x
1
= 22, 182 x
2
= 32, 75
ˆ
o
1
= 9, 513
ˆ
o
2
= 4, 048
El contraste de homocedasticidad es el siguiente:
_
¸
_
¸
_
H
0
: σ
2
1
= σ
2
2
H
1
: σ
2
1
,= σ
2
2
El estad´ıstico del contraste lo elegimos de tal modo que la varianza
mayor est´e en el numerador, pues de este modo tenemos que la regi´on cr´ıtica
no es nada m´as que la cola de la derecha de la distribuci´on de Snedecor:
F
exp
=
ˆ
o
2
mayor
ˆ
o
2
menor
=
ˆ
o
2
1
ˆ
o
2
2
=
9, 513
2
4, 048
2
= 5, 5222
Si elegimos un nivel de significaci´on α = 5 %, el valor cr´ıtico para dicho
estad´ıstico (aquel a pertir del cual rechazamos la homocedasticidad) es
F
teo
= F
10;12;0,95
= 2, 8962
Por tanto se rechaza la hip´otesis de igualdad de varianzas.
El contraste de igualdad de medias es:
_
¸
_
¸
_
H
0
: µ
1
= µ
2
H
1
: µ
1
,= µ
2
242 Bioestad´ıstica: M´etodos y Aplicaciones
Desconocemos el valor de las varianzas poblacionales, pero al menos sabe-
mos que hemos rechazado la igualdad de las mismas, por tanto el estad´ıstico
del contraste es:
T =
(x
1
−x
2
)
¸
ˆ
o
2
1
n
1
+
ˆ
o
2
2
n
2
=
24, 4 −32, 75
_
9, 513
2
/10 + 4, 048
2
/12
= −2, 5874
La regi´on cr´ıtica en este caso est´a dividida en dos zonas (contraste
bilateral). Por tanto hemos de observar si el estad´ıstico del contraste es un
valor inferior al percentil 2,5 o superior al 97,5 de la distribuci´on te´orica
(la que seguir´ıa el estad´ıstico del contraste si la hip´otesis nula fuese cierta).
Como T
e
xp es un valor negativo, basta con que nos preocumos nada m´as
que de la cola de la izquierda:
T
teo
= T
f;0,025
= −T
f;0,975
= −T
12,29;0,975
= −2, 173
donde f es el n´ umero de grados de libertad que se calcula mediante la
f´ormula de Welch
f =
_
ˆ
o
2
1
n
1
+
ˆ
o
2
2
n
2
_
2
1
n
1
+ 1
_
ˆ
o
2
1
n
1
_
2
+
1
n
2
+ 1
_
ˆ
o
2
2
n
2
_
2
−2 = 12, 29
Como T
exp
es un valor de la regi´on cr´ıtica del contraste de igualdad de me-
dias de poblaciones normales con varianzas diferentes, hemos de rechazar
(al menos para una significaci´on del 5 %) que las medias de ambas pobla-
ciones coincidan.
Ejemplo
Supongamos que cierta variable num´erica se comporta de modo gaus-
siano sobre dos poblaciones.
Mustra 1 10 30 32 23 23 24 20 18 19 35
Muestra 2 12 28 30 30 20 25 31 15 12 22 24 40
9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 243
¿Se puede decir que las media de laprimera poblaci´on es menor que la de
la segunda? Usar un nivel de significaci´on del 10 % Soluci´on: Hemos
de realizar un contraste de medias, pero para decidir el estad´ıstico del
contraste a elegir, debemos contrastar la similitud entre las dispersiones de
ambas poblaciones.
Para empezar resumimos la informaci´on existente en las muestras:
Primera muestra Segunda muestra
X
1
;N
_
µ
1
, σ
2
1
_
X
2
;N
_
µ
2
, σ
2
2
_
n
1
= 10 n
2
= 12
x
1
= 22, 4 x
2
= 23, 08
ˆ
o
1
= 9, 721
ˆ
o
2
= 10, 466
El contraste de homocedasticidad se escribe:
_
¸
_
¸
_
H
0
: σ
2
1
= σ
2
2
H
1
: σ
2
1
,= σ
2
2
El estad´ıstico del contraste lo elegimos de tal modo que la varianza
mayor est´e en el numerador, pues de este modo tenemos que la regi´on cr´ıtica
no es nada m´as que la cola de la derecha de la distribuci´on de Snedecor:
F
exp
=
ˆ
o
2
mayor
ˆ
o
2
menor
=
ˆ
o
2
2
ˆ
o
2
1
=
10, 466
2
9, 721
2
= 1, 1593
Si elegimos un nivel de significaci´on α = 10 %, el valor cr´ıtico para dicho
estad´ıstico (aquel a pertir del cual rechazamos la homocedasticidad) es
F
teo
= F
12;10;0,90
= 2, 3961
Por tanto no encontramos diferencia que sea estad´ısticamente significativa
entre ambas varianzas, es decir, no rechazomos la hip´otesis de homocedas-
ticidad.
244 Bioestad´ıstica: M´etodos y Aplicaciones
El contraste de medias es:
_
¸
_
¸
_
H
0
: µ
1
= µ
2
H
1
: µ
1
< µ
2
Desconocemos el valor de las varianzas poblacionales, pero las diferencias
entre ellas (sean cuales sean) no son estad´ısticamente significativas. Por
tanto vamos a elegir como estad´ıstico del contraste al que se usa cuando
podemos asumir que las varianzas son iguales:
T
exp
=
(x
1
−x
2
)
ˆ
o
_
1
n
1
+
1
n
2
= −0, 1574
Esta claro que rechazaremos la hip´otesis nula y aceptaremos la alter-
nativa, cuando los datos muestrales de la primera muestra sean significa-
tivamente menores que los de la segunda, en cuyo caso el estad´ıstico del
contraste tomar´ıa valores muy peque˜ nos. Dicho de otro modo, la regi´on
cr´ıtica es la regi´on comprendida a la izquierda del percentil 10 de la distri-
buci´on t
n
1
+n
2
−2
.
T
teo
= T
10+12−2;0,10
= −T
20;0,90
= −1, 3253
Como T
exp
no es un valor de la regi´on cr´ıtica del contraste, concluimos que
no hay evidencia estad´ısticamente significativa en contra de la hip´otesis
nula y a favor de la alternativa.
9.6. Contrastes sobre la diferencia de proporcio-
nes
Supongamos que tenemos dos muestras independientes tomadas sobre
dos poblaciones, en la que estudiamos una variable de tipo dicot´omico (Ber-
noulli):

X
1
≡ X
11
, X
12
, . . . , X
1n
1

X
2
≡ X
21
, X
22
, . . . , X
2n
2
9.6. CONTRASTES SOBRE LA DIFERENCIA DE PROPORCIONES 245
Si X
1
y X
2
contabilizan en cada caso el n´ umero de ´exitos en cada muestra
se tiene que cada una de ellas se distribuye como una variable aleatoria
binomial:
X
1
=
n
1

i=1
X
1i
;B(n
1
, p
1
)
X
2
=
n
2

i=1
X
2i
;B(n
2
, p
2
)
de modo que los estimadores de las proporciones en cada poblaci´on tienen
distribuciones que de un modo aproximado son normales (cuando n
1
y n
2
son bastante grandes)
ˆ
P
1
=
X
1
n
1

;N
_
p
1
,
p
1
q
1
n
1
_
ˆ
P
2
=
X
2
n
2

;N
_
p
2
,
p
2
q
2
n
2
_
El contraste que nos interesa realizar es el de si la diferencia entre las
proporciones en cada poblaci´on es una cantidad conocida ∆
H
0
: p
1
−p
2
= ∆
Si H
0
fuese cierta se tendr´ıa que
ˆ
P
1

ˆ
P
2

;N
_
_
_p
1
−p
2
. ¸¸ .

,
p
1
q
1
n
1
+
p
2
q
2
n
2
_
_
_
Desafortunadamente ni p
1
ni p
2
son conocidos de antemano y utilizamos sus
estimadores, lo que da lugar a un error que es peque˜ no cuando los tama˜ nos
muestrales son importantes:
( ˆ p
1
− ˆ p
2
) −∆
¸
ˆ p
1
ˆ q
1
n
1
+
ˆ p
2
ˆ q
2
n
2
= Z
exp

;N(0, 1)
246 Bioestad´ıstica: M´etodos y Aplicaciones
Contraste bilateral
El contraste bilateral sobre la diferencia de proporciones es
_
¸
_
¸
_
H
0
: p
1
−p
2
= ∆
H
1
: p
1
−p
2
,= ∆
Entonces se define
Z
exp
=
( ˆ p
1
− ˆ p
2
) −∆
¸
ˆ p
1
ˆ q
1
n
1
+
ˆ p
2
ˆ q
2
n
2
y se rechaza la hip´otesis nula si Z
exp
< −z
1−α/2
o si Z
exp
> z
1−α/2
Contrastes unilaterales
En el contraste
_
¸
_
¸
_
H
0
: p
1
−p
2
= ∆
H
1
: p
1
−p
2
< ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: p
1
−p
2
≥ ∆
H
1
: p
1
−p
2
< ∆
_
_
_
se rechazar´a H
0
si Z
exp
< −z
1−α
. Para el test contrario
_
¸
_
¸
_
H
0
: p
1
−p
2
= ∆
H
1
: p
1
−p
2
> ∆
_
_
_o bien
_
¸
_
¸
_
H
0
: p
1
−p
2
≤ ∆
H
1
: p
1
−p
2
> ∆
_
_
_
se rechaza H
0
si Z
exp
> z
1−α
.
9.7. Problemas
En todos los problemas que siguen a continuaci´on, se supone que las
muestras han sido elegidas de modo independiente, y que las cantidades
9.7. PROBLEMAS 247
cuantitativas que se miden, se distribuyen de modo gaussiano. En temas
posteriores se ver´a c´omo contrastar si estas premisas pueden ser aceptadas
o no al examinar las muestras.
Ejercicio 9.1. El calcio se presenta normalmente en la sangre de los
mam´ıferos en concentraciones de alrededor de 6 mg por cada 100 ml del
total de sangre. La desviaci´on t´ıpica normal de ´esta variable es 1 mg de cal-
cio por cada 100 ml del volumen total de sangre. Una variabilidad mayor a
´esta puede ocasionar graves trastornos en la coagulaci´on de la sangre. Una
serie de nueve pruebas sobre un paciente revelaron una media muestral de
6,2 mg de calcio por 100 ml del volumen total de sangre, y una desviaci´on
t´ıpica muestral de 2 mg de calcio por cada 100 ml de sangre. ¿Hay alguna
evidencia, para un nivel α = 0, 05, de que el nivel medio de calcio para este
paciente sea m´as alto del normal?
Ejercicio 9.2. El n´ umero de accidentes mortales en una ciudad es, en
promedio, de 12 mensuales. Tras una campa˜ na de se˜ nalizaci´on y adecenta-
miento de las v´ıas urbanas se contabilizaron en 6 meses sucesivos
8, 11, 9, 7, 10 , 9
accidentes mortales. ¿Fue efectiva la campa˜ na?
Ejercicio 9.3. El promedio de las puntuaciones de un n´ umero elevado de
alumnos de Bioestad´ıstica es de 6,50. Un determinado a˜ no se examinaron 50
alumnos con resultados promedio de 7,25 y desviaci´on t´ıpica de 1. ¿Variaron
las calificaciones?
Ejercicio 9.4. El peso medio de mujeres de 30 a 40 a˜ nos es de 53 kg.
Un estudio realizado en 16 mujeres de tales edades que siguen una dieta
vegetariana da x = 50 y o = 5. ¿Modifica la dieta el peso medio?
Ejercicio 9.5. Una poblaci´on infantil se dice que es susceptible de recibir
una campa˜ na de educaci´on e higiene si su porcentaje de ni˜ nos con dientes
248 Bioestad´ıstica: M´etodos y Aplicaciones
cariados es superior al 15 %. Una poblaci´on con 12.637 ni˜ nos, ¿debe hacerse
la campa˜ na si de 387 de ellos 70 ten´ıan alg´ un diente cariado?
Ejercicio 9.6. Un 8 % de los individuos que acuden a un servicio sanita-
rio son hiperutilizadores del mismo (m´as de 11 visitas al a˜ no) y, de entre
ellos, un 70 % son mujeres. De entre los no hiperutilizadores, son mujeres
el 51 %. ¿Puede afirmarse que han variado los h´abitos de estas si, tras una
campa˜ na de informaci´on y control de visitas, de 90 mujeres elegidas al azar
6 resultaron hiperutilizadoras?
Ejercicio 9.7. Se conoce que un 20 % de los individuos tratados cr´onica-
mente con digoxina sufren una reacci´on adversa por causa de ella. A 10
pacientes se les administr´o durante largo tiempo digoxina mas otros medi-
camentos, y de ellos 5 desarrollaron la reacci´on adversa. ¿Puede afirmarse
que la asociaci´on entre la digoxina y los otros medicamentos hace variar el
n´ umero de reacciones adversas?
Ejercicio 9.8. Para comprobar si un tratamiento con ´acidos grasos es eficaz
en pacientes con eczema at´ıpico, se tomaron 10 pacientes con eczema de
m´as de 9 meses y se les someti´o durante 3 semanas a un tratamiento ficticio
(placebo) y durante las tres siguientes a un tratamiento con ´acidos grasos.
Tras cada periodo, un m´edico ajeno al proyecto evalu´o la importancia del
eczema en una escala de 0 (no eczema) a 10 (tama˜ no m´aximo de eczema).
Los datos fueron los siguientes:
Placebo 6 8 4 8 5 6 5 6 4 5
Tratamiento 5 6 4 5 3 6 6 2 2 6
¿Es eficaz el tratamiento?
Ejercicio 9.9. En un programa de Control de Enfermedades Cr´onicas, la
hipertensi´on est´a incluida como la primera patolog´ıa a controlar. 15 pa-
cientes hipertensos son sometidos al programa y controlados en su tensi´on
9.7. PROBLEMAS 249
asist´olica antes y despu´es de 6 meses de tratamiento. Los datos son los
siguientes:
Inic. 180 200 160 170 180 190 190 180 190 160 170 190 200 210 220
Fin. 140 170 160 140 130 150 140 150 190 170 120 160 170 160 150
¿Es efectivo el tratamiento?
10.- Muchos autores afirman que los pacientes con depresi´on tienen una
funci´on cortical por debajo de lo normal debido a un riego sangu´ıneo ce-
rebral por debajo de lo normal. A dos muestras de individuos, unos con
depresi´on y otros normales, se les midi´o un ´ındice que indica el flujo san-
gu´ıneo en la materia gris (dado en mg/(100g/min))obteni´endose:
Depresivos n
1
= 19 x
1
= 47
ˆ
o
1
= 7

8
Normales n
2
= 22 x
2
= 53

8
ˆ
o
2
= 6

1
¿Hay evidencia significativa a favor de la afirmaci´on de los autores?
Ejercicio 9.10. Por fistulizaci´on se obtuvo el pH de 6 muestras de bilis
hep´atica con los siguientes resultados:
7,83; 8,52; 7,32; 7,79; 7,57; 6,58
Se desea saber al nivel de significaci´on del 0,05 si la bilis hep´atica puede
considerarse neutra. Si se conociera σ = 0, 5, ¿qu´e decisi´on tomar´ıamos?
Ejercicio 9.11. La prueba de la d–xilosa permite la diferenciaci´on entre
una esteatorrea originada por una mala absorci´on intestinal y la debida
a una insuficiencia pancre´atica, de modo que cifras inferiores a 4 grs. de
d–xilosa, indican una mala absorci´on intestinal. Se realiza dicha prueba a
10 individuos, obteni´endose una media de 3,5 grs. y una desviaci´on t´ıpica
de 0’5 grs. ¿Sepuede decir que esos pacientes padecen una mala absorci´on
intestinal?
250 Bioestad´ıstica: M´etodos y Aplicaciones
Ejercicio 9.12. La eliminaci´on por orina de aldosterona est´a valorada en
individuos normales en 12 mgs/24 h. por t´ermino medio. En 50 individuos
con insuficiencia card´ıaca se observ´o una eliminaci´on media de aldosterona
de 13 mgs/24 h., con una desviaci´on t´ıpica de 2,5 mgs/24 h.
1. ¿Son compatibles estos resultados con los de los individuos normales?
2. ¿La insuficiencia card´ıaca aumenta la eliminaci´on por orina de aldos-
terona?
Ejercicio 9.13. La tabla siguiente muestra los efectos de un placebo y de
la hidroclorotiacida sobre la presi´on sangu´ınea sist´olica de 11 pacientes.
Placebo 211 210 210 203 196 190 191 177 173 170 163
H–cloro 181 172 196 191 167 161 178 160 149 119 156
Seg´ un estos datos experimentales, ¿podemos afirmar que existe diferencia
en la presi´on sist´olica media durante la utilizaci´on de estos dos f´armacos?
Ejercicio 9.14. Se sabe que el 70 % de los pacientes internados en un
hospital traumatol´ogico requieren alg´ un tipo de intervenci´on quir´ urgica.
Para determinar si un nuevo m´etodo de fisioterapia reduce el porcentaje
de intervenciones, se aplica ´este a 30 pacientes de los cuales 17 requieren
alguna intervenci´on quir´ urgica. Comprobar que no hay razones suficientes
para afirmar la eficacia del m´etodo con un nivel de confianza del 95 %.
Ejercicio 9.15. De un estudio sobre la incidencia de la hipertensi´on en la
provincia de M´alaga, se sabe que en la zona rural el porcentaje de hiper-
tensos es del 27,7 %. Tras una encuesta a 400 personas de una zona urbana,
se obtuvo un 24 % de hipertensos.
1. ¿Se puede decir que el porcentaje de hipertensos en la zona urbana
es distinto que en la zona rural?
9.7. PROBLEMAS 251
2. ¿Es menor el porcentaje de hipertensos en la zona urbana que en la
zona rural?
Ejercicio 9.16. Con cierto m´etodo de ense˜ nanza para ni˜ nos subnorma-
les se obtiene una desviaci´on t´ıpica de 8, en las puntuaciones de los tests
finales. Se pone a prueba un nuevo m´etodo y se ensaya en 51 ni˜ nos. Las
calificaciones obtenidas en los tests finales dan una desviaci´on t´ıpica de 10.
¿Puede asegurarse que el nuevo m´etodo produce distinta variaci´on en las
puntuaciones?
Ejercicio 9.17. Se desea comparar la actividad motora espont´anea de un
grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midi´o el n´ umero
de veces que pasaban delante de una c´elula fotoel´ectrica durante 24 horas.
Los datos obtenidos fueron los siguientes:
Ratas de control n
1
= 25 x
1
= 869, 8 o
1
= 106, 7
Ratas desnutridas n
2
= 36 x
2
= 465 o
2
= 153, 7
¿Se observan diferencias significativas entre el grupo control y el grupo
desnutrido?
Ejercicio 9.18. Se pretende comprobar la hip´otesis expuesta en algunos
trabajos de investigaci´on acerca de que la presencia del ant´ıgeno AG–4
est´a relacionada con un desenlace Con ´este fin, se hizo una revisi´on sobre
las historias cl´ınicas de 21 mujeres muertas por carcinoma de cuello uterino,
observando que 6 de ellas presentaban el citado ant´ıgeno. Por otro lado y
con fines de comparaci´on se tom´o otra muestra de 42 personas, con edades
similares a las del grupo anterior y que reaccionaron bien al tratamiento
del carcinoma de cuello uterino, en 28 de las cuales se observ´o la presencia
del citado ant´ıgeno. ¿Est´a relacionada la presencia del ant´ıgeno con una
efectividad del tratamiento?
Ejercicio 9.19. Se quiso probar si la cirrosis de h´ıgado hacia variar el
252 Bioestad´ıstica: M´etodos y Aplicaciones
´ındice de actividad de la colinesterasa en suero. Se eligieron dos muestras
aleatorias e independientes de individuos. Los resultados fueron:
Individuos normales n
1
= 20 x
1
= 1, 8 o
1
= 0, 4
Individuos cirr´oticos n
2
= 25 x
2
= 0, 66 o
2
= 0, 2
La cirrosis de h´ıgado, ¿hace variar el ´ındice de la colinesterasa en suero?
Ejercicio 9.20. Un investigador ha realizado el siguiente experimento:
Tom´o una primera muestra de 25 pacientes que padec´ıan cierto s´ıntoma
y otra segunda muestra de 30 pacientes con el mismo s´ıntoma. A los de la
primera muestra les aplic´o un tratamiento especifico y a los de la segunda
les dio un placebo. Anot´o el tiempo en horas en que cada uno dijo que el
s´ıntoma hab´ıa desaparecido y obtuvo los siguientes resultados:
Muestra 1
a
n
1
= 25

i
x
i1
= 85

i
x
2
i1
= 343
Muestra 2
a
n
2
= 30

i
x
i2
= 216

i
x
2
i2
= 1,650
¿Puede concluir el investigador que el tratamiento es realmente efectivo?
Ejercicio 9.21. Para comprobar si la tolerancia a la glucosa en sujetos
sanos tiende a decrecer con la edad se realiz´o un test oral de glucosa a dos
muestras de pacientes sanos, unos j´ovenes y otros adultos. El test consis-
ti´o en medir el nivel de glucosa en sangre en el momento de la ingesti´on
(nivel basal) de 100 grs. de glucosa y a los 60 minutos de la toma. Los
resultados fueron los siguientes:
J´ovenes:
Basal 81 89 80 75 74 97 76 89 83 77
60 minutos 136 150 149 141 138 154 141 155 145 147
Adultos:
Basal 98 94 93 88 79 90 86 89 81 90
60 minutos 196 190 191 189 159 185 182 190 170 197
9.7. PROBLEMAS 253
1. ¿Se detecta una variaci´on significativa del nivel de glucosa en sangre
en cada grupo?
2. ¿Es mayor la concentraci´on de glucosa en sangre a los 60 minutos, en
adultos que en j´ovenes?
3. El contenido basal de glucosa en sangre, ¿es menor en j´ovenes que en
adultos?
4. ¿Se detecta a los 60 minutos una variaci´on del nivel de glucosa en
sangre diferente de los adultos, en los j´ovenes?
254 Bioestad´ıstica: M´etodos y Aplicaciones
Cap´ıtulo 10
Contrastes basados en el
estad´ıstico Ji–Cuadrado
10.1. Introducci´on
Existen multitud de situaciones en el ´ambito de la salud en el que las
variables de inter´es, las cuales no pueden cuantificarse mediante cantida-
des num´ericas, entre las que el investigador est´e interesado en determinar
posibles relaciones. Ejemplos de este tipo de variables pueden ser las com-
plicaciones tras una intervenci´on quir´ urgica, el sexo, el nivel socio-cultural,
etc. En este caso tendr´ıamos, a lo sumo, las observaciones agrupadas en
forma de frecuencia, dependiendo de las modalidades que presente cada
paciente en cada una de las variables, por los que los m´etodos estudiados
en los cap´ıtulos anteriores no ser´ıan aplicables.
El objetivo de este tema es el estudio de este tipo de cuestiones en re-
laci´on con las variables cualitativas (y tambi´en v.a. discretas o continuas
agrupadas en intervalo). Estos son los contrastes asociados con el estad´ısti-
co χ
2
. En general este tipo de tests consisten en tomar una muestra y
observar si hay diferencia significativa entre las frecuencias observadas y
las especificadas por la ley te´orica del modelo que se contrasta, tambi´en
denominadas “frecuencias esperadas”.
Sin embargo, aunque ´este sea el aspecto m´as conocido, el uso del test
255
256 Bioestad´ıstica: M´etodos y Aplicaciones
χ
2
no se limita al estudio de variables cualitativas. Podr´ıamos decir que
existen tres aplicaciones b´asicas en el uso de este test, y cuyo desarrollo
veremos en el transcurso de este cap´ıtulo:
Tres son los temas que abordaremos de esta manera:
Test de ajuste de distribuciones: Es un contraste de significaci´on para saber si los datos de una muestra
son conformes a una ley de distribuci´on te´orica que sospechamos que
es la correcta.
Test de homogeneidad de varias muestras cualitativas: Sirve para contrastar la igualdad de procedencia de un conjunto de
muestras de tipo cualitativo.
Test para tablas de contingencia: Es un contraste para determinar la dependencia o independencia de
caracteres cualitativos.
10.2. El estad´ıstico χ
2
y su distribuci´on
Sea X una v.a. cuyo rango son los valores i = 1, 2, . . . , k, de modo que
p
i
es la probabilidad de cada valor;
X;
_
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
_
1 → T[X = 1] = p
1
2 → T[X = 2] = p
2
. . .
i → T[X = i] = p
i
. . .
k → T[X = k] = p
k
Supongamos que el resultado de un experimento aleatorio es una clase
c
1
, c
2
, . . . , c
k
(c
i
, i = 1, . . . , k), que puede representar valores cualitativos,
discretos o bien intervalos para variables continuas. Sea p
i
la probabilidad
de que el resultado del experimento sea la clase c
i
. Vamos a considerar con-
trastes cuyo objetivo es comprobar si ciertos valores p
0
i
, propuestos para las
cantidades p
i
son correctas o no, en funci´on de los resultados experimentales
10.2. EL ESTAD
´
ISTICO χ
2
Y SU DISTRIBUCI
´
ON 257
_
¸
_
¸
_
H
0
: Los p
0
i
son correctos
H
1
: Alguno de los p
0
i
es falso
⇐⇒
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
H
0
:
¸
¸
¸
¸
¸
¸
¸
¸
¸
p
1
= p
0
1
y
p
2
= p
0
2
y
. . .
p
k
= p
0
k
H
1
:
¸
¸
¸
¸
¸
¸
¸
¸
¸
p
1
,= p
0
1
o bien
p
2
,= p
0
2
o bien
. . .
p
k
,= p
0
k
.
(10.1)
Mediante muestreo aleatorio simple, se toma una muestra de tama˜ no n
y se obtienen a partir de ella unas frecuencias observadas de cada clase que
representamos mediante O
1
, O
1
, . . . , O
k
Clase Frec. Abs.
c
i
O
i
c
1
O
1
c
2
O
2
. . . . . .
c
k
O
k
k

i=1
O
i
= n
Supongamos que la hip´otesis nula es cierta. Al ser p
i
= p
0
i
la proporci´on
de elementos de la clase c
i
en la poblaci´on, el n´ umero de individuos de
que presentan esta modalidad al tomar una muestra de tama˜ no n, es una
v.a. de distribuci´on binomial, B
_
n, p
0
i
_
. Por tanto la frecuencia esperada de
individuos de esa clase es
c
i
= n p
0
i
∀ i = 1, 2, . . . , k
k

i=1
c
i
= n
k

i=1
p
0
i
= n
258 Bioestad´ıstica: M´etodos y Aplicaciones
Obs´ervese que a diferencia de las cantidades O
i
, que son las frecuencias que
realmente se obtienen en una muestra, las frecuencias esperadas no tienen
por que ser n´ umeros enteros. De cualquier modo, bajo la suposici´on de que
H
0
es cierta cabe esperar que las diferencias entre las cantidades c
i
y O
i
sea peque˜ na.
Pearson propuso el estad´ıstico
χ
2
=
k

i=1
(O
i
−c
i
)
2
c
i
el cual, siguiendo la linea de razonamiento anterior debe tomar valores
peque˜ nos si H
0
es cierta. Si al tomar una muestra, su valor es grande
eso pone en evidencia que la hip´otesis inicial es probablemente falsa. Para
decidir cuando los valores de χ
2
son grandes es necesario conocer su ley de
probabilidad. Se tiene entonces el siguiente resultado
Teorema
[Ley asint´otica para χ
2
] Si la hip´otesis H
0
es cierta, entonces χ
2
se
distribuye aproximadamente como:
χ
2
=
k

i=1
(O
i
−c
i
)
2
c
i

; χ
2
k−p−h
donde el n´ umero de grados de libertad depende de
El n´ umero k, de clases usadas;
El n´ umero p de par´ametros estimados a partir de la muestra para
calcular los c
i
. Por ejemplo si todas las cantidades p
0
i
son especificadas
entonces p = 0.
El n´ umero de relaciones o condiciones impuestas a los c
i
. Por ejemplo,
si la ´ unica condici´on sobre los c
i
es que

k
i=1
c
i
= n entonces h = 1.
10.2. EL ESTAD
´
ISTICO χ
2
Y SU DISTRIBUCI
´
ON 259
La aproximaci´on mejora cuando n es grande y los p
i
son cercanos a
1
2
.
Como s´olo son los valores grandes de χ
2
los que nos llevan a rechazar
H
0
, la regi´on cr´ıtica es
( = (χ
2
k−p−h,1−α
, ∞)
0 5 10 15 20 25
χ
n, 1−α
2
Se rechaza H
0
No se rechaza H
0
χ
n
2
para n=10
Figura 10.1: Regi´on cr´ıtica (sombreada) para un contraste con el estad´ıstico
χ
2
.
es decir,
sean
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
χ
2
exp
=
k

i=1
(O
i
−c
i
)
2
c
i
χ
2
teo
= χ
2
k−p−h,1−α
−→
_
¸
_
¸
_
Si χ
2
exp
≤ χ
2
teo
no rechazamos H
0
;
Si χ
2
exp
> χ
2
teo
se rechaza H
0
y se acepta H
1
.
Observaci´on
A pesar de que el contraste parece ser bilateral al ver la expresi´on de
la relaci´on (10.1), la forma de (, nos indica que el contraste es unilateral:
260 Bioestad´ıstica: M´etodos y Aplicaciones
S´olo podemos saber si existe desajuste entre los esperado y lo observado,
pero no podemos contrastar hip´otesis alternativas del tipo “p
i
mayor que
cierto valor”.
Observaci´on
Obs´ervese que en realidad χ
2
no es una variable aleatoria continua: Los
posibles resultados de la muestra se resumen en las cantidades O
1
, O
2
, . . . ,
O
k
, que ´ unicamente toman valores discretos. Luego las cantidades
χ
2
exp
(O
1
, O
2
, . . . , O
k
)
s´olo puede tomar un n´ umero finito de valores distintos (aunque sean can-
tidades con decimales). Por tanto su distribuci´on no es continua. Luego al
realizar la aproximaci´on mencionada hay que precisar en qu´e condiciones
el error cometido es peque˜ no. De modo aproximado podemos enunciar
el siguiente criterio que recuerda al de la aproximaci´on binomial por la
distribuci´on normal:
1. n > 30;
2. c
i
= n p
i
> 5 para todo i = 1, . . . , k.
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla
en la pr´actica. Se utiliza entonces una regla m´as flexible y que no sacrifica
demasiada precisi´on con respecto a la anterior:
1. Para ninguna clase ocurre que c
i
= n p
i
< 1
2. c
i
= n p
i
> 5 para casi todos los i = 1, . . . , k, salvo a lo sumo un
20 % de ellos.
Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar
las clases que tengan menos elementos con sus adyacentes.
10.2. EL ESTAD
´
ISTICO χ
2
Y SU DISTRIBUCI
´
ON 261
Observaci´on
El lector puede considerar los contrastes con el estad´ıstico χ
2
como
una generalizaci´on del contraste de proporciones. Para ello le invitamos a
estudiar el siguiente ejemplo.
Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres
que a las mujeres. Para ello se considera una muestra de n = 618 individuos
que padecen la enfermedad, y se observa que 341 son hombres y el resto
son mujeres. ¿Qu´e conclusiones se obtiene de ello?
Soluci´on:
El contraste a realizar se puede plantear de dos formas que despu´es
veremos que son equivalentes:
Contraste de una proporci´on: Si p es el porcentaje de hombres en la
poblaci´on de enfermos, podemos considerar el contraste:
_
¸
_
¸
_
H
0
: p = 1/2
H
1
: p ,= 1/2
De la muestra obtenemos la siguiente estimaci´on puntual del porcen-
taje de enfermos de sexo masculino:
ˆ p = 341/618 = 0, 55178
Para ver si esto es un valor “coherente” con la hip´otesis nula, calcu-
lemos la significatividad del contraste:
Z
exp
=
ˆ p −p
_
p ∗ q/n
;N(0, 1).
Por otro lado,
262 Bioestad´ıstica: M´etodos y Aplicaciones
Z
exp
=
0, 55178 −0, 5
_
0, 5 0, 5/60
= 2, 574
Como el contraste es de tipo bilateral, la significatividad del contraste
es (buscando en la tabla de la distribuci´on normal):
T[[Z[ > 2, 574] = 2 T[Z > 2, 574] = 2 ∗ 0, 005 = 1 % < 5 %
Lo que nos indica que se ha de rechazar la hip´otesis nula y aceptar
la hip´otesis alternativa, es decir, afirmamos que existe una evidencia
significativa a favor de la hip´otesis de que la enfermedad no afecta
por igual a hombres y mujeres.
Contraste con el estad´ıstico χ
2
: En este caso planteamos el contraste:
_
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
_
H
0
:
¸
¸
¸
¸
¸
p
hombres
= 1/2 y
p
mujeres
= 1/2
H
1
:
¸
¸
¸
¸
¸
p
hombres
,= 1/2 o bien
p
mujeres
,= 1/2
Para resolverlo escribimos en una tabla los frecuencias muestrales
observadas de hombres y mujeres, junto a los valores esperados en el
caso de que la hip´otesis nula fuese cierta:
frecuencias frecuencias
observadas esperadas diferencia
O
i
c
i
O
i
−c
i
(O
i
−c
i
)
2
/c
i
Hombres 341 618 1/2 = 309 9 32
2
/309
Mujeres 277 618 1/2 = 309 -9 (−32)
2
/309
618 618 0 6,63
Consideremos entonces el estad´ıstico
χ
2
=
k

i=1
(O
i
−c
i
)
2
c
i

; χ
2
k−p−h
= χ
2
2−0−1
= χ
2
1
donde:
10.2. EL ESTAD
´
ISTICO χ
2
Y SU DISTRIBUCI
´
ON 263
k = 2 es el numero de modalidades posibles que toma la variable
sexo: hombres y mujeres;
p = 0 es el n´ umero de par´ametros estimados;
h = 1 es el n´ umeros de restricciones impuestas a los valores
esperados. S´olo hay una (que es habitual), que consiste en que
el n´ umero esperado de enfermos entre hombres y mujeres es 60.
El estad´ıstico calculado sobre la muestra ofrece el valor experimental:
χ
2
exp
= 6, 63
que es el percentil 99 de la distribuci´on χ
2
1
. De nuevo se obtiene que
la significatividad del contraste es del 1 %<5 %.
En conclusi´on, con los dos m´etodos llegamos a que hay una fuerte evi-
dencia en contra de que hay el mismo porcentaje de hobres y mujeres que
padecen la enfermedad. La ventaja de la ´ ultima forma de plantear el con-
traste (diferencia entre frecuencias observadas y esperadas) es que la t´ecnica
se puede aplicar a casos m´as generales que variables dicot´omicas, como se
ver´a m´as adelante.
Observaci´on
Hay una f´ormula alternativa para el c´alculo de χ
2
cuya expresi´on es m´as
f´acil de utilizar cuando realizamos c´alculos:
Proposici´on
χ
2
=
k

i=1
O
2
i
c
i
−n
Demostraci´on
264 Bioestad´ıstica: M´etodos y Aplicaciones
χ
2
=
k

i=1
(O
i
−c
i
)
2
c
i
=
k

i=1
O
2
i
−2 O
i
c
i
+c
2
i
c
i
=
k

i=1
O
2
i
c
i
−2
k

i=1
O
i
+
k

i=1
c
i
=
k

i=1
O
2
i
c
i
−2 n +n
=
k

i=1
O
2
i
c
i
−n
10.3. Contraste de bondad de ajuste para distri-
buciones
Vamos a aplicar el contraste χ
2
para determinar a trav´es de una muestra
si una v.a. X sigue o no cierta distribuci´on. Podemos encontrarnos entonces
con dos casos:
La ley de la v.a. X que deseamos contrastar est´a completamente determi-
nada.
La ley de la v.a. X no es totalmente conocida y es necesario estimar
algunos de sus par´ametros.
10.3. CONTRASTE DE BONDAD DE AJUSTE PARA DISTRIBUCIONES265
0
50
100
150
200
250
300
350
55 60 65 70 75 80 85 90
Frecuencias esperadas
Frecuencias observadas
’observaciones’
esperado(x)
Figura 10.2: En los contrastes de distribuciones, se compara si las observa-
ciones (histograma) se distribuye seg´ un una ley de probabilidad conocida.
10.3.1. Distribuciones de par´ametros conocidos
Deseamos contrastar si la v.a. X sigue una ley de distribuci´on
X;
_
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
_
1 → T[X = 1] = p
1
2 → T[X = 2] = p
2
. . .
i → T[X = i] = p
i
. . .
k → T[X = k] = p
k
donde todos los p
i
est´an fijados (hip´otesis H
0
). Entonces por lo mencionado
anteriormente, el contraste consiste en:
266 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
χ
2
exp
=
k

i=1
(O
i
−np
i
)
2
np
i
χ
2
teo
= χ
2
k−1,1−α
−→
_
¸
_
¸
_
Si χ
2
exp
≤ χ
2
teo
no rechazamos H
0
;
Si χ
2
exp
> χ
2
teo
se rechaza H
0
En este contraste se comete cierto error de aproximaci´on y por tanto ser´a tan-
to mejor cuanto mayor sea n.
Ejemplo
Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado
seg´ un las leyes de Mendel, debe estar compuesto del siguiente modo:
Leyes de Mendel −→
Frecuencias
Fenotipo relativas
AB 9/16
Ab 3/16
aB 3/16
ab 1/16
Elegidos 300 individuos al azar de cierta poblaci´on se observa la siguiente
distribuci´on de frecuencias:
Frecuencias
Fenotipo observadas
AB 165
Ab 47
aB 67
ab 21
Total 300
¿Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos
de dicha poblaci´on?
Soluci´on:
10.3. CONTRASTE DE BONDAD DE AJUSTE PARA DISTRIBUCIONES267
El contraste a realizar es:
_
¸
_
¸
_
H
0
: Se cumplen las leyes de Mendel
H
1
: No se cumplen
⇐⇒
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
H
0
:
¸
¸
¸
¸
¸
¸
¸
¸
¸
p
AB
= 9/16 y
p
Ab
= 3/16 y
p
aB
= 3/16 y
p
ab
= 1/16
H
1
:
¸
¸
¸
¸
¸
¸
¸
¸
¸
p
AB
,= 9/16 o bien
p
Ab
,= 3/16 o bien
p
aB
,= 3/16 o bien
p
ab
,= 1/16
Para ello vamos a representar en una s´ola tabla las frecuencias observa-
das, junto con las que ser´ıan de esperar en el caso de que H
0
fuese cierta:
Fenotipo O
i
c
i
O
2
i
/c
i
AB 165 300 9/16 = 168, 75 161,33
Ab 47 300 3/16 = 52, 25 42,27
aB 67 300 3/16 = 52, 25 85,91
ab 21 300 1/16 = 18, 75 23,52
Total 300 300 313,03
Bajo la hip´otesis de que H
0
sea cierta, se tiene que:
χ
2
exp
=

i
O
2
i
/c
i
−n;χ
2
4−0−1
ya que 4 son los posibles fenotipos, no se ha estimado ning´ un par´ametro (la
distribuci´on seg´ un las leyes de Mendel es conocida), y sobre las cantidades
E
i
existe solamente una restricci´on, que es:

i
c
i
= 300.
Por otro lado,
χ
2
exp
=

i
O
2
i
/c
i
−n = 313, 03 −300 = 13, 03
que seg´ un la tabla de la distribuci´on χ
2
es aproximadamente el percentil
99, 5 de la distribuci´on χ
2
3
. Por tanto la significatividad del contraste es del
268 Bioestad´ıstica: M´etodos y Aplicaciones
0, 5 % < 5 %, lo que nos conduce a rechazar la hip´otesis de que la poblaci´on
de la que la muestra ha sido extra´ıda sigue las leyes de Mendel.
Al mismo resultado llegamos sin calcular con precisi´on la significati-
vidad del contraste, sino considerando que el valor te´orico m´aximo que
admitimos para el estad´ıstico experimental con un nivel de significaci´on del
5 % es el percentil 95 de χ
2
3
, es decir,
χ
2
teo
= χ
2
3;0,95
= 7, 815
y claramente ocurre que χ
2
exp
> χ
2
teo
, por lo que se rechaza la hip´otesis nula.
Obs´ervese tambi´en que el que se haya rechazado la hip´otesis nula signifi-
ca que hay diferencia estad´ısticamente significativa entre las frecuencias
observadas y las esperadas.
Figura 10.3: Aunque aparentan ser aproximadamente iguales las frecuen-
cias observadas y esperadas, existe diferencia estad´ısticamente significativa
entre ellas.
10.3.2. Distribuciones con par´ametros desconocidos
Supongamos que la distribuci´on de X que queremos contrastar no es-
pecifica ciertos valores de r par´ametros
10.4. CONTRASTE DE HOMOGENEIDAD DE MUESTRAS CUALITATIVAS269
X;Fam(θ
1
, . . . , θ
r
) =⇒X;
_
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
_
1 → T[X = 1] = p
1

1
, . . . , θ
r
)
2 → T[X = 2] = p
2

1
, . . . , θ
r
)
. . .
i → T[X = i] = p
i

1
, . . . , θ
r
)
. . .
k → T[X = k] = p
k

1
, . . . , θ
r
)
Estimemoslos a partir de la muestra, y consideremos las cantidades
p
i
= p
i
(
ˆ
θ
1
, . . . ,
ˆ
θ
r
)
Entonces el contraste consiste en
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
χ
2
exp
=
k

i=1
(O
i
−np
i
)
2
np
i
χ
2
teo
= χ
2
k−r−1,1−α
−→
_
¸
_
¸
_
Si χ
2
exp
≤ χ
2
teo
no rechazamos H
0
;
Si χ
2
exp
> χ
2
teo
se rechaza H
0
10.4. Contraste de homogeneidad de muestras cua-
litativas
Vamos a generalizar el contraste de comparaci´on de dos proporciones
(p´agina 244). Consideremos una variable cualitativa (o cuantitativa agru-
pada en intervalos) que puede tomar valores en diferentes clases. Se toman
r muestras diferentes y se desea contrastar:
_
¸
_
¸
_
H
0
: Las r muestras son homog´eneas con respecto a la variable
H
1
: Alguna muestra es diferente
La manera de proceder consiste en representar las r muestras en una
tabla del tipo
270 Bioestad´ıstica: M´etodos y Aplicaciones
Frec.
Muestra
1
Muestra
2
Muestra
r
clases

Clase
1
O
11
O
12
O
1r
F
1
Clase
2
O
21
O
22
O
2r
F
2
. . . . . . . . . . . . . . . . . .
Clase
k
O
k1
O
k2
O
kr
F
k
Tama˜ no
muestras → C
1
C
2
C
r
T
donde
O
ij
→ frecuencia observada de la clase i en la muestra j
F
i
=
k

j=1
O
ij
→ n´ umero de individuos de la clase i
C
j
=
r

i=1
O
ij
→ total de individuos de la muestra j
T =
r

i=1
F
i
=
k

j=1
C
i
→ total de individuos muestreados
Bajo la hip´otesis H
0
, la frecuencia esperada para la clase i en la muestra
j es —comp´arese con la condici´on de independencia en tablas de doble
entrada, relaci´on (??):
c
ij
=
F
i
C
j
T
La diferencia entre lo esperado y lo observado la mide el estad´ıstico χ
2
10.4. CONTRASTE DE HOMOGENEIDAD DE MUESTRAS CUALITATIVAS271
χ
2
exp
=
r

i=1
k

j=1
(O
ij
−c
ij
)
2
c
ij
=
r

i=1
k

j=1
O
2
ij
c
ij
−T
Su distribuci´on es aproximadamente χ
2
gl
, donde los grados de libertad,
gl = a −b −c, se calculan teniendo en cuenta que
a = k r → n´ umero de casillas
b = k −1 → n´ umero de par´ametros estimados
c = r → relaciones impuestas sobre losE
ij
(10.2)
Por tanto
χ
2


2
(k−1)×(r−1)
y rechazamos H
0
si χ
2
exp
> χ
2
(k−1)×(r−1),1−α
.
Ejemplo
Se desea saber si la distribuci´on de los grupos sangu´ıneos es similar en
los individuos de dos poblaciones. Para ello se elige una muestra aleatoria
simple de cada una de ellas, obteni´endose los datos reflejados en la tabla:
Frec. Obs. A B AB 0
Muestra 1 90 80 110 20
Muestra 2 200 180 240 30
¿Qu´e conclusiones pueden obtenerse de estos datos si se usa un nivel de
significaci´on del 5 %?
Soluci´on: Poseemos una variable cualitativa X, que es el grupo san-
gu´ıneo, y debemos contrastar si la distribuci´on es la misma en la primera
poblaci´on y la segunda. Para ello planteamos el contraste de homogeneidad
conveniente:
272 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
_
¸
_
H
0
: La variable X se distribuye igualmente en ambas poblaciones
H
1
: La distribuci´on no es homog´enea
Para ello escribimos la que ser´ıa la distribuci´on de frecuencias esperadas.
´
Estas se calculan a partir de las frecuencias marginales de la distribuci´on
de frecuencias esperadas:
Frec. Esp. A B AB 0
Muestra 1 91,58 82,11 110,53 15,79 300
Muestra 2 198,42 177,89 239,47 34,21 650
290 260 350 50 950
El estad´ıstico del contraste mide las discrepancia entre las observaciones
observadas y esperadas:
χ
2
exp
=
2

i=1
4

j=1
O
2
ij
c
ij
−950 =
90
2
91, 58
+ +
30
2
34, 21
−950 = 1, 76
Los valores cr´ıticos est´an a la derecha del percentil 95 del la distribuci´on
χ
2
(2−1)×(4−1)
= χ
2
3
, que es χ
2
teo
= χ
2
3;0,95
= 2, 35. Por tanto de dichas mues-
tras no se obtiene evidencia estad´ıstica suficiente en contra de que exista
una distribuci´on homog´enea del grupo sangu´ıneo en ambas poblaciones.
10.5. Contraste de independencia de variables cua-
litativas
A partir de una poblaci´on se toma mediante muestreo aleatorio simple
una muestra de tama˜ no n. En cada observaci´on se analizan dos caracter´ısti-
cas cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales
presentan r y s modalidades respectivamente. Deseamos contrastar si las
dos variables son independientes, o sea, queremos realizar un test de signi-
ficaci´on para las hip´otesis:
10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS273
_
¸
_
¸
_
H
0
: Las caracter´ısticas A y B son independientes
H
1
: Las caracter´ısticas A y B est´an asociadas
Este test puede ser enunciado de forma equivalente ordenando la muestra
en una tabla de doble entrada denominada tabla de contingencia, muy
parecida a la de la secci´on anterior:
B B
1
B
2
. . . B
j
. . . B
s
A
A
1
n
11
n
12
. . . n
1j
. . . n
1p
n
1•
A
2
n
21
n
22
. . . n
2j
. . . n
2p
n
2•
. . . . . . . . . . . . . . . . . . . . . . . .
A
i
n
i1
n
i2
. . . n
ij
. . . n
ip
n
i•
. . . . . . . . . . . . . . . . . . . . . . . .
A
r
n
r1
n
r2
. . . n
rj
. . . n
rp
n
r•
n
•1
n
•2
. . . n
•j
. . . n
•p
n
••
Aunque sobre la poblaci´on las siguientes probabilidades sean desconocidas,
introducimos la siguiente notaci´on
p
ij
→ Probabilidad de una observaci´on del tipo (A
i
, B
j
);
p
i•
→ Probabilidad de una observaci´on de A
i
;
p
•j
→ Probabilidad de una observaci´on de B
j
; (10.3)
Recordando el concepto de independencia entre variables bidimensiona-
les cualitativas, otro modo de escribir el contraste a realizar lo obtenemos
bas´andonos en la relaci´on (??):
_
¸
_
¸
_
H
0
: ∀ i = 1, . . . , r ∀ j = 1, . . . , s p
ij
= p
i•
p
•j
H
1
: ∃ i = 1, . . . , r ∃ j = 1, . . . , s p
ij
,= p
i•
p
•j
274 Bioestad´ıstica: M´etodos y Aplicaciones
La idea para realizar este contraste consiste en comparar como en los ca-
sos anteriores las frecuencias esperadas bajo la hip´otesis H
0
, c
ij
= n
••
p
i•
p
•j
,
con las obtenidas en la muestra, O
ij
= n
ij
. Como las cantidades p
i
y p
j
no
son en principio conocidas, han de ser estimadas a partir de las frecuencias
observadas
_
¸
¸
_
¸
¸
_
ˆ p
i•
=
n
i•
n
••
ˆ p
•j
=
n
•j
n
••
=⇒c
ij
= n
••
ˆ p
i•
ˆ p
•j
=
n
i•
n
•j
n
••
lo que nos hace perder (r − 1) + (s − 1) grados de libertad adicionales al
estad´ıstico del contraste:
χ
2
exp
=
r

i=1
s

j=1
(n
ij
−c
ij
)
2
c
i
j


2
(r−1)×(s−1)
Luego rechazamos H
0
si χ
2
exp
> χ
2
(r−1)×(s−1),1−α
.
Observaci´on
Aunque el contraste de homogeneidad de muestras es conceptualmente
diferente al de independencia de variables cualitativas, obs´ervese la analog´ıa
existente entre los criterios de aceptaci´on o rechazo de ambas hip´otesis.
Ejemplo
500 ni˜ nos de escuela primaria se clasificaron de acuerdo con el grupo
socioecon´omico y la presencia o ausencia de cierto defecto en la pronuncia-
ci´on, los resultados son los siguientes:
Grupo socioecon´omico
Superior Medio–Superior Medio–Inferior Inferior Total
Con defecto 8 24 32 27 91
Sin defecto 42 121 138 108 409
Total 50 145 170 135 500
10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS275
¿Son compatibles estos datos con la hip´otesis de que el defecto en la pro-
nunciaci´on, no est´a relacionado con el grupo socioecon´omico?
Soluci´on: En forma de contraste de hip´otesis, se ha de realizar el siguiente:
_
¸
_
¸
_
H
0
: Son independientes el nivel socioecon´omico y el defecto de pronunciaci´on
H
1
: No son independientes ambas cuestiones.
Para ver si H
0
puede considerarse cierta, o si por el contrario hay una fuerte
evidencia a favor de H
1
, fijamos un nivel de significaci´on α = 0, 05, y ana-
lizamos gracias al estad´ıstico χ
2
, las diferencias existentes entre los valores
esperados y los observados, de suponer H
0
cierta, es decir, las diferencias
entre las cantidades
O
ij
= n
ij
c
ij
=
n
i•
n
•j
n
••
276 Bioestad´ıstica: M´etodos y Aplicaciones
Grupo socioecon´omico
Defecto Superior Medio Medio Inferior Total
superior inferior
Si
O
11
= 8
c
11
= 9, 1
O
2
11
E
11
= 7, 033
O
12
= 24
c
12
= 26, 39
O
2
12
E
12
= 21, 82
O
13
= 32
c
13
= 30, 94
O
2
13
E
13
= 33, 096
O
14
= 27
c
14
= 24, 57
O
2
14
E
14
= 29, 67
n
1•
= 91
No
O
21
= 42
c
21
= 40, 9
O
2
21
E
21
= 43, 130
O
22
= 121
c
22
= 118, 61
O
2
22
E
22
= 123, 438
O
23
= 138
c
23
= 139, 06
O
2
23
E
23
= 136, 948
O
24
= 108
c
24
= 110, 43
O
2
24
E
24
= 105, 623
n
2•
= 409
Total n
•1
= 50 n
•2
= 145 n
•3
= 170 n
•4
= 135 n
••
= 500
El n´ umero de grados de libertad del estad´ıstico del contraste es gl = (2 −
1)(4−1) = 3. Luego de ser H
0
cierta, la cantidad χ
2
exp
no deber´ıa superar
el valor te´orico. que se muestra en la Figura 10.4:
χ
2
teo
= χ
gl,1−α
= χ
3,0

95
= 7

81.
Calculemos χ
2
exp
:
χ
2
exp
=

i,j
(O
ij
−c
ij
)
2
c
ij
=

i,j
O
2
ij
c
ij
−n
••
= 500, 758 −500 = 0, 758
En consecuencia, no existe evidencia significativa a favor de la hip´ote-
sis alternativa, o sea, no se rechaza la independencia entre el defecto de
pronunciaci´on de los ni˜ nos de la poblaci´on y el nivel socioecon´omico de su
familia.
10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS277
Figura 10.4: Comparaci´on del valor te´orico con el experimental.
278 Bioestad´ıstica: M´etodos y Aplicaciones
10.6. Problemas
Ejercicio 10.1. Ante la sospecha de que el h´abito de fumar de una emba-
razada puede influir en el peso de su hijo al nacer, se tomaron dos muestras,
una de fumadoras y otra de no fumadoras, y se clasific´o a sus hijos en tres
categor´ıas en funci´on de su peso en relaci´on con los percentiles T
10
y T
90
de la poblaci´on. El resultado se expresa en la tabla siguiente:
Peso del ni˜ no
¿Madre fumadora? Menor de T
10
Entre T
10
y T
90
Mayor de T
90
Si 117 529 19
No 124 1147 117
¿Hay una evidencia significativa a favor de la sospecha a la vista de los
resultados de la muestra?
Ejercicio 10.2. Varios libros de Medicina Interna recomiendan al m´edico
la palpaci´on de la arteria radial con el fin de evaluar el estado de la pared
arterial. Se tomaron 215 pacientes y se les clasific´o seg´ un la palpabilidad de
dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o
dura, respectivamente) y seg´ un una puntuaci´on de 0 a 4 en orden creciente
de degeneraci´on arterial (evaluada tras la muerte del paciente y su an´alisis
anatomo-patol´ogico). Los datos son los de la tabla siguiente:
Palpabilidad
Degeneraci´on 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5
¿Existe relaci´on entre el grado de palpabilidad y el an´alisis anatomopa-
tol´ogico?
Ejercicio 10.3. Se realiz´o una encuesta a 2979 andaluces para evaluar su
opini´on acerca de la atenci´on recibida en los Ambulatorios de la Seguridad
Social, clasific´andolos tambi´en en relaci´on a sus estudios. Analizar los datos
10.6. PROBLEMAS 279
de la siguiente tabla:
Opini´on
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7
Ejercicio 10.4. Con el fin de conocer si un cierto tipo de bacterias se
distribuyen al azar en un determinado cultivo o si, por el contrario, lo hacen
con alg´ un tipo de preferencia (el centro, los extremos, etc...), se divide un
cultivo en 576 ´areas iguales y se cuenta el n´ umero de bacterias en cada
´area. Los resultados son los siguientes:
n
o
de bacterias 0 1 2 3 4 ≥5
n
o
de ´areas 229 211 93 35 7 1
¿Obedecen los datos a una distribuci´on de Poisson?
Ejercicio 10.5. La siguiente tabla recoge la distribuci´on de los triglic´eridos
en suero, expresados en mg/dl en 90 ni˜ nos de 6 a˜ nos:
Nivel de triglic´eridos Frecuencias
10 – 20 5
20 – 30 11
30 – 40 15
40 – 50 24
50 – 60 18
60 – 70 12
70 – 80 4
80 – 90 1
Contrastar la hip´otesis de que el nivel de triglic´eridos en ni˜ nos de 6 a˜ nos
280 Bioestad´ıstica: M´etodos y Aplicaciones
sigue una distribuci´on Normal.
Ejercicio 10.6. La distribuci´on en Andaluc´ıa del grupo sangu´ıneo es de un
35 %, 10 %, 6 % y un 49 % para los grupos A, B, AB y O respectivamente. En
M´alaga, se realiz´o el estudio en una muestra de 200 individuos obteni´endose
una distribuci´on del 50 %, 30 %, 18 %, y 10 % para los grupos A, B AB y
O respectivamente.
Se desea saber si la distribuci´on del grupo sangu´ıneo en dicha provincia es
igual que en Andaluc´ıa.
Ejercicio 10.7. En un estudio dise˜ nado para determinar la aceptaci´on por
una parte de los pacientes de un nuevo analg´esico, 100 m´edicos seleccio-
naron cada uno de ellos una muestra de 25 pacientes para participar en el
estudio. Cada paciente despu´es de haber tomado el nuevo analg´esico duran-
te un periodo de tiempo determinado, fue interrogado para saber si prefer´ıa
´este o el que hab´ıa tomado anteriormente con regularidad, obteniendo los
siguientes resultados:
n
o
de pacientes que n
o
de m´edicos que n
o
total de pacientes
prefieren el nuevo obtienen estos que prefieren el
analg´esico resultados nuevo analg´esico
0 5 0
1 6 6
2 8 16
3 10 30
4 10 40
5 15 75
6 17 102
7 10 70
8 10 80
9 9 81
10 o m´as 0 0
Total 100 500
Queremos saber si estos datos se ajustan a una distribuci´on binomial.
10.6. PROBLEMAS 281
Ejercicio 10.8. Disponemos de una muestra de 250 mujeres mayores de
18 a˜ nos, cuyos pesos son los presentados en la tabla adjunta, y queremos
saber si los datos de esta muestra provienen de una distribuci´on Normal.
Pesos n
o
de mujeres
30 – 40 16
40 – 50 18
50 – 60 22
60 – 70 51
70 – 80 62
80 – 90 55
90 – 100 22
100 – 110 4
Ejercicio 10.9. Deseamos conocer, si las distribuciones atendiendo al gru-
po sangu´ıneo, en tres muestras referidas atendiendo al tipo de tensi´on arte-
rial, se distribuyen de igual manera. Para lo cual, se reuni´o una muestra de
1500 sujetos a los que se les determin´o su grupo sangu´ıneo y se les tom´o la
tensi´on arterial, clasific´andose ´esta en baja, normal, y alta. Obteni´endose
los siguientes resultados:
Grupo sangu´ıneo
Tensi´on arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500
Ejercicio 10.10. La recuperaci´on producida por dos tratamientos distintos
A y B se clasifican en tres categor´ıas: muy buena, buena y mala. Se adminis-
tra el tratamiento A a 30 pacientes y B a otros 30: De las 22 recuperaciones
muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones
buenas , 14 corresponden al tratamiento A y de los 14 que tienen una ma-
la recuperaci´on corresponden al tratamiento A. ¿Son igualmente efectivos
282 Bioestad´ıstica: M´etodos y Aplicaciones
ambos tratamientos para la recuperaci´on de los pacientes?
Cap´ıtulo 11
An´alisis de la varianza
11.1. Introducci´on
Del mismo modo que el contraste χ
2
generalizaba el contraste de dos
proporciones, es necesario definir un nuevo contraste de hip´otesis que sea
aplicable en aquellas situaciones en las que el n´ umero de medias que que-
remos comparar sea superior a dos. Es por ello por lo que el an´alisis de
la varianza, ANOVA
1
surge como una generalizaci´on del contraste para
dos medias de la t de Student, cuando el n´ umero de muestras a contrastar
es mayor que dos.
Por ejemplo, supongamos que tenemos 3 muestras de diferentes tama˜ nos
que suponemos que provienen de tres poblaciones normales con la misma
varianza:
x
1
∈ IR
n
1
X
1
;N
_
µ
1
, σ
2
_
x
2
∈ IR
n
2
X
2
;N
_
µ
2
, σ
2
_
x
3
∈ IR
n
3
X
3
;N
_
µ
3
, σ
2
_
Si queremos realizar el contraste
1
Del t´ermino ingl´es “Analysis of variance”.
283
284 Bioestad´ıstica: M´etodos y Aplicaciones
_
¸
_
¸
_
H
0
: µ
1
= µ
2
= µ
3
H
1
: µ
1
,= µ
2
´o µ
1
,= µ
3
´o µ
2
,= µ
3
podr´ıamos en plantearnos como primer m´etodo el fijar una cantidad α
pr´oxima a cero y realizar los
_
3
2
_
= 3 contrastes siguientes con α como
nivel de significaci´on:
_
¸
_
¸
_
H

0
: µ
1
= µ
2
H

1
: µ
1
,= µ
2
nivel de significaci´on α
_
¸
_
¸
_
H

0
: µ
1
= µ
3
H

1
: µ
1
,= µ
3
nivel de significaci´on α
_
¸
_
¸
_
H

0
: µ
2
= µ
3
H

1
: µ
2
,= µ
3
nivel de significaci´on α
de modo que se aceptar´ıa H
1
y se rechazar´ıa H
0
s´olo si alguna de las hip´ote-
sis alternativas H

1
, H

1
´o H

1
es aceptada y rechazada su correspondiente
hip´otesis nula. El error de tipo I para este contraste es:
T
rob
_
Rechazar H
0
|H
0
es cierta
_
= 1 −T
rob
_
No rechazar H
0
|H
0
es cierta
_
= 1 −T
rob
_
No rechazar H

0
ni H

0
ni H

0 |H

0
y H

0
y H

0
son ciertas
_
= 1 −(1 −α)
3
11.2. ANOVA CON UN FACTOR 285
Por ello el nivel de significaci´on obtenido para este contraste sobre la igual-
dad de medias de tres muestras no es α como hubi´esemos esperado obtener
inicialmente, sino 1 −(1 −α)
3
. Por ejemplo, si tomamos un nivel de signifi-
caci´on α = 0

1 para cada uno de los contrastes de igualdad de dos medias,
se obtendr´ıa que el nivel de significaci´on (error de tipo I) para el contraste
de las tres medias es de 1 − 0, 9
3
= 0, 27, lo que es una cantidad muy alta
para lo que acostumbramos a usar.
En consecuencia, no es adecuado realizar el contraste de igualdad de
medias de varias muestras mediante una multitud de contrastes de igualdad
de medias de dos muestras.
Una t´ecnica que nos permite realizar el contraste de modo conveniente
es la que exponemos en este cap´ıtulo y que se denomina an´alisis de la
varianza.
11.2. ANOVA con un factor
Se denomina modelo factorial con un factor o ANOVA con un factor
al modelo (lineal) en el que la variable analizada la hacemos depender de un
s´olo factor de tal manera que las causas de su variabilidad son englobadas
en una componente aleatoria que se denomina error experimental:
X = factor ± error
Vamos a exponer esto con m´as claridad. Consideremos una variable
sobre la que act´ ua un factor que puede presentarse bajo un determinado
n´ umero de niveles, t. Por ejemplo podemos considerar un f´armaco que se
administra a t = 3 grupos de personas y se les realiza cierta medici´on del
efecto causado:
Resultado de la medici´on
Gripe (nivel 1) 5 3 2 5 4 3 →n
1
= 6
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10 →n
2
= 9
Sanos (nivel 3) 2 3 2 1 2 3 2 →n
3
= 7
286 Bioestad´ıstica: M´etodos y Aplicaciones
En este caso los factores que influyen en las observaciones son tres: el
que la persona padezca la gripe, apendicitis, o que est´e sana.
De modo general podemos representar las t muestras (o niveles) del
siguiente modo:
Niveles Observaciones de X tama˜ nos muestrales
Nivel 1 ≡ N
1
x
11
x
12
x
1n
1
n
1
Nivel 2 ≡ N
2
x
21
x
22
x
2n
2
n
2
. . . . . . . . .
Nivel t ≡ N
t
x
t1
x
t2
x
tn
t
n
t
donde por supuesto, los tama˜ nos de cada muestra n
i
, no tienen por que ser
iguales. En este caso decimos que se trata del modelo no equilibrado.
Observaci´on
De ahora en adelante asumiremos que las siguientes condiciones son
verificadas por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adem´as, dentro de
cada nivel las observaciones son independientes entre s´ı.
En el modelo de un factor suponemos que las observaciones del nivel
i, x
ij
, provienen de una variable X
ij
de forma que todas tienen la
misma varianza —hip´otesis de homocedasticidad:
X
ij
;N
_
µ
i
, σ
2
_
j = 1, . . . , n
i
o lo que es lo mismo,
X
ij
= µ
i
+
ij
, donde
ij
;N
_
0, σ
2
_
De este modo µ
i
es el valor esperado para las observaciones del nivel
i, y los errores
ij
son variables aleatorias independientes, con valor
11.2. ANOVA CON UN FACTOR 287
esperado nulo, y con el mismo grado de dispersi´on para todas las
observaciones.
Otro modo de escribir lo mismo consiste en introducir una cantidad µ
que sea el valor esperado para una persona cualquiera de la poblaci´on
(sin tener en cuenta los diferentes niveles), y considerar los efectos α
i
introducidos por los niveles, de modo que
µ
i
= µ +α
i
i = 1, . . . , t
t

i=1
n
i
α
i
= 0
11.2.1. Especificaci´on del modelo
Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como
X
ij
= µ +α
i
+
ij
, donde
ij
;N
_
0, σ
2
_
y con la siguiente interpretaci´on:
µ es una constante com´ un a todos los niveles;
α
i
es el efecto producido por el i–´esimo nivel. Al sumarlos todos deben
compensarse los efectos negativos con los positivos para que la media
com´ un a todos los niveles sea realmente µ. Esto implica en particular
que los efectos, α
i
, de los niveles no son independientes;

ij
es la parte de la variable X
ij
no explicada por µ ni α
i
, y que se
distribuye del mismo modo (aunque independientemente) para cada
observaci´on, seg´ un la ley gaussiana:

ij
;N
_
0, σ
2
_
´
Esta es la condici´on de homocedasticidad, y es fundamental en el
an´alisis de la varianza.
288 Bioestad´ıstica: M´etodos y Aplicaciones
Obs´ervese que ahora podemos escribir el contraste de que los diferentes
niveles no tienen influencia sobre la observaci´on de la variable como:
_
¸
_
¸
_
H
0
: µ
1
= µ
2
= = µ
t
H
1
: Al menos dos son distintos
o bien
_
¸
_
¸
_
H
0
: α
1
= α
2
= = α
t
= 0
H
1
: Alg´ un α
i
,= 0
Observaci´on
Se utiliza el nombre de an´alisis de la varianza ya que el elemento b´asi-
co del an´alisis estad´ıstico ser´a precisamente el estudio de la variabilidad.
Te´oricamente es posible dividir la variabilidad de la variable que se estudia
en dos partes:
La originada por el factor en cuesti´on;
La producida por los restantes factores que entran en juego, conoci-
dos o no, controlables o no, que se conocen con el nombre de error
experimental.
Si mediante los contrastes estad´ısticos adecuados la variaci´on producida
por cierto factor es significativamente mayor que la producida por el error
experimental podemos aceptar la hip´otesis de que los distintos niveles del
factor act´ uan de forma distinta.
Ejemplo
Consideremos dos muestras tomadas en diferentes niveles de una varia-
ble, de forma que ambas tengan la misma varianza muestral (lo que indica
que no se puede rechazar la igualdad de varianzas poblacionales) y medias
muestrales bastante diferentes. Por ejemplo:
11.2. ANOVA CON UN FACTOR 289
nivel 1
¸ .. ¸
1, 2, 3 ;
_
¸
_
¸
_
n
1
= 3
x
1
= 2
ˆ
o
2
1
= 1
nivel 2
¸ .. ¸
11, 12, 13 ;
_
¸
_
¸
_
n
2
= 3
x
2
= 12
ˆ
o
2
2
= 1
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
=⇒
_
¸
_
¸
_
n = n
1
+n
2
= 6
x = 7
ˆ
o
2
≈ 5, 55
La dispersi´on calculada al medir la de los dos niveles conjuntamente es
mucho mayor que la de cada uno de ellos por separado. Por tanto puede
deducirse que ambos niveles no tienen el mismo valor esperado.
11.2.2. Algo de notaci´on relativa al modelo
Este apartado est´a dedicado a introducir alguna notaci´on para escribir los
t´erminos que ser´an m´as importantes a la hora de realizar un contraste por
el m´etodo ANOVA. En primer lugar tenemos:
N =
t

i=1
n
i
n´ umero total de observaciones (entre todos los niveles)
x
i•
=
n
i

j=1
x
ij
suma de las observaciones del nivel i
x
i•
=
x
i•
n
i
media muestral del nivel i
x
••
=
t

i=1
n
i

j=1
x
ij
=
t

i=1
n
i
x
i•
suma de todas las observaciones
x
••
=
x
••
N
media muestral de todas las observaciones
Usando estos t´erminos vamos a desglosar la variaci´on total de la muestra en
variaci´on total dentro de cada nivel (intravariaci´on) m´as la variaci´on entre
los distintos niveles (intervariaci´on). Para ello utilizamos la proposici´on ??
(p´agina ??):
290 Bioestad´ıstica: M´etodos y Aplicaciones
o(T = o(T +o(c
donde
o(T =
t

i=1
n
i

j=1
(x
ij
−x
••
)
2
Suma de Cuadrados Totales
o(T =
t

i=1
n
i

j=1
(x
ij
−x
i•
)
2
SC Dentro de cada nivel
o(c =
t

i=1
n
i
(x
i•
−x
••
)
2
SC Entre todos los niveles
Observaci´on
En el c´alculo del estad´ıstico o(T intervienen N cantidades, ligadas por
una relaci´on:
x
••
=
t

i=1
n
i

j=1
x
ij
de este modo el n´ umero de grados de libertad de este estad´ıstico es N −1
(recu´erdese la noci´on de grados de libertad de un estad´ıstico, p´agina ??).
Por razones an´alogas tenemos que el n´ umero de grados de libertad de o(T
es N −t y el de o(c es t −1. As´ı introducimos los siguientes estad´ısticos:
ˆ
o
2
T
=
o(T
N −1
Cuasivarianza total (11.1)
ˆ
o
2
E
=
o(c
t −1
Intervarianza (11.2)
ˆ
o
2
D
=
o(T
N −t
Intravarianza (11.3)
11.2. ANOVA CON UN FACTOR 291
Estos son los estad´ısticos que realmente nos interesan a la hora de rea-
lizar el contraste de igualdad de medias. Cuando la diferencia entre los
efectos de los diferentes niveles sea muy baja, es de esperar que la cuasi-
varianza total sea pr´oxima a la intravarianza, o lo que es lo mismo, que la
intervarianza sea peque˜ na en relaci´on con la intravarianza.
Figura 11.1: En la figura de superior no existe una evidencia significativa
en contra de que las medias de los tres grupos de observaciones coinciden.
En la figura inferior s´ı.
11.2.3. Forma de efectuar el contraste
Consideramos el contraste
_
¸
_
¸
_
H
0
: α
1
= α
2
= = α
t
= 0
H
1
: Alg´ un α
i
,= 0
y suponemos que estamos en las condiciones del modelo factorial de un
292 Bioestad´ıstica: M´etodos y Aplicaciones
factor. Si H
0
es cierta se puede demostrar que el siguiente estad´ıstico se
distribuye como una F de Snedecor:
F
exp
=
ˆ
o
2
E
ˆ
o
2
D
;F
t−1,N−t
Luego si al calcular F
exp
obtenemos que F
exp
> F
t−1,N−t,1−α
donde α
es un nivel de significaci´on dado, deberemos de rechazar la hip´otesis nula
(ya que si H
0
fuese cierta, era de esperar que
ˆ
o
2
E
fuese peque˜ no en relaci´on
con
ˆ
o
2
D
).
11.2.4. M´etodo reducido para el an´alisis de un factor
En este apartado vamos a resumir lo m´as importante de lo visto hasta aho-
ra, indicando la forma m´as sencilla de realizar el contraste. En primer lugar
calculamos los siguientes estad´ısticos a partir de la tabla de las observacio-
nes en cada nivel:
A =
t

i=1
n
i

j=1
x
2
ij
B =
t

i=1
x
2
i•
n
i
C =
x
2
••
N
11.2. ANOVA CON UN FACTOR 293
Niveles Observaciones de X C´alculos al margen
Nivel 1 x
11
x
12
x
1n
1
n
1
x
1•
x
2
1•
n
1
n
1

j=1
x
2
1j
Nivel 2 x
21
x
22
x
2n
2
n
2
x
2•
x
2
2•
n
2
n
2

j=1
x
2
2j
. . . . . . . . . . . .
Nivel t x
t1
x
t2
x
tn
t
n
t
x
t•
x
2
t•
n
t
n
t

j=1
x
2
tj
N x
••
B A
Entonces las siguientes cantidades admiten una expresi´on muy sencilla:
o(c = B −C =⇒
ˆ
o
2
E
=
o(c
t −1
o(T = A−C
o(T = A−B =⇒
ˆ
o
2
D
=
o(T
N −t
Calculamos
F
exp
=
ˆ
o
2
E
ˆ
o
2
D
y dado el nivel de significaci´on α buscamos en una tabla de la distribuci´on
F de Snedecor el valor
F
teo
= F
t−1,N−t,1−α
rechazando H
0
si F
exp
> F
teo
. como se aprecia en la Figura 11.2.
294 Bioestad´ıstica: M´etodos y Aplicaciones
0 1 2 3 4
F
n, m, 1−α
Se rechaza H
0
No rechaza la igualdad de medias: H
0
F
n, m
para n=3, m=16
Figura 11.2: Regi´on cr´ıtica en un contraste ANOVA.
Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, obte-
ni´endose los resultados de la tabla que se adjunta. Queremos saber si se
puede concluir que todos los tratamientos tienen el mismo efecto. Para ello
vamos a suponer que estamos en condiciones de aplicar el modelo de un
factor
2
.
2
Esto es algo que debe ser contrastado previamente. En principio la independencia
entre las observaciones es algo bastante natural a la hora de realizar un estudio, pero no
lo es tanto la condici´on de homocedasticidad. M´as adelante veremos ciertos contrastes
de homocedasticidad que deben ser siempre realizados antes de aplicar esta t´ecnica: test
de Cochran y test de Bartlett.
11.2. ANOVA CON UN FACTOR 295
Tratamientos Observaciones n
i
x
i•
x
2
i•
n
i
n
i

j=1
x
2
ij
Tratamiento 1 -1 1 2 0 -1 5 1 1/5 7
Tratamiento 2 -2 -4 -5 -4 -7 5 -22 484/5 110
Tratamiento 3 0 -1 -2 -4 -1 5 -8 64/5 22
Tratamiento 4 1 4 6 3 8 5 22 484/5 126
N = 20 x
••
= 7 B =
1,033
5
A = 265

C =
49
20
Fuente de grados de Suma cuadrados Cuasivarianzas Estad´ıstico
variaci´on libertad
Entre t −1 = 3 o(c = B −C
ˆ
o
2
E
=
SCE
t−1
F
exp
=
ˆ
S
2
E
ˆ
S
2
D
tratamientos =204,15 =68,167 =18,676
Dentro de los N −t = 16 o(T = A−B
ˆ
o
2
D
=
·
SCD
N−t
F
teo
= F
t−1,N−t
tratamientos =58,4 =3,65 =3,24
En conclusi´on, F
exp
> F
teo
, por tanto se ha de rechazar la igualdad de
efectos de los tratamientos.
En la Figura 11.4 se representan las observaciones de cada nivel de
tratamiento mediante una curva normal cuyos par´ametros se han estimado
puntualmente a partir de las observaciones. Obs´ervese que las diferencias
m´as importantes se encuentran entre Los tratamientos 2 y 4. Esto motiva
los contrastes de comparaciones m´ ultiples (dos a dos), para que, en el caso
en que la igualdad de medias sea rechazada, se pueda establecer qu´e niveles
tuvieron mayor influencia en esta decisi´on.
11.2.5. An´alisis de los resultados del ANOVA: Comparacio-
nes m´ ultiples
Una vez contrastado el que existen diferencias significativas mediante el
an´alisis de la varianza, nos interesa conocer que niveles del factor son los
que han influido m´as para que se de este resultado. Como ilustraci´on, en
296 Bioestad´ıstica: M´etodos y Aplicaciones
0 5 10 15 20
F
3, 16, 0.95
F
3, 16
F
exp
= 18.68
Se rechaza la igualdad de medias: H
0
Figura 11.3: Se rechaza la hip´otesis de que los tratamientos tienen el mismo
efecto en los diferentes grupos. Hay gran evidencia estad´ıstica en contra.
el ´ ultimo ejemplo se ve claramente que los tratamientos segundo y cuarto
dan resultados muy diferentes, y probablemente de ah´ı venga el que se haya
rechazado la igualdad de todos los efectos.
El m´etodo m´as simple es el de Bonferroni, que consiste en realizar todas
las comparaciones por parejas:
_
¸
_
¸
_
H
0
: µ
i
= µ
j
H
1
: µ
i
,= µ
j
i, j = 1, . . . , t i ,= j =⇒
_
t
2
_
contrastes
lo que corresponde a los ya conocidos contrastes de la t de Student, que
tienen en este caso como estad´ıstico experimental a (de nuevo suponiendo
la homocedasticidad en todas las muestras):
T
exp
=
x
i
−x
j
ˆ
o
D
¸
1
n
i
+
1
n
i
;t
N−t
11.3. CONSIDERACIONES SOBRE LAS HIP
´
OTESIS SUBYACENTES EN EL MODELO FACTORIAL297
Figura 11.4: Las diferencias m´as importantes se encuentran entre los niveles
2 y 4.
ya que la intravarianza
ˆ
o
D
, es un estimador de σ
2
con N − t grados de
libertad.
Sin embargo el nivel de significaci´on de los contrastes debe ser disminui-
do para tener en cuenta que ahora al hacer multitud de contrastes aumenta
la probabilidad del error de tipo I. Para una probabilidad de error de tipo
I (nivel de significaci´on) α, el procedimiento de comparaciones m´ ultiples
de Bonferroni nos indica que declaremos significativas las diferencias entre
muestras cuando estas sean significativas en contrastes bilaterales para el
estad´ıstico anterior para el nivel de significaci´on
α

=
α
_
t
2
_
11.3. Consideraciones sobre las hip´otesis subya-
centes en el modelo factorial
Para aplicar el modelo de un factor hemos hecho, entre otras, las siguientes
suposiciones:
298 Bioestad´ıstica: M´etodos y Aplicaciones
Las observaciones de cada muestra han de ser independientes y tam-
bi´en la de las muestras entre s´ı. Para ello podemos aplicar cualquiera
de los contrastes no param´etricos de aleatoriedad. En principio esta
aleatoriedad es algo que es bastante razonable admitir si la meto-
dolog´ıa para elegir los datos (muestreo) ha sido realizada siguiendo
t´ecnicas adecuadas.
Los datos han de ser normales en cada una de las muestras. Esto
es algo que deber´ıa ser contrastado previamente antes de utilizar el
ANOVA de un factor mediante, por ejemplo, el test de ajuste a la
distribuci´on normal mediante el estad´ıstico χ
2
que ya conocemos, o
bien el test de d’Agostino, que veremos m´as adelante en la p´agina
308, y que es mucho m´as c´omodo de utilizar;
Las varianzas de cada muestra son todas iguales, es decir:
_
¸
_
¸
_
H
0
: σ
1
= σ
2
= = σ
t
H
1
: Alg´ un σ
i
,= σ
j
Para esto podemos utilizar un par de contrastes que exponemos bre-
vemente a continuaci´on: contraste de Cochran y contraste de Bartlett.
11.3.1. Contraste de homocedasticidad de Cochran
Este test se aplica cuando n = n
1
= n
2
= = n
t
y si ha sido verificada
previamente la aleatoriedad y la normalidad de las observaciones. En este
caso N = t n. El estad´ıstico del contraste es:
R
exp
=
m´ax
_
ˆ
o
2
i
_
t
i=1
t

i=1
ˆ
o
2
i
donde se define
ˆ
o
2
i
como la cuasivarianza de la muestra del nivel i, es decir
ˆ
o
2
i
=
1
n
i
−1
n
i

j=1
(x
ij
−x
i•
)
2
=
1
n
i
−1
n
i

j=1
x
2
ij

n
i
n
i
−1
x
2
i•
11.3. CONSIDERACIONES SOBRE LAS HIP
´
OTESIS SUBYACENTES EN EL MODELO FACTORIAL299
Figura 11.5: En la figura superior hay evidencia en contra de la homoce-
dasticidad en las tres muestras. En la inferior, no.
Fijado un nivel de significaci´on α se busca en la tabla de la distribuci´on de
Cochran el valor
R
teo
= R
n−1,t,1−α
y se rechaza H
0
si R
exp
> R
teo
.
11.3.2. Contraste de homocedasticidad de Bartlett
Este test se aplica si estamos en la misma situaci´on que en el de Cochran,
pero en este caso no es necesario el que todas las muestras sean del mismo
tama˜ no. El estad´ıstico del contraste es:
χ
2
exp
=
1
k
_
(N −t) ln
ˆ
o
2
D

t

i=1
ln
ˆ
o
2
i
_
300 Bioestad´ıstica: M´etodos y Aplicaciones
siendo
k = 1 +
1
3 (t −1)
_
t

i=1
1
n
i
−1

1
N −t
_
Se rechaza H
0
si χ
2
exp
> χ
2
t−1,1−α
11.4. PROBLEMAS 301
11.4. Problemas
1.- Para evaluar la influencia del tipo de acidosis del reci´en nacido en los
niveles de glucemia medidos en el cord´on umbilical del mismo, se obtuvieron
los datos de la siguiente tabla:
Niveles de glucemia
Controles 51 56 58 60 62 63 65 68 72 73
Acid. Respiratoria 60 65 66 68 68 69 73 75 78 80
Acid. Metab´olica 69 73 74 78 79 79 82 85 87 88
Acid. Mixta 70 75 76 77 79 80 82 86 88 89
Obtener conclusiones a partir de los resultados de esas muestras.
2.- Se desea saber si el grado de ansiedad es el mismo, por t´ermino medio, en
tres enfermedades distintas. Para ello se tomaron tres muestras de 10, 12 y
8 personas, respectivamente, con esas enfermedades, pas´andoles a cada una
de ellas un test que mide el grado de ansiedad del individuo. Los resultados
se dan en la tabla adjunta.
Enfermedad Grado de ansiedad
A 4 6 5 5 6 3 3 2 6 5
B 2 1 5 5 4 6 4 4 4 3 3 2
C 7 5 8 7 9 3 5 5
¿Que puede concluirse de los datos?.
3.- En una experiencia para comparar la eficacia de diversas t´ecnicas en el
tratamiento del dolor producido por una intervenci´on quir´ urgica superficial,
28 pacientes se agruparon al azar en 4 grupos de 7, tratando al primero
con placebo, y a los siguientes con dos tipos de analg´esicos (A y B) y
acupuntura. Los datos se dan en la siguiente tabla:
302 Bioestad´ıstica: M´etodos y Aplicaciones
Tratamiento Minutos para la remisi´on del dolor
Placebo 35 22 5 14 38 42 65
Analg´esico A 85 80 46 61 99 114 110
Analg´esico B 100 107 142 88 63 94 70
Acupuntura 86 125 103 99 154 75 160
¿Que conclusiones pueden obtenerse de esta experiencia?.
4.- Se est´a llevando a cabo un estudio para comprobar el efecto de tres die-
tas diferentes en el nivel de colesterina de pacientes hipercolesterin´emicos.
Para ello se han seleccionado al azar 3 grupos de pacientes, de tama˜ nos 12,
8 y 10. Los niveles de colesterina medidos despu´es de 2 semanas de dieta
se representan a continuaci´on:
Dieta Nivel de colesterina
A 2’9 3’35 3’25 3 3’3 3’1 3’25 3’25 3’1 3’05 3’25 3
B 3’15 2’95 2’8 3’1 2’75 2’6 2’8 3’05
C 3 2’6 2’65 2’2 2’55 2’3 2’35 2’6 2’35 2’6
Analice los resultados obtenidos.
5.- En un colectivo de 5 individuos se aplican 3 f´armacos para estudiar
su influencia sobre sus movimientos respiratorios (n´ umero de inspiraciones
por minuto). Los valores obtenidos para cada individuo vienen expresados
en la tabla:
Individuos
1 2 3 4 5
Antes de los tratamientos 14 16 18 15 20
Despu´es de I 16 17 21 16 24
Despu´es de II 15 14 18 15 22
Despu´es de III 17 16 20 13 18
Estudie si el efecto de estos f´armacos en la variaci´on respiratoria producida
11.4. PROBLEMAS 303
puede considerarse o no el mismo.
304 Bioestad´ıstica: M´etodos y Aplicaciones
Cap´ıtulo 12
Contrastes no param´etricos
12.1. Introducci´on
Hasta ahora todas las t´ecnicas utilizadas para realizar alg´ un tipo de
inferencia exig´ıan:
bien asumir de ciertas hip´otesis como la aleatoriedad en las observa-
ciones que componen la muestra, o la normalidad de la poblaci´on, o
la igualdad de varianzas de dos poblaciones, etc;
o bien, la estimaci´on de cualquier par´ametro como la media, varianza,
proporci´on, etc, de la poblaci´on.
El conjunto de estas t´ecnicas de inferencia se denominan t´ecnicas pa-
ram´etricas. Existen sin embargo otros m´etodos paralelos cuyos procedi-
mientos no precisan la estimaci´on de par´ametros ni suponer conocida nin-
guna ley de probabilidad subyacente en la poblaci´on de la que se extrae la
muestra. Estas son las denominadas t´ecnicas no param´etricas o con-
trastes de distribuciones libres, algunos de los cuales desarrollamos en
este cap´ıtulo. Sus mayores atractivos residen en que:
Son m´as f´aciles de aplicar que las alternativas param´etricas;
305
306 Bioestad´ıstica: M´etodos y Aplicaciones
Al no exigir ninguna condici´on suplementaria a la muestra sobre su
proveniencia de una poblaci´on con cierto tipo de distribuci´on, son
m´as generales que las param´etricas, pudi´endose aplicar en los mismos
casos en que estas son v´alidas.
Por otro lado, esta liberaci´on en los supuestos sobre la poblaci´on tiene
inconvenientes. El principal es la falta de sensibilidad que poseen para de-
tectar efectos importantes. En las t´ecnicas no param´etricas juega un papel
fundamental la ordenaci´on de los datos, hasta el punto de que en gran can-
tidad de casos ni siquiera es necesario hacer intervenir en los c´alculos las
magnitudes observadas, m´as que para establecer una relaci´on de menor a
mayor entre las mismas, denominadas rangos.
12.2. Aleatoriedad de una muestra: Test de ra-
chas
A veces al realizar un muestreo, puede llegar a influir el orden temporal
o espacial en que las muestras han sido elegidas, con lo cual no estamos
en las condiciones de un muestreo aleatorio simple, ya que la ley de pro-
babilidad var´ıa de una observaci´on a otra. Como ilustraci´on obs´ervese la
figura adjunta. Tambi´en podemos denominar a este contraste como test
de independencia de las observaciones de una muestra.
Consideremos una muestra de tama˜ no n que ha sido dividida en dos
categor´ıas ¸ y ⊕ con n
1
y n
2
observaciones cada una. Se denomina racha
a una sucesi´on de valores de la misma categor´ıa. Por ejemplo si estudiamos
una poblaci´on de personas podemos considerar como categor´ıa el sexo
¸ ≡ ser hombre
⊕ ≡ ser mujer
4 rachas
¸ .. ¸
⊕ ⊕ ⊕
. ¸¸ .
3
¸¸
.¸¸.
2

.¸¸.
1
¸ ¸ ¸
. ¸¸ .
3
_
¸
_
¸
_
n
1
= 5
n
2
= 4
n = n
1
+n
2
= 9
12.2. ALEATORIEDAD DE UNA MUESTRA: TEST DE RACHAS 307
¸ t t t t t t t t t t
n
o
observaci´on
x
1 2 3 3 5 6 7 8 9
No aleatoria
(peri´odica)
¸ t t t t t t t t t t
n
o
observaci´on
x
1 2 3 3 5 6 7 8 9
No aleatoria
(alternante)
¸ t t t t t t t t t t
n
o
observaci´on
x
1 2 3 3 5 6 7 8 9
Aleatoria
¸ t t t t t t t t t t
n
o
observaci´on
x
1 2 3 3 5 6 7 8 9
No aleatoria
(tendencia)

`
`

¯`

\
\
\
\·/
/
/
//`
`
`
`-

´
--¸>>
..
..
..

´
´´
..
¸
`
`
`
`

--¸>>

¯
\
\
\
\
\·/
/
/
/``
`
`
`-/
/
/`\
\
\
\
\·/
/
/
//``
`

308 Bioestad´ıstica: M´etodos y Aplicaciones
En funci´on de las cantidades n
1
y n
2
se espera que el n´ umero de rachas no
sea ni muy peque˜ no ni muy grande.
Si las observaciones son cantidades num´ericas estas pueden ser divididas
en dos categor´ıas que poseen aproximadamente el mismo tama˜ no (n
1
=
n
2
±1), si consideramos la mediana de las observaciones como el valor que
sirve para dividir a la muestra:
¸ ≡ observaci´on inferior a la mediana
⊕ ≡ observaci´on superior a la mediana
Se define la v.a. R como el n´ umero de rachas. Su distribuci´on est´a ta-
bulada para los casos n
1
≤ 20 y n
2
≤ 20 (tabla 7 de Downie). La alea-
toriedad en la extracci´on de la muestra se rechaza cuando R ≤ R
n
1
,n
2
,α/2
´o R ≥ R
n
1
,n
2
,1−α/r
.
12.3. Normalidad de una muestra: Test de D’Agostino
Consideremos n observaciones, las cuales ordenamos de menor a mayor y
les asignamos su rango en funci´on de este orden
Observaciones
ordenadas
→ x
1
x
2
x
3
x
i
x
n
Rango → 1 2 3 i n
Se calculan sobre la muestra la media, la desviaci´on t´ıpica un estad´ıstico T
y por ´ ultimo el estad´ıstico del contraste D cuya distribuci´on est´a tabulada
T =
n

i=1
_
i −
n + 1
2
_
x
i
=
n

i=1
i x
i

n(n + 1)
2
x (12.1)
D =
T
n
2
o
(12.2)
En la tabla de la distribuci´on del estad´ıstico de D’Agostino, (tabla 8) D,
para un nivel de significaci´on α, se busca un intervalo (D
n,α
, D
n,α
) de modo
12.4. EQUIDISTRIBUCI
´
ON DE DOS POBLACIONES 309
que si D / ∈ (D
n,α
, D
n,α
) se rechaza la normalidad y en otro caso se asume.
Para realizar este test es necesario que al menos n ≥ 10.
12.4. Equidistribuci´on de dos poblaciones
Estas son las alternativas no param´etricas del contraste de la t de Student
para poblaciones normales (secci´on ¸9.5, p´agina 228). Est´an concebidas
para contrastar la hip´otesis de que dos muestras aleatorias independientes
x = x
1
, x
2
, . . . , x
n
1
y = y
1
, y
2
, . . . , y
n
2
provienen de poblaciones que tienen id´enticas distribuciones. Para aplicar
estos contrastes ser´a en primer lugar necesario contrastar si cada una de
las muestras se ha obtenido mediante un mecanismo aleatorio. Esto puede
realizarse mediante un test de rachas.
Supongamos que el contraste de aleatoriedad de ambas muestras (cuan-
titativas) no permite que ´esta se rechace a un nivel de significaci´on α. En-
tonces aplicaremos el contraste de Mann—Withney o el de rachas de
Wald—Wolfowitz, que exponemos a continuaci´on.
12.4.1. Contraste de rachas de Wald—Wolfowitz
Si combinamos las dos muestras y disponemos el conjunto completo de
todas las observaciones, ordenadas de menor a mayor, cabe esperar que
bajo la hip´otesis
H
0
: Las poblaciones de las que provienen las muestras est´an equidistribuidas
las dos muestras est´en muy entremezcladas, y por tanto el n´ umero de ra-
chas, R
exp
, formadas por las categor´ıas
¸ ≡ Observaci´on de la muestra x
⊕ ≡ Observaci´on de la muestra y
debe ser muy alto.
310 Bioestad´ıstica: M´etodos y Aplicaciones
Cuando n
1
, n
2
≤ 20 el valor te´orico del n´ umero de rachas por debajo
del cual se rechaza H
0
,
R
teo
= R
n
1
,n
2

se busca en la tabla 7 (de Downie) y entonces no se rechaza H
0
si R
exp

R
teo
y se rechaza en otro caso.
12.4.2. Contraste de Mann—Withney
El objetivo es el mismo que el del test anterior: contrastar la hip´otesis
_
¸
_
¸
_
H
0
: Las poblaciones de las que provienen las muestras est´an equidistribuidas
H
1
: Las poblaciones no est´an equidistribuidas
para dos muestras x, y cuantitativas independientes, tomadas de modo alea-
torio. El contraste se efect´ ua combinando las dos muestras y disponiendo
el conjunto completo de las observaciones, ordenado de menor a mayor. Se
asignan despu´es n´ umeros de rango a cada observaci´on
Observaciones
unidas y
ordenadas
z = x ∪ y → z
1
z
2
z
3
z
i
z
n
1
+n
2
Rango → 1 2 3 i n
1
+n
2
Se calcula despu´es la suma de los rangos de las observaciones pertenecientes
a la primera muestra y a la segunda, obteni´endose respectivamente R
1
y
R
2
, para despu´es calcular los estad´ısticos
U
1
= n
1
n
2
+
n
1
(n
1
+ 1)
2
−R
1
(12.3)
U
2
= n
1
n
2
+
n
2
(n
2
+ 1)
2
−R
2
= n
1
n
2
−U
1
(12.4)
Entonces si la hip´otesis H
0
es cierta, U
1
y U
2
tienen una distribuci´on de
Mann—Withney de par´ametros n
1
y n
2
que est´a tabulada (tabla 9) para
12.5. CONTRASTE DE WILCOXON PARA MUESTRAS APAREADAS311
valores en que
_
¸
_
¸
_
m´ax¦n
1
, n
2
¦ ≤ 40
m´ın¦n
1
, n
2
¦ ≥ 20
Para el contrate bilateral, se define
U
exp
= m´ın¦U
1
, U
2
¦ (12.5)
y se rechaza H
0
si U
exp
< U
n
1
,n
2

.
Si el contraste que pretendemos realizar es unilateral, como por ejem-
plo,
_
¸
_
¸
_
H
0
: La primera poblaci´on toma valores menores o iguales a la segunda
H
1
: Los de la segunda son menores
rechazaremos la hip´otesis nula si U
1
< U
n
1
,n
2

. Si el test es el contrario
_
¸
_
¸
_
H
0
: La segunda poblaci´on toma valores menores o iguales a la primera
H
1
: Los de la primera son menores
se rechaza H
0
si U
2
< U
n
1
,n
2

.
12.5. Contraste de Wilcoxon para muestras apa-
readas
El contraste de Wilcoxon es la t´ecnica no param´etrica paralela a el de la t
de Student para muestras apareadas (secci´on ¸9.4, p´agina 224). Igualmente
dispondr´ıamos de n parejas de valores (x
i
, y
i
) que podemos considerar como
una variable medida en cada sujeto en dos momentos diferentes.
∀ i = 1, . . . , n, i–´esima observaci´on ≡ (x
i
, y
i
) → diferencia ≡ d
i
= x
i
−y
i
El test de Wilcoxon, al igual que los otros contrastes no param´etricos puede
realizarse siempre que lo sea su hom´ologo param´etrico, con el inconveniente
312 Bioestad´ıstica: M´etodos y Aplicaciones
de que este ´ ultimo detecta diferencias significativas en un 95 % de casos que
el de la t de Student.
Sin embargo a veces las hip´otesis necesarias para el test param´etrico
(normalidad de las diferencias apareadas, d
i
) no se verifican y es estricta-
mente necesario realizar el contraste que presentamos aqu´ı. Un caso muy
claro de no normalidad es cuando los datos pertenecen a una escala ordinal.
El procedimiento consiste en:
1. Ordenar las cantidades [d
i
[ de menor a mayor y obtener sus rangos.
2. Consideramos las diferencias d
i
cuyo signo (positivo o negativo) tiene
menor frecuencia (no consideramos las cantidades d
i
= 0) y calcula-
mos su suma, T
T =
_
¸
_
¸
_

d
i
>0
i si los signos positivos de d
i
son menos frecuentes;

d
i
<0
i si los signos negativos de d
i
son menos frecuentes.
Del mismo modo es necesario calcular la cantidad T

, suma de los
rangos de las observaciones con signo de d
i
de mayor frecuencia, pero
si hemos ya calculado T la siguiente expresi´on de T

es m´as sencilla
de usar
T

= m(n + 1) −T
donde m es el n´ umero de rangos con signo de d
i
de menor frecuencia.
3. Si T ´o T

es menor o igual que las cantidades que aparecen en la
tabla de Wilcoxon (tabla n´ umero 10), se rechaza la hip´otesis nula del
contraste
_
¸
_
¸
_
H
0
: No hay diferencia entre las observaciones apareadas
H
1
: Si la hay
12.6. CONTRASTE DE KRUSKAL–WALLIS 313
12.6. Contraste de Kruskal–Wallis
El contraste de Kruskall–Wallis es la alternativa no param´etrica del m´eto-
do ANOVA, es decir, sirve para contrastar la hip´otesis de que k muestras
cuantitativas han sido obtenidas de la misma poblaci´on. La ´ unica exigencia
versa sobre la aleatoriedad en la extracci´on de las muestras, no haciendo re-
ferencia a ninguna de las otras condiciones adicionales de homocedasticidad
y normalidad necesarias para la aplicaci´on del test param´etrico ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente
cuando no se cumple algunas de las condiciones que se necesitan para aplicar
dicho m´etodo.
Al igual que las dem´as t´ecnicas no param´etricas, ´esta se apoya en el uso
de los rangos asignados a las observaciones.
Para la exposici´on de este contraste, supongamos que tenemos k mues-
tras representadas en una tabla como sigue,
Niveles Observaciones de X
Nivel 1 ≡ N
1
x
11
x
12
x
1n
1
Nivel 2 ≡ N
2
x
21
x
22
x
2n
2
. . . . . .
Nivel k ≡ N
k
x
k1
x
k2
x
kn
k
El n´ umero total de elementos en todas las muestras es:
N = n
1
+n
2
+ +n
k
(12.6)
La hip´otesis a contrastar es:
_
¸
_
¸
_
H
0
: Las k muestras provienen de la misma poblaci´on
H
1
: Alguna proviene de una poblaci´on con mediana diferente a las dem´as
El modo de realizar el contraste es el siguiente:
Se ordenan las observaciones de menor a mayor, asignando a cada
una de ellas su rango (1 para la menor, 2 para la siguiente, . . . ,N
para la mayor).
314 Bioestad´ıstica: M´etodos y Aplicaciones
Para cada una de las muestras, se calcula R
i
, i = 1, . . . , k, como la
suma de los rangos de las observaciones que les corresponden. Si H
0
es falsa, cabe esperar que esas cantidades sean muy diferentes.
Se calcula el estad´ıstico:
H =
12
N(N + 1)
k

i=1
R
2
i
n
i
−3(N + 1) (12.7)
La regla para decidir si se ha de rechazar o no la hip´otesis nula es la siguiente:
Si el n´ umero de muestras es k = 3 y el n´ umero de observaciones en
cada una de ellas no pasa de 5 se rechaza H
0
si el valor de H supera el
valor te´orico que encontramos en la tabla de Kruskall–Wallis —tabla
n´ umero 11.
En cualquier otro caso, se compara el valor de H con el de la tabla
de la χ
2
k−1
con k −1 grados de libertad. Se rechaza H
0
si el valor del
estad´ıstico supera el valor te´orico χ
2
k−1,1−α
.
12.7. Problemas
1.- Recientes estudios sobre el ejercicio de la Medicina en centros en los
que no act´ uan estudiantes, indican que la duraci´on media de la visita por
paciente es de 22 minutos. Se cree que en centros donde con un elevado
n´ umero de estudiantes en pr´acticas esta cifra es menor. Se obtuvieron los
siguientes datos sobre las visitas de 20 pacientes aleatoriamente selecciona-
dos:
Duraci´on en minutos de la visita
21’6 13’4 20’4 16’4 23’5 26’8 24’8 19’3
23’4 9’4 16’8 21’9 24’9 15’6 20’1 16’2
18’7 18’1 19’1 18’9
1. ¿Constituyen estos datos una muestra aleatoria?
12.7. PROBLEMAS 315
2. ¿Podemos concluir en base a estos datos que la poblaci´on de la cual
fue extra´ıda esta muestra sigue una distribuci´on Normal?
2.- Se realiza un estudio para determinar los efectos de poner fin a un
bloqueo renal en pacientes cuya funci´on renal est´a deteriorada a causa de
una met´astasis maligna avanzada de causa no urol´ogica. Se mide la tensi´on
arterial de cada paciente antes y despu´es de la operaci´on. Se obtienen los
siguientes resultados:
Tensi´on arterial
Antes 150 132 130 116 107 100 101 96 90 78
Despu´es 90 102 80 82 90 94 84 93 89 8?????
¿Se puede concluir que la intervenci´on quir´ urgica tiende a disminuir la
tensi´on arterial?
3.- Se ensayaron dos tratamientos antirreum´aticos administrados al azar,
sobre dos grupos de 10 pacientes, con referencia a una escala convencional
(a mayor puntuaci´on, mayor eficacia), valorada despu´es del tratamiento.
Los resultados fueron:
Nivel de eficacia del tratamiento
Tratamiento primero 12 15 21 17 38 42 10 23 35 28
Tratamiento segundo 21 18 25 14 52 65 40 43 35 42
Decidir si existe diferencia entre los tratamientos.
4.- Puesto que el h´ıgado es el principal lugar para el metabolismo de los
f´armacos, se espera que los pacientes con enfermedades de h´ıgado tengan
dificultades en la eliminaci´on de f´armacos. Uno de tales f´armacos es la fenil-
butazona. Se realiza un estudio de la respuesta del sistema a este f´armaco.
Se estudian tres grupos: controles normales, pacientes con cirrosis hep´atica,
316 Bioestad´ıstica: M´etodos y Aplicaciones
pacientes con hepatitis activa cr´onica. A cada individuo se les suministra
oralmente 19 mg de fenilbutazona/Kg. de peso. Bas´andose en los an´alisis
de sangre se determina para cada uno el tiempo de m´axima concentraci´on
en plasma (en horas). Se obtienen estos datos:
Normal Cirr´osis Hepat´ıtis
4 22’6 16’6
30’6 14’4 12’1
26’8 26’3 7’2
37’9 13’8 6’6
13’7 17’4 12’5
49 15’1
6’7
20
¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de
m´axima concentraci´on en plasma de fenilbutazona?
5.- El administrador de un laboratorio est´a considerando la compra de un
aparato para analizar muestras de sangre. En el mercado hay 5 de tales
aparatos. Se le pide a cada uno de los 7 t´ecnicos m´edicos que despu´es
de probar los aparatos, les asignen un rango de acuerdo con el orden de
preferencia, d´andole el rango 1 al preferido. Se obtienen los siguientes datos:
Analizador de sangre
T´ecnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4
7 5 1 4 3 2
12.7. PROBLEMAS 317
Utilizar el contraste adecuado para determinar si los t´ecnicos perciben di-
ferencias entre los aparatos.
6.- Los efectos de tres drogas con respecto al tiempo de reacci´on a cierto
est´ımulo fueron estudiados en 4 grupos de animales experimentales. El gru-
po IV sirvi´o de grupo control, mientras que a los grupos I, II y III les
fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a
la aplicaci´on del est´ımulo:
I ←A II ←B III ←C IV ←Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35
¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reac-
ci´on?
7.- La tabla siguiente muestra los niveles de residuo pesticida (PPB) en
muestras de sangre de 4 grupos de personas. Usar el test de Kruskal–Wallis
para contrastar a un nivel de confianza de 0’05, la hip´otesis nula de que no
existe diferencia en los niveles de PPB en los cuatro grupos considerados.
Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3
8.- La cantidad de amino´acidos libres fue determinada para 4 especies de
ratas sobre 1 muestra de tama˜ no 6 para cada especie. Comprobar si el
contenido de amino´acidos libres es el mismo para las 4 especies.
318 Bioestad´ıstica: M´etodos y Aplicaciones
Especies de ratas
I II III IV
431’1 477’1 385’5 366’8
440’2 479’0 387’9 369’9
443’2 481’3 389’6 371’4
445’5 487’8 391’4 373’2
448’6 489’6 399’1 377’2
451’2 403’6 379’4 381’3
9.- Los siguientes datos nos dan el peso de comida (en Kg.) consumidos
por adulto y d´ıa en diferentes momentos en un a˜ no. Usar un contraste no
param´etrico para comprobar si el consumo de comida es el mismo en los 4
meses considerados.
Febrero Mayo Agosto Noviembre
4’7 4’7 4’8 4’9
4’9 4’4 4’7 5’2
5’0 4’3 4’6 5’4
4’8 4’4 4’4 5’1
4’7 4’1 4’7 5’6
10.- Se hizo un estudio neurofisiol´ogico sobre la conducci´on motora tibial
posterior en dos grupos de pacientes embarazadas con las siguientes deter-
minaciones:
Conducci´on motora tibial posterior
Primer grupo 51 40 41 53 48 50 45 58 45 44
Segundo grupo 58 43 40 45 41 42 44 52 56 48
Comprobar la igualdad o no de ambas muestras.
11.- En un experimento dise˜ nado para estimar los efectos de la inhalaci´on
prolongada de ´oxido de cadmio, 15 animales de laboratorio sirvieron de su-
12.7. PROBLEMAS 319
jetos para el experimento, mientras que 10 animales similares sirvieron de
controles. La variable de inter´es fue el nivel de hemoglobina despu´es del ex-
perimento. Se desea saber si puede concluirse que la inhalaci´on prolongada
de ´oxido de cadmio disminuye el nivel de hemoglobina seg´ un los siguientes
datos que presentamos:
Nivel de hemoglobina
Expuestos 14’4 14’2 13’8 16’5 14’1 16’6 15’9 15’6 14’1 15’3
15’7 16’7 13’7 15’3 14’0
No expuestos 17’4 16’2 17’1 17’5 15’0 16’0 16’9 15’0 16’3 16’8
12.- A 11 ratas tratadas cr´onicamente con alcohol se les midi´o la presi´on
sangu´ınea sist´olica antes y despu´es de 30 minutos de administrarles a todas
ellas una cantidad fija de etanol, obteni´endose los datos siguientes:
Presi´on sangu´ınea sist´olica
Antes 126 120 124 122 130 129 114 116 119 112 118
Despu´es 119 116 117 122 127 122 110 120 112 110 111
¿Hay un descenso significativo de la presi´on sangu´ınea sist´olica tras la in-
gesti´on de etanol?
13.- Un test de personalidad, tiene dos formas de determinar su valoraci´on
suponiendo inicialmente que ambos m´etodos miden igualmente la extro-
versi´on. Para ello se estudia en 12 personas obteni´endose los siguientes
resultados:
Medida de la extraversi´on
Forma A 12 18 21 10 15 27 31 6 15 13 8 10
Forma B 10 17 20 5 21 24 29 7 11 13 8 11
¿Hay diferencia entre los dos m´etodos?
320 Bioestad´ıstica: M´etodos y Aplicaciones
Bibliograf´ıa
[AB 92] P. Armitage, G. Berry, Estad´ıstica para la Investigaci´on
Biom´edica. Doyma, Barcelona, 1992.
[Cal 74] G. Calot, Curso de Estad´ıstica Descriptiva. Paraninfo, Madrid,
1974.
[Car 82] J.L. Carrasco de la Pe˜ na, El M´etodo Estad´ıstico en la In-
vestigaci´on M´edica. Karpus, Madrid, 1982.
[Dan 90] W.W. Daniel, Applied Nonparemetric Statistics. PWS–Kent
Publishing Company, Boston, 1990.
[Ham 90] L.C. Hamilton, Modern Data Analysis. Brooks/Cole Publis-
hing Company, Pacific Grove, 1990.
[Mar 94] A. Mart´ın Andr´ es, J.D. Luna del Castillo, Bioestad´ıstica
para las Ciencias de la salud. Norma, Granada, 1994.
[MS 88] L.A. Marascuilo, R.C. Serlin, Statistical Methods for the
Social and Behavioral Sciences. W.H. Freeman and Company, Nueva
York, 1988.
[Pe˜ n 94] D. Pe˜ na S´ anchez de Rivera, Estad´ıstica: Modelos y M´etodos,
1. Alianza Universidad Textos, Madrid, 1994.
[RMR 91] T. Rivas Moya, M.A. Mateo, F. R´ıus D´ıaz, M. Ruiz, Es-
tad´ıstica Aplicada a las Ciencias Sociales: Teor´ıa y Ejercicios (EAC).
Secretariado de Publicaciones de la Universidad de M´alaga, M´alaga,
1991.
321
322 BIBLIOGRAF
´
IA
[RM 92] E. Rubio Calvo, T. Mart´ınez Terrer y otros, Bioes-
tad´ıstica. Colecci´on Monograf´ıas Did´acticas, Universidad de Zarago-
za, Zaragoza, 1992.
[RS 79] R.D. Remington, M.A. Schork, Estad´ıstica Biom´etrica y Sa-
nitaria. Prentice Hall International, Madrid, 1979.
[Rum 77] L. Ruiz–Maya, M´etodos Estad´ısticos de investigaci´on (Intro-
ducci´on al An´alisis de la Varianza). I.N.E. Artes Gr´aficas, Madrid,
1977.
[SR 90] E. S´ anchez Font, F. R´ıus D´ıaz, Gu´ıa para la Asignatura de
Bioestad´ıstica (EAC). Secretariado de Publicaciones de la Universi-
dad de M´alaga, M´alaga, 1990.
[ST 85] Steel, Torrie, Bioestad´ıstica (Principios y Procedimientos).
Mac Graw–Hill, Bogot´a, 1985.
[Tso 89] M. Tsokos, Estad´ıstica para Psicolog´ıa y Ciencias de la Salud.
Interamericana Mac Graw–Hill, Madrid, 1989.
[WG 82] S.L. Weinberg, K.P. Goldberg, Estad´ıstica B´asica para las
Ciencias Sociales. Nueva Editorial Interamericana, Mexico, 1982.
[Zar 74] J.H. Zar, Biostatistical Analysis. Prentice Hall Inc., Englewood
Cliffs, 1974.

2

Pr´logo o
El desarrollo y el nivel de aplicaci´n que la Bioestad´ o ıstica, como herramienta util y rigurosa en el campo de la investigaci´n en todas las Ciencias ´ o Sociales, ha experimentado en los ultimos a˜os, ha sido espectacular. Es in´ n dudable que este progreso en el conocimiento y aplicaci´n de la Estad´ o ıstica ha venido estrechamente vinculado al que ha experimentado el ´rea de la a computaci´n, que nos ha llevado a una sociedad absolutamente informao tizada donde el ordenador se ha convertido en un utensilio personal de uso habitual. Este auge y progreso de la inform´tica, a nivel de software y a hardware, ha hecho posible, a su vez, la realizaci´n de pruebas estad´ o ısticas que, de forma habitual, hubiesen sido muy costosas desde el punto de vista humano as´ como manejar vol´menes de informaci´n que habr´ resultado ı u o ıan absolutamente impensables. Un segundo factor asociado a este progreso del conocimiento en el ´mbia to estad´ ıstico, ha sido el cambio de actitud experimentado por todos los profesionales de las ´reas de Ciencias Sociales y especialmente, en el ´mbito de a a las Ciencias de la Salud. De una sociedad en la que los roles y el desempe˜o n de la profesi´n estaban ajustados a la mera aplicaci´n de los conocimientos o o adquiridos, hemos evolucionado a una Sociedad Cient´ ıfica donde la investigaci´n ha pasado a formar parte esencial de su labor diaria. El inter´s por o e descubrir nuevos procedimientos a trav´s de la experiencia acumulada, ha e sido determinante en la necesidad de que todos estos profesionales se vean inmersos en la formaci´n y aprendizaje de t´cnicas b´sicas de metodolog´ o e a ıa de la investigaci´n y de algunas m´s concretas como el an´lisis de datos. o a a Este cambio en la dimensi´n del ejercicio profesional, determina que o los planes de estudio de todas las licenciaturas y diplomaturas incluyan la Bioestad´ ıstica para el ´mbito de Salud y Biolog´ como materia troncal a ıa, con entidad propia y de aut´ntica necesidad. Se pretende, con ello, que un e profesional de la Salud, o de cualquier ciencia Social, que se apoye en la cuantificaci´n y en el estudio emp´ o ırico de lo que observa a diario, entienda y conozca los conceptos b´sicos de la ciencia que le va a permitir, abana donando conductas pragm´ticas, profundizar y comprender el fundamento a cient´ ıfico de su ´rea de trabajo. a No se trata de hacer expertos en Estad´ ıstica. El principal objetivo de los docentes de esta materia se centra en generar, en los discentes, una

3

actitud cr´ ıtica ante cualquier lectura cient´ ıfica, adquirir un lenguaje com´n u con estad´ ısticos y otros profesionales del ´rea y conocer a priori los pasos a y los elementos imprescindibles en cualquier investigaci´n emp´ o ırica que se apoye en el manejo de vol´menes grandes de datos y cuyo prop´sito final sea u o condensar dicha informaci´n para que pueda ser transmitida o extrapolar o las conclusiones a las poblaciones de las que fueron tomadas las medidas. Es importante saber que no existe investigaci´n si no existen objetivos previos: o no puede descartarse ni confirmarse lo que no se ha planteado. Ajena a esta transformaci´n social se encuentran la gran mayor´ de o ıa nuestros alumnos que cursan los primeros cursos de alguna de estas licenciaturas o diplomaturas de Ciencias Sociales o Ciencias de la Salud. Sus unicos objetivos se centran en llegar a ser m´dicos, bi´logos, psic´logos. . . y ´ e o o no alcanzan a entender que utilidad les puede reportar una materia como la Bioestad´ ıstica en su curr´ ıculo. Es por ello que al margen de la dificultad intr´ ınseca que genera el entendimiento de la materia, la ense˜anza de la n Bioestad´ ıstica en estos cursos se ve agravada por la imposibilidad de usar cualquier tipo de motivaci´n. o En muy distinta situaci´n se encuentran los alumnos de postgrado que o ya han comenzado su vida profesional y han tenido, por tanto, ocasi´n de o darse cuenta de qu´ manera la Bioestad´ e ıstica les puede resultar util y nece´ saria. Aunque no sea su deseo adentrarse en el mundo de la investigaci´n, o una parte importante en la transmisi´n de los nuevos hallazgos y conocio mientos de otros colegas de su ´mbito profesional, es el lenguaje estad´ a ıstico. Es por ello que han de estar absolutamente familiarizados con dicha terminolog´ si se pretende tener una actitud cr´ ıa ıtica y objetiva ante la lectura de cualquier literatura cient´ ıfica. Fruto del trabajo realizado con estos sectores de estudiantes e investigadores es nuestra experiencia, que nos ha animado a escribir el presente libro que podr´ definirse como un Manual de Estad´ ıa ıstica b´sica aplicada al a a ´mbito de la Salud. Su contenido abarca desde los aspectos m´s b´sicos de a a la Estad´ ıstica descriptiva, en su funci´n de resumir, presentar y comunicar o los resultados de cualquier estudio a las diferentes t´cnicas de extrapolaci´n e o de las conclusiones a una poblaci´n, a partir de lo verificado en una mueso tra representativa de ´sta. Obviamente, para ello, se hace necesario revisar e las nociones m´s b´sicas de aspectos como probabilidad, Variable aleatoria, a a

4

Distribuciones de probabilidad, as´ como los elementos imprescindibles de ı toda la Inferencia Estad´ ıstica: t´cnicas de muestreo, conceptos fundamene tales, estimaci´n confidencial y contrastes de hip´tesis m´s importantes de o o a la Estad´ ıstica Univariante, abordando los test usados bajo supuesto de distribuci´n gaussiana as´ como los de distribuci´n libre. La variabilidad que o ı o han generado los nuevos planes de estudio no facilita la selecci´n de unos o contenidos que abarque la totalidad de los programas de todas las Universidades, sin embargo hay una parte troncal que constituye un porcentaje amplio del conjunto de todos ellos. Esta es la parte que hemos seleccionado, para nuestro contenido, de manera que podamos acercarnos lo m´ximo a posible a lo que pudiera ser un libro de texto para las asignaturas de Bioestad´ ıstica que se imparten en la mayor´ de las Facultades de Medicina y ıa Escuelas de Ciencias de la Salud. En lo que concierne al modo y la forma, la experiencia acumulada a trav´s de los a˜os de docencia y el apoyo en el ´rea de la investigaci´n e n a o de los profesionales de la salud de nuestro entorno, nos condiciona a que teor´ y pr´ctica avancen de manera simult´nea, en este manual, compleıa a a ment´ndose la una a la otra y apoy´ndose mutuamente, con numerosos a a ejemplos que puedan acercar al lector a situaciones m´s cotidianas de su a entorno. Pretendemos con ello ayudarles a entender las nociones m´s absa tractas y a relacionarlas con un futuro no lejano como profesional del mundo de la salud. No obstante, no hemos querido evitar tratar algunos temas con algo m´s de rigor, para que el lector que est´ interesado en profundizar algo a e m´s, pueda hacerlo; siempre teniendo en cuenta que la lectura de dichas a partes es algo optativo y que depender´ de las necesidades individuales. a A todos esos alumnos y compa˜eros queremos dedicarle nuestro m´s n a sincero agradecimiento, por su inestimable colaboraci´n al orientarnos, a o trav´s de sus opiniones sinceras, sobre nuestra metodolog´ docente y haber e ıa podido observar cual ha sido su evoluci´n a lo largo de los a˜os y de las o n diferentes etapas que se han ido sucediendo. Esperamos que la ilusi´n puesta en la realizaci´n de este texto nos hao o ya permitido suavizar, en la medida de lo posible, la aridez del tema que tratamos, y s´lo comprobar que realmente pueda ser un elemento eficaz o de ayuda, apoyo y consulta entre nuestros disc´ ıpulos y compa˜eros, justifin car´ todas las horas que hay detr´s de estas lineas. a a

´ Indice general
1. Conceptos previos 1.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.2. ¿Qu´ es la estad´ e ıstica? . . . . . . . . . . . . . . . . . . . . . 1.3. Elementos. Poblaci´n. Caracteres . . . . . . . . . . . . . . . o 1.4. Organizaci´n de los datos . . . . . . . . . . . . . . . . . . . o 1.4.1. Variables estad´ ısticas . . . . . . . . . . . . . . . . . . 1.4.2. Tablas estad´ ısticas . . . . . . . . . . . . . . . . . . . 1.5. Representaciones Gr´ficas . . . . . . . . . . . . . . . . . . . a 1.5.1. Gr´ficos para variables cualitativas . . . . . . . . . . a 1.5.2. Gr´ficos para variables cuantitativas . . . . . . . . . a 1.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Medidas descriptivas 2.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2.2. Estad´ ısticos de tendencia central . . . . . . . . . . . . . . . 2.2.1. La media . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4. Relaci´n entre media, mediana y moda o 2.3. Estad´ ısticos de posici´n . . . . . . . . . . . . . . . . . . . . o 13 13 14 15 17 17 19 21 22 26 36 39 39 40 41 43 46 47 48

5

6

´ INDICE GENERAL

2.4. Medidas de variabilidad o dispersi´n . . . . . . . . . . . . . o 2.4.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3. Desviaci´n t´ o ıpica o est´ndar . . . . . . . . . . . . . . a 2.4.4. Ejemplo de c´lculo de medidas de dispersi´n . . . . a o 2.4.5. Coeficiente de variaci´n . . . . . . . . . . . . . . . . o 2.5. Asimetr´ y apuntamiento . . . . . . . . . . . . . . . . . . . ıa 2.5.1. Estad´ ısticos de asimetr´ . . . . . . . . . . . . . . . . ıa 2.5.2. Estad´ ısticos de apuntamiento . . . . . . . . . . . . . 2.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Variables bidimensionales 3.1. introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.2. Tablas de doble entrada . . . . . . . . . . . . . . . . . . . . 3.2.1. Distribuciones condicionadas . . . . . . . . . . . . . 3.3. Dependencia funcional e independencia . . . . . . . . . . . . 3.3.1. Dependencia funcional . . . . . . . . . . . . . . . . . 3.3.2. Independencia . . . . . . . . . . . . . . . . . . . . . 3.4. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Coeficiente de correlaci´n lineal de Pearson . . . . . . . . . o 3.6. Regresi´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3.6.1. Bondad de un ajuste . . . . . . . . . . . . . . . . . . 3.6.2. Regresi´n lineal o . . . . . . . . . . . . . . . . . . . . 3.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. C´lculo de probabilidades y variables aleatorias a 4.1. introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . o

55 55 55 56 56 57 59 60 66 68 73 73 75 76 77 77 78 78 81 81 84 86 94 99 99

4.2. Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . 100 4.2.1. Operaciones b´sicas con sucesos aleatorios . . . . . . 101 a

. . . 119 5. . . . . .4. . . . Distribuci´n binomial negativa . . . . .4. .3. . Distribuci´n geom´trica ( o de fracasos) . . 123 o 5. .5. Distribuci´n binomial . .4. .2. . . . . . . . . . Distribuciones discretas .4. . . . . . . . . . . . .1. . Teorema de la probabilidad total . .1. . . . . Introducci´n . .4. . . . . . 141 o e .1. . . . . . . . Valor esperado o esperanza matem´tica . . . .5. . . . 137 o e 6. . .7. 129 o 5. . . . . . . . . . 132 o 6. . 105 o a 4. .a. . 133 o 6. . . . . . .2. . . . . . . . Variables aleatorias continuas . .2. . . . . .5. . . 110 4. . . . . 125 5. . . Probabilidad de Laplace . .´ INDICE GENERAL 7 4. . . . Noci´n frecuentista de probabilidad . . . . .3. Teorema de la probabilidad compuesta . . . . Sistema exhaustivo y excluyente de sucesos . . . 111 4. . . 131 o 6. . Introducci´n . Tests diagn´sticos o . 102 4. . . . . 106 4. 115 4.2. . . 126 5. . . . 110 4. . . . . . . Variables aleatorias 123 5. . . . . Variables aleatorias discretas . . . . . . . . . . .1. . . . . . . .6. . 112 4. . . . . . . . . . . . . . . . . . . . . . . . .2. . Probabilidad condicionada e independencia de sucesos .3. . . .1. . .5.2. . 109 a 4. . . .2. . . . . . . Distribuci´n hipergeom´trica . .2. .1. . . . . . . . . . . . .2. . Problemas . . . . . . . . . . Experimentos aleatorios y probabilidad . . . . . .2. . . . . . . .3. 139 o 6. . . .3. Teoremas fundamentales del c´lculo de probabilidades . .3. . . . Teorema de Bayes . . Principales leyes de distribuci´n de variables aleatorias o 131 6. . . . . 132 6. 130 a 5. . . . . .3. Definici´n axiom´tica de probabilidad . . . . . . . .3. Varianza . . .4. . . . . .5. . . . . . . . . . Distribuci´n de Bernoulli . .5. . . . . . . . 105 4. . . .2. . . . . . . . . . 102 o 4. . . . . . . . . Medidas de tendencia central y dispersi´n de v. . . . . . . . . . . . . . . . . . . . . . . 130 6. . . .

165 7. 155 o 6. . . . . .3. . Intervalo para la media si se conoce la varianza 8. . Distribuci´n de Poisson o de los sucesos raros . . . . 150 o 6. .5. . . . . . . . . . . . . . . . . .2. . 178 8. . . . . Introducci´n . Distribuci´n normal o gaussiana . . . . . .2. . . . . . . . . . . . . . . . Introducci´n a la inferencia o 163 7. . . .2. Intervalo de confianza para la varianza .3. . 146 o 6. . . .3. 170 a 7. .2. . . . . . . . . . . . . .2. . . . . . . . . . 144 6. Muestreo sistem´tico . . . T´cnicas de muestreo sobre una poblaci´n . .1.3. Problemas . .1. .2. . . . . . . . 157 6. . . . . . . .3. . . . Muestreo aleatorio estratificado . . . . . . . .2. . . Distribuci´n χ2 o .3. .2. .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 7. . . . . . . . Distribuci´n uniforme o rectangular . . . . . . . . . . . . . . . . . . 168 a 7. .3. . . Distribuciones continuas .1. 172 8. . . . . . . . Algunos estimadores fundamentales . . . . . .3. . . .8 ´ INDICE GENERAL 6. . . 166 7. . . . . Intervalos de confianza para la distribuci´n normal . . .2. .4. . 175 o 8. . . . . . . . 177 o 8. . .4. . . . . 169 7. . 144 o 6. . . . Muestreo aleatorio . . Estimaci´n confidencial o 175 8. . . . . . . . . . . 187 o n . . . . . . . . . . . . .3. . .1. .2. . . . . . Introducci´n . Distribuci´n exponencial . .2. . . Distribuci´n t de Student . . .6. . . .3. . Muestreo por conglomerados . . .3. . . .6. . . .4. . . . .3. . Estimadores de m´xima verosimilitud . . . . . .2. . . . 163 o 7. .1.1. 186 8. La distribuci´n F de Snedecor o 6. .3.2. . . Estimaci´n del tama˜o muestral . .4. . . . . . . . Intervalo para la media (caso general) . . . . . . 143 o 6. . . . 182 . Propiedades deseables de un estimador . . . . 164 e o 7. . 159 7. .2. 153 . .

. Contrastes para la diferencia de medias apareadas . .7. . .2. 210 9. . . 195 8. 218 9. . . . .5.1.2. . . . . . . . . . . . . .1. . . . . Introducci´n . 219 o 9. . . .3.1. . 246 10. . . . . .5. . . . .4. 256 o 10. . . 231 a 9. . . . El estad´ ıstico χ2 y su distribuci´n . . . . . . . . . . . . . . Contrastes de la raz´n de varianzas . 206 9. . . . Intervalos para la diferencia de medias de dos poblaciones . Problemas . . . . . Contrastes de hip´tesis o 203 9. . Elecci´n del tama˜o muestral para una proporci´n . . . . Intervalo para una proporci´n o . . . . . . . . . . .4. . . Contrastes para la media . . . 189 8.2. . .5. . . . . . . .3. . .3. . . . . . . 232 a 9.2. . .1. Contrastes de una proporci´n . . . 224 9. . Contrastes para la varianza . . . . . . . . . . . . Contraste de medias con varianzas conocidas . . . 197 o n o 8.1. 195 .Contrastes basados en el estad´ ıstico Ji–Cuadrado 255 10. . . . . .1. . . 236 . . . . . . . . .5. . . Contraste de medias homoced´ticas . . .3. . . . . . . 198 8. 228 9.3. . .5. . . . . . . . . . . Contraste de bondad de ajuste para distribuciones . . . . . . 264 . 244 9. . . . .3. .2. . . . 228 9. .4. . 200 9. . . . . . . . . . . . . . . . . 203 o 9. . Observaciones . . . . . . . . . . . . Contrastes de dos distribuciones normales independientes . . . . Contraste de medias no homoced´ticas . . . . . . . . . . . . . Caso particular: Contraste de homocedasticidad 9. . . .5. . . . . . .´ INDICE GENERAL 9 8. .3. . . . . Problemas . . Intervalo para la diferencia de dos proporciones . . .2. . . . . . . . . .1. . . . . . . .6.3. 234 o 9. . .2. . . . . . . . . . . . . Contrastes sobre la diferencia de proporciones . 210 e o 9. . . Intervalos de confianza para variables dicot´micas o 8. .2.5.5. . 255 o 10. . . . . . . . Introducci´n . Contrastes param´tricos en una poblaci´n normal . .

. . . . . . . Distribuciones con par´metros desconocidos . . . 283 o 11. 298 11. . . . . . . . . . . . . . 311 . . . . . Equidistribuci´n de dos poblaciones . . . Especificaci´n del modelo . Contraste de rachas de Wald—Wolfowitz .3. . . .10 ´ INDICE GENERAL 10. . . .5. . . M´todo reducido para el an´lisis de un factor .1. . . . . . .3. . . . . 306 12. . . . . . Problemas . An´lisis de los resultados del ANOVA: Comparacioa nes m´ltiples . . . . Contraste de homocedasticidad de Bartlett . . . 272 10. . . .2. . .3. . 268 a 10. . .An´lisis de la varianza a 283 11.6. . 295 u 11. . . . .3. .4. Distribuciones de par´metros conocidos .2.1. . . . . . . . . . . . . . . 291 11. . . . .2. . . . . . . . . Forma de efectuar el contraste . .1. . . . . . . . .2. . . . . Algo de notaci´n relativa al modelo . . . . . . . .2. . . .4. Aleatoriedad de una muestra: Test de rachas . .1. . . . . . . . . . . . . . Consideraciones sobre las hip´tesis subyacentes en el modelo o factorial . .5. . . . . . . . . . . 287 o 11.2. . . . . . 309 o 12. 309 12. . . 292 e a 11. 310 12.4. 299 11. 305 o 12. . . . . . . . . . . . . .1. 265 a 10. . . . .2. . . . . .Contrastes no param´tricos e 305 12. . . .2. . . . .2. . . 269 10. . .3. Introducci´n . . . . .2. . . . Introducci´n . . . . . 308 12. . 301 12. . 285 11. . . .1. . . Normalidad de una muestra: Test de D’Agostino . . .3. . Contraste de homocedasticidad de Cochran . 278 11. . . . . . . . . 297 11. . . . . Contraste de Wilcoxon para muestras apareadas . . . . . . . . Problemas . . Contraste de Mann—Withney . ANOVA con un factor . . Contraste de independencia de variables cualitativas .2. . . . . . . . . . . . .3.5. . . . . . . . . . . . . . . . .4.4. . . . . . . . . . . . . . . . . 289 o 11. . Contraste de homogeneidad de muestras cualitativas . . . . . . . . .4. .

. . Contraste de Kruskal–Wallis .´ INDICE GENERAL 11 12. . . . . . . . . . . . . . . . . .7.6. 313 12. . . . . . . . . . . . . . . . . Problemas . . 314 Bibliograf´ ıa 321 . . . . . . . . .

12 ´ INDICE GENERAL .

y sin embargo pilares. Cada vez es m´s habitual el uso de a a gr´ficos o im´genes para representar la informaci´n obtenida. y no todas o ellas son pertinentes. a El aserto “una imagen vale m´s que mil palabras” se puede aplicar al a a ´mbito de la estad´ ıstica descriptiva diciendo que “un gr´fico bien elaborado a vale m´s que mil tablas de frecuencias”. correctas o v´lidas. Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos num´ricos: distinguir y e clasificar las caracter´ ısticas en estudio.1. para una comprensi´n intuitiva y real a o de lo que es la Bioestad´ ıstica. en este cap´ a ıtulo. a a o debemos ser prudente al confeccionar o interpretar gr´ficos. consiste en establecer los criterios y normas m´ ınimas que deben verificarse para construir y presentar adecuadamente los gr´ficos en el ´mbito de la a a estad´ ıstica descriptiva.Cap´ ıtulo 1 Conceptos previos 1. No obstante. Introducci´n o Iniciamos este cap´ ıtulo con la definici´n de algunos conceptos elementales o y b´sicos. ense˜arle a organizar y tabular las n medidas obtenidas mediante la construcci´n de tablas de frecuencia y por o ultimo los m´todos para elaborar una imagen que sea capaz de mostrar ´ e gr´ficamente unos resultados. 13 . puesto que unas a misma informaci´n se puede representar de formas muy diversas. Nuestro objetivo.

turismo.. ¿Qu´ es la estad´ e ıstica? Cuando coloquialmente se habla de estad´ ıstica. radio. S´lo cuando nos adentramos en un mundo m´s espec´ o a ıfico como es el campo de la investigaci´n de las Ciencias Sociales: Medicina. empezamos a percibir que la Estad´ ıa. Biolog´ Psio ıa. Podr´ ıamos. o a sino que se convierte en la unica herramienta que. ıstica no s´lo es algo m´s. desde un punto de vista m´s amplio. etc. peri´diıa o o co. ´ a ındices de crecimiento de poblaci´n. a . Esta o e a idea es la consecuencia del concepto popular que existe sobre el t´rmino y e que cada vez est´ m´s extendido debido a la influencia de nuestro entorno.. hallar regularidades y analizar los datos. con la finalidad ı de ayudar a la toma de decisiones y en su caso formular predicciones. definir la estad´ a ıstica como la ciencia que estudia c´mo debe emplearse la informaci´n y c´mo dar una o o o gu´ de acci´n en situaciones pr´cticas que entra˜an incertidumbre. no puedan ser abordadas desde la perspectiva de las leyes determistas. colog´ . y por tanto beneficios. siempre y cuando la variabilidad e incertidumbre sea una causa intr´ ınseca de los mismos. etc.2. tendencias pol´ o ıticas. as´ como de realizar inferencias a partir de ellos. Podr´ ıamos por tanto clasificar la Estad´ ıstica en descriptiva. se suele pensar en una relaci´n de datos num´ricos presentada de forma ordenada y sistem´tica. hoy por hoy. en cualquier tipo de estudio. televisi´n. e clasificar.14 Bioestad´ ıstica: M´todos y Aplicaciones e 1. ıa o a n La Estad´ ıstica se ocupa de los m´todos y procedimientos para recoger. e ina a a ferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos m´s amplio. no nos aborde diariamente con cualquier tipo de o informaci´n estad´ o ıstica sobre accidentes de tr´fico. cuando los resultados del an´lisis no pretenden ir m´s all´ del conjunto de datos. permite ´ dar luz y obtener resultados. resumir. a a ya que hoy d´ es casi imposible que cualquier medio de difusi´n. por su variabilidad intr´ ınseca. cuyos movimientos y relaciones.

muestra. 1. . o Poblaci´n: conjunto de individuos o elementos que cumplen ciertas o propiedades comunes. POBLACION. o Estad´ ıstico: funci´n definida sobre los valores num´ricos de una o e muestra.´ 1. Muestra: subconjunto representativo de una poblaci´n. u predicciones u otras generalizaciones sobre un conjunto mayor de datos. o Par´metro: funci´n definida sobre los valores num´ricos de caraca o e ter´ ısticas medibles de una poblaci´n. ELEMENTOS.3. a las cuales haremos referencia continuamente a lo largo del texto Individuos o elementos: personas u objetos que contienen cierta informaci´n que se desea estudiar.3. efect´a estimaciones. Poblaci´n. o Estad´ ıstica inferencial: Apoy´ndose en el c´lculo de probabilidaa a des y a partir de datos muestrales. Elementos. decisiones. etc. car´ctea o a res. analiza y representa un grupo de datos utilizando m´todos num´ricos y gr´ficos que resumen y presentan la e e a informaci´n contenida en ellos. Caracteres o Establecemos a continuaci´n algunas definiciones de conceptos b´sicos y o a fundamentales b´sicas como son: elemento. CARACTERES 15 Estad´ ıstica descriptiva: Describe. poblaci´n. variables..

16 Bioestad´ ıstica: M´todos y Aplicaciones e En relaci´n al tama˜o de la poblaci´n. Las a modalidades deben ser a la vez exhaustivas y mutuamente excluyentes —cada elemento posee una y s´lo una de las modalidades posibles. rasgos o cualidades de los elementos de la poblaci´n. o Modalidades: diferentes situaciones posibles de un car´cter. si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al aire. como es el caso del n´mero de personas que llegan al servicio u de urgencia de un hospital en un d´ ıa. o . Estos caracteres pueden dividirse en cualitativos y cuantitativos. ´sta puede ser: o n o e Finita. Caracteres: propiedades. o Clases: conjunto de una o m´s modalidades en el que se verifica a que cada modalidad pertenece a una y s´lo una de las clases. Infinita.

Poco. 1. En funci´n del tipo o de dominio.A. . Este es el caso en que hay limitaciones en lo . ¡Un a dolor de intensidad 4 no duele el dobleque otro de intensidad 2! Variables cuantitativas o num´ricas son las que tienen por modalie dades cantidades num´ricas con las que podemos hacer operaciones e aritm´ticas. aparece como discreta. es posible establecer un orden entre ellas. Organizaci´n de los datos o Variables estad´ ısticas Cuando hablemos de variable haremos referencia a un s´ ımbolo (X.1. por e ejemplo. 3. . 1. el grupo sangu´ ıneo tiene por modalidades: Grupos Sangu´ ıneos posibles: A. Por ejemplo.´ 1. Ocurre a veces que una variable cuantitativa continua por naturaleza. O Variables cuasicuantitativas u ordinales son las que. Debemos evitar sin embargo realizar operaciones algebr´icas con estas cantidades. 2.4. Bueno. cuando las modalidades posibles son de tipo nominal. v. cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades.Y. u Continuas. si estudiamos el grado de recuperaci´n de un pao ciente al aplicarle un tratamiento. 5.g. Por ejemplo. Dentro de este tipo de variables podemos distinguir dos e grupos: Discretas. B. el peso X de un ni˜o al n nacer. . .. que llamaremos dominio de la variable o rango. puntuar el dolor en una escala de 1 a 5. o A veces se representan este tipo de variables en escalas num´ricas. cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. podemos tener como modalidades: Grado de recuperaci´n: Nada. 4. ORGANIZACION DE LOS DATOS 17 1.4. las variables las clasificamos del siguiente modo: Variables cualitativas.4. Muy Bueno. aunque sus modalidades son de tipo nominal. ) que puede tomar cualquier modalidad (valor) de un conjunto determinado. Un ejemplo es el n´mero de hijos en una poblaci´n de familias: u o N´mero de hijos posibles: 0. .B. AB. Moderado.

g. Variable cuantitativa discreta: Sus modalidades son valores enteros. cada modalidad debe pertenecer a una y s´lo una de las clases.53. Variable cuasicuantitativa: Modalidades de tipo nominal. tal como hemos citado anteriormente.51. cuando una variable es continua) y conviene reducir su n´mero. podemos obtener o Alturas medidas en cm: 1. Estas clases u a deben ser construidas.18 Bioestad´ ıstica: M´todos y Aplicaciones e que concierne a la precisi´n del aparato de medida de esa variable. .g. en las que existe un orden.52. las modalidades son las diferentes situaciones posibles que puede presentar la variable. 1. . es decir. . En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio 0. agrup´ndolas en una cantidad inferior de clases. o v. 1.50. de modo que sean exhaustivas y excluyentes.. Por tanto cada una de las observaciones de X representa m´s bien un intervalo que un valor concreto. o Variable cualitativa: Aquella cuyas modalidades son de tipo nominal. Variable cuantitativa continua: Sus modalidades son valores reales. a Tal como hemos citado anteriormente. 1. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisi´n.005. A veces ´stas son e muy numerosas (v.

siendo el tanto por uno de los elementos de la poblaci´n que est´n en alguna de las clases y que presentan una o a modalidad inferior o igual a la ci . . Multiplicado por 100 % representa el porcentaje de la poblaci´n que comprende esa clase.4. que denotamos mediante c1 .4. + ni = j=1 nj Frecuencia relativa acumulada . . o Frecuencia absoluta acumulada Ni . entre las frecuencias absolutas de dicha clase y el n´mero total de observaciones. introducimos las siguientes magnitudes: Frecuencia absoluta de la clase ci es el n´mero ni . descrita seg´n un u car´cter o variable C cuyas modalidades han sido agrupadas en un n´mero a u k de clases. se calcula sobre variables cuantitativas o cuasicuantitativas. es decir. Para cada una de las clases ci . ORGANIZACION DE LOS DATOS 19 1. Fi = i Ni n1 + . y es el n´mero de elementos de la poblau ci´n cuya modalidad es inferior o equivalente a la modalidad ci : o i N i = n1 + n2 + . . Fi . Frecuencia relativa de la clase ci es el cociente fi . es decir u fi = ni n Obs´rvese que fi es el tanto por uno de observaciones que est´n en la e a clase ci . . de observaciones que u presentan una modalidad perteneciente a esa clase. Tablas estad´ ısticas Consideremos una poblaci´n estad´ o ıstica de n individuos. + ni = = f1 + . ck . . + fi = fj n n j=1 Llamaremos distribuci´n de frecuencias al conjunto de clases junto a o las frecuencias correspondientes a cada una de ellas. . se calcula sobre variables cuantitativas o cuasicuantitativas. k. . . c2 . . .2. . . Una tabla estad´ ıstica . i = 1. .´ 1. .

. C c1 .. Como N3 = 170 y n3 = 30. N Fj = nj = f1 + . ... Ni N 1 = n1 . ni n1 . . Acumu. entonces N2 = N3 − n3 = 170 − 30 = 140. Rel.. ck Frec.... fi f1 = n1 n . luego n = 200.. . + fj . nk n Frec.. .20 Bioestad´ ıstica: M´todos y Aplicaciones e sirve para presentar de forma ordenada las distribuciones de frecuencias. Acumu. Fk = 1 Ejemplo de c´lculo con frecuencias a Calcular los datos que faltan en la siguiente tabla: li−1 — li 0 — 10 10 — 20 20 — 30 30 — 100 100 — 200 ni 60 n2 30 n4 n5 n fi f1 0. Fi F1 = N1 = f1 n .4 f3 0.. Adem´s al ser n1 = 60. cj . fk = nk n 1 Frec.. N j = n1 + . n fj = nj ... Abs.. nj . Abs. Nk = n Frec. + nj . Rel..1 f5 Ni 60 N2 170 N4 200 Soluci´n: o Sabemos que la ultima frecuencia acumulada es igual al total de observa´ ciones... .. Su forma general es la siguiente: Modali. tenemos que a n2 = N2 − n1 = 140 − 60 = 80..

´ 1.05 Ni 60 140 170 190 200 1.3 0. 3 n 200 n3 30 = = 0.1 0. 1 × 200 = 20 n As´ ı: N4 = n4 + N3 = 20 + 170 = 190. 05 n 200 f1 = f3 = f5 = Escribimos entonces la tabla completa: li−1 — li 0 — 10 10 — 20 20 — 30 30 — 100 100 — 200 ni 60 80 30 20 10 200 fi 0. Al haber calculado todas las frecuencias absolutas. de forma que ´sta se puede analizar de una manera m´s o e a .5.5. REPRESENTACIONES GRAFICAS 21 Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia relativa correspondiente: n4 f4 = =⇒ n4 = f4 · n = 0. es inmediato obtener las relativas: 60 n1 = = 0. Representaciones Gr´ficas a Hemos visto que la tabla estad´ ıstica resume los datos que disponemos de una poblaci´n.4 0. Este ultimo c´lculo nos permite obtener ´ a n5 = N5 − N4 = 200 − 190 = 10. 15 n 200 10 n5 = = 0.15 0.

cuya construcci´n abordamos en esta secci´n. Para darnos cuenta de un s´lo vistazo de las caa o racter´ ısticas de la poblaci´n resulta a´n m´s esclarecedor el uso de gr´ficos o u a a y diagramas. mostradas en la figura 1.2. ya que en otro caso podr´ resultar enga˜osas. las frecuencias relativas.1. Gr´ficos para variables cualitativas a Los gr´ficos m´s usuales para representar variables de tipo nominal son los a a siguientes: Diagramas de barras: Siguiendo la figura 1.1: Diagrama de barras para una variable cualitativa. Cuando los tama˜os de las dos poblaciones n son diferentes. es conveniente utilizar las frecuencias relativas. o o 1.1. ıan n frecuencias 8 6 4 2 Solteros Casados Viudos Divorciados Figura 1. representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien.22 Bioestad´ ıstica: M´todos y Aplicaciones e sistem´tica y resumida .5. Si. como las ı. . mediante el gr´fico. se intenta coma parar varias poblaciones entre s´ existen otras modalidades.

2: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al n´mero de observaciones (frecuencias relativas). u .´ 1.5. REPRESENTACIONES GRAFICAS 23 frecuencias relativas autocar 1 autocar 2 Solteros Casados Viudos Divorciados Figura 1.

. En este caso tambi´n es aconsejable el uso de las frecuencias e relativas (porcentajes) de ambas sobre gr´ficos como los anteriores. al igual que en la figura 1. Sean n1 ≤ n2 los tama˜os respectivos de las 2 poblaciones. puede interesar comparar dos poblao ciones.5% Grupo D 125 individuos 12.3). a Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular. La poblaci´n n o m´s peque˜a se representa con un semic´ a n ırculo de radio r1 y la mayor con otro de radio r2 .5% Grupo C 250 individuos 25% Grupo B 250 individuos 25% Figura 1. Grupo A 375 individuos 37. El arco de cada porci´n se calcula usando la regla de tres: o n −→ 360◦ ni −→ xi = 360 · ni n Como en la situaci´n anterior. de modo que a cada clase le corresponde un arco de c´ ırculo proporcional a su frecuencia absoluta o relativa (figura 1.4.3: Diagrama de sectores. Se divide un c´ e ırculo en tantas porciones como clases existan.24 Bioestad´ ıstica: M´todos y Aplicaciones e Diagramas de sectores (tambi´n llamados tartas).

lo que da un efecto visual enga˜oso.5. es decir: n 2 r2 n2 2 = n ⇐⇒ r2 = r1 · r1 1 n2 n1 Poblac. 50% Figura 1. Este tipo de gr´ficos suele usarse en los medios de comunicaci´n. 50% Poblac.´ 1. ya que a frecuencia doble. A 1000 individuos No fumadores 750 individuos. El escalamiento de los dibujos debe ser tal que el ´rea1 de cada uno de a ellos sea proporcional a la frecuencia de la modalidad que representa. B 250 individuos 125 ind. corresponder´ un dibujo de ´rea ıa a cuadruple. sin que sea u necesaria una explicaci´n compleja. es la que se obtiene de suponer o que la relaci´n entre las areas de las circunferencias es igual a la de o los tama˜os de las poblaciones respectivas.5.4: Diagrama de sectores para comparar dos poblaciones Pictogramas Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades de la variable. 25% No fumadores Fumadores 125 ind. 75% Fumadores 250 ind. Estos gr´ficos se hacen a representado a diferentes escalas un mismo dibujo. para a o que sean comprendidos por el p´blico no especializado. REPRESENTACIONES GRAFICAS 25 La relaci´n existente entre los radios. como vemos en la figura 1. o Es un error hacer la representaci´n con una escala tal que el per´ o ımetro del dibujo sea proporcional a la frecuencia. n 1 .

5. Se realizan a partir de las frecuencias acumuladas.2. En ellos se representa el n´mero o u porcentaje de elementos que presenta una modalidad dada. consideraremos dos tipos de gr´ficos. lo que da lugar a gr´ficos crecientes. Diagramas integrales: Son aquellos en los que se representan el n´mero u de elementos que presentan una modalidad inferior o igual a una dada. y es obvio que este tipo de gr´ficos no tiene sentido a a para variables cualitativas. a 1.5: Pictograma. Las ´reas son proporcionales a las frecuencias. . en a funci´n de que para realizarlos se usen las frecuencias (absolutas o relativas) o o las frecuencias acumuladas: Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. Vemos a continuaci´n las diferentes representaciones gr´ficas o a que pueden realizarse para cada una de ellas as´ como los nombres espec´ ı ıficos que reciben. Seg´n hemos visto existen dos tipos de variables cuantitativas: discretas u y continuas.26 Bioestad´ ıstica: M´todos y Aplicaciones e Figura 1. Gr´ficos para variables cuantitativas a Para las variables cuantitativas.

0. Las barras deben ser esa trechas para representar el que los valores que toma la variable son discretos.3 Ordenamos a continuaci´n los datos en una tabla estad´ o ıstica.1. y se representa la misma en la figura 1.3.5. X. forma de escalera. a Soluci´n: En primer lugar observamos que la variable X es cuantitativa o discreta. presentando las modalidades: 0. REPRESENTACIONES GRAFICAS 27 Gr´ficos para variables discretas a Cuando representamos una variable discreta. El diagrama integral o acumulado tiene.2 Representar gr´ficamente el resultado. obteniendose los siguientes resultados: 2. a Ejemplo de variable discreta Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el n´mero u de caras.2. por la naturaleza de la variable.6.1.´ 1. usamos el diagrama de barras cuando pretendemos hacer una gr´fica diferencial.1.1. xi 0 1 2 3 ni 1 3 3 1 n=8 fi 1/8 3/8 3/8 1/8 1 Ni 1 4 7 8 Fi 1/8 4/8 7/8 8/8 Ejemplo de regresentaci´n gr´fica o a Clasificadas 12 familias por su n´mero de hijos se obtuvo: u N´mero de hijos (xi ) u Frecuencias (ni ) 1 1 2 3 3 5 4 3 .2. Un ejemplo de diagrama de barras as´ como su diagrama ı integral correspondiente est´n representados en la figura 1.6.

7. Obs´rvese que el diagrama integral (creciente) contabiliza el n´mero e u de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.28 Bioestad´ ıstica: M´todos y Aplicaciones e frecuencias absolutas 8 7 frecuencias absolutas acumuladas 4 3 1 0 1 2 3 1 0 1 2 3 Figura 1. Como puede verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado . escribimos la tabla de frecuencias en el modo o habitual: Variable xi 1 2 3 4 F.416 0. Realizar el diagrama acumulativo creciente. Soluci´n: En primer lugar.083 0.6: Diagrama diferencial (barras) e integral para una variable discreta. lo que se muestra en la figura 1. Comparar los diagramas de barras para frecuencias absolutas y relativas. Acumuladas Ni 1 4 9 12 Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas. Absolutas ni 1 3 5 3 12 F. Relativas fi 0.250 0.250 1 F.

representando sobre cada intervalo.5. El diagrama escalonado (acumulado) se ha construido con la informaci´n procedente de las columnas xi y Ni . o 5 3 9 1 1 2 3 4 4 frecuencias absolutas 12 frecuencias absolutas acumuladas 5/12 3/12 1/12 frecuencias relativas 1 1 1 2 3 4 2 3 4 Figura 1. Un histograma se construye a partir de la tabla estad´ ıstica. Para representar el pol´ ıgono de frecuencias en el primer y ultimo interva´ . REPRESENTACIONES GRAFICAS 29 usando las columnas de xi y fi . V´ase la figura 1. un rect´ngulo que tiene a este segmento como a base. ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. a e El pol´ ıgono de frecuencias se construye f´cilmente si tenemos represena tado previamente el histograma.8.´ 1. utilizamos como diagramas diferenciales los histogramas y los pol´ ıgonos de frecuencias. El criterio para calcular la altura de cada rect´ngulo es el de mantea ner la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el ´rea de los mismos.7: Diagramas de frecuencias para una variable discreta Gr´ficos para variables continuas a Cuando las variables son continuas.

9.8: Histograma para una variable continua.9. Veanse ambas a a e gr´ficas diferenciales representadas en la parte superior de la figura 1. el pol´ ıgono de frecuencias absolutas es una primitiva del histograma.30 Bioestad´ ıstica: M´todos y Aplicaciones e Peso de 20 individuos 4 frecuencia absoluta 0 40 1 2 3 50 60 Peso 70 80 Figura 1. y se unen por una l´ ınea recta los puntos del histograma que corresponden a sus marcas de clase. Obs´rvese que de ese te modo. en la que se representa a modo de ilustraci´n los o diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente: . V´ase la parte e inferior de la figura 1. y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable. lo. suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula. el pol´ ıgono de frecuencias tiene en com´n con el histograma el u que las ´reas de la gr´ficas sobre un intervalo son id´nticas. a El diagrama integral para una variable continua se denomina tambi´n e pol´ ıgono de frecuencias acumulado. Dicho de otro modo.

REPRESENTACIONES GRAFICAS 31 Intervalos 0—2 2—4 4—6 6—8 8 – 10 ci 1 3 5 7 9 ni 2 1 4 3 2 12 Ni 2 3 7 10 12 4 3 2 1 n i Diagramas diferenciales 0 12 10 8 6 4 2 Ni 2 4 6 8 10 Diagrama acumulado 0 2 4 6 8 10 Figura 1.9: Diagramas diferenciales e integrales para una variable continua.5. .´ 1.

32

Bioestad´ ıstica: M´todos y Aplicaciones e

Ejemplo La siguiente distribuci´n se refiere a la duraci´n en horas (completas) o o de un lote de 500 tubos: Duraci´n en horas o 300 — 500 500 — 700 700 — 1.100 m´s de 1.100 a N´mero de tubos u 50 150 275 25 Total 500

Representar el histograma de frecuencias relativas y el pol´ ıgono de frecuencias. Trazar la curva de frecuencias relativas acumuladas. Determinar el n´mero m´ u ınimo de tubos que tienen una duraci´n ino ferior a 900 horas. Soluci´n: En primer lugar observamos que la variable en estudio es diso creta (horas completas), pero al tener un rango tan amplio de valores resulta m´s conveniente agruparla en intervalos, como si de una variable continua a se tratase. La consecuencia es una ligera perdida de precisi´n. o El ultimo intervalo est´ abierto por el l´ ´ a ımite superior. Dado que en ´l hay 25 observaciones puede ser conveniente cerrarlo con una amplitud e “razonable”. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podr´ ıamos cerrar el ultimo intervalo en 1.300 horas2 . ´ Antes de realizar el histograma conviene hacer una observaci´n imporo tante. El histograma representa las frecuencias de los intervalos mediante a ´reas y no mediante alturas. Sin embargo nos es mucho m´s f´cil hacer a a representaciones gr´ficas teniendo en cuenta estas ultimas. Si todos los a ´ intervalos tienen la misma amplitud no es necesario diferenciar entre los
2 Cualquier otra elecci´n para el l´ o ımite superior del intervalo que sea de “sentido comun” ser´ v´lida. ıa a

´ 1.5. REPRESENTACIONES GRAFICAS

33

conceptos de ´rea y altura, pero en este caso el tercer intervalo tiene una a amplitud doble a los dem´s, y por tanto hay que repartir su ´rea en un a a rect´ngulo de base doble (lo que reduce su ´ltura a la mitad). a a As´ ser´ conveniente a˜adir a la habitual tabla de frecuencias una coı a n lumna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi , para representar la altura del histograma. Los gr´ficos requeridos se representan en las figuras 1.10 y 1.11. a Intervalos 300 — 500 500 — 700 700 — 1.100 1.100 — 1.300 ai 200 200 400 200 ni 50 150 275 25 n=500 fi 0,10 0,30 0,55 0,05 fi 0,10 0,30 0,275 0,05 Fi 0,10 0,40 0,95 1,00

0,3 fi 0,275

0,1

900 300 500 700

0,05 1100 1300

Figura 1.10: Histograma. Obs´rvese que la altura del histograma en cada e intervalo es fi que coincide en todos con fi salvo en el intervalo 700 — 1.100 en el que fi = 1/2 fi ya que la amplitud de ese intervalo es doble a la de los dem´s. a

Por otro lado, mirando la figura 1.10 se ve que sumando frecuencias relati-

34

Bioestad´ ıstica: M´todos y Aplicaciones e

0,95 0,675 0,4

1

0,1 300 500 700

900 1100 1300

Figura 1.11: Diagrama acumulativo de frecuencias relativas

vas, hasta las 900 horas de duraci´n hay o 0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos. Esta cantidad se obtiene de modo m´s directo viendo a qu´ altura corresa e ponde al valor 900 en el diagrama de frecuencias acumuladas (figura 1.11). Como en total son 500 tubos, el n´mero de tubos con una duraci´n igual o u o menor que 900 horas es 0,675 × 500= 337,5. Redondeando, 338 tubos.

´ 1.5. REPRESENTACIONES GRAFICAS

35

Cuadro 1.1: Principales diagramas seg´n el tipo de variable. u Tipo de variable Diagrama V. Cualitativa Barras, sectores, pictogramas

V. Discreta

Diferencial (barras) Integral (en escalera)

V. Continua

Diferencial (histograma, pol´ ıgono de frecuencias) Integral (diagramas acumulados)

36

Bioestad´ ıstica: M´todos y Aplicaciones e

1.6.

Problemas

Ejercicio 1.1. Clasificar las siguientes variables: 1. Preferencias pol´ ıticas (izquierda, derecha o centro). 2. Marcas de cerveza. 3. Velocidad en Km/h. 4. El peso en Kg. 5. Signo del zodiaco. 6. Nivel educativo (primario secundario, superior). 7. A˜os de estudios completados. n 8. Tipo de ense˜anza (privada o p´blica). n u 9. N´mero de empleados de una empresa. u 10. La temperatura de un enfermo en grados Celsius. 11. La clase social (baja, media o alta). 12. La presi´n de un neum´tico en Nw/cm2 o a Ejercicio 1.2. Clasifique las variables que aparecen en el siguiente cuestionario. 1. ¿Cu´l es su edad? a 2. Estado civil: a) Soltero b) Casado c) Separado d ) Divorciado e) Viudo

1.6. PROBLEMAS

37

3. ¿Cuanto tiempo emplea para desplazarse a su trabajo? 4. Tama˜o de su municipio de residencia: n a) Municipio peque˜o (menos de 2.000 habitantes) n b) Municipio mediano (de 2.000 a 10.000 hab.) c) Municipio grande (de 10.000 a 50.000 hab.) d ) Ciudad peque˜a (de 50.000 a 100.000 hab.) n e) Ciudad grande (m´s de 100.000 hab.) a 5. ¿Est´ afiliado a la seguridad social? a Ejercicio 1.3. En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de ni˜os nacidos en cierto intervalo de tiempo: n 4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.

1. Construir una distribuci´n de frecuencia de estos pesos. o 2. Encontrar las frecuencias relativas. 3. Encontrar las frecuencias acumuladas. 4. Encontrar las frecuencias relativas acumuladas. 5. Dibujar un histograma con los datos del apartado a. 6. ¿Por qu´ se ha utilizado un histograma para representar estos datos, e en lugar de una gr´fica de barras? a

38 Bioestad´ ıstica: M´todos y Aplicaciones e .

o u Los fen´menos biol´gicos no suelen ser constantes.Cap´ ıtulo 2 Medidas descriptivas 2. 39 . pretendemos describirlos mediante dos o tres cantidades sint´ticas. Introducci´n o En el cap´ ıtulo anterior hemos visto c´mo se pueden resumir los datos obteo nidos del estudio de una muestra (o una poblaci´n) en una tabla estad´ o ıstica o un gr´fico. por lo que ser´ neo o a cesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos. tras la elaboraci´n de la tabla y su representaci´n a o o gr´fica. en la mayor´ de las ocasiones resulta m´s eficaz “condensar” dicha a ıa a informaci´n en algunos n´meros que la expresen de forma clara y concisa. a Es decir. se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuaci´n. No obstante. e En este sentido pueden examinarse varias caracter´ ısticas. o Por tanto el siguiente paso y objeto de este cap´ ıtulo consistir´ en definir a algunos tipos de medidas (estad´ ısticos o par´metros) que los sintetizan a´n a u m´s.1. dado un grupo de datos organizados en una distribuci´n de o frecuencias (o bien una serie de observaciones sin ordenar). siendo las m´s a comunes: La tendencia central de los datos.

iremos estudiando los estad´ ısticos que nos van a orientar sobre cada uno de estos niveles de informaci´n: valores alrededor de los cuales se agrupa la muestra. Posicion . Dispersion Centro .2. o o Los datos que ocupan ciertas posiciones.1: Medidas representativas de un conjunto de datos estad´ ısticos A lo largo de este cap´ ıtulo. La simetr´ de los datos. la mediana. . y siguiendo este orden. . la moda. la o mayor o menor fluctuaci´n alrededor de esos valores. nos interesaremos en o ciertos valores que marcan posiciones caracter´ ısticas de una distribuci´n de o frecuencias as´ como su simetr´ y su forma. ıa La forma en la que los datos se agrupan. Asimetria 1/4 1/2 1/4 Figura 2.40 Bioestad´ ıstica: M´todos y Aplicaciones e La dispersi´n o variaci´n con respecto a este centro. ı ıa 2. Estad´ ısticos de tendencia central Las tres medidas m´s usuales de tendencia central son: a la media.

1) Algunos inconvenientes de la media La media presenta inconvenientes en algunas situaciones: .1. 2. . ponderada por las frecuencias de los mismos..2. xk ni n1 .. . La media La media aritm´tica de una variable estad´ e ıstica es la suma de todos sus posibles valores.. ESTAD´ ISTICOS DE TENDENCIA CENTRAL 41 En ciertas ocasiones estos tres estad´ ısticos suelen coincidir.2. xk nk ) n 1 k xi ni = n i=1 Si los datos no est´n ordenados en una tabla. + xn n x= (2. . nk fi f1 . precisaremos m´s adelante. fk la media es el valor que podemos escribir de las siguientes formas equivalentes: x = x1 f1 + . entonces a x1 + . aunque generalmente no es as´ Cada uno de ellos presenta ventajas e inconvenientesque ı. En primer lugar vamos a definir los conceptos a anteriores. Es decir. si la tabla de valores de una variable X es X x1 .. .. .2.. + xk fk 1 = (x1 n1 + . .

. + n 1 xn . He aqu´ algunas de ellas aplicadas a unas observaciones ı x1 . es decir. xnk 1 2 k La media arm´nica xa . es la media de los logaritmos de los valores de e la variable: log xg = Luego xg = √ n x1 x2 .. la aparici´n de una observaci´n extrema. se define como el rec´ o ıproco de la media aritm´tie ca de los rec´ ıprocos. 2 hijos. + log xn n Si los datos est´n agrupados en una tabla. . . xn log x1 + . 1 = xa 1 x1 + . . . . . xn : La media geom´trica xg . Otras medias: Medias generalizadas En funci´n del tipo de problema varias generalizaciones de la media pueden o ser consideradas.42 Bioestad´ ıstica: M´todos y Aplicaciones e Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el c´lculo de a la media. por ejemplo.. el n´mero de hijos u en las familias espa˜olas el valor de la media puede no pertenecer al n conjunto de valores de la variable. har´ que la media o o a se desplace en esa direcci´n. . o no es recomendable usar la media como medida central en las distribuciones muy asim´tricas. entonces se tiene: a xg = n xn1 xn2 . En consecuencia. . . Por ejemplo x = 1. e Si consideramos una variable discreta.

.2.2: C´lculo geom´trico de la mediana a e En el caso de variables continuas. Med al primer valor de la variable que deja por debajo de s´ al 50 % de las ı observaciones. . + x2 n 1 n 2. las clases vienen dadas por intervalos. y aqu´ la f´rmula de la mediana se complica un poco m´s (pero no demasiaı o a do): Sea (li−1 . n 100% Ni C’ n/2 Ni−1 50% B’ Triang.2.2. es la ra´ cuadrada de la media aritm´tica de a ız e los cuadrados: xc = x2 + . . Llamaremos mediana. + 1 xn La media cuadr´tica xc . Semejantes A B C 0 0% li Med li−1 Figura 2. ESTAD´ ISTICOS DE TENDENCIA CENTRAL 43 Por tanto. xa = 1 x1 n + .2. La mediana Consideramos una variable discreta X cuyas observaciones en una tabla estad´ ıstica han sido ordenadas de menor a mayor.. li ] el intervalo donde hemos encontrado que por debajo est´n a .

2) Esto equivale a decir que la mediana divide al histograma en dos partes de a ´reas iguales a 1 .44 Bioestad´ ıstica: M´todos y Aplicaciones e el 50 % de las observaciones. Por ello es adecuado su uso en distribuciones asim´tricas. e Es de c´lculo r´pido y de interpretaci´n sencilla. a a o A diferencia de la media. 9. la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas. 12 =⇒ x = 7. 5. tiene la ventaja de no estar afectada por las observaciones extremas. sino del orden de las mismas. ya que no depende de los valores que toma la variable. 2 Propiedades de la mediana Entre las propiedades de la mediana. Med = 7 . La mediana de una variable n´mero de hijos toma siempre valores enteros). u Un ejemplo de c´lculo de mediana a Sea X una variable discreta que ha presentado sobre una muestra las modalidades X . mediante interpolaci´n lineal (teorema o de Thales) como sigue (figura 2. 2.2): n − Ni−1 ni = 2 ai Med − li−1 n − Ni−1 = li−1 + 2 · ai ni CC BB = AC AB =⇒ =⇒ Med (2. vamos a destacar las siguientes: Como medida descriptiva. 7.

Un ejemplo de c´lculo de media y mediana a Obtener la media aritm´tica y la mediana en la distribuci´n adjunta.2. Por ello el intervalo mediano es [10. 5.550 = 32.550 Ni 60 140 170 190 200 ni 60 80 30 2. Este no ha sido el caso o para la mediana. As´ ı: .2.9 0. 9. y se ha visto muy afectada por la observaci´n extrema. 125 =⇒ x = 29. 20). 75 200 La primera frecuencia absoluta acumulada que supera el valor n/2 = 100 es Ni = 140.25 ni 60 80 30 20 10 La media aritm´tica es: e x= 1 n xi = 6. a a a li−1 – li 0 – 10 10 – 20 20 – 30 30 – 100 100 – 500 Soluci´n: o li−1 – li 0 – 10 10 – 20 20 – 30 30 – 100 100 – 500 ni 60 80 30 20 10 n = 200 ai 10 10 10 70 400 xi 5 15 25 65 300 xi ni 300 1. 2.300 3. ESTAD´ ISTICOS DE TENDENCIA CENTRAL 45 Si cambiamos la ultima observaci´n por otra anormalmente grande.200 750 1. 7. 6.000 xi ni = 6. pero si a la media: X . esto ´ o no afecta a la mediana. Med = 7 En este caso la media no es un posible valor de la variable (discreta). e o Determinar gr´ficamente cu´l de los dos promedios es m´s significativo.

2. a 80 60 Mediana Media 30 5 0 10 20 30 100 Figura 2. 2. Observaci´n o De la moda destacamos las siguientes propiedades: Es muy f´cil de calcular.3: Para esta distribuci´n de frecuencias es m´s representativo usar o a como estad´ ıstico de tendencia central la mediana que la media.46 Bioestad´ ıstica: M´todos y Aplicaciones e Med = li−1 + 100 − 60 n/2 − Ni−1 · ai = 10 + × 10 = 15 ni 80 Para ver la representatividad de ambos promedios.3. es decir. cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. realizamos el histograma de la figura 2. ´ . y observamos que dada la forma de la distribuci´n. La moda Llamaremos moda a cualquier m´ximo relativo de la distribuci´n de frea o cuencias. la o mediana es m´s representativa que la media. a Puede no ser unica.3.

Nk (ordenados) x1 . lk−1 —lk xi x1 x2 . nk Ni N1 N2 . ..2... l0 —l1 l1 —l2 . .1: Resumen de las medidas de posici´n centrales. Sin embargo en estudios relacionados con prop´sitos o estad´ ısticos y de inferencia suele ser m´s apta la media.2. xk ni n1 n2 .. mediana y moda o En el caso de distribuciones unimodales. . x2 .. o Medidas de tendencia central Datos sin agrupar Datos agrupados Interv. . a En distribuciones que presentan cierta inclinaci´n. xN Media x= x1 + · · · + xn N x= n1 x1 + · · · + nk xk N Mediana Primera observaci´n que o deja debajo de s´ estrictaı mente a las [N/2] observaciones menores: x[N/2]+1 Med = li−1 + N 2 − Ni−1 · ai ni Moda Moda = xi de mayor frecuencia Moda == li−1 + ni −ni−1 (ni −ni−1 )+(ni −ni+1 ) ai 2.. es m´s aconsejable o a el uso de la mediana.2. Relaci´n entre media.4. a ... la mediana est´ con frecuencia a comprendida entre la media y la moda (incluso m´s cerca de la media). ESTAD´ ISTICOS DE TENDENCIA CENTRAL 47 Cuadro 2.

pues como conseo cuencia de la definici´n es evidente que o Med = P50 Peso de 100 individuos 0. deciles y o e cuartiles. se define el percentil de orden k. Tenemos fundamentalmente a los percentiles como medidas de posici´n. como la observaci´n.4: Percentiles 25.02 0. y asociados a ellos veremos tambi´n los cuartiles.03 P25 P50 P75 0. Pk .04 frecuencia relativa 0. Percentiles Para una variable discreta.3. Los que se muestran dividen a la muestra en cuatro intervalos con similar n´mero de individuos u y reciben tambi´n el nombre de cuartiles. e .01 40 50 60 Peso 70 80 90 Figura 2.4.00 0.48 Bioestad´ ıstica: M´todos y Aplicaciones e 2. que deja por debajo de si el k % de la poblaci´n. 50 y 75 de una variable. V´ase o o e la figura 2. Esta definici´n nos recuerda a la mediana. Estad´ ısticos de posici´n o Los estad´ ısticos de posici´n van a ser valores de la variable caracteo rizados por superar a cierto porcentaje de observaciones en la poblaci´n o (o muestra).

. Dentro de ´l. D9 como: Di = P10 i i = 1.4) (2.6) Deciles Se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tama˜o. . . .3. li ]. Hay 3. 9 Ejemplo de c´lculo de cuartiles con una variable discreta a Dada la siguiente distribuci´n en el n´mero de hijos de cien familias. ESTAD´ ISTICOS DE POSICION 49 En el caso de una variable continua. o u calcular sus cuartiles. se calcula buscando el que deja debajo de si al k % de las observaciones.D2 . definimos n a D1 . Ql .3) Cuartiles Los cuartiles.´ 2.5) (2. . el intervalo donde se encuentra Pk ∈ (li−1 . M´s precisamente. Pk se obtiene seg´n la relaci´n: e u o k − Ni−1 100 · ai ni n Pk = li−1 + (2. son un caso particular de los percentiles. y se definen como: Q1 = P25 Q2 = P50 Q3 = P75 = Med (2. . . . .

4 Ejemplo Calcular los cuartiles en la siguiente distribuci´n de una variable contio nua: li−1 – li 0–1 1–2 2–3 3–4 4–5 ni 10 12 12 10 7 n = 51 Ni 10 22 34 44 51 . 4 2. Segundo cuartil: 2n = 50. Tercer cuartil: 3n = 75. Primer cuartil: n = 25. Primera Ni > 3 n/4 = 85. luego Q2 = 3. luego Q3 = 4. Primera Ni > 2 n/4 = 65. Primera Ni > n/4 = 39. 4 3. luego Q1 = 2.50 Bioestad´ ıstica: M´todos y Aplicaciones e xi 0 1 2 3 4 5 ni 14 10 15 26 20 15 n=100 Ni 14 24 39 65 85 100 Soluci´n: o 1.

Primera Ni > 2 n/4 = 34. 29 Q2 = li−1 + 4 ai = 2 + ni 12 3.3. Primera Ni > n/4 = 22. 75 − 10 ai = 1 + Q1 = li−1 + 4 × 1 = 1.´ 2. 25. 5 − 22 × 1 = 2. Primera Ni > 3 n/4 = 44. 23 ni 12 2. Tercer cuartil 3n = 38. 5. La l´ ınea i es la del intervalo [3. 445 ai = 3 + ni 10 Ejemplo de c´lculo de cuartiles con una variable continua a Han sido ordenados los pesos de 21 personas en la siguiente tabla: . Segundo cuartil: 2n = 25. La l´ ınea i es la del intervalo [2. ESTAD´ ISTICOS DE POSICION 51 Soluci´n: o 1. 2) 4 n − Ni−1 12. Primer cuartil N = 12. La l´ ınea i es la del intervalo [1. 3) 4 2n − Ni−1 25. 4) 4 3n − Ni−1 38. 25 − 34 Q3 = li−1 + 4 × 1 = 3. 75.

a. u Soluci´n: Las cantidades que buscamos son los tres cuartiles: Q1 . 5 ⇒ i = 3 ⇒ Q2 = li−1 + 4 · ai 4 ni 10. ya que N3 = 12 es la primera Q1 . Para calcularlos. 5 7 . 5 − 5 = 52 + · 7 = 57. ni 3 2 7 3 6 21 Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo n´mero de observaciones. pues N5 = 21 es a Q3 el primer Ni mayor que 21 · 3/4.a. 25 ⇒ i = 3 ⇒ Q1 = li−1 4 · ai 4 ni 5. para localizar qu´ intervalos son los que contienen a los e cuartiles buscados: li−1 — li 38 — 45 45 — 52 52 — 59 59 — 66 66 — 73 ni 3 2 7 3 6 21 Ni 3 5 12 15 21 Q1 y Q2 se encuentran en el intervalo 52—59. le a˜adimos a la tabla las columnas con las frecuenn cias acumuladas. 25 7 2 n − Ni−1 2 · 21 = 10. As´ se tiene que: ı 1 n − Ni−1 1 · 21 = 5. 25 − 5 = 52 + · 7 = 52. Q3 est´ en 66—73.52 Bioestad´ ıstica: M´todos y Aplicaciones e Intervalos li−1 — li 38 — 45 45 — 52 52 — 59 59 — 66 66 — 73 f. que supera a 21 · 1/4 y 21 · 2/4. Q2 y o Q3 .a. Q2 f.

a 3. En la siguiente tabla se proporciona la informaci´n pedida y algunos o c´lculos auxiliares que nos permitir´n responder a otras cuestiones. frecuencia absoluta acumulada.1 0.7 0. ESTAD´ ISTICOS DE POSICION 3 n − Ni−1 3 · ai · 21 = 15. 75 ⇒ i = 5 ⇒ Q3 = li−1 + 4 4 ni 15.5. Ejemplo La distribuci´n de una variable tiene por pol´ o ıgono acumulativo de frecuencias el de la figura 2. Soluci´n: o 1. 2.3. Elaborar una tabla estad´ ıstica con los siguientes elementos: intervalos.5 1 3. Calculemos el n´mero de observaciones pedido: u . Cu´ntas observaciones tuvieron un valor inferior a 10. a a Intervalos 0–5 5–7 7 – 12 12 – 15 ni 10 25 5 10 Ni 10 35 40 50 fi 0. 875 6 53 Obs´rvese que Q2 = Med . y Q2 . frecuencias relativa y frecuencias relativa acumulada. frecuencia absoluta.5 6 9.5 0. ya que la mediana divide a e o la distribuci´n en dos partes con el mismo n´mero de observaciones. o u hace lo mismo.8 1 xi 2. 75 − 15 = 66 + · 7 = 66.5 13. pues es deja a dos cuartos de los datos por arriba y otros dos cuartos por abajo. Determine los cuartiles.5 ai 5 2 5 7 ni 2 12. marcas de clase.33 2.2 Fi 0. Si el n´mero total de observaciones es 50: u 1. cu´ntas inferior a a a 8 y cu´ntas fueron superior a 11. Esto es l´gico.3 0.2 0.´ 2.

7 a 12 7 a 10 5 x ⇔ 5 3 5 x ⇒ x= 3×5 =3 5 10 + 25+3 = 38 observaciones tomaron un valor inferior a 10 7 a 12 7a8 5 x ⇔ 5 1 5 x ⇒ x= 1×5 =1 5 10 + 25+1 = 36 observaciones tomaron un valor inferior a 8 7 a 12 7 a 11 5 x ⇔ 5 4 5 x ⇒ x= 4×5 =4 5 50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11 3.7 0. 5 − 10 · ai = 5 + · 2 = 5. Cuartiles: Q1 = li−1 + n/4 − Ni−1 12. 2 ni 25 2 n/4 − Ni−1 25 − 10 · ai = 5 + · 2 = 6.8 0. 2 ni 25 Q2 = li−1 + .2 0 5 7 12 15 Figura 2.5: Diagrama acumulado de frecuencias relativas.54 Bioestad´ ıstica: M´todos y Aplicaciones e 1 0.

1. Varianza La varianza. o bien se queda u igual. S 2 . que se obtiene restando el valor m´s bajo de un conjunto de observaa ciones del valor m´s alto. 5 − 35 3 n/4 − Ni−1 · ai = 7 + · 5 = 9. a Propiedades del rango Es f´cil de calcular y sus unidades son las mismas que las de la variaa ble. a 2.2. se define como la media de las diferencias cuadr´ticas a de n puntuaciones con respecto a su media aritm´tica. o El rango aumenta con el n´mero de observaciones. Medidas de variabilidad o dispersi´n o Los estad´ ısticos de tendencia central o posici´n nos indican donde se o sit´a un grupo de puntuaciones. No utiliza todas las observaciones (s´lo dos de ellas). Los de variabilidad o dispersi´n nos indican u o si esas puntuaciones o valores est´n pr´ximas entre s´ o si por el contrario a o ı est´n o muy dispersas. En cualquier caso nunca disminuye.4.4. MEDIDAS DE VARIABILIDAD O DISPERSION 55 Q3 = li−1 + 37.4. 5 ni 5 2. Rango Una medida razonable de la variabilidad podr´ ser la amplitud o ranıa go.4. 2. o Se puede ver muy afectada por alguna observaci´n extrema. es decir e 1 S = n 2 n (xi − x)2 i=1 (2.´ 2.7) .

Este es la media: x = (3 + 3 + 4 + 4 + 5)/5 = 3. Por ello se define a ız la desviaci´n t´ o ıpica. 3. 5 − 3 = 2. es decir.56 Bioestad´ ıstica: M´todos y Aplicaciones e Esta medida es siempre una cantidad positiva. Desviaci´n t´ o ıpica o est´ndar a La varianza no tiene la misma magnitud que las observaciones (ej. Como sus unidades son las del cuadrado de la variable. 8 metros La varianza es: 1 S = n 2 n x2 − x2 = i i=1 1 2 3 + 32 + 42 + 42 + 52 − 3. 82 = 0. con propiedades interesante para la realizaci´n de inferencia estad´ o ıstica.3. 4. 5 Soluci´n: El rango de esas observaciones es la diferencia entre la mayor o y menor de ellas. 4. o 2. 748 metros . 56 metros2 5 siendo la desviaci´n t´ o ıpica su ra´ cuadrada: ız S= √ S2 = 0.4. 56 = 0. Para calcular las restantes medidas de dispersi´n es necesario calcular previamente el valor con respecto al cual o ´ vamos a medir las diferencias. como S= √ S2 2. la varianza lo hace en metros cuadrados. que a ız es la que vemos en la siguiente secci´n. Si queremos que la medida de dispersi´n sea de la misma dimensionalidad o que las observaciones bastar´ con tomar su ra´ cuadrada. si las observaciones se miden en metros.4. S. es m´s sencillo usar su ra´ cuadrada. Ejemplo de c´lculo de medidas de dispersi´n a o Calcular el rango.4. varianza y desviaci´n t´ o ıpica de las siguientes cantidades medidas en metros: 3.

la varianza es funci´n de cada o o o una de las puntuaciones. si una puntuaci´n cambia. def 2. o es decir. Comparar una desviaci´n (con respecto a la o media) medida en metros con otra en kilogramos no tiene ning´n sentido. S nos dar´ informaci´n util. si nos piden comparar la dispersi´n de los pesos de las poblaciones de elefantes de dos o circos diferentes.4. La desviaci´n t´ o ıpica tiene la propiedad de que en el intervalo (x − 2 S. x + 2 S) ∼ x ± 2 S se encuentra. x y S. Por ejemplo. cambia con ella la varianza.5. . u El problema no deriva s´lo de que una de las medidas sea de longitud y la o otra sea de masa. cuando tampoco lo sea el de la media como medida de tendencia central. en la variable altura podemos usar como unidad de longitud el metro y en la variable peso. a o ´ ¿Pero qu´ ocurre si lo que comparamos es la altura de unos elefantes e con respecto a su peso? Tanto la media como la desviaci´n t´ o ıpica. MEDIDAS DE VARIABILIDAD O DISPERSION 57 Propiedades de la varianza y desviacion t´ ıpica Ambas son sensibles a la variaci´n de cada una de las puntuaciones. a a No es recomendable el uso de ellas. por ejemplo la masa. pero con distintas unidades. podremos llegar al 95 %. se expresan en las mismas unidades que la variable.4. al menos. Por ejemplo. Este es el caso en que comparamos el peso en toneladas de una poblaci´n de o 100 elefantes con el correspondiente en miligramos de una poblaci´n de 50 o hormigas. Coeficiente de variaci´n o Hemos visto que las medidas de centralizaci´n y dispersi´n nos dan inforo o maci´n sobre una muestra. La o raz´n es que si miramos su definici´n. Nos podemos preguntar si tiene sentido usar o estas magnitudes para comparar dos poblaciones. el kilogramo. el 75 % de las observaciones Incluso si tenemos muchos datos y estos provienen de una distribuci´n normal (se o definir´ este concepto m´s adelante). de dos poblaciones. El mismo problema se plantea si medimos cierta cantidad.´ 2.

000 veces mayores que otras!) En los dos primeros casos mencionados anteriormente. Es invariante a cambios de escala. y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. As´ por ejemplo el coeficiente de ı variaci´n de una variable medida en metros es una cantidad adimeno sional que no cambia si la medici´n se realiza en cent´ o ımetros. lo l´gico es que la dispersi´n de la o o variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas que sean 1. o Todo ´ ındice de variabilidad es esencialmente no negativo. para la que tenemos con seguridad que x > 0. Las observaciones pueden ser positivas o nulas. De ah´ que s´lo debemos trabajar con variables ı o positivas. se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingerier´ gen´tica no ıa e nos sorprende con alguna barbaridad. pues elimina la dimensionalidad de las variables y tiene en cuenta la proporci´n existente entre medias y desviaci´n o o t´ ıpica. b > 0. El coeficiente de variaci´n es lo que o nos permite evitar estos problemas. Tipificaci´n o Se conoce por tipificaci´n al proceso de restar la media y dividir por su o desviaci´n t´ o ıpica a una variable X. el problema viene de la dimensionalidad de las variables. pero su variabilidad debe ser siempre positiva. No es invariante ante cambios de origen. si a los resultados de una medida le sumamos una cantidad positiva. De este modo se obtiene una nueva . Se define del siguiente modo: SX x CV = (2.8) Propiedades del coeficiente de variaci´n o S´lo se debe calcular para variables con todos los valores positivos. entonces CV Y < CV X . Es decir.58 Bioestad´ ıstica: M´todos y Aplicaciones e El problema no se resuelve tomando las mismas escalas para ambas poblaciones. para tener Y = X + b. Por ejemplo.

En este caso. mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos.5. que denominamos variable tipificada. 2. es necesario usar los valores tipificados. a ya que la dificultad para conseguir una buena calificaci´n puede ser mucho o mayor en un centro que en el otro.5. Asimetr´ y apuntamiento ıa Sabemos c´mo calcular valores alrededor de los cuales se distribuyen las o observaciones de una variable sobre una muestra y sabemos c´mo calcular o la dispersi´n que ofrecen los mismos con respecto al valor de central. Nos o . ASIMETR´ Y APUNTAMIENTO IA 59 variable X −x S Z= (2. Ninguno de ellos posee unidades y es un error frecuente entre estudiantes de bioestad´ ıstica confundirlos.9) de media z = 0 y desviaci´n t´ o ıpica SZ = 1.2. lo m´s correcto es comparar a las calificaciones de ambos estudiantes. No confundir coeficiente de variaci´n y tipificaci´n o o Los coefientes de variaci´n sirven para comparar las variabilidades de o dos conjuntos de valores (muestras o poblaciones). Tambi´n es aplicable al caso en que se quieo o e ran comparar individuos semejantes de poblaciones diferentes. lo que limita las posibilidades de uno de los estudiante y favorece al otro. cada a uno en relaci´n a su poblaci´n. en principio ser´ o ıa injusto concederla directamente al que posea una nota media m´s elevada. Por ejemplo si deseamos comparar el nivel acad´mico de dos estudiantes de diferentes e Universidades para la concesi´n de una beca de estudios. pero tipificadas cada una de ellas por las medias y desviaciones t´ ıpicas respectivas de las notas de los alumnos de cada Universidad. Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son. As´ por ejemplo nos podemos ı preguntar si un elefante es m´s grueso que una hormiga determinada.

n Asimetr´ negativa: Cuando la cola est´ en el lado izquierdo.1. Dentro de los tipos de asimetr´ posible. Cuando la variable es discreta. a Podemos basarnos en ella para. En primer a a a lugar. divide al histograma de frecuencias en dos partes de igual ´rea. podemos preguntarnos si la curva ıa es m´s o menos apuntada (larga y estrecha). de forma natural. ıa a Cuando realizamos un estudio descriptivo es altamente improbable que la distribuci´n de frecuencias sea totalmente sim´trica. Estad´ ısticos de asimetr´ ıa Para saber si una distribuci´n de frecuencias es sim´trica. ya que para variables e continuas.5.6). o si bien la gr´fica que representa e a la distribuci´n de frecuencias es de una forma diferente del lado derecho o que del lado izquierdo. En la pr´ctica dio e a remos que la distribuci´n de frecuencias es sim´trica si lo es de un modo o e . Si la simetr´ ha sido determinada. nos vamos a plantear el saber si los datos se distribuyen de forma sim´trica con respecto a un valor central.60 Bioestad´ ıstica: M´todos y Aplicaciones e proponemos dar un paso m´s all´ en el an´lisis de la variable. 2. decimos que es sim´trica. Este apuntamiento habr´ que a a medirlo comparado a cierta distribuci´n de frecuencias que consideramos o normal (no por casualidad es ´ste el nombre que recibe la distribuci´n de e o referencia). hay que precisar o e con respecto a qu´. mientras que en derecho hay frecuencias m´s a peque˜as (cola). Un buen candidato es la mediana. si lo es con e respecto a la media. vamos a destacar los dos funıa damentales: Asimetr´ positiva: Si las frecuencias m´s altas se encuentran en el lado ıa a izquierdo de la media. Estas ideas son las que vamos a desarrollar en lo que resta del cap´ ıtulo. decir que una distribuci´n de frecuencias es sim´trica si el lado derecho de la gr´fica (a o e a partir de la mediana) es la imagen por un espejo del lado izquierdo(figura 2.

Se definen e a a entonces toda una familia de estad´ ısticos que ayuden a interpretar la asimetr´ denominados ´ ıa. o Momento central de tercer orden Sea X una variable cuantitativa y p ∈ I .6: Distribuciones de frecuencias sim´tricas y asim´tricas e e aproximado.10) Se denomina momento central de orden p a la cantidad . ındices de asimetr´ El principal de ellos es el ıa.5.2. ASIMETR´ Y APUNTAMIENTO IA 61 Asim. Llamamos momento de orden N p a: 1 µp = n n xp i i=1 (2. Por otro lado. momento central de tercer orden que definimos a continuaci´n. a´n observando cuidadosamente la gr´fica. pou a demos no ver claro de qu´ lado est´n las frecuencias m´s altas. Positiva Cola 50% 50% 50% 50% Mediana Mediana Asim. Negativa Cola 50% 50% Mediana 50% 50% Mediana Figura 2.

son siempre nulos en el caso de variables sim´tricas. es claro que deben haber tantas obsero e vaciones entre la que deja por debajo de s´ las tres cuartas partes de la ı distribuci´n y la mediana. De forma abreviada esto es. ya que para cada i que est´ a un lado de la media. y que la asimetr´ es negativa si a3 < 0. y sumando se tiene que mp = 0 si la distribuci´n es sim´trica. con p ≥ o e 3 impar positivas estar´ muy aumentadas al elevarse a p.62 Bioestad´ ıstica: M´todos y Aplicaciones e 1 mp = n n (xi − x)p i=1 (2. o e Si la distribuci´n fuese asim´trica positiva. ı Q3 − Q2 = Q2 − Q1 Una pista para saber si una distribuci´n de frecuencias es asim´trica o e positiva la descubrimos observando la figura 2. e a Q3 − Q2 < Q2 − Q1 . con e e (xi − x) < 0. le corresponde una observaci´n j del otro lado de la media tal o que (xj − x) = −(xi − x). ıa ´ Indice basado en los tres cuartiles (Yule–Bowley) Si una distribuci´n es sim´trica. las cantidades (xi −x)p . ıa Apoyandonos en este ´ ındice. Esta propiedad ıan nos indica que un ´ ındice de asimetr´ posible consiste en tomar p = 3 y ıa elegir como estad´ ıstico de asimetr´ al momento central de tercer orden.7): Q3 − Q2 > Q2 − Q1 Por analog´ si es asim´trica negativa. Elevando cada una de esas cantidades a p impar. como entre la mediana y la que deja por debajo o de s´ un quarto de todas las observaciones. se tendr´ ıa.11) Los momentos de orden p impar. diremos que hay asimetr´ positiva si a3 > ıa 0.

ASIMETR´ Y APUNTAMIENTO IA 63 Para quitar dimensionalidad al problema.12) Q 1 Q2 Q3 Figura 2. es invariante ante cambios de origen de referencia u y de escala. la mediana y la moda coinciden. As . entonces la media. As = o bien.14) .5.2. −1 ≤ As = (Q3 − Q2 ) − (Q2 − Q1 ) Q3 − Q1 (2.7: Uso de los cuartiles para medir la asimetr´ ıa Otros ´ ındices de asimetr´ ıa Bas´ndonos en que si una distribuci´n de frecuencias es sim´trica y unimoa o e dal.13) (Q3 − Q2 ) + (Q2 − Q1 ) El n´mero obtenido. podemos definir otras medidas de asimetr´ como son: ıa. utilizamos como ´ ındice de asimetr´ la cantidad: ıa As = Es claro que (Q3 − Q2 ) − (Q2 − Q1 ) ≤1 (2. x − Moda S (2.

o bien entre las distancias entre cuartiles consecutivos indican asimetr´ ıa. Asim. ~ 0 Coef.>0 Q1 Q2 Q3 x Density Q1 Q2 x Q3 Figura 2. Asim.64 Bioestad´ ıstica: M´todos y Aplicaciones e As = 3(x − Med ) S (2.15) Diremos que hay asimetr´ positiva si As > 0 y negativa si As < 0 ıa Coef. Ejemplo Las edades de un grupo de personas se reflejan en la tabla siguiente: Intervalos 7—9 9 — 11 11 — 12 12 — 13 13 — 14 14 — 15 15 — 17 17 — 19 ni 4 18 14 27 42 31 20 1 .8: Diferencias entre las medidas de tendencia central.

78 a˜os2 n ⇒ S= 3.5 567 449. 12 27 78. 25/157−13. 37 42 Med = Q2 = 13 + . 15 = 15 % de variabilidad.800 1. 78 = 1.517.5 13.5 12. 13. 15 a˜os. 5 − 63 × 1 = 13. La varianza la calculamos a n 2 n como sigue: partir de la columna de la xi i S 2 = 27.120 324 27. 94 = 0.218. coeficiente de variaci´n y rango intercuart´ o ılico.2. 94 a˜os n El coeficiente de variaci´n no posee unidades y es: o CV = 1.25 La media es x = 2.5 16 18 Ni 4 22 36 63 105 136 156 157 xi ni 32 180 161 337.851.742. 15 En lo que concierne a la simetr´ podemos utilizar el coeficiente de asimetr´ ıa ıa de Yule–Bowley.75 7.5 320 18 2. 25 − 36 × 1 = 12.5.5 6.742.75 5.065 x2 ni i 256 1. desviaci´n t´ o ıpica. 152 = 3. para el cual es preciso el c´lculo de los cuartiles: a Q1 = 12 + 39.5 4. ıa Soluci´n: o En primer lugar realizamos los c´lculos necesarios a partir de la tabla a de frecuencias: Intervalos 7—9 9 — 11 11 — 12 12 — 13 13 — 14 14 — 15 15 — 17 17 — 19 ni 4 18 14 27 42 31 20 1 157 xi 8 10 11. Estudie la simetr´ de la variable.065/157 = 13.5 14. ASIMETR´ Y APUNTAMIENTO IA 65 Determinar la variabilidad de la edad mediante los estad´ ısticos varianza.654.

57 = = −0. 29 a˜os n se encuentra el 50 % central del total de observaciones1 Adem´s: a = As = (14. 57 (42 − 27) + (42 − 31) en cuyo caso podemos usar como medida del sesgo: As = x − Moda 13.9) que la distribuci´n de frecuencias es unimodal. 12 Este resultado nos indica que existe una ligera asimetr´ a la izquierda ıa (negativa).2. invariante ante c´mbios de escala y de origen. 41 − 12. 21 S 1. a 1 .5. 41 31 Lo que nos dice que aproximadamente en un rango de Q3 − Q1 = 2. 37 − 12. denomin´ndose o a rango intercuart´ ılico.66 Bioestad´ ıstica: M´todos y Aplicaciones e Q3 = 14 + 117. Un resultado similar se obtiene si observamos (Figura 2. siendo la moda: o Moda == 13 + 42 − 27 × 1 = 13. 2 Ser´ introducida posteriormente. 41 − 13. 37) − (13. o o El patr´n de referencia es la distribuci´n normal o gaussiana2 para la que o o se tiene Eso hace que dicha cantidad sea usada como medida de dispersi´n. 09 Q3 − Q1 14. hay que tener un patr´n de referencia. 15 − 13. Para decir o si la distribuci´n es larga y estrecha. 75 − 105 × 1 = 14. Es ´ste un coeficiente e adimensional. Estad´ ısticos de apuntamiento Se define el coeficiente de aplastamiento de Fisher (curtosis) como: γ2 = m4 −3 σ4 donde m4 es el momento emp´ ırico de cuarto orden. Sirve para a medir si una distribuci´n de frecuencias es muy apuntada o no. 12) (Q3 − Q2 ) − (Q2 − Q1 ) = = −0. 94 2.

.2. ıa m4 = 3 =⇒ γ2 = 0 σ4 De este modo. cuando la distribuci´n de frecuenu o cias es tan apuntada como la normal. si la distribuci´n de frecuencias es u o menos apuntada que la normal.15 Figura 2. o sea. a Mesoc´ rtica: Cuando γ2 = 0.9: La distribuci´n de frecuencias de la edad presenta una ligera o asimetr´ negativa.57 7 8 9 10 11 12 13 14 15 16 17 18 19 edad media=13. es decir. o sea. Platic´ rtica: Cuando γ2 < 0. ASIMETR´ Y APUNTAMIENTO IA 67 40 35 30 25 20 15 10 5 moda=13. atendiendo a γ2 . si la distribuci´n de frecuencias es u o m´s apuntada que la normal. se clasifican las distribuciones de frecuencias en Leptoc´ rtica: Cuando γ2 > 0.5.

9. 6. 7. 7. 11. 5. 7. 3. 10.10: Apuntamiento de distribuciones de frecuencias 2. 7.1. 9. 10. 8. 6. 5. Calcular las medidas de tendencia central. 8. Construir una distribuci´n de frecuencias de estos pesos. 9. 5. 7. 6. 9. 8. 8. 7. ¿Por qu´ se ha utilizado un histograma para representar estos datos. 3. 7. 5. Encontrar las frecuencias relativas acumuladas. 6. se proporcionan los u pesos (redondeados a la libra m´s pr´xima) de los beb´s nacidos durante a o e un cierto intervalo de tiempo en un hospital: 4. 4. 6. En el siguiente conjunto de n´meros. 6. e en lugar de una gr´fica de barras? a 7. 6. 4. Encontrar las frecuencias relativas. 8. 7. 7. Dibujar un histograma con los datos de la parte a. 7. 10. 5. Encontrar las frecuencias acumuladas. 8. . 7. Problemas Ejercicio 2. 8. 10. 9. 6. 7. o 2. 5.6.68 Bioestad´ ıstica: M´todos y Aplicaciones e curtosis<0 curtosis=0 curtosis>0 Figura 2. 4. 8. 8. 6. 4. 6. 1.

3.109 0.130 0.119 0. Obtenga la distribuci´n de frecuencias absolutas y relativas.6.094 0.117 0.098 0. A continuaci´n se dan los resultados obtenidos con una o muestra de 50 universitarios.1114 0. uno formado con sujetos de cociente intelectual inferior a 95 . o 9. 10.2. Dibuje el pol´ ıgono de frecuencias relativas acumuladas.124 0.132 0.118 0.108 0.112 0. Encontrar el percentil 24. la caracter´ ıstica es el tiempo de reacci´n ante o un est´ ımulo auditivo: 0.115 0. Calcular las medidas de forma. o 3.111 0.121 0.106 0.113 0.117 0.122 0. PROBLEMAS 69 8. Ejercicio 2.118 0.112 0.108 0.126 0. 6.122 0.135 0.123 0.128 0.101 0.103 0.112 0.113 0.110 0.120 0.129 0.119 0.111 0. Calcular la media y la varianza con los intervalos del apartado b y despu´s calculense las mismas magnitudes sin ordenar los datos en e una tabla estad´ ıstica. 4.102 0.¿Con qu´ m´todo se obtiene mayor precisi´n? e e o 5.120 0.100 0. ¿Es esta una distribuci´n sesgada? De ser as´ ¿en qu´ direcci´n? o ı. con los intervalos anteriores.117 0.105 0. Calcular las medidas de dispersi´n. Obtenga la distribuci´n de frecuencias acumuladas. Con el fin de observar la relaci´n entre la inteligencia y el o nivel socioecon´mico (medido por el salario mensual familiar) se tomaron o dos grupos.113 0.103 0.107 0. e o 11.115 0.2.107 0.100 0. Dibuje el pol´ ıgono de frecuencias relativas.099 0.134 1. absolutas y relao tivas.110 0. Ejercicio 2. ¿Cu´l es la amplitud total de la distribuci´n de los datos? a o 2.

Las medianas de ambos grupos. e 2. Calcule las medidas de tendencia central para aquellos sujetos con CI < 95. Calcular las medidas de dispersi´n para aquellos sujetos con CI ≥ 95. o Ejercicio 2.4. Teniendo en cuenta los resultados que se indican en la tabla: Nivel socioecon´mico o Intervalos 10 o menos ≡(4. Disl´xicos nD e 56 24 16 12 10 2 Normales nN 1 9 21 29 28 32 .10] 10 – 16 16 – 22 22 – 28 28 – 34 m´s de 34 ≡(34.40] a Sujetos con CI < 95 Frecuencia 75 35 20 30 25 15 Sujetos con CI ≥ 95 Frecuencia 19 26 25 30 54 46 1. Teniendo en cuenta los resultados de la tabla N ◦ de palabras le´ ıdas 25 o menos ≡25 26 27 28 29 30 o m´s ≡30 a calcule: 1. a 2.70 Bioestad´ ıstica: M´todos y Aplicaciones e y otro formado por los dem´s. Un estudio consisti´ en anotar el n´mero de palabras le´ o u ıdas en 15 segundos por un grupo de 120 sujetos disl´xicos y 120 individuos e normales. De cada sujeto se anot´ el salario mensual a o familiar. Dibuje un gr´fico que permita comparar ambos grupos. Las medias aritm´ticas de ambos grupos. 3.

Representar gr´ficamente la distribuci´n de frecuencias del n´mero a o u total de mujeres que padecen tuberculosis. Estudiar la asimetr´ de las tres distribuciones. Obtener la media.5. ıa .6. 4. El porcentaje de sujetos disl´xicos que superaron la mediana de los e normales. 8. Representar gr´ficamente la distribuci´n de frecuencias de los varones a o no trabajadores que padecen tuberculosis. La tabla siguiente muestra la composici´n por edad.2. mediana y desviaci´n t´ o ıpica de la distribuci´n de o las edades de la muestra total. a o o 5. ¿Por encima de qu´ edad se encuentra el 80 % de las mujeres? e 7. Compare la variabilidad relativa de ambos grupos. sexo y o trabajo de un grupo de personas con tuberculosis pulmonar en la provincia de Vizcaya en el a˜o 1979: n Edad 14–19 19–24 24–29 29–34 34–39 39–44 Trabajadores Var´n Mujer Total o 2 1 3 10 4 14 32 10 42 47 12 59 38 8 46 22 4 26 No trabajadores Var´n Mujer Total o 25 40 65 20 36 56 15 50 65 13 34 47 10 25 35 7 18 25 Totales Mujer Total 41 68 40 70 60 107 46 106 33 81 22 51 Var´n o 27 30 47 60 48 29 1. 2. Ejercicio 2. ¿Cu´l es la edad en la que se observa con mayor frecuencia que no a trabajan los varones? ¿Y las mujeres? Determinar as´ ımismo la edad m´s frecuente (sin distinci´n de sexos ni ocupaci´n). ¿Por debajo de qu´ edad est´ el 50 % de los varones? e a 6. 3. PROBLEMAS 71 3. 4. Representar gr´ficamente la distribuci´n de frecuencias de aquellas a o personas trabajadoras que padecen tuberculosis.

6. Representar gr´ficamente estos datos. Porcentaje de ciudades con a lo sumo 5 muertos. mediana y moda. Calcular media. En una epidemia de escarlatina. Obtener la distribuci´n acumulada y representarla. Calcular la varianza y la desviaci´n t´ o ıpica. se ha recogido el n´mero u de muertos en 40 ciudades de un pa´ obteni´ndose la siguiente tabla: ıs. o 3. a 2. a 7. 5. Porcentaje de ciudades con al menos 2 muertos. Porcentaje de ciudades con m´s de 3 muertos. . e N ◦ de muertos Ciudades 0 7 1 11 2 10 3 7 4 1 5 2 6 1 7 1 1.6. 4.72 Bioestad´ ıstica: M´todos y Aplicaciones e Ejercicio 2.

que nos indican hacia donde tienden a agruparse los datos (en el caso en que lo hagan). Tambi´n sabemos determinar ya si los datos se distribuyen de forma e sim´trica a un lado y a otro de un valor central. se representan gr´ficamente los mismos de modo que resulta m´s a a intuitivo hacerse una idea de como se distribuyen las observaciones. son los estad´ ısticos de tendencia central. X. o si por a el contrario las variaciones que presentan las modalidades con respecto al valor central son grandes. que nos indican si las diferentes modalidades que presenta o la variable est´n muy agrupadas alrededor de cierto valor central.Cap´ ıtulo 3 Variables bidimensionales 3. tambi´n nos ayudan en el an´liu e a sis. introducci´n o En lo estudiado anteriormente hemos podido aprender c´mo a partir de o la gran cantidad de datos que describen una muestra mediante una variable. ¿ser´ posible determinar si existe alguna relaci´n entre las a o modalidades de X y de Y ? 73 . e En este cap´ ıtulo pretendemos estudiar una situaci´n muy usual y por o tanto de gran inter´s en la pr´ctica: e a Si Y es otra variable definida sobre la misma poblaci´n que o X. y los estad´ ısticos de dispersi´n.1. Otros conceptos que seg´n hemos visto.

La relaci´n no es exacta y por ello ser´ necesario introducir alg´n termino que o a u exprese la dispersi´n de Y con respecto a la variable X. conocer muy bien las t´cnicas de estudio de variables bidimene sionales (y n–dimensionales en general). Baste para ello pensar que normalmente las relaciones entre las variables no son tan evidentes como se mencion´ arriba. el lector podr´ comprobar. vista como o funci´n de X. su dispersi´n es nula. Obs´rvese que o e aunque la variable Y . que es bastante . ya que la relaci´n es determinista y clara: Y = X/100. Intuitivamente esperamos que exista cierta relaci´n entre ambas variables. Y = X − 110± dispersi´n o que nos expresa que (en media) a mayor altura se espera mayor peso. o Es fundamental de cara a realizar un trabajo de investigaci´n expeo rimental. o por ejemplo. al final del cap´ a ıtulo.74 Bioestad´ ıstica: M´todos y Aplicaciones e Un ejemplo trivial consiste en considerar una poblaci´n formada por o alumnos de primero de Medicina y definir sobre ella las variables X ≡ Y ≡ altura medida en cent´ ımetros. altura medida en metros. como tal puede tener cierta dispersi´n. Por ejemplo: o ¿Se puede decir que en un grupo de personas existe alguna relaci´n entre X = tensi´n arterial e Y = edad? o o Aunque en un principio la notaci´n pueda resultar a veces algo desao gradable. peso medida en kilogramos. o o Un ejemplo m´s parecido a lo que nos interesa realmente lo tenemos a cuando sobre la misma poblaci´n definimos las variables o X ≡ Y ≡ altura medida en cent´ ımetros.

xi .. organizadas de forma que se tengan k filas y p columnas. . .. .. TABLAS DE DOBLE ENTRADA 75 accesible. .. nk2 n•2 . .. 3.. . yp las p modalidades de Y ... . . . nk • n•• De este modo... nk1 n•1 y2 n12 n22 .. ni• . .. ... para i = 1. . . x2 .. nip .. . . Por ello le pedimos que no se asuste. se tiene que nij es el n´mero u de individuos o frecuencia absoluta. .. y mediante Y ....... .. . .. yp n1p n2p . . a Y X x1 x2 . nkp n•p n 1• n 2• . . nkj n•j . ... yj . . .... xi .. xk las k modalidades que presenta la variable X. Al final ver´ que no son a para tanto. .2...... Representamos mediante X.. . . que presentan a la vez las modalidades xi e yj . y2 . nij . ni2 . donde cada uno de ellos preo senta dos caracteres que representamos mediante las variables X e Y . . . La casilla denotada de forma general mediante el sub´ ındiceij har´ referencia a los elementos de la muestra a que presentan simult´neamente las modalidades xi e yj . p.... . yj n1j n2j .. Tablas de doble entrada Consideramos una poblaci´n de n individuos.. xk y1 n11 n21 .. ... . creamos una tabla formada por k · p casillas. .... Con la intenci´n de reunir en una s´la estructura toda la informaci´n o o o disponible..x1 .. ...2.. ... . j = 1..3. . ni1 . . k. .y1 .

. p reciben el nombre de distribuciones marginales de X e Y respectivamente. en un o momento dado. De forma an´loga se define la frecuencia absoluta marginal de la modalidad a yj como k n•j = n1j + n2j + · · · + nkj = i=1 nij Estas dos distribuciones de frecuencias ni• para i = 1. . La distribuci´n de frecuencias o absolutas de esta nueva variable es exactamente la columna j de la tabla. Es evidente la igualdad p ni• = ni1 + ni2 + · · · + nip = j=1 nij Obs´rvese que hemos escrito un s´ e ımbolo “•” en la “parte de las jotas” que simboliza que estamos considerando los elemento que presentan la modalidad xi . . . es lo que llau mamos frecuencia absoluta marginal de xi y se representa como ni• . k. podemos estar interesados. . . .2. El n´mero total de elementos de la poblaci´n (o de la muestra). . .76 Bioestad´ ıstica: M´todos y Aplicaciones e El n´mero de individuos que presentan la modalidad xi . . . en un conjunto m´s peque˜o y que est´ formado por aquea n a llos elementos que han presentado la modalidad yj . y n•j para j = 1. Distribuciones condicionadas De todos los elementos de la poblaci´n. . . u El n´mero de elementos de este conjunto sabemos que es n•j .1. que son equivalentes: k p k p n = n•• = i=1 ni• = j=1 n•j = i=1 j=1 nij 3. para alg´n j = 1. n lo u o obtenemos de cualquiera de las siguientes formas. p. n. independientemente de las modalidades que presente la variable Y . La variable u X definida sobre este conjunto se denomina variable condicionada y se suele denotar mediante X|yj o bien X|Y =yj .

3.3. puede ser m´s o menos acentuada. es posible dividir la poblaci´n inicial en k subconjuntos. p 3. Podemos tener cierta a intuici´n sobre qu´ valor es m´s probable que tome (alrededor de la meo e a dia.1. altura medida en metros. hasta que no se realice una medida sobre el mismo. Sobre cada uno de estos conjuntos tenemos la variable condicionada Y|xi ≡ Y|X=xi . cuya distribuci´n de frecuencias relativas condicionadas es: o i fj = nij ni• ∀j = 1. . con cierta dispersi´n). que nos refleja cualquier f´rmula matem´tica o o a f´ ısica. si la medida X ha sido realizada. . Sin embargo.3. Dependencia funcional e independencia La relaci´n entre las variables X e Y .3. DEPENDENCIA FUNCIONAL E INDEPENDENCIA 77 De la misma forma. parte del objetivo de este cap´ o ıtulo y en general de un n´mero importante de los estudios de las Ciencias u Sociales.3. Dependencia funcional La dependencia funcional. o cada uno de ellos caracterizados por la propiedad de que el i–´simo conjunto e todos los elementos verifican la propiedad de presentar la modalidad xi . . Al tomar a uno de los alumnos. es a la que estamos normalmente m´s habituados. no tendremos claro cual ser´ su altura. pues la relaci´n entre ambas es exacta o (dependencia funcional): Y = X/100 . . o no es necesario practicar la de Y . Al principio del a cap´ ıtulo consideramos un ejemplo en el que sobre una poblaci´n de alumnos o defin´ ıamos las variables X ≡ Y ≡ altura medida en cent´ ımetros. pudiendo llegar ´sta desde la a e dependencia total o dependencia funcional hasta la independencia.

Independencia Existe un concepto que es radicalmente opuesto a la dependencia funcional. que es el de independencia. Se dice que dos variables X e Y son independientes si la distibuci´n marginal de una de ellas es la misma que la o condicionada por cualquier valor de la otra. Los puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de SXY . Covarianza La covarianza SXY . Esta es una de entre muchas maneras de expresar el concepto de independencia. 3.4. y va a implicar una estructura muy particular de la tabla bidimensional. Se define como: e 1 n n SXY = (xi − x)(yi − y) i=1 Una interpretaci´n geom´trica de la covarianza o e Consideremos la nube de puntos formadas por las n parejas de datos (xi . De este modo: Si hay mayor´ de puntos en el tercer y primer cuadrante. .1.2. Trasladamos los ejes XY al nuevo centro de coordenadas (x. o bien podemos escribir simplemente (x. Queda as´ dividida la nube de puntos en cuatro cuadrantes como ı se observa en la figura 3. y los que se encuentran en el segundo y el cuarto lo hacen negativamente. ocurrir´ que ıa a SXY ≥ 0.3. y). en el que todas las filas y todas las columnas van a ser proporcionales entre s´ ı. y) si los datos no est´n ordenados en una tabla de a doble entrada. yi ). lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X. es una medida que nos hablar´ de la variabilidad a conjunta de dos variables num´ricas (cuantitativas).78 Bioestad´ ıstica: M´todos y Aplicaciones e 3. El centro de gravedad de esta nube de puntos es (x. y).

−) x y − Y + − Y + (− . Casi todos los puntos pertenecen a los cuadrantes primero y tercero Figura 3. a e o .2 como ilustraci´n. COVARIANZA 79 . entonces se tendr´ que SXY = 0. es decir.3. (− . V´ase la figura 3. Y crece − + − Cuando X crece. las observaciones Y tienen tendencia a disminuir cuando las de X aumentan.4. y). −) x y X X + Cuando X crece. Si los puntos se reparten con igual intensidad alrededor de (x.1: Interpretaci´n geom´trica de SXY o e Si la mayor´ de puntos est´n repartidos entre el segundo y cuarto ıa a cuadrante entonces SXY ≤ 0. Y decrece Casi todos los puntos pertenecen a los cuadrantes segundo y cuarto .

80

Bioestad´ ıstica: M´todos y Aplicaciones e

. Sxy=0 S xy =0

Las dos variables son independientes.

Hay dependencia entre las dos variables, aunque la covarianza sea nula.

.

Figura 3.2: Cuando los puntos se reparte de modo m´s o menos homog´neo a e entre los cuadrantes primero y tercero, y segundo y cuarto, se tiene que SXY ≈ 0. Eso no quiere decir de ning´n modo que no pueda existir ninguna u relaci´n entre las dos variables, ya que ´sta puede existir como se aprecia o e en la figura de la derecha.

La Covarianza • Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente). • Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos decreciente). • Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0 (no hay relaci´n lineal). o

´ 3.5. COEFICIENTE DE CORRELACION LINEAL DE PEARSON

81

3.5.

Coeficiente de correlaci´n lineal de Pearson o

La covarianza es una medida de la variabilidad com´n de dos variables u (crecimiento de ambas al tiempo o crecimiento de una y decremimiento de la otra), pero est´ afectada por las unidades en las que cada variable a se mide. As´ pues, es necesario definir una medida de la relaci´n entre dos ı o variables, y que no est´ afectada por los cambios de unidad de medida. Una e forma de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones t´ ıpicas de cada variable, ya que as´ se obtiene un coeficiente ı adimensional, r, que se denomina coeficiente de correlaci´n lineal de o Pearson SXY SX SY

r=

(3.1)

Propiedades del coeficiente de correlaci´n lineal o Carece de unidades de medida (adimensional). Es invariante para transformaciones lineales (cambio de origen y escala) de las variables. S´lo toma valores comprendidos entre −1 y 1, o Cuando |r| est´ pr´ximo a uno, se tiene que existe una relaci´n lineal e o o muy fuerte entre las variables. Cuando r ≈ 0, puede afirmarse que no existe relaci´n lineal entre amo bas variables. Se dice en este caso que las variables son incorreladas.

3.6.

Regresi´n o

Las t´cnicas de regresi´n permiten hacer predicciones sobre los valores de e o cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relaci´n. Para ilustrarlo retomemos o

82

Bioestad´ ıstica: M´todos y Aplicaciones e

r=1

r=0,97

r=0,53

r=−1

r=−0,97

r=0

Figura 3.3: r = ±1 es lo mismo que decir que las observaciones de ambas variables est´n perfectamente alineadas. El signo de r, es el mismo que el a de SXY , por tanto nos indica el crecimiento o decrecimiento de la recta. La relaci´n lineal es tanto m´s perfecta cuanto r est´ cercano a ±1. o a a

los ejemplos mencionados al principio del cap´ ıtulo. Si sobre un grupo de personas observamos los valores que toman las variables

X ≡ Y ≡

altura medida en cent´ ımetros, altura medida en metros,

(3.2) (3.3)

no es necesario hacer grandes esfuerzos para intuir que la relaci´n que hay o entre ambas es: Y = X . 100

Obtener esta relaci´n es menos evidente cuando lo que medimos sobre o el mismo grupo de personas es

´ 3.6. REGRESION

83

X ≡ Y ≡

altura medida en cent´ ımetros, peso en kilogramos.

La raz´n es que no es cierto que conocida la altura xi de un individuo, o podamos determinar de modo exacto su peso yi (v.g. dos personas que miden 1, 70m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relaci´n entre ellas debe existir, pues parece mucho m´s probable que un o a individuo de 2m pese m´s que otro que mida 1, 20m. Es m´s, nos puede a a parecer m´s o menos aproximada una relaci´n entre ambas variables como a o la siguiente Y = X − 110 ± error. A la deducci´n, a partir de una serie de datos, de este tipo de relaciones o entre variables, es lo que denominamos regresi´n. o ˆ Mediante las t´cnicas de regresi´n inventamos una variable Y como e o funci´n de otra variable X (o viceversa), o ˆ Y = f (X). Esto es lo que denominamos relaci´n funcional. El criterio para construir o ˆ ˆ Y , tal como citamos anteriormente, es que la diferencia entre Y e Y sea peque˜a. n ˆ ˆ Y = f (X), Y − Y = error, El t´rmino que hemos denominado error debe ser tan peque˜o como sea e n posible (figura 3.4). El objetivo ser´ buscar la funci´n (tambi´n denominada a o e ˆ modelo de regresi´n) Y = f (X) que lo minimice. V´ase la figura 3.5. o e

84

Bioestad´ ıstica: M´todos y Aplicaciones e

Y

, Observacion (x , y ) i i

, Aproximacion ( x i , y i)

y=f(x) X

Figura 3.4: Mediante las t´cnicas de regresi´n de una variable Y sobre una e o variable X, buscamos una funci´n que sea una buena aproximaci´n de una o o ˆ = f (X). Para ello nube de puntos (xi , yi ), mediante una curva del tipo Y hemos de asegurarnos de que la diferencia entre los valores yi e yi sea tan ˆ peque˜a como sea posible. n

3.6.1.

Bondad de un ajuste

Consideremos un conjunto de observaciones sobre n individuos de una poblaci´n, en los que se miden ciertas variables X e Y : o X ; x1 , x2 , . . . , xn Y ; y1 , y 2 , . . . , y n

Estamos interesamos en hacer regresi´n para determinar, de modo aproxio mado, los valores de Y conocidos los de X, debemos definir cierta variable ˆ Y = f (X), que debe tomar los valores ˆ y Y ;ˆ1 = f (x1 ), y2 = f (x2 ), . . . , yn = f (xn ) ˆ ˆ de modo que:

´ 3.6. REGRESION

85

Modelo lineal Buen ajuste

Modelo lineal Mal ajuste

Modelo no lineal Buen ajuste

Cuando x crece, y crece Cuando x crece, y crece Cuando x crece, y crece

Modelo lineal Buen ajuste

Modelo no lineal Buen ajuste

Variables no relacionadas Ninguna curva de regresion es adecuada

Cuando x crece, y decrece

Cuando x crece, y decrece

Figura 3.5: Diferentes nubes de puntos y modelos de regresi´n para ellas. o

ˆ Y − Y ;y1 − y1 ≈ 0, y2 − y2 ≈ 0, . . . , yn − yn ≈ 0 ˆ ˆ ˆ Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los aut´nticos valores de Y y los te´ricos suministrados por la e o regresi´n, o ˆ E = Y − Y ;e1 = y1 − y1 , e2 = y2 − y2 , . . . , en = yn − yn ˆ ˆ ˆ ˆ y calculando Y de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una variable cuya media debe ser 0 , y cuya varianza 2 SE debe ser peque˜a (en comparaci´n con la de Y ). Por ello se define el n o

o o .6.86 Bioestad´ ıstica: M´todos y Aplicaciones e 2 coeficiente de determinaci´n de la regresi´n de Y sobre X. 3. o En el modelo lineal de regresi´n la bondad del ajuste es simplemente o r2 . Por esta raz´n estas o cantidades miden el grado de bondad del ajuste.2. o es decir. Con lo cual el modelo lineal dar´ mejores predicciones cuando r sea a pr´ximo a 1 ´ -1. Regresi´n lineal o La regresi´n lineal consiste en encontrar aproximar los valores de una o variable a partir de los de otra.4) Si el ajuste de Y mediante la curva de regresi´n Y = f (X) es bueno. cabe o ˆ 2 esperar que la cantidad RY|X tome un valor pr´ximo a 1. usando una relaci´n funcional de tipo lineal. o o como 2 SE 2 SY 2 RY|X = 1 − (3. buscamos cantidades a y b tales que se pueda escribir ˆ Y =a+b·X ˆ con el menor error posible entre Y e Y . Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresi´n: o a = y − bx (3. o 2 La cantidad RY|X sirve entonces para medir de qu´ modo las diferene cias entre los verdaderos valores de una variable y los de su aproximaci´n o mediante una curva de regresi´n son peque˜os en relaci´n con los de la o n o variabilidad de la variable que intentamos aproximar. RY|X .5) b= SXY 2 SX La cantidad b se denomina coeficiente de regresi´n de Y sobre X.

500 observaciones. calcular de modo aproximado la cantidad Y esperada cuando X = 15. Por tanto: unidad. las dos variables aumentan o disminuyen a la vez. 25 · X . Si b < 0.5 explica cosas como que si X var´ en 1 e o ıa ˆ var´ la cantidad b.´ 3. 25 × 14 = −57. Y = a + b · X.6. Utilizando este modelo.500 individuos se recogen datos sobre dos medidas antropom´tricas X e Y . Soluci´n: o ˆ Lo que se busca es la recta. ˆ Y = −57. que mejor aproxima los valores de Y (seg´n el criterio de los m´ u ınimos cuadrados) en la nube de puntos que resulta de representar en un plano (X. 5 As´ el modelo lineal consiste en: ı. Ejemplo de c´lculo con un modelo de regresi´n lineal a o En una muestra de 1. Y ) las 1. Y ıa Si b > 0. la otra disminuye. REGRESION 87 Interpretaci´n de los coeficientes de regresi´n o o Obs´rvese que la relaci´n 3. Los resultados se muestran resumidos en los e siguientes estad´ ısticos: x = 14 SX = 2 SXY = 45 y = 100 SY = 25 Obtener el modelo de regresi´n lineal que mejor aproxima Y en funci´n o o de X. cuando una variable aumenta. 25 SX a = y − b · x = 100 − 11. Los coeficientes de esta recta son: b= SXY 45 2 = 4 = 11. 5 + 11.

Todo lo que se puede afirmar. 5 + 11.6) (3. 5 + 11. o Nos gustar´ tener que r = 1. 25 · x = −57. pero esto no es cierto en general.7) En cuanto a la varianza. es decir. podemos decir que la proporci´n o de varianza explicada por la regresi´n lineal es del r2 · 100 %. 25 ˆ Propiedades de la regresi´n lineal o ˆ ˆ Una vez que ya tenemos perfectamente definida Y . el modelo lineal predice un valor de Y de: y = −57. (o bien X) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). como sabemos. es que −1 ≤ r ≤ 1 y por tanto 2 ˆ X 2 = r2 SY (3.9) = r 2 2 SX . 2 . si x = 15. no necesariamente son las mismas para los ˆ ˆ verdaderos valores de las variables X e Y y sus aproximaciones X y Y . pues en ese caso ambas variables tendr´ ıa ıan la misma varianza. La respuesta nos la ofrece la siguiente proposici´n: o Proposici´n o En los ajustes lineales se conservan las medias. pues s´lo se mantienen en un factor de r o S 2Y ˆ S Observaci´n o Como consecuencia de este resultado.88 Bioestad´ ıstica: M´todos y Aplicaciones e Por tanto.8) (3. es decir y = y ˆ x = x ˆ (3. 25 × 15 = 111.

SY . Sin embargo . Todo esto se puede su varianza residual es tambi´n proporcional a 1 − r e resumir como sigue: Proposici´n o Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinaci´n son iguales a r2 .´ 3. Proposici´n o La varianza residual del modelo de regresi´n es de Y sobre X es la o ˆ varianza de la variable E = Y − Y . es lo que se denomina varianza residual. y por tanto representan adem´s la proporci´n o a o de varianza explicada por la regresi´n lineal: o 2 2 RX|Y = r2 = RY|X Por ello: Si | r |≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa). Obs´rvese que entonces La bondad del ajuste es e 2 RY|X = 1 − 2 SE 2 2 2 = 1 − (1 − r ) = r SY ˆ Para el ajuste contrario se define el error como E = X − X. REGRESION 89 2 2 0 ≤ SY ≤ SY ˆ La cantidad que le falta a la varianza de regresi´n.6. para llegar hasta o ˆ 2 la varianza total de Y . y an´logamente a 2 . S 2 Y . Si | r |≈ 0 las variables X e Y no est´n relacionadas (linealmente al a menos). por tanto no tiene sentido hacer un ajuste lineal.

yi = 40. se obtiene la siguiente informaci´n: o xi = 24. Comente el resultado e indique el o tanto por ciento de la variaci´n de Y que no est´ explicada por el o a modelo lineal de regresi´n. La recta de regresi´n de Y sobre X. 2 SY = 12. tal vez otro tipo de ajuste s´ lo sea. a o ˆ Soluci´n: o 1. a 2. 2 SX = 6. Calcule: 1.10) .90 Bioestad´ ıstica: M´todos y Aplicaciones e no es seguro que las dos variables no posean ninguna relaci´n en el o caso r = 0. ı Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y . Explique el significado de los o par´metros. o 3. ¿cu´l es la predicci´n y para x = 4. En primer lugar calculamos las medias y las covarianza entre ambas variables: x = x = SXY = ( xi /n = 24/8 = 3 yi /n = 40/8 = 5 xi yi )/n − xy = 64/8 − 3 × 5 = −7 (3. xi yi = 64. Si el modelo es adecuado. ya que si bien el ajuste lineal puede no ser procentente. El coeficiente de determinaci´n.

y mide la variaci´n de Y cuando o X aumenta en una unidad: b= −7 SXY 2 = 6 = −1. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinaci´n: o 2 RY /X = r2 = SXY SX · SY 2 = (−7)2 = 0.´ 3. el modelo de regresi´n lineal explica el 68 % de la variabilidad o de Y en funci´n de la de X. .hay una razonable cantidad de variabilidad que no es explicada por el modelo.6. 6667 × 4 = 3. a medida que X aumenta. 6805 = 68. 1667 · X 2. 05 % 6 × 12 Es decir. REGRESION 91 Con estas cantidades podemos determinar los par´metros a y b de la a recta. pues como hemos visto en el apartado anterior. Por tanto queda un 32 % de variabilidad o no explicada. 3. 5 − 1. a. 667 SX Al ser esta cantidad negativa. la tendencia es a la disminuci´n de Y . 833 ˆ la cual hay que considerar con ciertas reservas. tenemos que la pendiente de la recta es negativa. La pendiente de la misma es b. La predicci´n que realiza el modelo lineal de regresi´n para x = 4 es: o o y = 8. es decir. 5 − 1. o tenemos: a=y−b·x=5−( −7 ) × 3 = 8. 5 − 1. En cuanto al valor de la ordenada en el origen. 5 6 As´ la recta de regresi´n de Y como funci´n de X es: ı. o o ˆ Y = 8. 1667 · x = 8.

92

Bioestad´ ıstica: M´todos y Aplicaciones e

Ejemplo de c´lculo en regresi´n lineal a o En un grupo de 8 pacientes se miden las cantidades antropom´tricas e peso y edad, obteni´ndose los siguientes resultados: e Resultado de las mediciones 8 10 11 7 7 10 14 42 51 54 40 39 49 56

X ≡ edad Y ≡ peso

12 58

¿Existe una relaci´n lineal importante entre ambas variables? Calcular la o recta de regresi´n de la edad en funci´n del peso y la del peso en funci´n de o o o la edad. Calcular la bondad del ajuste ¿En qu´ medida, por t´rmino medio, e e var´ el peso cada a˜o? ¿En cu´nto aumenta la edad por cada kilo de peso? ıa n a Soluci´n: o Para saber si existe una relaci´n lineal entre ambas variables se calcula el o coeficiente de correlaci´n lineal, que vale: o r= ya que
8

SXY 15, 2031 = = 0, 9431 SX SY 2, 3150 × 6, 9631

xi = 79 =⇒ x =
i=1 8

79 = 9, 875 a˜os n 8 389 = 48, 625 Kg 8 823 − 9, 8752 = 5, 3594 a˜os2 n 8 19,303 − 48, 6252 = 48, 4844 Kg2 8 3,963 − 9, 875 × 48, 625 = 15, 2031 Kg · a˜o n 8

yi = 389 =⇒ y =
i=1 8 i=1 8

2 x2 = 823 =⇒ SX = i

=⇒ SX = 2, 3150 a˜os n
2 2 yi = 19,303 =⇒ SY = i=1 8

=⇒ SY = 6, 9631 Kg xi yi = 3,963 =⇒ SXY =
i=1

´ 3.6. REGRESION

93

Por tanto el ajuste lineal es muy bueno. Se puede decir que el ´ngulo entre a el vector formado por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor medio, θ, es: r = cos θ =⇒ θ = arc cos r ≈ 19◦

es decir, entre esos vectores hay un buen grado de paralelismo (s´lo unos o 19 grados de desviaci´n). o La recta de regresi´n del peso en funci´n de la edad es o o

ˆ Y

= a1 + b1 X = 20, 6126 + 2, 8367 · X (3.11)

a1 = y − b1 x = 20, 6126 Kg SXY b1 = n 2 = 2, 8367 Kg/a˜ o SX La recta de regresi´n de la edad como funci´n del peso es o o ˆ X = a2 + b2 Y = −5, 3738 + 0, 3136 · Y n a2 = x − b2 y = −5, 3738 a˜os SXY b2 = n 2 = 0, 3136 a˜ os/Kg SY

que como se puede comprobar, no resulta de despejar en la recta de regresi´n de Y sobre X. o La bondad del ajuste es
2 2 RX|Y = RY|X = r2 = 0, 8894

por tanto podemos decir que el 88, 94 % de la variabilidad del peso en funci´n de la edad es explicada mediante la recta de regresi´n correso o pondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en funci´n del peso. Del mismo modo puede decirse que hay un o 100 − 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas

94

Bioestad´ ıstica: M´todos y Aplicaciones e

de regresi´n. Por tanto la varianza residual de la regresi´n del peso en o o funci´n de la edad es o
2 2 SE = (1 − r2 ) · SY = 0, 1106 × 48, 4844 = 5, 33 Kg2

y la de la edad en funci´n del peso: o
2 2 SE = (1 − r2 ) · SX = 0, 1106 × 5, 3594 = 0, 59 a˜os2 n

Por ultimo la cantidad en que var´ el peso de un paciente cada a˜o es, ´ ıa n seg´n la recta de regresi´n del peso en funci´n de la edad, la pendiente de u o o esta recta, es decir, b1 = 2, 8367 Kg/a˜o. Cuando dos personas difieren en n peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2 = 0, 3136 a˜os/Kg de diferencia. n

3.7.

Problemas

Ejercicio 3.1. Se realiza un estudio para establecer una ecuaci´n mediante o la cual se pueda utilizar la concentraci´n de estrona en saliva(X) para o predecir la concentraci´n del esteroide en plasma libre (Y ). Se extrajeron o los siguientes datos de 14 varones sanos: X Y 1,4 30 7,5 25 8,5 31,5 9 27,5 9 39,5 11 38 13 43 14 49 14,5 55 16 48,5 17 51 18 64,5 20 63 23 68

1. Est´diese la posible relaci´n lineal entre ambas variables. u o 2. Obtener la ecuaci´n que se menciona en el enunciado del problema. o 3. Determinar la variaci´n de la concentraci´n de estrona en plasma por o o unidad de estrona en saliva.

Ejercicio 3.2. Los investigadores est´n estudiando la correlaci´n entre a o obesidad y la respuesta individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al dolor se mide utilizando el

3.7. PROBLEMAS

95

umbral de reflejo de flexi´n nociceptiva (Y ), que es una medida de sensaci´n o o de punzada. Se obtienen los siguientes datos: X Y 89 2 90 3 75 4 30 4,5 51 5,5 75 7 62 9 45 13 90 15 20 14

1. ¿Qu´ porcentaje de la varianza del peso es explicada mediante un e modelo de regesei´n lineal por la variaci´n del umbral de reflejo? o o 2. Est´diese la posible relaci´n lineal entre ambas variables, obteniendo u o su grado de ajuste. 3. ¿Qu´ porcentaje de sobrepeso podemos esperar para un umbral de e reflejo de 10?

Ejercicio 3.3. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada uno se le da una dosis oral id´ntica de hierro e y plomo. Despu´s de 12 d´ se mide la cantidad de cada componente retee ıas nida en el sistema corporal y, a partir de ´sta, se determina el porcentaje e absorbido por el cuerpo. Se obtuvieron los siguientes datos: Porcentaje de hierro ≡ X Porcentaje de plomo ≡ Y 17 8 22 17 35 18 43 25 80 58 85 59 91 41 92 30 96 43 100 58

1. Comprobar la idoneidad del modelo lineal de regresi´n. o 2. Obtener la recta de regresi´n, si el modelo lineal es adecuado. o 3. Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15 % del plomo ingerido.

96

Bioestad´ ıstica: M´todos y Aplicaciones e

Ejercicio 3.4. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un lago, se toman medidas de la concentraci´n de o nitrato en el agua. Para monitorizar la variable se ha utilizado un antiguo m´todo manual. Se idea un nuevo m´todo autom´tico. Si se pone de manie e a fiesto una alta correlaci´n positiva entre las medidas tomadas empleando o los dos m´todos, entonces se har´ uso habitual del m´todo autom´tico. Los e a e a datos obtenidos son los siguientes: Manual ≡ X Autom´tico ≡ Y a 25 30 40 80 120 150 75 80 150 200 300 350 270 240 400 320 450 470 575 583

1. Hallar el coeficiente de determinaci´n para ambas variables. o 2. Comprobar la idoneidad del modelo lineal de regresi´n. Si el modelo es o apropiado, hallar la recta de regresi´n de Y sobre X y utilizarla para o predecir la lectura que se obtendr´ empleando la t´cnica autom´tica ıa e a con una muestra de agua cuya lectura manual es de 100. 3. Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal de regresi´n para X en funci´n de Y , e Y en funci´n o o o ˆ ˆ de X, es decir, X e Y . 4. Calcule los errores para cada una de dichas predicciones, es decir, las ˆ ˆ variables X − X e Y − Y . ˆ 5. ¿Que relaci´n hay entre las medias de X y X? ¿Y entre las de Y e o ˆ? Y ˆ ˆ 6. Calcule las medias de X − X e Y − Y . ¿Era de esperar el valor obtenido? ˆ ˆ ˆ ˆ 7. Calcule las varianzas de X, X, Y , Y , X − X e Y − Y .
2 2 2 2 8. ¿Qu´ relaci´n existe entre SX y SX ¿Y entre SY y SY ? e o ˆ ˆ 2 2 9. ¿Que relaci´n ecuentra entre SX y SX−X ? ¿Tambi´n es v´lida para o e a ˆ 2 y S2 SY ˆ? Y −Y

3.7. PROBLEMAS

97

10. Justifique a partir de todo lo anterior porqu´ se denomina r2 como e grado de bondad del ajuste lineal.

Ejercicio 3.5. Se ha medido el aclaramiento de creatinina en pacientes tratados con Captopril tras la suspensi´n del tratamiento con di´lisis, reo a sultando la siguiente tabla: D´ tras la di´lisis ≡ X ıas a Creatinina (mg/dl) ≡ Y 1 5,7 5 5,2 10 4,8 15 4,5 20 4,2 25 4 35 3,8

1. H´llese la expresi´n de la ecuaci´n lineal que mejor exprese la vaa o o riaci´n de la creatinina, en funci´n de los dias transcurridos tras la o o di´lisis, as´ como el grado de bondad de ajuste y la varianza residual. a ı 2. ¿En qu´ porcentaje la variaci´n de la creatinina es explicada por el e o tiempo transcurrido desde la di´lisis? a 3. Si un individuo presenta 4 1 mg/dl de creatinina, ¿cu´nto tiempo es a de esperar que haya transcurrido desde la suspensi´n de la di´lisis? o a

Ejercicio 3.6. En un ensayo cl´ ınico realizado tras el posible efecto hipotensor de un f´rmaco, se eval´a la tensi´n arterial diast´lica (TAD) en a u o o condiciones basales (X), y tras 4 semanas de tratamiento (Y ), en un total de 14 pacientes hipertensos. Se obtienen los siguiente valores de TAD: X Y 95 85 100 94 102 84 104 88 100 85 95 80 95 80 98 92 102 90 96 76 100 90 96 87 110 102 99 89

1. ¿Existe relaci´n lineal entre la TAD basal y la que se observa tras el o tratamiento? 2. ¿Cu´l es el valor de TAD esperado tras el tratamiento, en un paciente a que present´ una TAD basal de 95 mm de Hg? o

7. Hallar la ecuaci´n lineal que exprese la relaci´n existente entre las o o presiones intracraneales. obteni´ndose los resultados siguientes en mm de e Hg: M´todo est´ndar ≡ X e a M´todo experimental ≡ Y e 9 6 12 10 28 27 72 67 30 25 38 35 76 75 26 27 52 53 1. Se han realizado 9 tomas de presi´n intracraneal en animales o de laboratorio. determinadas por los dos m´todos. ¿Qu´ tanto por ciento de la variabilidad de Y es explicada por la e regresi´n? H´llese el grado de dependencia entre las dos variables y o a la varianza residual del mismo. por un m´todo est´ndar directo y por una nueva t´cnica e a e experimental indirecta. .98 Bioestad´ ıstica: M´todos y Aplicaciones e Ejercicio 3. e 2.

el concepto de probabilidad. y debe recurrirse a m´todos de o a e inferencia estad´ ıstica. los m´todos analizados en los cap´ e ıtulos anteriores pueden considerarse suficientes.1. A partir de ella. entonces estos m´todos e constituyen s´lo el principio del an´lisis. y junto con las definiciones de probabilidad condicionada y la de sucesos independientes. se deducen los teoremas fundamentales 99 . si lo que se pretende es utilizar la informaci´n obtenida para extraer conclusiones generales sobre todos aqueo llos objetos del tipo de los que han sido estudiados. ya que la probabiıa a a lidad constituye por s´ misma un concepto b´sico que refleja su relaci´n con ı a o la faceta del mundo exterior que pretende estudiar: los fen´menos aleatoo rios.Cap´ ıtulo 4 C´lculo de probabilidades y a variables aleatorias 4. introducci´n o Si el unico prop´sito del investigador es describir los resultados de un ex´ o perimento concreto. los cuales implican el uso inteligente de la teor´ de ıa la probabilidad. De alguna manera. No obstante. se relaciona o nos recuerda las propiedades de la frecuencia relativa. Comenzamos este bloque interpretando la noci´n de probabilidad y la o terminolog´ subyacente a esta ´rea de las matem´ticas. los cuales obedecen unas ciertas reglas de comportamiento.

y que muchos de los estudios estad´ ıda ısticos son de hecho. 4. Para trabajar con el c´lculo de probabilidades es necesario fijar previaa mente cierta terminolog´ Vamos a introducir parte de ella en las pr´ximas ıa.100 Bioestad´ ıstica: M´todos y Aplicaciones e del C´lculo de Probabilidades. e. constituyendo la base para la estad´ ıstica inductiva o inferencial. El resultado que se obtenga. como puede emplearse la teor´ de la probabilidad ıa para sacar conclusiones precisas acerca de una poblaci´n en base a una o muestra extra´ de ella. en las aplicaciones pr´cticas es a importante poder describir los rasgos principales de una distribuci´n. no se puede predecir el resultado que se va a obtener. a Nos centraremos posteriormente en el eslab´n que une la teor´ de la o ıa probabilidad y la estad´ ıstica aplicada: la noci´n de variable aleatoria. El c´lculo de probabilidades nos suministra las reglas para el estudio a de los experimentos aleatorios o de azar. Experimentos y sucesos aleatorios Diremos que un experimento es aleatorio si se verifican las siguientes condiciones: 1. es o decir.2. relacion´ndolos con los conceptos de media y varianza de una a a variable estad´ ıstica. Llegamos as´ al estudio de las caracter´ a ı ısticas asociadas a una variable aleatoria introduciendo los conceptos de esperanza y varianza matem´tica. estudio de las propiedades de una o m´s variables aleatorias. 2. o l´ ıneas. moso trando de esta manera. a Tal como hemos citado anteriormente. 3. caracterizar los resultados del experimento aleatorio mediante unos par´metros. Se puede repetir indefinidamente. pertenece a un conjunto conocido . Antes de realizarlo. siempre en las mismas condiciones.

Cualquier subconjunto de E ser´ denominado suceso aleatorio. B son sucesos aleatorios. e1 . A∩B = {e ∈ E : e ∈ A y adem´s e ∈ B} a (4. . lo denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E.2. se denomina suceso intersecci´n de A y B al conjunto formado por todos los sucesos elementales que o pertenecen a A y B a la vez.2) (4. intersecci´n y diferencia: o o Uni´n: o Dados dos sucesos aleatorios A. es decir.1) . es decir a A∪B = {e ∈ E : e ∈ A ´ e ∈ B} o Intersecci´n: o Dados dos sucesos aleatorios A. podemos aplicarles las conocidas operaciones con conjuntos.4. Los elementos del espacio muestral se denominan sucesos elementales. B.1. . Operaciones b´sicas con sucesos aleatorios a Al ser los sucesos aleatorios nada m´s que subconjuntos de un conjunto a E —espacio muestral—. e2 ∈ E =⇒ e1 . B ⊂ E. e2 son sucesos elementales. a A. EXPERIMENTOS Y SUCESOS ALEATORIOS 101 previamente de resultados posibles. como son la uni´n. B ⊂ E.. se denomina suceso uni´n de o A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que est´n en ambos a simult´neamente). 4.2. B ⊂ E =⇒ A. y se dea notar´ normalmente con las letras A. de resultados posibles. A este conjunto.

hablamos de experimento aleatorio. las frecuencias relativas con las que ocurre cierto suceso e. Noci´n frecuentista de probabilidad o En los experimentos aleatorios se observa que cuando el n´mero de u experimentos aumenta. y se e representa mediante A B. fn (e).3. B ⊂ E. tenemos que un objeto de cualquier masa partiendo de un estado inicial de reposo. se llama suceso diferencia de A y B. al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A y no a B. llega siempre al suelo con la misma velocidad: v = 2 g h. se denomina suceso diferencia sim´trica de A y B.1.3. o bien A − B. Cuando en un experimento no se puede predecir el resultado final. y se representa mediante A\B. Como ejemplo. B ⊂ E. y dejado caer al vac´ desde √ ıo una torre. Experimentos aleatorios y probabilidad Se denominan experimentos deterministas aquellos que realizados de una misma forma y con las mismas condiciones iniciales.3) Si A.4) 4. Este es el caso cuando lanzamos un dado y observamos su resultado.102 Bioestad´ ıstica: M´todos y Aplicaciones e Diferencia: Dados dos sucesos aleatorios A. pero no a B: A\B ≡ A − B = {e ∈ E : e ∈ A y adem´s e ∈ B} = A∩B a / Diferencia sim´trica: e (4. y los que est´n en B y no en A: a A B = (A\B)∪(B\A) = (A∪B)\(A∩B) (4. al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A. 4. . ofrecen siempre el mismo resultado.

fn (e) = n´mero de ocurrencias de e u n tiende a converger hacia cierta cantidad que denominamos probabilidad de e.3. Esta es la noci´n frecuentista de probabilidad.1: Dados dos sucesos aleatorios A. en (b) A∩B. B ⊂ E se representa: en (a) A∪B. EXPERIMENTOS ALEATORIOS Y PROBABILIDAD 103 E (a) B A E (b) B A E (c) B A E (d) B A Figura 4.2 se presenta la evoluci´n de la frecuencia relativa del o n´mero de caras obtenido en el lanzamiento de una moneda en 100 ocasiones u . en (c) A − B.4. o Prob [e] = l´ fn (e) ım n→∞ En la Figura 4. en (d) A B.

104 Bioestad´ ıstica: M´todos y Aplicaciones e (simulado por un ordenador).2 0. pero a medida que el n´mero de tiradas aumenta. a u tiende a lo que entendemos por probabilidad de cara. En principio la evoluci´n de las frecuencias o relativas es err´tica.5 frecuencia de caras 0.2: Convergencia a 1/2 de la frecuencia relativa del n´mero de u caras obtenido en lanzamientos sucesivos de una moneda (simulaci´n en o ordenador).4 0. lanzar infinitas veces un .1 0 0 10 20 30 40 50 60 Lanzamientos de moneda 70 80 90 100 Figura 4.3 0. Problemas de la noci´n frecuentista de probabilidad o La noci´n frecuentista de probabilidad no puede usarse en la pr´ctica o a como definici´n de la probabilidad por que:: o se requiere realizar un n´mero infinito de veces un experimento pau ra calcular una probabilidad.6 0. 0. Por ejemplo.

3. para que las dem´s se deduzcan como una a simple consecuencia de ellas. o a los experimentos aleatorios a veces no pueden ser realizados. como es el caso de calcular la probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se debe) calcular esta probabilidad repitiendo el experimento un n´mero indefinidamente alto u de veces para aproximarla mediante la frecuencia relativa).3.4. Probabilidad de Laplace Si un experimento cualquiera puede dar lugar a un n´mero finito de resulu tados posibles. y el de todos los posibles resultados del experimento: P[A] = n´mero de casos favorables a A u n´mero de casos posibles u 4. o 4. Concepto axiom´tico de probabilidad a Dado un espacio muestral E. Sin embargo.3. seg´n u la regla de Laplace como el cociente entre el n´mero de casos favorables u a A. hasta que u tengamos la precisi´n que requieran nuestros c´lculos. Para ello existen m´todos mucho m´s seguros. se calcula la probabilidad de un suceso aleatorio A. diremos que P es una probabilidad sobre A si las siguientes propiedades (axiomas) son verificadas: . Con o la definici´n axiom´tica de la probabilidad pretendemos dar el menor o a conjunto posible de estas reglas. Esto puede suplirse en la pr´ctica realizando el a experimento un n´mero suficientemente elevado de veces. como los que mencionaremos a e a continuaci´n. necesitamos precisar o ciertas leyes o axiomas que deba cumplir una funci´n de probabilidad. Definici´n axiom´tica de probabilidad o a Para hacer una definici´n rigurosa de la probabilidad.2. y no existe ninguna raz´n que privilegie unos resultados en o contra de otros. EXPERIMENTOS ALEATORIOS Y PROBABILIDAD 105 dado para ver que las frecuencias relativas de la aparici´n de cada o cara convergen a 1/6.3.

La probabilidad es una funci´n definida sobre A y que s´lo o o toma valores positivos comprendidos entre 0 y 1 P : A −→ [0. . La probabilidad de la uni´n numerable de sucesos disjuntos es o la suma de sus probabilidades (figura 4. 1] ⊂ I R A ⊂ E. . . . Para cualquier otro suceso A ⊂ E. Probabilidad condicionada e independencia de sucesos Sea B ⊂ E un suceso aleatorio de probabilidad no nula. llamamos probabilidad condicionada de .3: El tercer axioma de probabilidad indica que si A = A1 ∪A2 ∪ · · · con Ai ∩Aj = ∅. entonces P[A] = P[A1 ] + P[A2 ] + · · · 4. P[B] > 0.3): ∞ ∞ A1 . La probabilidad del suceso seguro es 1 P[E] = 1 Ax-3.106 Bioestad´ ıstica: M´todos y Aplicaciones e Ax-1. .4. . ∈ A =⇒ P i=1 Ai = i=1 P[Ai ] A A1 A2 A3 A4 A5 Figura 4. A ∈ A −→ 0 ≤ P[A] ≤ 1 Ax-2. An . A2 . .

de nuevo por la definici´n de u o probabilidad de Laplace tendr´ ıamos . ¿se ha modificado u esta probabilidad? Soluci´n: o El espacio muestral que corresponde a este experimento es E = {1. 4. 3. o casos favorables casos posibles n´mero de elementos en {4} u n´mero de elementos en {1. 2. 2. y a u siguiendo la definici´n de probabilidad de Laplace. 6} y se ha de calcular la probabilidad del suceso A = {4}.4. PROBABILIDAD CONDICIONADA E INDEPENDENCIA DE SUCESOS107 A a B a la cantidad que representamos mediante P[A|B ] o bien PB [A] y que se calcula como: P[A|B ] = P[A∩B] P[B] Ejemplo de c´lculo de probabilidades condicionadas a Se lanza un dado al aire ¿Cu´l es la probabilidad de que salga el n´mero a u 4? Si sabemos que el resultado ha sido un n´mero par.4. 5.5) Obs´rvese que para calcular la probabilidad de A seg´n la definici´n de e u o Laplace hemos tenido que suponer previamente que todos los elementos del espacio muestral tienen la misma probabilidad de salir. 5. 6} u 1 6 P[A] = = = (4. es decir: P[1] = P[2] = P[3] = P[4] = P[5] = P[6] Por otro lado. Si el dado no est´ trucado. todos los n´meros tienen la misma probabilidad de salir. 4. 3. si ha salido un n´mero par.

4.108 Bioestad´ ıstica: M´todos y Aplicaciones e Ppar [4] = = = casos favorables casos posibles n´mero de elementos en {4} u n´mero de elementos en {2. 6} u 1 3 Esta misma probabilidad se podr´ haber calculado siguiendo la definici´n ıa o de la probabilidad condicionada. 4. o Independencia Obs´rvese que seg´n la definici´n de probabilidad condicionada. ya que si escribimos A = {4} B = {2.6) Ppar [4] = PB [A] = P[A|B ] = P[A∩B] 1/6 1 = = P[B] 1/2 3 que por supuesto coincide con el mismo valor que calculamos usando la definici´n de probabilidad de Laplace. se puee u o de escribir la probabilidad de la intersecci´n de dos sucesos de probabilidad o no nula como   P[A] · P[B|A ]    P[B] · P[A ] |B P[A∩B] = . 6} A∩B = {4} y entonces ⇒ ⇒ ⇒ 1 6 1 1 1 3 1 P[B] = + + = = 6 6 6 6 2 1 P[A∩B] = 6 P[A] = (4.

Teoremas fundamentales del c´lculo de proa babilidades Hay algunos resultados importantes del c´lculo de probabilidades que son a conocidos bajo los nombres de teorema de la probabilidad compuesta. Veamos cuales son estos teoremas.7) P[A∩B] = (4. una o serie de resultados elementales. TEOREMAS FUNDAMENTALES DEL CALCULO DE PROBABILIDADES109 O sea.8) . B ⊂ E no necesariamente disjuntos. Reglas de c´lculo de probabilidades b´sicas a a Sean A. Probabilidad de la uni´n de sucesos: o P[A∪B] = P[A] + P[B] − P[A∩B] 2.5. es la probabilidad o de uno cualquiera de ellos. pero previamente vamos a enunciar a modo de recopilaci´n. De este modo o o introducimos el concepto de independencia de dos sucesos A y B como: A es independiente de B ⇐⇒ P[A∩B] = P[A] · P[B] 4. teorema de la probabilidad total y teorema de Bayes. la probabilidad de la intersecci´n de dos sucesos. multiplicada por la probabilidad del segundo sabiendo que ha ocurrido el primero. Probabilidad de la intersecci´n de sucesos: o   P[A] · P[B|A ]    P[B] · P[A ] |B (4.´ 4. Si entre dos sucesos no existe ninguna relaci´n cabe esperar que la o expresi´n “sabiendo que” no aporte ninguna informaci´n. Se verifican entonces las siguientes propiedades: 1.5.

2 − 0. . Teorema de la probabilidad compuesta Sea A1 . A2 . el 20 % franc´s y e e el 5 % los dos idiomas ¿Cu´l es la probabilidad de encontrar alumnos que a hablen alguna lengua extranjera? Soluci´n: o Sea A el suceso hablar ingl´s: P[A] = 0. . . Para ello necesitamos introducir un nuevo concepto: Se dice que la colecci´n o . 5.1. e Sea B el suceso hablar franc´s: P[B] = 0. 5 + 0. .5. An ⊂ E una colecci´n de sucesos aleatorios.5. Probabilidad condicionada del suceso contrario: P[A|B ] = 1 − P[A|B ] Ejemplo de c´lculo de probabilidades con intersecciones a En una universidad el 50 % de los alumnos habla ingl´s.9) 4. 05. Probabilidad del suceso contrario: P[A] = 1 − P[A] 4. e e As´ ı: P[A∪B] = P[A] + P[B] − P[A∩B] = 0. Entonces: o P[A1 A2 · · · An ] = P[A1 ] · P[A2 | A1 ] · P[A3 | A1 A2 ] · · · P[An | A1 A2 · · · An−1 ] 4. Sistema exhaustivo y excluyente de sucesos Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando tenemos que el suceso seguro est´ descompuesto en una a serie de sucesos incompatibles de los que conocemos su probabilidad.2. 65 (4. e El suceso hablar franc´s e ingl´s es A∩B: P[A∩B] = 0. 05 = 0.110 Bioestad´ ıstica: M´todos y Aplicaciones e 3. 2.10) (4.

. A2 . An ⊂ E es un sistema exhaustivo y excluyente de sucesos si se verifican las relaciones (v´ase la figura 4. A4 forman un sistema exhaustivo y excluyente se sucesos. A3 . .5. .11) .3. An ⊂ E un sistema exhaustivo y excluyente de sucesos. Teorema de la probabilidad total Sea A1 .4: A1 . . Entonces n ∀ B ⊂ E. ⇒ P[B] = i=1 P[B|Ai ] · P[Ai ] (4. . . A1 . A2 .5. . TEOREMAS FUNDAMENTALES DEL CALCULO DE PROBABILIDADES111 E A1 A2 A 3 A 4 Figura 4. A2 . .´ 4.4): e n Ai = E i=1 Ai ∩Aj = ∅ ∀i = j 4.

Se realiza el siguiente experimento aleatorio: Se tira una moneda al aire y si sale cara se elige una bola de la primera urna. . . An ⊂ E un sistema exhaustivo y excluyente de sucesos. . Sea B ⊂ E un suceso del que conocemos todas las cantidades P[B|Ai ]. Teorema de Bayes Sea A1 .5. el teorema de la probabilidad total nos permite afirmar entonces que P[B] = P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] = 3 1 4 1 19 · + · = 5 2 6 2 30 4. y si sale cruz de la segunda. U2 : 4 bolas blancas y 2 rojas.112 Bioestad´ ıstica: M´todos y Aplicaciones e Ejemplo de c´lculo usando el teorema de la probabilidad total a Se tienen dos urnas. a las que denominamos verosimilitudes. U1 : 3 bolas blancas y 2 rojas. entonces se verifica: . .4. . A2 . y cada una de ellas contiene un n´mero diferente u de bolas blancas y rojas: Primera urna. n. i = 1. . ¿Cu´l es la probabilidad de que salga una bola blanca? a Soluci´n: La situaci´n que tenemos puede ser esquematizada como o o 3B 2R U1 P[U1 ] = 1/2 P[B|U1 ] = 3/5 4B 2R U2 P[U2 ] = 1/2 P[B|U2 ] = 4/6 Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas dos urnas y de una s´lo de o ellas). Segunda urna. . .

´ 4. ¿cu´l es la a probabilidad de que provenga de la primera urna? Calcular lo mismo para las otras dos urnas. Si el resultado del experimento es que ha salido una bola blanca. . U1 : 3 bolas blancas y 2 rojas. . U2 : 4 bolas blancas y 2 rojas. Segunda urna. Cada una de ellas contiene un n´mero diferente u de bolas blancas y rojas: Primera urna. U2 y U3 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas tres urnas y de una . Soluci´n: o Vamos a representar en un esquema los datos de que disponemos: 3B 2R U1 P[U1 ] = 1/3 P[B|U1 ] = 3/5 4B 2R U2 P[U2 ] = 1/3 P[B|U2 ] = 4/6 0B 3R U3 P[U3 ] = 1/3 P[B|U3 ] = 0 En este caso U1 . Tercera urna. TEOREMAS FUNDAMENTALES DEL CALCULO DE PROBABILIDADES113 ∀ j = 1. . n. U3 : 3 bolas rojas.5. Se realiza el siguiente experimento aleatorio: Alguien elije al azar y con la misma probabilidad una de las tres urnas. P[Aj |B ] = P[B|Aj ] · P[Aj ] n (4. . y saca una bola.12) P[B|Ai ] · P[Ai ] i=1 Ejemplo de c´lculo con el teorema de Bayes a Se tienen tres urnas.

ten´ ıamos que la probabilidad de elegir una urna i cualquiera es P[Ui ]. Estas probabilidades se .114 Bioestad´ ıstica: M´todos y Aplicaciones e s´lo de ellas). por tanto es posible aplicar el teorema de Bayes: o P[U1 |B ] = P[B|U1 ] · P[U1 ] P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] + P[B|U3 ] · P[U3 ] 3 1 · 5 3 1 3 1 4 1 · + · +0· 5 3 6 3 3 9 19 = = Con respecto a las dem´s urnas hacemos lo mismo: a P[U2 |B ] = P[B|U2 ] · P[U2 ] P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] + P[B|U3 ] · P[U3 ] 4 1 · 6 3 3 1 4 1 1 · + · +0· 5 3 6 3 3 10 19 P[B|U3 ] · P[U3 ] P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] + P[B|U3 ] · P[U3 ] 1 3 3 1 4 1 1 · + · +0· 5 3 6 3 3 0· = = P[U3 |B ] = = = 0 Comentario sobre el teorema de Bayes Obs´rvese que en el ejemplo anterior. antes de realizar el experimento e aleatorio de extraer una bola para ver su resultado.

que pretenden explicar cierto fen´meno. TESTS DIAGNOSTICOS 115 denominan probabilidades a priori. despu´s de realizar el e experimento. calcular como se modifican las probabilidades de verosimilitud de cada teor´ mediante el teorema de ıa Bayes: P[T1 |B ] .´ 4. en funci´n de los resultados de un test diagn´stico. Tests diagn´sticos o Los tests diagn´sticos son una aplicaci´n del teorema de Bayes a la Medio o cina. o o 4. Estas cantidades se denominan probabilidades a posteriori. y observar que el resultado del mismo ha sido la extracci´n de o una bola blanca.6. P[T2 ] podemos llevar a cabo la experimentaci´n que se considere m´s conveniente. P[T2 |B ] As´ la experimentaci´n puede hacer que una teor´ sea descartada si P[Ti |B ] ≈ ı o ıa 0 o reforzada si P[Ti |B ] ≈ 1. las probabilidades de cada urna han cambiado a P[Ui |B ]. y se basan en lo siguiente: . B. se puede afirmar con certeza que no fue elegida la tercera urna. y a las que asociamos unas probabilidades a priori de ser o ciertas. Sin embargo. o a para una vez obtenido el cuerpo de evidencia. Una aplicaci´n b´sica de esta t´cnica la teo a e nemos en Medicina para decidir si un paciente padece cierta enfermedad o no. T1 y T2 .6. Vamos a representar en una tabla la diferencia entre ambas: a priori P[U1 ] = 1/3 P[U2 ] = 1/3 P[U3 ] = 1/3 1 a posteriori P[U1 |B ] = 9/19 P[U2 |B ] = 10/19 P[U3 |B ] = 0 1 Las probabilidades a priori cambian de tal modo de las a posteriori que una vez observado el resultado del experimento aleatorio. P[T1 ] . =⇒ Esta fen´meno tiene aplicaciones fundamentales en Ciencia: Cuando se o tienen dos teor´ cient´ ıas ıficas diferentes.

sobre el test diagn´stico a utilizar. Estas cantidades son calculadas de modo aproximado. predecir si una persona est´ saa a na o enferma. La sensibilidad y especificidad se denominan tambi´n respectivamene te tasa de verdaderos positivos y tasa de verdaderos negativos. Los indices predictivos son interesantes sobre too do para el cl´ ınico que efectivamente desea evaluar la probabilidad de . P[T − |E ]. que dan como resultado: Positivo. Como ayuda al diagn´stico de la enfermedad. T´ ıpicamente esta labor es realizada por un laboratorio que quiere probar la eficacia de un test diagn´stico. a partir del resultado del test diagn´stico. y estimando los porcentajes correspondientes. es decir. en caso contrario. que tiene una incidencia de la enfermedad en la poblaci´n (probao bilidad de que la enfermedad la padezca una persona elegida al azar) de P[E]. E |P[T − ]. 2. las o cantidades: Indice predictivo positivo: Es la probabilidad de que un individuo est´ enfermo si el test di´ resultado positivo. si la evidencia a favor de que el paciente est´ ene fermo es alta en funci´n de estas pruebas. T − . considerando grupos suficientemente nuo merosos de personas de las que sabemos si padecen la enfermedad o no. Se sospecha que un paciente puede padecer cierta enfermedad. P[T + |E ]. Especificidad: Es la probabilidad que el test de negativo sobre una persona que no la padece. e o Especificidad: Es la probabilidad que el test de negativo sobre una persona que no la padece. P[E|T + ]. se le hace pasar una o serie de pruebas (tests).116 Bioestad´ ıstica: M´todos y Aplicaciones e 1. Lo que interesa saber en la pr´ctica es. Previamente. han debido ser estio madas las cantidades: Sensibilidad: Es la probabilidad de el test de positivo sobre una persona que sabemos que padece la enfermedad. o Negativo. antes de utilizar el test diagn´stico. T + .

teniendo en cuenta el resultado del test diagn´stico.6. o . y se observa que E T+ 89 E 3 Tasa Tasa Tasa Tasa de de de de verdaderos positivos: falsos positivos: verdaderos negativos: falsos negativos: 89 % 3% 97 % 11 % T− 11 100 97 100 3. Ejemplo de c´lculo en tests diagn´sticos a o Se toman 100 personas sanas y 100 enfermas. en funcion de los resultados de e las pruebas qu se realizan sobre el mismo. la probabilidad de que realmente est´ enfermo si le dio positivo (´ e ındice predictivo de verdaderos positivos). P[E|T + ] = P[T + |E ] · P[E] P[T + |E ] · P[E] + P[T + |E ] · P[E] .´ 4. se utiliza el teoreo ma de Bayes para ver cual es. la probabilidad de colelietasis es de 0. o la de que est´ sano si le dio negativo (´ e ındice predictivo de verdaderos negativos): P[T − |E ] · P[E] P[T − |E ] · P[E] + P[T − |E ] · P[E] P[E |T − ] = Otro ejemplo de c´lculo con tests diagn´sticos a o Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. 2. Tal t´cnica tiene una sensibilidad del 91 % y una especificidad del 98 %. TESTS DIAGNOSTICOS 117 que un individuo est´ o no enfermo. a la vista de los resultados obtenidos. En la e poblaci´n que nos ocupa.

02 · 0. ¿cu´l es la probabilidad de que sufra la colelietasis? a 2. Especificidad o Tasa de verdaderos Negativos ≡ P[T − |E ] = 0. 91 · 0. T + ≡ El resultado del test es positivo. 20 En el primer apartado se pide calcular el “´ Indice Predictivo de Verdaderos Positivos”. que por el teorema de Bayes es: P[E|T + ] = P[T + |E ] · P[E] P[T + |E ] · P[E] + P[T + |E ] · P[E] = 0. 2 = 0. P[E|T + ].118 Bioestad´ ıstica: M´todos y Aplicaciones e 1. 98 y la incidencia de la enfermedad en la poblaci´n o P[E] = 0. 9192 0. ¿cu´l ser´ la probabilidad de que no a ıa tenga la enfermedad? Soluci´n: o Vamos a utilizar la siguiente notaci´n: o E ≡ Padecer la enfermedad (colelietasis). 91 · 0. 2 + 0. Si a un individuo de tal poblaci´n se le aplican los ultrasonidos y dan o positivos. T − ≡ El resultado del test es negativo. Si el resultado fuese negativo. 8 1−P[T − |E ] 1−P[E] . E ≡ No padecer la enfermedad. Los datos de que disponemos son las probabilidades condicionadas Sensibilidad o Tasa de Verdaderos Positivos ≡ P[T + |E ] = 091.

4. o .7. Problemas Ejercicio 4. P[T − |E ] · P[E] P[T − |E ] P[E |T − ] = · P[E] + P[T − |E ] ·P[E] = 0. aproximadamente. 98 · 0. P[E |T − ]. etc. se ha de calcular el “´ Indice Predictivo de Verdaderos Negativos”. PROBLEMAS 119 En el segundo apartado. Durante una epidemia se sabe que el 20 % la ha contra´ y que 2 de cada 100 individuos est´n vacunados y son enfermos. 8 + 0. El 60 % de los individuos de una poblaci´n est´n vacunados o a contra una cierta enfermedad. 09 · 0. no obstante. 9775 0. La proporci´n de alcoh´licos que existe en la poblaci´n de o o o M´laga es. ¿Cual es la probabilidad de que de los tres hijos. lumbalgias.. ¿Cual es la probabilidad de que exactamente dos de los tres ni˜os n est´ afectado? e Ejercicio 4.7. Se realiz´ un estudio que puso de manifiesto que el 85 % de los individuos alo coh´licos y el 7 % de los no alcoh´licos sufr´ tales patolog´ Se desea o o ıan ıas.. que pueden hacer sospechar alcoholismo subyacente. un 10 %. 98 · 0. a 1. Una mujer portadora de hemofilia cl´sica da a luz tres hijos. 2 1−P[T + |E ] 4. a Ejercicio 4. 8 = 0. en las bajas que dan a los m´dicos de la Seguridad Social dif´ e ıcilmente se encuentra el diagn´stio co de alcoholismo.2.1. Aparecen sin embargo diagnosticados de hepatopat´ ıas. ninguno est´ afectado e por la enfermedad? 2.3. ıdo a Calcular el porcentaje de vacunados que enferma y el de vacunados entre los que est´n enfermos. saber cu´l es la probabilidad de que un individuo con esas patolog´ sea a ıas realmente alcoh´lico.

8. El 70 % de los .6. Aplicar primero el tratamiento B y. 1. cu´l de las dos siguientes estrategias utiliu a zar´ para curar a un individuo con tal enfermedad: ıa 1. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. ¿cu´l es la probabilidad de que sufra la colelitiasis? a 2. 2. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar un control antidopaje. ¿cu´l es la probabilidad de que no tenga a la enfermedad? Ejercicio 4. Ejercicio 4. Se sabe que 2 de los jugadores del equipo han tomado sustancias prohibidas. ¿Cu´l es la probabilidad de elegir a para el an´lisis a alguno de los infractores? a Ejercicio 4. si no surte efecto. Aplicar ambos tratamientos a la vez. respectivamente. ¿Cu´l es la probabilidad de acertar en el diagn´stico con cada m´todo? a o e Ejercicio 4.7. aplicar el A. Estamos interesados en saber cu´l de dos an´lisis A y B es a a mejor para el diagn´stico de una determinada enfermedad. Si el resultado fuese negativo. En la poblaci´n que nos ocupa la probabilidad de colelitiasis es del o 20 %. El porcentaje de falsos negativos de A es del 7 % y de B es del 3 %. de la cual sabeo mos que la presentan un 10 % de individuos de la poblaci´n. Suponiendo que ambos act´an de modo independiente. Entre los estudiantes de una Facultad de Filosof´ y Letras ıa se dan las siguientes proporciones: el 40 % son hombres.5. El porcentaje o de resultados falsos positivos del an´lisis A es del 15 % y el de B es del a 22 %. Dos tratamientos A y B curan una determinada enfermedad en el 20 % y 30 % de los casos. Tal t´cnica tiene una sensibilidad del 91 % y una especificidad del e 98 %.120 Bioestad´ ıstica: M´todos y Aplicaciones e Ejercicio 4. Si a un individuo de tal poblaci´n se le aplican los ultrasonidos y dan o positivos.4.

PROBLEMAS 121 varones fuman. Los estudios epidemiol´gicos indican que el 20 % de los o ancianos sufren un deterioro neuropsicol´gico. estudios medios el 40 %. u Ejercicio 4. que la produzca B es de 2/3 y que la produzca el virus C es de 1/7.4. adem´s. a Ejercicio 4. Obtenga las probabilidades de que extra´ uno al azar. a 3. Si tomamos un anciano al azar y da positivo en el TAC. ¿Cu´l es la probabilidad de que el virus que se inocule sea a el C? Ejercicio 4. Sabemos que tiene estudios superiores el 15 % de la poblaci´n espa˜ola. Sabemos que la tomograf´ o ıa axial computerizada (TAC) es capaz de detectar este trastorno en el 80 % de los que lo sufren.12.9. Un sujeto con estudios primarios o que est´ trabajando. Escogido o un estudiante al azar. ´ste sea: ıdo e 1. 2 tubos con el virus B y 5 tubos con el virus C. Se inocula un virus a un animal y contrae la enfermedad. y entre los que no tienen estudios el 37 %. y C. Titulado superior. est´n sin trabajo el 10 %. mientras que entre las mujeres s´lo fuman el 20 %.10.7. sabiendo que est´ parado. a 2. entre los de estudios medios el 35 %. que un 35 % del total a . B. calc´lese la probabilidad de que fume. entre los a de estudios primarios el 18 %. ¿cu´l es la probabilidad de que est´ realmente enfermo? a e Ejercicio 4. Sabemos. Una enfermedad puede estar producida por tres virus A. pero que tambi´n da un 3 % de falsos positivos entre e personas sanas. En el laboratorio hay 3 tubos de ensayo con el virus A. estudios primarios el 35 % y no o n tiene estudios el 10 %. Un sujeto sin estudios que est´ en paro. Los desempleados no se distribuyen proporcionalmente entre esas categor´ dado que de entre los de estudios superiores ıas. La probabilidad de que el virus A produzca la enfermedad es de 1/3.11. El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba otra asignatura B.

. sabiendo que ha aprobado la A.000. sabiendo que no no ha aprobado la A. En un campus universitario existen 3 carreras sanitarias. h´llese la probabilidad de a que haya acabado la carrera. No haya aprobado la asignatura B. Los que finalizaron sus estudios son el 20. Elegido un estudiante al azar. Ejercicio 4. sabiendo que ha aprobado la A. 4. Haya aprobado la asignatura B. 3. Ejercicio 4.14. La cuarta parte de los conductores de coche son mujeres. sabiendo que no ha aprobado la A. el 20 % Veterinaria. La probabilidad de que una mujer sufra un accidente en un a˜o es de n 5/10. Calc´lese la probabilidad de u que si acaece un accidente. No haya aprobado la asignatura B. Elegido un estudiante al azar. el accidentado sea hombre. y para los hombres es de 1/10.000. 2. Haya aprobado la asignatura B. Se sabe que el 50 % cursan estudios de Enfermer´ el 30 % Medicina y ıa. calcular las probabilidades de las siguientes situaciones: 1.13. 10 y 5 % respectivamente.122 Bioestad´ ıstica: M´todos y Aplicaciones e aprueba ambas.

para observar el n´mero de caras (C) y cruces (R) que se obtienen. Introducci´n o Normalmente. CRR. el espacio muestral u asociado a dicho experimento aleatorio ser´ ıa: E = {CCC. De este modo aparece el concepto de variable aleatoria unidimensional como el de toda funci´n o X : E −→ I R e −→ X(e) = xe que atribuye un unico n´mero real xe . a cada suceso elemental e. del espacio ´ u muestral E 123 .1. RRC. RCR. si el experimento e consiste en lanzar de modo ordenado tres monedas al aire. los resultados posibles (espacio muestral E) de un experimento aleatorio no son valores num´ricos. RRR} En estad´ ıstica resulta m´s f´cil utilizar valores num´ricos en lugar de a a e trabajar directamente con los elementos de un espacio muestral como el anterior. Por ejemplo. CRC. CCR. RCR. RRC} con el ı valor num´rico 1 que representa el n´mero de caras obtenidas al realizar e u el experimento.Cap´ ıtulo 5 Variables aleatorias 5. RCC. As´ preferimos identificar los sucesos {CRR.

en el ejemplo anterior.a. . X : E −→ I R Vamos a estudiar los conceptos m´s importantes relacionados con la a distribuci´n de probabilidad de una v. esta puede ser clasificada o en discreta o continua del siguiente modo: v. continua es la que puede tomar un n´mero infinito no numerable de u valores.a. continua.a. Por ejemplo. en adelante) X ≡ n´mero de caras u del siguiente modo: X : E −→ I R X(CCC) = 3 X(CCR) = X(CRC) = X(RCC) = 2 X(RRC) = X(RCR) = X(CRR) = 1 X(RRR) = 0 En funci´n de los valores que tome la variable.124 Bioestad´ ıstica: M´todos y Aplicaciones e Por ejemplo. discreta es aquella que s´lo puede tomar un n´mero finito o infinito o u numerable de valores.a. se define la variable aleatoria (v.a. discreta y v..a. diferenciando entre los casos de o v. X : E −→ I N v.

1] xi −→ f (xi ) = P[X = xi ] = P [{e.1): e f (3) = P[X = 3] = P[{CCC}] = 1 1 1 1 · · = 2 2 2 8 1 1 1 3 + + = 8 8 8 8 3 1 1 1 + + = 8 8 8 8 f (2) = P[X = 2] = P[{RCC. X(e) ≤ xi }] . Variables aleatorias discretas Dada una v. Por ejemplo. si retomamos el caso del lanzamiento de 3 monedas de forma que cada una de ellas tenga probabilidad 1/2 de dar como resultado cara o cruz.2. CCR.q. entonces f (xi ) = 0. CRR}] = f (0) = P[X = 0] = P[{RRR}] = 1 1 1 1 · · = 2 2 2 8 Otro concepto importante es el de funci´n de distribuci´n de una o o variable aleatoria discreta. se N o define de modo que f (xi ) es la probabilidad de que X tome ese valor: f :I N −→ [0. RCR.q. F . La representaci´n gr´fica de la funci´n de probabilidad se realiza mediante un o a o diagrama de barras an´logo al de distribuci´n de frecuencias relativas para a o variables discretas. CRC}] = f (1) = P[X = 3] = P[{RRC.2. es igual a la probabilidad de que X tome un valor inferior o igual a xi : F :I N −→ [0. VARIABLES ALEATORIAS DISCRETAS 125 5. su funci´n de probabilidad f . que se define de modo que si xi ∈ I F (xi ) R.5. t. discreta X : E −→ I .a. 1] xi −→ F (xi ) = P[X ≤ xi ] = P [{e. t. X(e) = xi }] Si xi no es uno de los valores que puede tomar X. se tiene que (v´ase la figura 5.

xk . se tiene que F (0) = P[X ≤ 0] = P[X = 0] = f (0) = 1 8 F (1) = P[X ≤ 1] = f (0) + f (1) = 1 3 4 + = 8 8 8 1 3 3 7 + + = 8 8 8 8 8 1 3 3 1 + + + = =1 8 8 8 8 8 F (2) = P[X ≤ 2] = f (0) + f (1) + f (2) = F (3) = P[X ≤ 3] = f (0) + f (1) + f (2) + f (3) = 5. X. 3} ⊂ I ⊂ I mediante la v. 1. . N R Esta funci´n se representa gr´ficamente del mismo modo que la distribuci´n o a o de frecuencias relativas acumuladas (figura 5. .1: Equivalencia entre las probabilidades calculadas directamente sobre el espacio muestral E de resultados del experimento aleatorio. 2. .126 Bioestad´ ıstica: M´todos y Aplicaciones e Figura 5. y las calculadas sobre el subconjunto {0.2).3. . Volviendo al ejemplo de las tres monedas. Variables aleatorias continuas Si una variable discreta toma los valores x1 . de modo que cada posible valor xi contribuye con una cantidad f (xi ) al total: . X tome uno de esos valores es 1.a. la probabilidad de que al hacer un experimento.

R. para que la suma infinita no numerable de las probabilidades de todos los valores de la variable no sea infinita. x2 . no tiene sentido hacer una suma de las probabilidades de cada uno de los t´rminos en el sentido anterior. VARIABLES ALEATORIAS CONTINUAS 127 Func.3. discreta k k f (xi ) = i=1 i=1 P[X = xi ] = 1 Aun cuando la variable tomase un n´mero infinito de valores. Probabilidad f 1 7/8 Func. para variables continuas no tiene inter´s hablar e de la probabilidad de que X = x ∈ I ya que esta debe de valer siempre 0.a.2: Funci´n de probabilidad a la izquierda. lo que generaliza de modo natural el concepto de suma ( ) es el de integral ( ).5. u no hay ning´n problema en comprobar que cada xi contribuye con una u cantidad f (xi ) al total de modo que ∞ ∞ f (xi ) = i=1 i=1 P[X = xi ] = 1 Cuando la variable es continua. . x1 . Por otro lado. . En este caso. . . ya que el e conjunto de valores que puede tomar la variable es no numerable. y funci´n de distribuci´n o o o a la derecha de una v. . Distribucion ’ F 4/8 3/8 1/8 1/8 0 1 2 3 Figura 5.

continua. se tiene que a b P[a ≤ X ≤ b] = a f (x) dx (5.a. F .3: Funci´n de densidad f . Este o concepto es el de funci´n de densidad de una v.128 Bioestad´ ıstica: M´todos y Aplicaciones e De este modo es necesario introducir un nuevo concepto que sustituya en v.a. continuas. es el o a ´rea que existe entre la funci´n y el eje de abscisas.a. o La funci´n de distribuci´n de la v.2) f P[a<X<b] a b X Figura 5.a. que verifica las dos o R R propiedades siguientes:   f (x) ≥ 0   +∞ (5. se define de o o modo que dado x ∈ I F(x) es la probabilidad de que X sea menor o igual R. La probabilidad de un intervalo.1)    f (x) dx = 1 −∞ y que adem´s verifica que dado a < b. que x. que se o define como una funci´n f : I −→ I integrable.3) f (t) dt x −→ F (x) = P[X ≤ x] = −∞ . 1] R x (5. continua. discreta. al de funci´n de probabilidad de una v. es decir F : I −→ [0.

a. calculada a partir de la funci´n de o o o densidad f .129 F(x) f(x) Area=F(x) x Figura 5.4. que son la esperanza matem´tica que desempe˜a un a n papel equivalente al de la media y el momento central de segundo orden. 5.a.A. Medidas de tendencia central y dispersi´n de o v. simetr´ y forma. Por su inter´s nos vamos a centrar en o o ıa e dos medidas sobre v. dispersi´n. e . tambi´n denominado varianza.´ 5.4: Funci´n de distribuci´n F . MEDIDAS DE TENDENCIA CENTRAL Y DISPERSION DE V. De forma an´loga a lo que se se hizo en el cap´ a ıtulo 2 sobre estad´ ıstica descriptiva podemos definir para variables aleatorias medidas de centralizaci´n.4.

Varianza La varianza la denotamos mediante Var [X] o bien σ 2 :            (xi − E [X])2 f (xi ) i∈I I +∞ −∞ si X disc. o bien I = I para una cantidad infinita numerable de los mismos. . tratemos a cada una de llas por separado. . se define su esperanza a partir de la funci´n o de densidad como sigue: +∞ E [X] = −∞ x · f (x) dx (5. k} para un n´mero finito de valores I u de la v. y se denota bien E [X] o bien µ. 2. Sea X una v.a.4.4.5) 5. discreta.4) donde I es el conjunto numerable de ´ I ındices de los valores que puede tomar la variable (por ejemplo I = {1. . Valor esperado o esperanza matem´tica a La esperanza matem´tica o valor esperado de una variable aleatoria a es el concepto equivalente al de media aritm´tica. Se denomina esperanza matem´tica de X a o valor esperado. Var [X] = E (X − E [X])2 = (x − E [X])2 · f (x) dx si X cont. .2.a.130 Bioestad´ ıstica: M´todos y Aplicaciones e 5.a. I N Si X es una v. continua. . a la cantidad que se expresa como: E [X] = i∈I I xi f (xi ) (5. e Como las variables aleatorias se expresan de modo diferente en el caso discreto que en el continuo.1.

Introducci´n o Como complemento al cap´ ıtulo anterior en el que definimos todos los conceptos relativos a variables aleatorias.Cap´ ıtulo 6 Principales leyes de distribuci´n de variables o aleatorias 6. en discretas y cono tinuas describiremos las principales leyes de probabilidad de cada una de ellas.1.a. Atendiendo a la clasificaci´n de las v. discretas. 131 .a. las cuales constituir´n el soporte subyacente de la inferencia estad´ a ıstica y a las que ser´ necesario hacer referencia en el estudio de dicho bloque. a Iniciamos este cap´ ıtulo con el estudio de las distribuciones para v. describimos en ´ste las principales e leyes de probabilidad que encontramos en las aplicaciones del c´lculo de a probabilidades.

2. de Bernouilli. tenemos que su funci´n de probabilidad es: o   q  f (x) = p   0 si x = 0 si x = 1 en cualquier otro caso. y X = 1 en caso contrario.132 Bioestad´ ıstica: M´todos y Aplicaciones e 6. En realidad no se trata m´s que de una a variable dicot´mica..a. Podr´ o ıamos por tanto definir este experimento mediante una v. es decir que unicamente puede tomar dos modalidades. Los principales momentos de X son: . 6.a. o ´ es por ello que el hecho de llamar ´xito o fracaso a los posibles resultados de e las pruebas obedece m´s una tradici´n literaria o hist´rica.1) −→ p = P[X = 1] Un ejemplo t´ ıpico de este tipo de variables aleatorias consiste en lanzar una moneda al aire y considerar la v.2. siendo p la probabilidad de que esto sea as´ (´xito) ı e y q = 1−p el que no lo sea (fracaso).a.   0 −→        1 −→ q= p= X ≡ n´mero de caras obtenidas = u 1 2 1 2 Para una v. Distribuciones discretas Distribuci´n de Bernoulli o Consiste en realizar un experimento aleatorio una s´la vez y observar si o cierto suceso ocurre o no.Ber (p) X. discreta X que toma los valores X = 0 si el suceso no ocurre. y que se denota X. en el estudio de a o o las v. que a la situaci´n real que pueda derivarse del resultado.Ber (p) ⇐⇒ X =   0    1 −→ q = 1 − p = P[X = 0] (6.a.1.

n (6. p: a X.B (n. e u e obtenidos el el total de las n pruebas. p) ⇐⇒ X = X1 +· · ·+Xn . la probabilidad de ´xito es la misma (p).a. . Xi . X. independientes de Bernouilli con el mismo par´metro. . si es la suma de n v.2. donde Xi .Ber (p). .4) Esta definici´n puede interpretarse en el siguiente sentido: Supongamos que o realizamos n pruebas de Bernouilli. p).2) (6. n (6.5) El valor esperado y la varianza de esta variable son: E [X] = np Var [X] = npq Ejemplo de uso de la distribuci´n binomial o Un m´dico aplica un test a 10 alumnos de un colegio para detectar e una enfermedad cuya incidencia sobre una poblaci´n de ni˜os es del 10 %.6.B (n. a X. Su ley de probabilidad es1 En la Figura 6. y ciertos valores usuales de p en la tabla 1 (al final del libro). . Distribuci´n binomial o Se dice que una v.a. o f (k) = P [X = k] = n k pk q n−k ∀ k = 0. X sigue una ley binomial de par´metros n y p. ∀ i = 1. . DISTRIBUCIONES DISCRETAS 133 E [X] = p Var [X] = p · q (6. 1. . .2.2.1 se representa la funci´n de probabilidad de una variable binomial. o n 1 Los valores f (k) los podemos encontrar tabulados para ciertos valores peque˜os de n n. donde en todas ellas.3) 6. . . y queremos calcular el n´mero de ´xitos.

0.35 Bioestad´ ıstica: M´todos y Aplicaciones e Bin(5. exactamente dos est´n sanas? a e Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas.1: Funci´n de probabilidad de una variable binomial cunado n es o peque˜o.134 0.1 0.6) . ¿Cual es la probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el test le da positivo. 75 sensibilidad (verdaderos positivos) especificidad (verdaderos negativos) (6. Calcular la probabilidad de que el resultado sea correcto para m´s de 7 personas.3 0. n La sensibilidad del test es del 80 % y la especificidad del 75 %.2 0. ¿cu´l es la probabilidad de que entre estas. a Soluci´n: o Los datos de que disponemos son: P[E] = 0.5) 0.05 0 -1 0 1 2 3 4 5 6 Figura 6.15 0. 8 P[T − |E ] = 0. 1 prevalencia de la enfermedad en la poblaci´n o Probabilidad a priori de estar enfermo P[T + |E ] = 0.25 0.

6. 305 Sea X1 la v.2: Funci´n de probabilidad de una variable binomial cuando n es o grande. 25 × 0.02 0 0 5 10 15 20 Figura 6. DISTRIBUCIONES DISCRETAS 0.B (n1 = 10. que contabiliza el n´mero de resultados positivos.08 0.14 0.2. tendremos que cala + ]. Es claro u + ].18 Bin(20.16 135 0. 9 = 0.1 0. para lo que podemos usar el teorema de la probabilidad total cular P[T (estar enfermo y no estarlo forman una colecci´n exhaustiva y excluyente o de sucesos): P[T + ] = P[T + |E ] · P[E] + P[T + |E ] · P[E] 1−P[T − |E ] 1−P[E] = 0. 1 + 0.5) 0. donde E. y T − tienen el sentido que es obvio. p1 = 0. T + .04 0. 305) ⇐⇒ P[X1 = k] = n1 k n pk q1 1 −k 1 . Si queremos saber a cuantas personas el test le dar´ un resultado positivo.0.12 0.a.06 0. 8 × 0. se tiene que X sigue una distribuci´n binomial que llamando p1 = P[T o X1 .

2048 Si queremos calcular a cuantas personas les dar´ el test un resultado positia vo aunque en realidad est´n sanas. el ´ ındice predictivo de falsos positivos: 1−P[T − |E ] 1−P[E] P[E |T + ] = P[T + |E ] · P[E] P[E∩T + ] = = 0. hemos de calcular previamente P[E |T + ]. que es: o p3 = P[(T + ∩E) ∪ (T − ∩E)] incompatibles . 73772 · 0. 3054 · 0. u pero que est´n sanas en realidad. 6956 = 0. Antes de hacer los c´lculos no era a previsible que si a una persona el test le da positivo. en realidad tiene una probabilidad aproximadamente del 74 % de estar sana. 26232 = 0.136 Bioestad´ ıstica: M´todos y Aplicaciones e Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es: P[X1 = 4] = 10 4 0. p2 = 0. 22465 n2 k n pk q2 2 −k 2 Por ultimo vamos a calcular la probabilidad p3 de que el test de un ´ resultado err´neo. 7377 P[T + ] P[T + ] Es importante observar este resultado. 7377) ⇐⇒ P[X2 = k] = y P[X2 = 2] = 4 2 0. Entonces a X2 . e o sea. Sea X2 la variable aleatoria que contabiliza al n´mero de personas al que el test le da positivo.B (n2 = 4.

Por ejemplo e o i=1 .Ber (p).a. si o e esta es la suma del n´mero de fracasos obtenidos hasta la aparici´n del u o primer ´xito en la sucesi´n {Xi }∞ . 245) ⇐⇒ P[X3 = k] = n3 k n pk q3 3 −k 3 Como la probabilidad de que el test sea correcto para m´s de siete personas. . . a es la de que sea incorrecto para menos de 3. X. . o X1 .2. DISTRIBUCIONES DISCRETAS = P[T + ∩E] + P[T − ∩E] = P[T + |E ] · P[E] + P[T − |E ] · P[E] = 0. . 2452 × 0. 75510 + 10 1 0. 7559 + 10 2 0. 245 137 La variable aleatoria que contabiliza el n´mero de resultados err´neos del u o test es X3 . X 2 . Distribuci´n geom´trica ( o de fracasos) o e Consideramos una sucesi´n de v. 2. . 2451 × 0. . . 9 + 0. p3 = 0. 2450 · 0. 7558 = 0. 2 × 0. X sigue posee una distribuci´n geom´trica.B (n3 = 10. 25 × 0.3.2. se tiene P[X3 < 3] = P[X3 ≤ 2] FX3 (2) 2 = i=0 n3 i n pi q3 3 −i 3 = 10 0 0. 1 = 0.Geo (p). .a. X i . ∞ Una v. . . independientes de Bernouilli. i = 1.6. . 5407 6. donde Xi .

7) La media y varianza de esta variable aleatoria son: E [X] = q p q p2 Var [X] = Ejemplo de uso de la distribuci´n geom´trica o e Un matrimonio quiere tener una hija. Calcular la probabilidad de a que la pareja acabe teniendo tres hijos o m´s. k = 0.. X = n´mero de hijos varones antes de nacer la ni˜a u n Es claro que . Vamos a suponer o e que la probabilidad de tener un hijo var´n es la misma que la de tener una o hija hembra. Calcular el n´mero esperado de hijos (entre u varones y hembras) que tendr´ el matrimonio. 1. X ↓ X=0 f (0) = p X = 1 f (1) = qp X = 2 f (2) = qqp X = 3 f (3) = qqqp De este modo tenemos que la ley de probabilidad de X es f (k) = P[X = k] = pq k . . . 2. Sea X la v. y por ello deciden tener hijos hasta el nacimiento de una hija.138 Bioestad´ ıstica: M´todos y Aplicaciones e X1 X2 X3 X4 X5 ↓ ↓ ↓ ↓ ↓ 1 0 0 1 1 0 1 0 1 1 0 0 1 0 1 0 0 0 1 1 ··· ··· ··· ··· ··· =⇒ =⇒ =⇒ =⇒ .. . .a. ∞ (6. a Soluci´n: Este es un ejemplo de variable geom´trica.

En este caso se dice que X sigue una e o ley de distribuci´n binomial negativa de par´metros r y p y se denota o a del modo: X. i = 1. . 6. X 2 . discr.2. .Ber (p).6. de Bernouilli independientes. .a. o X1 . ya que ser´ m´s complicado hacerlo mediante la suma infinita ıa a ∞ P[X ≥ 2] = i=2 q i p. Distribuci´n binomial negativa o Sobre una sucesi´n de v. . X P[X ≥ 2] = 1 − P[X < 2] = 1 − P[X ≤ 1] = 1 − P[X = 0] − P[X = 1] = 1 − p − q p = 1 4 Hemos preferido calcular la probabilidad pedida mediante el suceso complementario. . 2. X como el n´mero de fracasos obtenidos hasta la aparici´n u o ∞ de r ´xitos en la sucesi´n {Xi }i=1 . ∞ se define la v.Geo p = 1 2 ⇐⇒ P[X = k] = q k−1 · p = 1 2k q = 1. . . es a la de que tenga 2 o m´s hijos varones (la ni˜a est´ del tercer lugar en a n a adelante). .Bn (r.4. u n Sabemos que el n´mero esperado de hijos varones es E [X] = u La probabilidad de que la pareja acabe teniendo tres o m´s hijos. X i . DISTRIBUCIONES DISCRETAS 139 X. . . . donde Xi .2.a. p). Su ley de probabilidad es: . es decir. por p tanto el n´mero esperado en total entre hijos varones y la ni˜a es 2.

Y . y ´ste es el criterio que se utiliza para detener el o e proceso. lo que ocurre con probabilidad de 7/11. ya que se realizan intervenciones hasta que se obtengan 4 l´bulos sanos.140 Bioestad´ ıstica: M´todos y Aplicaciones e f (k) = P[X = k] = k+r−1 r−1 pr−1 q k p · p ´xito final e = k+r−1 k pr q k k+r−1 primeros experimentos (6. Identificando los par´metros se tiene: a X = n´mero de operaciones hasta obtener r = 4 con resultado positivo u 7 11 k+r−1 k X. el l´bulo queda definitivamente sano.8) rq p rq p2 E [X] = Var [X] = (6.9) (6.10) Ejemplo de variable binomial negativa Para tratar a un paciente de una afecci´n de pulm´n han de ser operao o dos en operaciones independientes sus 5 l´bulos pulmonares. Se practicar´ la a cirug´ hasta que 4 de sus 5 l´bulos funcionen correctamente. pero si no es as´ se deber´ esperar el o ı a tiempo suficiente para intentarlo posteriormente de nuevo. La relaci´n entre ambas v. ¿Cu´l es el vaıa o a lor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cu´l es la probabilidad de que se necesiten 10 intervenciones? a Soluci´n: Este es un ejemplo claro de experimento aleatorio regido por o una ley binomial negativa. u e e o . p = ⇐⇒ P[X = k] = q k pr Lo que nos interesa es medir el n´mero de intervenciones. m´s que u a el n´mero de ´xitos hasta el r–´simo fracaso.a.Bn r = 4. La t´cnica a o e utilizar es tal que si todo va bien.

u es la de que X = 10 − 4 = 6. DISTRIBUCIONES DISCRETAS 141 es muy simple: Y =X +r Luego E [Y ] = E [X + r] = E [X] + r = rp 4 · 7/11 +r = + 4 = 11 q 4/11 Luego el n´mero esperado de intervenciones que deber´ sufrir el paciente u a es de 11.2. 03185 6. La probabilidad de que el n´mero de intervenciones sea Y = 10. consideremos el siguiente ejemplo: Tenemos una baraja de cartas espa˜olas (N = 40 naipes). La respuesta a este problema es o Prob [2 oros en un grupo de 8 cartas] = casos favorables casos posibles 2 naipes 6 naipes × entre los oros de otros palos 8 naipes cualesquiera 10 2 · 40 8 30 6 D k · N n N −D n−k = = = . Distribuci´n hipergeom´trica o e Por claridad.2. de las cuales nos vamos a interesar en el n palo de oros (D = 10 naipes de un mismo tipo). Por tanto: P[Y = 10] = P[X = 6] = 6+4−1 6 q 6 p4 = 84· 4 11 6 7 11 4 = 0.6.5. Supongamos que de esa baraja extraemos n = 8 cartas de una vez (sin reemplazamiento) y se nos plantea el problema de calcular la probabilidad de que hayan k = 2 oros (exactamente) en esa extracci´n.

p) −→ B (n. p) El valor esperado de la hipergeom´trica es el mismo que el de la binoe mial.HGeo (N. si su funci´n de probabilidad o es P[X = k] = N ·p k · N n N ·q n−k si m´x{0. n − N q} ≤ k ≤ m´ a ın{n. E [X] = np N →∞ . lo que o e a representamos del modo X. N .142 Bioestad´ ıstica: M´todos y Aplicaciones e En lugar de usar como dato D es posible que tengamos la proporci´n exiso tente.11) Cuando el tama˜o de la poblaci´n (N ) es muy grande. n. n. Diremos en general que una v. entre el n´mero total de oros y el n´mero de cartas de la baraja u u D 10 1 = = =⇒  N 40 4    D =N ·p  p= N −D =N ·q (q = 1 − p) de modo que podemos decir que N ·p k · N n N ·q n−k Prob [k oros en un grupo de n cartas] = Este ejemplo sirve para representar el tipo de fen´menos que siguen una o ley de distribuci´n hipergeom´trica. N P } (6.a. n y p. X o e sigue una distribuci´n hipergeom´trica de par´metros. p). la ley hipern o geom´trica tiende a aproximarse a la binomial: e HGeo (N. p.

Calcular el n´mero a u esperado de habitantes que la padecen. X posee una ley de distribuci´n de probabilidades del tipo o Poisson cuando f (k) = P[X = k] = e−λ λk . k! k = 0. 1.000 habitantes haya m´s de 3 personas con dicha enfermedad. Calcular la probabilidad de que en una ciudad con 500. A este factor se le denomina factor N −1 de correcci´n para poblaci´n finita. pues est´ corregida por un factor. A veces se suele utilizar como criterio e de aproximaci´n: o n > 30. (6. Distribuci´n de Poisson o de los sucesos raros o Una v.000. p ≤ 0. En general utilizaremos la distribuci´n de Poisson como aproximaci´n o o de experimentos binomiales donde el n´mero de pruebas es muy alto. p = 1/100. pero u la probabilidad de ´xito muy baja. .12) Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir.6. DISTRIBUCIONES DISCRETAS 143 sin embargo su varianza Var [X] = npq · N −n N −1 no es exactamente la de la binomial. o o 6. 2. a N −n . donde n · p = λ. (6. p) ∼ Poi (n · p) = Su valor esperado y varianza coinciden: E [X] = Var [X] = λ Ejemplo de distribuci´n de Poisson o Cierta enfermedad tiene una probabilidad muy baja de ocurrir.2.2. B (n. .13) . p). 1 ⇒ B (n.6. . obteni´ndose como la distribuci´n l´ e o ımite de una sucesi´n de variable binoo miales. que tiende a 1 cuando N → ∞. y n → ∞ (por tanto p → 0+ ).a.

000 =⇒ X .1. Distribuci´n uniforme o rectangular o Se dice que una v. +∞) o a R. Para las o R distribuciones que enunciaremos. 735 6. b] ⊂ I R. pero que puede ser muy bien aproximado por un modelo de Poisson. Poi (λ = 5) ≈ As´ el n´mero esperado de personas que padecen la enfermedad es E [X] = ı u 5.000.B n = 500. b) . El soporte de una v. f (x) = 0. p = 1 100. y no ser´ extra˜o encono ıa n trar que en realidad hay muchas m´s personas o menos que est´n enfermas. o a continuas unidimensionales. X posee una distribuci´n uniforme en el intervalo o [a.3.a.a.a. de modo que X. R bien un segmento de la forma [a. es claro que sigue un modelo binomial. a a La probabilidad de que haya m´s de tres personas enfermas es: a P[X > 3] = 1 − P[X ≤ 3] = 1 − P[X = 0] − P[X = 1] − P[X = 2] − P[X = 3] e−5·0 e−5·1 e−5·2 e−5·3 = 1− − − − 0! 1! 2! 3! = 0. X.a. 6. podr´ ser bien todo I I + = (0. continua se define como aquella regi´n de I donde su densidad es no nula. X que contabiliza el n´mero de personas o u que padecen la enfermedad.U (a.144 Bioestad´ ıstica: M´todos y Aplicaciones e Soluci´n: Si consideramos la v. Distribuciones continuas En esta secci´n estudiaremos las distribuciones m´s importantes de v. existe una gran dispersi´n.3. Como Var [X] = 5. b].

b) o o E [X] = b+a 2 (b − a)2 12 Var [X] = 2 Hay que observar que en principio esa afirmaci´n es cierta para cualquier v.5 3.8 f(x) 0. ´ o Cometiendo un peque˜o abuso en el lenguaje.3: Funci´n de densidad y de distribuci´n de U (a.0 2.5 0. DISTRIBUCIONES CONTINUAS 145 si su funci´n de densidad es la siguiente: o f (x) = 1 b−a si a ≤ x ≤ b (6.5 1. b] depende unicamente de la longitud del mismo. ya que para ellas la probabilidad de cualquier punto es nula. 1. la probabilidad de que al hacer un experimento aleatorio. b]. Ser´ m´s preciso decir ıa a que la densidad de todos los puntos es constante en [a. podemos decir que en una n distribuci´n uniforme la probabilidad de todos los puntos del soporte es la o misma 2 . el valor de X este comprendido en cierto subintervalo de [a.a.5 2.0 0. b = 2) −0.0 1.0 0. contio nua.3.6. no de su posici´n.14) Con esta ley de probabilidad.4 0.6 0.0 F(x) 0.2 Unif(a = 0.0 Figura 6. .

Ejemplos de este tipo de distribuciones son: El tiempo que tarda una part´ ıcula radiactiva en desintegrarse. la dataci´n de f´siles o cualquier materia org´nica o o a mediante la t´cnica del carbono 14. el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabil´ ıstico exponencial. Por ejemplo.3. En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales. si una v.2. no depende del tiempo transcurrido anteriormente en el que no ha pasado nada. X. hasta que ello ocurra en un instante tf . C 14 . Distribuci´n exponencial o La distribuci´n exponencial es el equivalente continuo de la distribuci´n o o geom´trica discreta. el tiempo que transcurre entre que sufrimos dos veces una herida importante.15) se dice que sigue una distribuci´n exponencial de par´metro λ. Esta ley de distribuci´n describe procesos en los que: e o Nos interesa saber el tiempo hasta que ocurre determinado evento. e El tiempo que puede transcurrir en un servicio de urgencias. a x 0 λe−λt dt = −e−λt x 0 = 1 − e−λx . o a Un c´lculo inmediato nos dice que si x > 0.146 Bioestad´ ıstica: M´todos y Aplicaciones e 6. por ejemplo. Concretando.a. continua X distribuida a lo largo de I + . para la llegada de un paciente.Exp (λ). el tiempo que pueda ocurrir desde cualquier instante dado t. sabiendo que. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para. es R tal que su funci´n de densidad es o f (x) = λe−λx si 0 < x (6.

8 1 2 3 4 Figura 6.4 0.3.0 0 0. F (x) = E [X] = 1 λ 1 λ2 Var [X] = Ejemplo de variable exponencial En un experimento de laboratorio se utilizan 10 gramos de 210P o.2 0. f . DISTRIBUCIONES CONTINUAS 147 1.6 0. Sa84 biendo que la duraci´n media de un ´tomo de esta materia es de 140 d´ o a ıas. . o luego la funci´n de distribuci´n es: o o   1 − e−λx    0 si 0 < x en otro caso.4: Funci´n de densidad.6.0 f(x) = e−λx para λ = 1 0. de una Exp (λ).

F . el histograma de frecuencias relativas formado por los tiempos de desintegraci´n de cada uno de estos ´tomos debe ser extremadao a mente aproximado a la curva de densidad. de distribuci´n exponencial: o 210P o 84 es una T . f .0 0 1 2 3 4 Figura 6. Del mismo modo. calculada como el ´rea o o a que deja por debajo de s´ la funci´n de densidad.0 0.4 0.8 1 F(x) = 1 − e−λx λ f(x) = e−λx 0. el pol´ ıgono de frecuencias relativas acumuladas debe ser muy aproximado a la curva de su funci´n de distribuci´n F .a. ı o ¿cuantos idas transcurrir´n hasta que haya desaparecido el 90 % de este a material? Soluci´n: El tiempo T de desintegraci´n de un ´tomo de o o a v.5: Funci´n de distribuci´n.148 Bioestad´ ıstica: M´todos y Aplicaciones e 1.2 0. de Exp (λ).6 0.Exp λ = 1 140 ⇐⇒ ⇐⇒ f (t) = λe−λ t si ∀ t ≥ 0 F (t) = 1 − e−λ t Como el n´mero de ´tomos de 210P o existentes en una muestra de 10 u a 84 gramos es enorme. Entonces el tiempo que transcurre hasta o o .

9 ⇔ e−λ t90 = 1 − 0. t90 . es decir o F (t90 ) = 0. 7135 P[T ≥ 5] 0. 7135 20 En segundo lugar 0. 7316 \ \ 5 25 5 +∞ P[T ≥ 5] = 5 . 7316 (6. 522 \ \ f (t) dt = F (+∞) − F (5) = 1 − 1 + e− 16 = 0.16) 25 P[T ≤ 25|T ≥5 ] = P[5 ≤ T ≤ 25] = 5 f (t) dt = F (25) − F (5) = 1 − e− 16 − 1 + e− 16 = 0. ¿Cu´l es la o n a probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 a˜os? Si el marcapasos lleva n funcionando correctamente 5 a˜os en un paciente.3. 522 P[5 ≤ T ≤ 25] = = 0. 1 ≈ 322 d´ ıas λ T . Tenemos que 1 16 1 ln 0. ¿cu´l es la probabilidad n a de que haya que cambiarlo antes de 25 % a˜os? n Soluci´n: Sea T la variable aleatoria que mide la duraci´n de un marcao o pasos en una persona. DISTRIBUCIONES CONTINUAS 149 que el 90 % del material radiactivo se desintegra es el percentil 90.Exp λ = ⇐⇒ ⇐⇒ f (t) = λe−λ t si ∀ t ≥ 0 F (t) = 1 − e−λ t Entonces 20 P[T ≤ 20] = 0 f (t) dt = F (20) = 1 − e− 16 = 0. de la distribuci´n exponencial. 9 ⇔ t90 = − Otro ejemplo de variable exponencial Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribuci´n exponencial con media de 16 a˜os.6.

a. Es por ello que se dice que “la distribuci´n exponencial no tiene memoria”.17) E [X] = µ Var [X] = σ 2 (6. no influye en nada o el tiempo que en la actualidad lleva funcionando. o 6. o Para el lector es un ejercicio interesante comprobar que ´sta alcanza un e unico m´ximo (moda) en µ.3. X sigue una distribuci´n normal de o o 2 . Hemos adelantado al lector el significado de µ y σ 2 pues esta es una distribuci´n que o queda definida en primera instancia por su media y varianza.N µ. Se dice que una v. σ 2 si su par´metros µ y σ a funci´n de densidad es: o f (x) = Observaci´n o Estos dos par´metros µ y σ 2 coinciden adem´s con la media (esperanza) a a y la varianza respectivamente de la distribuci´n como se demostrar´ m´s o a a adelante4 : 1 √ 2π σ e− 2 ( 1 x−µ 2 σ ) . recibe tambi´n el nombre de distribuci´n normal. en la duraci´n que se espera que tenga el objeto. Distribuci´n normal o gaussiana o La distribuci´n gaussiana. P[T ≤ 25|T ≥5 ] = P[T ≤ 20] o sea.a discretas pueden ser aproximadas por la ley gaussiana. que es sim´trica con respecto al mismo. ∀x ∈ I R (6.18) (6.150 Bioestad´ ıstica: M´todos y Aplicaciones e Luego como era de esperar. lo que representamos del modo X. y por ´ a e Incluso v. 4 3 .a continuas ıa distribuci´n.19) La forma de la funci´n de densidad es la llamada campana de Gauss. por ser propio a un mecanismo exponencial.3. o e o 3 de la naturaleza siguen esta ya que una gran mayor´ de las v.

y por ultimo. o tanto P[X ≤ µ] = P[X ≥ µ] = 1/2.1 0.0 µ −3 −2 −1 0 1 2 3 Figura 6.6.4 N(µ = 0. y las ramas de la curva se extienden asint´ticamente a los ejes.2 σ 0. la mediana y la moda.6: Campana de Gauss o funci´n de densidad de una v. con lo cual en µ coinciden la media. ´ o El soporte de la distribuci´n es todo I de modo que la mayor parte o R. de la masa de probabilidad (´rea comprendida entre la curva y el eje de a abcisas) se encuentra concentrado alrededor de la media.3 σ 0.calcular sus puntos de inflexi´n. de modo que cualquier valor o “muy alejado”de la media es posible (aunque poco probable). mayor cantidad de masa de probabilidad habr´ concena trada alrededor de la media (grafo de f muy apuntado cerca de µ) y cuanto mayor sea “m´s aplastado”ser´.a. La forma de la campana de Gauss depende de los par´metros µ y σ: a µ indica la posici´n de la campana (par´metro de centralizaci´n). σ = 1) 0. a a . La o a o distancia del centro a los puntos de inflexi´n es precisamente σ. o a o σ 2 (o equivalentemente. de diso tribuci´n normal.3. DISTRIBUCIONES CONTINUAS 151 0. EL par´metro µ indica el centro y σ la dispersi´n. Cuanto a a o menor sea. σ) ser´ el par´metro de dispersi´n.

Como ilustraci´n obs´rvense o e las figuras 6.152 Bioestad´ ıstica: M´todos y Aplicaciones e N(µ = 0. la aproximaci´n consiste o ≈ en decir que X .3 0. n p q).4 0.2 P(x ∈ µ ± σ) = 0. El convenio que se suele utilizar para poder realizar esta aproximaci´n es: o   n > 30            X. p) donde np > 4 nq > 4 =⇒ X .68 P(x ∈ µ ± 2σ) = 0. A dos desviaciones tenemos el 95 %.11.7: A una distancia que no supera en una desviaci´n de la media o tenemos una probabilidad del 68 %. N (n p. .a.10 y 6. Aproximaci´n a la normal de la ley binomial o Se demuestra que una v.95 0. X. N (n p. σ = 1) 0. p) o se puede aproximar mediante una distribuci´n normal si n es suficientemeno te grande y p no est´ ni muy pr´ximo a 0 ni a 1.1 0. n p q) ≈ aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un valor muy grande o p ≈ q ≈ 1/2. discreta con distribuci´n binomial.0 −3 −2 −1 0 1 2 3 Figura 6.B (n.B (n. Como el valor esperado y a o la varianza de X son respectivamente n p y n p q.

χ2 . 1) i=1 =⇒ i=1 Zi2 . X = Z 2 se distribuye seg´n u una ley de probabilidad distribuci´n χ2 con un grado de libertad. χ n n {Zi }n . la suma de sus cuadrados respectivos es una distribuci´n que denominaremos ley de distribuci´n o o 2 con n grados de libertad.2 0. 1).a.1) 0.1 0 -4 -2 0 2 4 Figura 6.3. independientes Zi .N (0. DISTRIBUCIONES CONTINUAS 153 N(0.N (0.χ2 1 Si tenemos n v.χ2 n (6. lo o que se representa como X.8: Distribuciones gaussianas con diferentes medias e igual dispersi´n. o 6.a. Z.4 0.1) N(3.3 0.5 0.20) .1) N(-3. la v.4.3. Distribuci´n χ2 o Si consideramos una v. 1).N (0.6.a.

se tiene n i=1 2 Xi − µi σi . .2) N(0. . independientes.4 0.5 0.4) 0.1) N(0. .2 0.21) (6.22) En consecuencia. . si tenemos X1 .1 0 -4 -3 -2 -1 0 1 2 3 4 Figura 6.a. σi .3 0. v.χ2 n . Xn . donde ca2 da Xi .9: Distribuciones gaussianas con igual media pero varianza diferente.N µi .154 Bioestad´ ıstica: M´todos y Aplicaciones e N(0. La media y varianza de esta variable son respectivamente: E [X] = n Var [X] = 2n (6.

χ2 . llamamos distribuci´n ız o t–Student con n grados de libertad.04 0. independientes X. Este tipo de distribuciones aparece cuando n n tenemos n + 1 v.a.06 0. DISTRIBUCIONES CONTINUAS 155 0.0.12 0.16 Bin(100.02 0 0 20 40 60 80 100 Figura 6.tn (6. T . continua o o con distribuci´n N (n p. tn a la de una v. De modo preciso.3. χ2 .npq) 0.14 0. 1). n p q) y el diagrama de barras de una v. σ 2 .6.1 0. T = Z 1 2 n χn .N (0.08 0.15) N(np.5. 6.3.N µ.23) donde Z. 1]. discreta o de distribuci´n B (n.a.a.10: Comparaci´n entre la funci´n de densidad de una v. p) para casos en que la aproximaci´n normal de la o o binomial es v´lida.a. Distribuci´n t de Student o La distribuci´n t–Student se construye como un cociente entre una normal y o la ra´ de una χ2 independientes. Es peor esta aproximaci´n cuando p est´ pr´ximo a los a o a o bordes del intervalo [0.

y sim´trica con respecto a la misma.02 0 0 20 40 60 80 100 Figura 6. 1): o Es de media cero. .5) N(np. e Es algo m´s dispersa que la normal.06 0.0. .156 Bioestad´ ıstica: M´todos y Aplicaciones e Bin(100.08 0.N µi . .npq) 0. σi i = 1. pero realizada o con par´metros con los que damos la aproximaci´n normal de la binomial a o es mejor. . u . 2 Xi .tn La distribuci´n t de Student tiene propiedades parecidas a N (0. n y nos interesa la distribuci´n de o X −µ σ n 1 Xi − µi n i=1 σi T = 2 .1 0.11: La misma comparaci´n que en la figura anterior. pero la varianza decrece hasta 1 a cuando el n´mero de grados de libertad aumenta.04 0.

n . La distribuci´n F de Snedecor o Otra de la distribuciones importantes asociadas a la normal es la que se define como cociente de distribuciones χ2 independientes.4 0. Decimos entonces que la variable m 1 nX 1 mY F = = m X . m) grao dos de libertad. e . es decir.2 χ2 4 χ2 6 0. 1) n→∞ 6.Fn.3.5 χ2 2 0. o n n Para un n´mero alto de grados de libertad se puede aproximar la u distribuci´n de Student por la normal. Obs´rvese que Fn. DISTRIBUCIONES CONTINUAS 157 0. con (n.3 0.3.1 2 4 6 8 Figura 6.χ2 e n Y .6.6.a.24) sigue una distribuci´n de probabilidad de Snedecor. Sean X.m n Y (6.0 0 0. o tn −→ N (0.χ2 v. independientes.m = Fm.12: Funci´n de densidad de χ2 para valores peque˜os de n.

o La forma m´s habitual en que nos encontraremos esta distribuci´n a o ser´ en el caso en que tengamos n + m v. m Yj . la distribuci´n de o Student se aproxima a la distribuci´n normal tipificada.m Es claro que la distribuci´n de Snedecor no es sim´trica. 1) t3 0. . .3 t1 0. n i = 1. . .N µi .4 t30 ≈ t∞ = N(0.Fn. los punto de I + . σi i = 1. . independientes a 2 Xi . Otra propiedad R interesante de la distribuci´n de Snedecor es: o .2 0. .13: Cuando aumentan los grados de libertad.N mj . s2 j y as´ ı 1 n F = n i=1 m Xi − µi σi Yj − mj sj 2 1 m j=1 2 . pues s´lo tienen o e o densidad de probabilidad distinta de cero.158 Bioestad´ ıstica: M´todos y Aplicaciones e 0. .0 −4 0.a. .1 −2 0 2 4 Figura 6.

14: Funci´nes de densidad para la distribuci´n F de Snedecor.4.0 2.2.4. En general.0 0. Para estudiar la regulaci´n hormonal de una l´ o ınea metab´lio ca se inyectan ratas albinas con un f´rmaco que inhibe la s´ a ıntesis de prote´ ınas del organismo. En una cierta poblaci´n se ha observado un n´mero medio o u anual de muertes por c´ncer de pulm´n de 12. 5 0. Si se trata a 10 ania males con el f´rmaco. 10 0.5 1. 20 F10.1.0 1. ¿cu´l es la o a probabilidad de que durante el a˜o en curso: n .2 0.4 0.Fm.0 0.5 2. o o F .Fn. ¿cu´l es la probabilidad de que al menos 8 lleguen a a vivas al final del experimento? Ejercicio 6.8 F10.6.5 3. Problemas Ejercicio 6.6 F10.n F 6.0 Figura 6. 4 de cada 20 ratas mueren a causa del f´rmaco antes de que el experimento haya concluido. PROBLEMAS 159 0. Si el n´mero de muertes a o u causadas por la enfermedad sigue una distribuci´n de Poisson.m ⇐⇒ 1 .

Ejercicio 6. Una prueba de laboratorio para detectar hero´ en sangre ına tiene un 92 % de precisi´n. e en ayunas. ¿cu´l es o a la probabilidad de que: . Da˜ando los cromosomas del ´vulo o del espermatozoide. Hallar P[106 ≤ X ≤ 110]. u otras deficiencias gen´ticas. Hallar P[X ≤ 121]. 5. De las siguientes 150 mutaciones cauo sadas por cromosomas da˜ados. el nivel de glucosa en sangre X. Entre los diab´ticos. 4. ¿cu´ntas se esperar´ que se debiesen a n a ıa radiaciones? ¿Cu´l es la probabilidad de que solamente 10 se debiesen a a radiaciones? Ejercicio 6. La probabilidad de que tal mutaci´n se e o produzca por radiaci´n es del 10 %. n o pueden causarse mutaciones que conducen a abortos.5. Hallar el punto x caracterizado por la propiedad de que el 25 % de todos los diab´ticos tiene un nivel de glucosa en ayunas inferior o e igual a x. σ 2 = 64 1.160 Bioestad´ ıstica: M´todos y Aplicaciones e 1. es decir X. con o media 106 mg/100 ml y desviaci´n t´ o ıpica 8 mg/100 ml. puede suponerse de distribuci´n aproximadamente normal. 15 o m´s personas mueran a causa de la enfermedad? a 3.3. ¿Qu´ porcentaje de diab´ticos tienen niveles comprendidos entre 90 e e y 120 ? 3. defectos de nacimiento. Haya exactamente 10 muertes por c´ncer de pulm´n? a o 2.4. Si se analizan 72 muestras en un mes.N µ = 106. 10 o menos personas mueran a causa de la enfermedad? Ejercicio 6. Hallar P[X ≤ 120] 2.

25 de estas a a muertes? 3. El 10 % de las personas tiene alg´n tipo de alergia. se distribuye seg´n una Normal.6.000. Hallar la probabilidad de que.7. 60 o menos est´n correctamente evaluadas? e 2.4.000 de mujeres que utilizan este medio de control de natalidad: 1. al menos. inclusive? e Ejercicio 6. a e Ejercicio 6.000. Se supone que en una cierta poblaci´n humana el ´ o ındice cef´lico i. Tomando una muestra de 8 individuos. La probabilidad de muerte resultante del uso de p´ ıldoras anticonceptivas es de 3/100.6. como m´ximo. exactamente 60 est´n correctamente evaluadas? e Ejercicio 6. ¿cu´l ser´ la probabilidad de a a que aparezcan m´s de 5 individuos con la caracter´ a ıstica? Ejercicio 6. 1. 8 sean al´rgicos a algo. De 1. (cociente entre el di´metro transversal y el longitudinal exprea a sado en tanto por ciento). Hallar la prou babilidad de que. La probabilidad de presentar una caracter´ ıstica gen´tica e es de 1/20.8. Se u seleccionan aleatoriamente 100 individuos y se les entrevista. ¿Cu´l es la probabilidad de que haya. ¿Cu´l es la probabilidad de que el n´mero de muertes debidas a esta a u causa est´ entre 25 y 35. calcular la probabilidad de que 3 individuos presenten la caracter´ ıstica. ¿Cu´ntas muertes debidas a esta causa se esperan? a 2. 12 tengan alg´n tipo de alergia. PROBLEMAS 161 1. 2. Tomando una muestra de 80 personas. como m´ximo. menos de 60 est´n correctamente evaluadas? e 3.9. El 58 % de los u .

se dio un anticoagulante a 10 de ellos. Sup´ngase que se van a utilizar 20 ratas en un estudio o de agentes coagulantes de la sangre. mientras que en los diab´ticos Xd . σ = 10). Xs sigue una distribuci´n o Xs . Si se conviene en clasificar como sanos al 2 % de los diab´ticos: e 1.N (µ = 80.10. el 38 % son mesoc´falos (75 < i ≤ 80) e e y el 4 % son braquic´falos (i > 80).162 Bioestad´ ıstica: M´todos y Aplicaciones e habitantes son dolicoc´falos (i ≤ 75). 4). ¿Cu´l es la probabilidad o a de que de las 12 elegidas 6 tengan la droga y 6 no la tengan? . Se necesitaron 12 ratas para la segunda fase del estudio y se les tom´ al azar sin reemplazamiento. pero por inadvertencia se pusieron todas sin marcas en el mismo recinto. H´llese la media y la desviaci´n t´ e a o ıpica del ´ ındice cef´lico en esa poblaci´n. sigue una distribuci´n e o Xd . Se sabe que en la poblaci´n en general el 10 % de los individuos son o diab´ticos ¿cu´l es la probabilidad de que un individuo elegido al azar e a y diagnosticado como diab´tico. a o Ejercicio 6. ¿Por debajo de qu´ valor se considera sano a un individuo? ¿Cu´ntos e a sanos ser´n clasificados como diab´ticos? a e 2.11. Se supone que la glucemia basal en individuos sanos.N (µ = 160. σ = 31. Como primera experiencia. realmente lo sea? e Ejercicio 6.

e definidos en el primer cap´ ıtulo. Dentro de este contexto.1. e o necesidad y definici´n de las diferentes t´cnicas de muestreo. tanto en la estimaci´n puntual como e o o por intervalos.Cap´ ıtulo 7 Introducci´n a la inferencia o 7. en primer lugar a la justificaci´n. Al ser la o poblaci´n grande y no poder ser estudiada en su integridad en la mayor´ o ıa de los casos. o o El concepto de estimador. as´ como algunos a o ı m´todos para la obtenci´n de ellos. Introducci´n o El prop´sito de un estudio estad´ o ıstico suele ser. ser´ necesario asumir un estad´ a ıstico o estimador como una variable aleatoria con una determinada distribuci´n. o e Los primeros t´rminos obligados a los que debemos hacer referencia. las conclusiones obtenidas deben basarse en el examen de solamente una parte de ´sta. extraer conclusiones acerca de la naturaleza de una poblaci´n. como herramienta fundamental. En el cap´ ıtulo anterior dedujimos ciertas leyes de probabilidad mediante un m´todo deductivo a partir del conocimiento del mecanismo generador e 163 . lo que nos lleva. ser´n los de estad´ a ıstico y estimador. como hemos venido citando. y que o ser´ la pieza clave en las dos amplias categor´ de la inferencia estad´ a ıas ıstica: la estimaci´n y el contraste de hip´tesis. lo caracterizamos mediante una serie de propiedades que nos servir´n para elegir el a “mejor”para un determinado par´metro de una poblaci´n.

es hacer inferencias acerca de la poblaci´n a partir de una muestra extra´ de la misma. M´s posibilidades: Para hacer cierto tipo de estudios. o Mayor rapidez: Estamos acostumbrados a ver c´mo con los resultados o del escrutinio de las primeras mesas electorales. es m´s barato preguntar e a a 4.164 Bioestad´ ıstica: M´todos y Aplicaciones e de los sucesos aleatorios. no es posible en la pr´ctica o a . que a 30. De este modo pudimos deducir las leyes de probabilidad binomial o hipergeom´trica por ejemplo. muchas o horas antes de que el recuento final de votos haya finalizado. el estudio de las relaciones exisıa tentes entre la distribuci´n de un car´cter en dicha poblaci´n y las distrio a o buciones de dicho car´cter en todas sus muestras. por ejemplo el a de duraci´n de cierto tipo de bombillas. T´cnicas de muestreo sobre una poblaci´n e o La teor´ del muestreo tiene por objetivo. podemos obtener muestras de la v. o La tarea fundamental de la estad´ ıstica inferencial.2. es decir: ¿C´mo deducir la ley de probabilidad sobre determinado car´cter de o a una poblaci´n cuando s´lo conocemos una muestra? o o Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relaci´n entre el fumar y el c´ncer de pulm´n e inteno a o tamos extender las conclusiones obtenidas sobre una muestra al resto de individuos de la poblaci´n. siguiendo esa ley de probabilidad. se obtiene una aproximaci´n bastante buena del resultado final de unas elecciones. a Las ventajas de estudiar una poblaci´n a partir de sus muestras son o principalmente: Coste reducido: Si los datos que buscamos los podemos obtener a partir de una peque˜a parte del total de la poblaci´n.000. cuando se a realizan encuestas previas a un refer´ndum.000 personas su intenci´n de voto. los gastos de recogida n o y tratamiento de los datos ser´n menores. As´ una vez precisamente e ı determinada la ley probabil´ ıstica que subyace en el experimento aleatorio.000. En este momento nos interesamos por el proceso contrario. o ıda 7.a. Por ejemplo.

a De este modo se ve que al hacer estad´ ıstica inferencial debemos enfrentarnos con dos problemas: Elecci´n de la muestra (muestreo). o Con reposici´n. Muestreo aleatorio Consideremos una poblaci´n finita. Si observamos o un elemento particular. ya que no quedar´ nada ıa que vender.1. Extrapolaci´n de las conclusiones obtenidas sobre la muestra. o Muestreo aleatorio sin reposici´n o Consideremos una poblaci´n E formada por N elementos. otros tipos de muestreo pueden ser cono siderados como veremos m´s adelante: muestreo sistem´tico. estratificado a a y por conglomerados. 7. Es mejor destruir s´lo una peque˜a parte de ellas y sacar o n conclusiones sobre las dem´s.2. en un muestreo aleatorio sin reposici´n se o da la siguiente circunstancia: . que es a lo que nos dedicaremos o en este cap´ ıtulo. TECNICAS DE MUESTREO SOBRE UNA POBLACION 165 destruirlas todas para conocer su vida media. o El muestreo aleatorio se puede plantear bajo dos puntos de vista: Sin reposici´n de los elementos. de la que deseamos extraer una o muestra.2.´ ´ 7. al resto o de la poblaci´n (inferencia). denominamos al proceso de selecci´n muestreo aleatorio. e ∈ E. o El tipo de muestreo m´s importante es el muestreo aleatorio. Cuando el proceso de extracci´n es tal que garantiza a cada uno o de los elementos de la poblaci´n la misma oportunidad de ser incluidos en o dicha muestra. en el que a todos los elementos de la poblaci´n tienen la misma probabilidad de ser o extra´ ıdos. Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisi´n.

El muestreo aleatorio con reposici´n es tambi´n denominado muestreo o e aleatorio simple. y las observaciones se realizan con reemplazamiento. Si no ha sido elegido en primer lugar (lo que ocurre con una probabili−1 dad de NN ). la poblaci´n consta de N − i elementos. atendiendo a o criterios que puedan ser importantes en el estudio. pero de modo que cada vez el elemento extra´ es repuesto al ıdo total de la poblaci´n. . Para ello tenemos .166 Bioestad´ ıstica: M´todos y Aplicaciones e La probabilidad de que e sea elegido en primer lugar es 1 N. Muestreo aleatorio estratificado Un muestreo aleatorio estratificado es aquel en el que se divide la poblaci´n de N individuos. k. Nk . . De este modo. la probabilidad de que lo sea en este momento es de N1 . o 7. e o con lo cual si e no ha sido seleccionado previamente. de tama˜os respectivos n N1 . −1 en el (i + 1)–´simo intento.2. . .2. en k subpoblaciones o estratos. la probabilidad de que sea elegido en el segundo intento es de N 1 . . cada observaci´n es realizada sobre la o misma poblaci´n (que no disminuye con las extracciones sucesivas). n A continuaci´n nos planteamos el problema de cuantos elementos de o muestra se han de elegir de cada uno de los estratos. y se caracteriza porque cada elemento de la poblaci´n o tiene la misma probabilidad de ser elegido. . . . De esta forma un elemento puede ser extra´ varias o ıdo veces. N = N1 + N2 + · · · + Nk y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tama˜o ni i = 1. −i Muestreo aleatorio con reposici´n o Sobre una poblaci´n E de tama˜o N podemos realizar extracciones de n o n elementos.

El muestreo es m´s barato en ese estrato. o As´ en un estrato dado.´ ´ 7. los elige quien hace el muestreo. minimizar el coste en la obtenci´n de las muestras. Asignaci´n proporcional o Sea n el n´mero de individuos de la poblaci´n total que forman parte u o de alguna muestra: n = n1 + n2 + · · · + nk Cuando la asignaci´n es proporcional el tama˜o de la muestra de cada o n estrato es proporcional al tama˜o del estrato correspondiente con respecto n a la poblaci´n total: o ni = n · Asignaci´n ´ptima o o Cuando se realiza un muestreo estratificado.2. se tiende a tomar una muestra m´s grande ı a cuando: El estrato es m´s grande. habiendo fijado la varianza que podemos admitir para el estimador. a Ni N . los tama˜os muestrales en n cada uno de los estratos. y para ello puede basarse en alguno de los siguientes criterios: Elegir los ni de tal modo que se minimice la varianza del estimador. o bien. a El estrato posee mayor variabilidad interna (varianza). TECNICAS DE MUESTREO SOBRE UNA POBLACION 167 fundamentalmente dos t´cnicas: la asignaci´n proporcional y la asignaci´n e o o optima. para un coste especificado. ni .

168 Bioestad´ ıstica: M´todos y Aplicaciones e 7. . em+2k . teniendo en cuenta que la lista es circular. ya que recorre la poblaci´n de un modo a o m´s uniforme. a partir de m.2. entre 1 y k. Cuando el criterio a de ordenaci´n de los elementos en la lista es tal que los elementos m´s o a parecidos tienden a estar m´s cercanos. a ´ El m´todo tal como se ha definido anteriormente es sesgado si N no es e n entero. . a n Se selecciona un n´mero al azar m. . el muestreo sistem´tico suele ser a a m´s preciso que el aleatorio simple. em+k . u Tomar como muestra los elementos de la lista: em . o . . una manera de muestrear consiste en Sea k = N .3. em+(n−1)k Esto es lo que se denomina muestreo sistem´tico. ya que los ultimos elementos de la lista nunca pueden ser escogidos. Por otro lado. u Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k. ´ Un modo de evitar este problema consiste en considerar la lista como si fuese circular (el elemento N + 1 coincide con el primero) y: Sea k el entero m´s cercano a N . n Elegir aleatoriamente un n´mero m. Se puede comprobar que con este m´todo todos los elementos de la lista e tienen la misma probabilidad de selecci´n. es a menudo m´s f´cil no cometer errores con a a a un muestreo sistem´tico que con este ultimo. entre 1 y N . Muestreo sistem´tico a Cuando los elementos de la poblaci´n est´n ordenados en fichas o en o a una lista.

En esta situaci´n es m´s econ´mico realizar el denominado muestreo o a o por conglomerados. .7. para despu´s elegir calles y edificios. θ1 . . . . . Xn ) ←− estimador de θi . . a f (x. . θ2 . . ˆ θi (X1 . . . Una vez elegido e el edificio. Propiedades deseables de un estimador Sea X una v. e . la elecci´n de la muestra es un proceso aleatorio. θ1 . xn . . θk ) · · · f (xn . de modo que en cada uno de ellos s´lo se realiza una entreviso ta. se denomina estimaci´n el valor o num´rico que toma el estimador sobre esa muestra. . θk )·f (x2 . PROPIEDADES DESEABLES DE UN ESTIMADOR 169 7.a. . . ya que estudiar una muestra de tama˜o n implica enviar a los encuestadores a n puntos distintos n de la misma. ya que aunque depende un´ ıvocamente de los valores de la muestra observados (Xi = xi ). . . puede factorizarse del siguiente modo: fc (x1 . .1) Obs´rvese que el estimador no es un valor concreto sino una variable e aleatoria. .4. a cualquier v. Muestreo por conglomerados Si intentamos hacer un estudio sobre los habitantes de una ciudad. . Xn una muestra aleatoria simple de la variable. que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad. x2 . . . . . que por estar formada por observaciones independientes. . . . cuya funci´n de probabilidad (o densidad de probabilio dad si es continua) depende de unos par´metros θ1 . θ1 . θ1 . . θi que a se exprese en funci´n de la muestra aleatoria y que tenga por objetivo o aproximar el valor de θi . el muestreo aleatorio simple puede resultar muy costoso. . se entrevista a todos los vecinos. .a.3. . (7. . . θk ) ˆ Se denomina estimador de un par´metro θi . θk desconocidos. θ1 . 7.2. . o Una vez que la muestra ha sido elegida. .3. θk ) = f (x1 . Denotamos mediante fc a la funci´n de densidad conjunta de o la muestra. . . θk ) Representamos mediante X1 .

x2 . . Esto es la funci´n o o de probabilidad o densidad. . θ) = f (x1 . ´ o A esta funci´n de θ la denominamos funci´n de verosimilitud. Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio. a Carencia de sesgo: El valor medio que se obtiene de la estimaci´n para diferentes mueso tras debe ser el valor del par´metro. al ser v. θ)f (x1 . . es unicamente funci´n de θ. . x2 . θ) Las muestras aleatorias simples de tama˜o n. X2 . .170 Bioestad´ ıstica: M´todos y Aplicaciones e Intuitivamente. 7. . . θ) Esta funci´n que depende de n + 1 cantidades podemos considerarla de dos o maneras: Fijando θ. las caracter´ ısticas que ser´ deseables para esta nueva ıan variable aleatoria (que usaremos para estimar el par´metro desconocido) a deben ser: Consistencia: Cuando el tama˜o de la muestra crece arbitrariamente. . . a Eficiencia: Al estimador. θ) · · · f (xn . es una funci´n de las n cantidades xi . con funci´n de probabilidad o f (x.1.a. .3.a. Estimadores de m´xima verosimilitud a Sea X una v. n Suficiencia: El estimador deber´ aprovechar toda la informaci´n existente en la ıa o muestra. . no puede exig´ ırsele que para una muestra cualquiera se obtenga como estimaci´n el valor exacto del par´metro. el valor estin mado se aproxima al par´metro desconocido. o o .. Xn tienen por n distribuci´n de probabilidad conjunta o fc (x1 . xn . o a Sin embargo podemos pedirle que su dispersi´n con respecto al valor o central (varianza) sea tan peque˜a como sea posible. xn . . θ) · f (x2 . X1 .

. intercambiando los papeles entre par´metro y estimador. θMV . ˆ ˜ θMV = m´x f (X1 . figura 7. . En a una funci´n de verosimilitud consideramos que las observaciones x1 . . . El estimador m´ximo veros´ a ımil del par´metro buscado. . xn . PROPIEDADES DESEABLES DE UN ESTIMADOR 171 En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado los valores xi .a. θ) a ˜ R θ∈I . se define el estimador m´ximo veros´ a a ımil como la v. X2 . . . . V (θ). θ) Figura 7. Xn . o Como es lo mismo maximizar una funci´n que su logaritmo (al ser o este una funci´n estrictamente creciente). y se representa la gr´fica con el valor de los valores que a a tomar´ la funci´n de densidad para todos los posibles valores del par´metro ıa o a ˆ θ. . xn fijados =⇒ Verosimilitud ≡ V (θ) = f (x1 . . . .1) o x1 .7. o xn .1: La funci´n de verosimilitud se obtiene a partir de la funci´n o o de densidad. De modo m´s preciso. es aquel a que maximiza su funci´n de verosimilitud. x2 . este m´ximo puede calcularse o a derivando con respecto a θ la funci´n de verosimilitud ( bien su logaritmo) o y tomando como estimador m´ximo veros´ a ımil al que haga la derivada nula: ∂ log V ∂θ ˆ θMV = 0.3. . .est´n fijadas. (cf. una posible estimaci´n del par´metro es o a aquella que maximiza la funci´n de verosimilitud. . .

. . Xn . . El estimador media muestral que denotaremos normalmente como X (en lugar de µ es ˆ .a. Son consistentes. X 2 . No siempre son insesgados. su estimador m´ximo veros´ a ımil. entre todos los estimadores o consistentes de un par´metro θ. ˆ θ o e 4. . ˆMV es funci´n de la muestra a trav´s de θ. de un car´cter n a sobre una poblaci´n que viene expresado a trav´s de una v. . Son asint´ticamente eficientes. es decir. es decir. Son invariantes frente a transformaciones biun´ ıvocas. es decir. si θMV ˜ es una funci´n biun´ es el estimador m´ximo veros´ a ımil de θ y g(θ) o ıvoca ˜ ˆ de θ. los de m´xima verosimilitud son los a a de varianza m´ ınima. X que posee o e momentos de primer y segundo orden. entonces g(θMV ) es el estimador m´ximo veros´ a ımil de g(θ). . X2 . . ˆ 2. existen E [X] y Var [X]:   E [Xi ] = µ    Var [X ] = σ 2 i X1 . X1 .3. a o Estimador de la esperanza matem´tica a Consideremos las muestras de tama˜o n. X n . ˆ 3. o 5.172 Bioestad´ ıstica: M´todos y Aplicaciones e Los estimadores de m´xima verosimilitud tienen ciertas propiedades en a general que a continuaci´n enunciamos: o 1. Algunos estimadores fundamentales Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones resultan fundamentales: estimadores de la esperanza matem´tica y varianza de una distribuci´n de probabilidad. 7. Si θ es un estimador suficiente de θ.2. Son asint´ticamente normales. 6. .

σ) =⇒ X ≡ µMV . para conseguir un estimador insesgado de la varianza se introduce la cuasivarianza muestral: n ˆ S2 = S2 (7. PROPIEDADES DESEABLES DE UN ESTIMADOR 173 X= verifica: 1 (X1 + X2 + · · · + Xn ) n E X =µ σ2 n Var X = Por tanto es un estimador insesgado. ya que el valor esperado del estimador e S2 = 1 n n (Xi − X)2 i=1 se demuestra que es (n − 1)/n · σ 2 . se puede comprobar que coincide con el estimador u de m´xima verosimilitud: a Proposici´n o Xi .N (µ. Se puede comprobar adem´s que a ˆ (n − 1)S 2 . Si adem´s sabemos que X se distribuye a seg´n una ley gaussiana.2) n−1 la cual presenta como valor esperado σ 2 .7. podemos comenzar con el estimador m´s natural (que es el estimador m´ximo verosimil) sin embargo a a ´ste no es insesgado. De esta manera.3.N µ. ˆ σ2 n Estimador de la varianza Al elegir un estimador de σ 2 = Var [X].χn−1 σ2 .

174 Bioestad´ ıstica: M´todos y Aplicaciones e .

Para ello empezamos bajo el supuesto de que nuestra variable en estudio es una variable aleatoria que sigue una distribuci´n o cualquiera Nuestro objetivo ser´ determinar los l´ a ımites del intervalo de confianza para ´stos. e 175 .Cap´ ıtulo 8 Estimaci´n confidencial o 8. as´ como las propiedades deseables o ı que debe verificar para considerar el producto una “buena. a Existen. Las t´cnicas que abordan este tipo de situaciones. as´ como los intervalos de confianza para los par´metros m´s usuales: ı a a medias. multitud de circunstancias en las que el inter´s e de un estudio no estriba tanto en obtener una estimaci´n puntual para un o par´metro. El desarrollo te´rico de como o o llega a constituirse un intervalo. realizado en el caso m´s intuitivo y sencia llo. con una determinada probabilidad.en los a que pueda precisarse. Introducci´n o En el cap´ ıtulo anterior establecimos toda la teor´ que concierne a la definiıa ci´n y concepto de un estimador puntual. varianzas y proporciones.estimaci´n del o par´metro. que el verdadero valor del par´metro se encuentra dentro de esos l´ a ımites. como determinar un posible “rango”de valores o “intervalo.1.o o “Estimaci´n por Intervalos de Confianza”. se encuadran dentro e de la estad´ ıstica Inferencial bajo el t´ ıtulo de “Estimaci´n Confidencial. para una y dos poblaciones. son el objetivo de este cap´ ıtulo. no obstante.

X 2 . el estimador o (que a veces denominaremos estimador puntual) nos da una aproximaci´n o de θ. . . de cierta familia. X1 = x1   X2 = x2 . o a La estimaci´n confidencial o estimaci´n por intervalos de cono o fianza asigna un conjunto de valores como estimaci´n del par´metro. intervalo aleatorio al nivel de confianza 1 − α si P θ ∈ I(X) ≥ 1 − α. . pues se asigna un punto o como estimaci´n del valor del par´metro.. Xn = xn ˆ =⇒θ(x1 .... Diremos que I(X) es un intervalo aleatorio al nivel de significaci´n o α. Para estimar dicho par´metro a partir de a a una muestra aleatoria simple def X ≡ X1 . . que o a generalmente tiene forma de intervalo: I(X).Fam (θ) una v. .xn )            Esto es lo que se denomina estimaci´n puntual.176 Bioestad´ ıstica: M´todos y Aplicaciones e Sea X.x2 . xn ) ≈ θ x=(x1 . x2 . \I( . . que se distribuye seg´n un u par´metro θ que desconocemos.. .. . o equivalentemente. Cuando se realiza el experimento aleatorio de extraer una muestra concreta de la poblaci´n. o lo que es lo mismo P θ ∈ X) < α. X n ˆ hemos definido lo que es un estimador θ(X) y hemos enunciado las buenas propiedades que es deseable que posea.a.

en calcular intervalos de confianza para sus dos par´metros. nos o interesamos en primer lugar. a He aqu´ un resumen de las situaciones que consideraremos: ı a la media si se conoce la varianza: Este no es un caso pr´ctico (no se puede conocer σ 2 sin conocer a previamente µ).2.´ 8. o de significaci´n α. o . En el 5 % restante se obtuvo una respuesta incorrecta. σ 2 . o Es importante comprender correctamente esta idea: I(X) es un conjunto aleatorio que depende de la muestra elegida. Si elegimos un nivel de confianza por ejemplo de α = 95 %. Intervalos de confianza para la distribuci´n o normal Dada una variable aleatoria de distribuci´n gaussiana X. µ y σ 2 . hubi´semos acertado por lo menos en un 100 · (1 − α) % de las e ocasiones al decir que el par´metro estaba en el intervalo que cada muestra a suministra”. Sin embargo por comodidad a veces se utiliza esa expresi´n. pues s´lo o puede ocurrir que (fijada la muestra) el par´metro est´ o que no est´ dentro a e e del intervalo. lo que sabemos es que en el 95 % de los casos los intervalos de confianza dieron una respuesta correcta.2. y encontramos (mediante la t´cnica e que sea) intervalos de confianza al 95 % que se correspondan con cada una de las muestras. Cuando una muestra ha sido elegida mediante un muestreo aleatorio simple. pero sirve para introducirnos en el problema de la estimaci´n confidencial de la media.N µ. o donde lo que queremos con esa frase es expresar la idea de que “si hubi´semos tomados muestras del mismo tama˜o en una gran cantidad de e n ocasiones. 8. Por tanto para cada muestra tenemos un intervalo de confianza diferente. no tiene sentido decir θ ∈ I(x) con probabilidad 1 − α. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 177 Cuando un intervalo aleatorio I(X) tiene una probabilidad menor del 100 · α % de que el par´metro no est´ en el intervalo decimos que el a e intervalo es de confianza 1 − α.

o 8. con precisi´n y significaci´n dadas de antemano. cuando disponemos o de una muestra de la variable. o Los problemas asociados a este caso son ferencia de medias homoced´sticas Se realiza el c´lculo del intervalo de confianza suponiendo que ambas a a variables tienen la misma varianza. el estad´ ıstico que mejor nos va a ayudar es X. la altura. etc.2. pero se realiza cuando se observa que hay diferencia notable en la dispersi´n de ambas variables.1. Para estimar µ. a En la pr´ctica se usa este c´lculo. M´s adelante. Sin embargo nos aproxima del modo m´s simple a la estimaci´n confidencial a o de medias. σ1 y N µ2 . Para que esto sea o o posible es necesario poseer cierta informaci´n previa. ´ valo de confianza para la varianza: Este es otro caso de inter´s en las aplicaciones. es decir son homoced´sticas. que se obtiene o a partir de las denominadas muestras piloto. consideramos el caso en que tenemos dos poblaciones a 2 2 donde cada una sigue su propia ley de distribuci´n N µ1 . El objetivo es calcular e un intervalo de confianza para σ 2 .178 Bioestad´ ıstica: M´todos y Aplicaciones e anza para la media (caso general): Este se trata del caso con verdadero inter´s pr´ctico. o Diferencia de medias (caso general) Es el mismo caso que el anterior. Por ejemplo e a sirve para estimar intervalos que contenga la media del colesterol en sangre en una poblaci´n. cuando s´lo se dispone de una o muestra. el peso. cuando ambas variables tienen a a parecida dispersi´n. Estimaci´n de tama˜o muestral La utilidad consiste en decidir cu´l deber´ ser el tama˜o necesario o n a a n de una muestra para obtener intervalos de confianza para una media. σ2 . del que . Intervalo para la media si se conoce la varianza Este caso que planteamos es m´s a nivel te´rico que pr´ctico: dif´ a o a ıcilmente vamos a poder conocer con exactitud σ 2 mientras que µ es desconocido.

As´ las dos colas de la distribuci´n a e ı o (zonas m´s alejadas de la media) se repartir´n a partes iguales el resto de a a la masa de probabilidad. σ2 n un par´metro a desconocido Esa ley de distribuci´n depende de µ (desconocida).´ 8. De este modo. α. Vamos a precisar c´mo calcular el intervalo de confianza: o Sea zα/2 el percentil 100 · α de Z.2. 1).a. Por ello lo mejor n es tomarlo sim´trico con respecto a la media (0). 1) tabulada . N µ. Lo m´s conveniente es o a hacer que la ley de distribuci´n no dependa de ning´n par´metro desconoo u a cido.N (0. 1) y tomamos un intervalo que contenga una masa de probabilidad de 1 − α. es 2 decir: . Este intervalo lo queremos tan peque˜o como sea posible. para ello tipificamos: Z= X −µ σ √ n par. consideramos la v. Z. aquel valor de I que deja R 2 por debajo de si la cantidad α de la masa de probabilidad de Z. ya que all´ es donde se e ı acumula m´s masa (v´ase la figura 8. desconocido + estimador + cosas conocidas Este es el modo en que haremos siempre la estimaci´n puntual: buscao remos una relaci´n en la que intervengan el par´metro desconocido junto o a con su estimador y de modo que estos se distribuyan seg´n una ley de prou babilidad que es bien conocida y a ser posible tabulada. N (0. es decir. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 179 conocemos su ley de distribuci´n: o X.1). fijado α ∈ (0.

Figura 8. Por simetr´ los cuantiles zα/2 y z1−α/2 s´lo difieren ıa.180 Bioestad´ ıstica: M´todos y Aplicaciones e 0.0 z1−α −1 0 1 2 2 3 Figura 8. ´ ıa o y observar que los percentiles anteriores son los mismos aunque con el signo cambiado: zα/2 = −z1−α/2 El intervalo alrededor del origen que contiene la mayor parte de la masa de probabilidad (1 − α) es el intervalo siguiente (cf.4 Intervalo de confianza 1 − α zα −3 −2 2 0. 1) y el intervalo m´s peque˜o posible cuya o a n probabilidad es 1 − α.1): . P[Z ≤ zα/2 ] = Sea z1−α/2 el percentil 100 · 1−α 2 .3 0. α 2 es decir.2 0. α 2 P[Z ≤ z1−α/2 ] = 1 − Es util considerar en este punto la simetr´ de la distribuci´n normal. o en el signo.1 0.1: La distribuci´n N (0.

´ 8. Si en una muestra aleatoria simple de (8.75 kg. z1−α/2 = −z1−α/2 .2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 181 zα/2 . z1−α/2 lo que habitualmente escribiremos como: |Z| ≤ z1−α/2 De este modo podemos afirmar que existe una probabilidad de 1 − α de que al extraer una muestra aleatoria de la variable en estudio.1) . ocurra: |Z| ≤ z1−α/2 ⇒ ⇒ ⇒ X −µ ≤ z1−α/2 σ √ n σ X − µ ≤ z1−α/2 · √ n De este modo un intervalo de confianza al nivel 1 − α para la esperanza de una normal de varianza conocida es el comprendido entre los valores σ xα/2 = X − z1−α/2 · √ n σ x1−α/2 = X + z1−α/2 · √ n σ µ = X ± z1−α/2 · √ n Ejemplo Se sabe que el peso de los reci´n nacidos sigue una distribuci´n normal e o con una desviaci´n t´ o ıpica de 0.

025 = −1. 96 (son de signo opuesto por simetr´ de la distribuci´n normal).5 kg. ya que si somos capaces de obtener σ = 0. y no necesitariamos una muestra aleatoria para estimar µ confidencialmente.182 Bioestad´ ıstica: M´todos y Aplicaciones e 100 de ellos se obtiene una media muestral de 3 kg. 147kg. 96 ⇔ |Z| ≤ +1. e Para calcular µ usamos el estad´ ıstico: Z= X −µ √ . ya que o tenemos la “fortuna” de disponer de la dispersi´n exacta de la poblaci´n. 75. y dicha distribuci´n presenta un 95 % de probabilidad de o ocurrir entre sus cuantiles z0. 147 n Es decir con una confianza del 95 % tenemos que µ = 3±0. calcular un intervalo de confianza para la media poblacional que presente una confianza del 95 %.975 = 1. 96 ≤ Z ≤ +1. Intervalo para la media (caso general) El intervalo de confianza al nivel 1 − α para la esperanza de una distribuci´n gaussiana cuando sus par´metros son desconocidos es: o a . Esto ocurre porque el ejemplo tiene utilidad puramente acad´mica. Esto debe ser interpretado como que la t´cnica que se usa para el calcular el intervalo e de confianza da una respuesta correcta en 95 de cada 100 estudios basados en una muestra aleatoria simple diferente sobre la misma poblaci´n. Soluci´n: En primer lugar hay que mencionar que la situaci´n planteada o o no es habitual. 96 √ ⇔ |µ−3| ≤ 0.2. 1). y como veremos m´s o a a adelante. es natural que hayamos podido calcular tambien µ. o o Esto no es lo habitual en una situaci´n pr´ctica. a o Un intervalo de confianza al 95 % se calcula teniendo en cuenta que Z. el papel del la dispersi´n exacta de la poblaci´n (desconocido) o o ser´ sustituido por el de la dispersi´n de la muestra. o 8. 96 y z0. Luego con una confianza ıa o del 95 % ocurre: σ −1.N (0. 96 ⇔ |x−µ| ≤ +1.N (0. y una desviaci´n t´ o ıpica de 0. 1) σ/ n que como se observa no depende de la dispersi´n de la muestra.2.

5 kg. media muestral distrib. Soluci´n: Para calcular µ usamos el estad´ o ıstico: T = X −µ √ . y una desviaci´n t´ o ıpica de 0.´ 8.0 2.tn−1 ˆ S/ n que a diferencia del ejemplo mencionado anteriormente. calcular un intervalo de confianza para la media poblacional que presente una confianza del 95 %.5 3. e o Si en una muestra aleatoria simple de 100 de ellos se obtiene una media muestral de 3 kg.5 4.0 3. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 183 distrib.0 Figura 8.2: Un intervalo de confianza para la media podemos visualizarlo como el que corresponder´ a una distribuci´n normal con el mismo centro ıa o √ que la de la poblaci´n. pero cuya desviaci´n est´ reducida en n. o o a µ = X ± tn−1. muestra 2.1−α/2 · ˆ S √ n Ejemplo Se sabe que el peso de los reci´n nacidos sigue una distribuci´n normal.2. no depende se σ .

1kg. X de o o distribuci´n normal. pero vamos a resolverlo de una manera m´s detallada. 05 para la altura media µ de los individuos de una ciudad. a En primer lugar.0. y dicha distribuci´n presenta un 95 % de probabilidad de ocurrir entre sus o cuantiles Tn−1.184 Bioestad´ ıstica: M´todos y Aplicaciones e (desconocido) si no de su estimaci´n puntual insesgada: o ˆ S= n/(n − 1) S = 100/99 0. los estad´ ısticos para medir la dispersi´n m´s convenientes son los insesgados.0. Por ello vamos a dejar de o a lado la desviaci´n t´ o ıpica muestral. en estad´ ıstica inferencial. En principio s´lo sabemos que la distribuci´n de las alturas es una v. 1 n Es decir con una confianza del 95 % tenemos que µ = 3 ± 0. 5 = 0.025 = −1.503 Un intervalo de confianza al 95 % se calcula teniendo en cuenta que T .a.tn−1 . Para ello se toma una muestra de n = 25 personas y o se obtiene x = 170 cm S = 10 cm Soluci´n: o Este ejemplo es similar al anterior. 98 y Tn−1.975 = 1. 98 √ ⇔ |µ − 3| ≤ 0. para utilizar la cuasidesviaci´n t´ o ıpica: ˆ S = 10 =⇒ S = S n = 10 n−1 25 = 10 206 24 . Ejemplo Se quiere estimar un intervalo de confianza al nivel de significaci´n o α = 0. Luego con una confianza del 95 % ıa o ocurre: ˆ S |x − µ| ≤ +1. 98 (son de signo opuesto por simetr´ de la distribuci´n de Student).

¿Cree que presenta la presencia de sepsis neonatal afecta el valor de IL? Soluci´n: Si no hubiese relaci´n entre la sepsis neonatal y el valor de o o IL deber´ ocurrir que el valor de IL en ni˜os nacidos con sepsis se comıa n porte del mismo modo que en los ni˜os normales. 8 y S = 0. Por tanto deber´ seguir n ıa una distribuci´n normal.975 = 2. calculado a partir de los datos o n e de la muestra deber´ contener (con una confianza del 95 %) a la media de ıa la poblaci´n de ni˜os normales.0.t30 ˆ S/ 31 Un intervalo de confianza al 95 % se calcula teniendo en cuenta que T . INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 185 µ = 170 ± 2. 204 5 o dicho de forma m´s precisa: Con un nivel de confianza del 95 % podemos a decir que la media poblacional est´ en el intervalo siguiente: a µ ∈ [165. 04 (son de signo opuesto por simetr´ de la distribuci´n de Student). 06 · 10.´ 8.t30 . 204] Ejemplo Este ejemplo se puede considerar como una introducci´n a los contrastes o de hip´tesis. Para ello elegimos el estadistico m´s adecuado a los datos que poa seemos: T = x−µ √ . 174.025 = −2. 04 y T30. La variable IL se presenta en los ni˜os reci´n nacidos con una o n e distribuci´n normal de media 2.0. En un grupo de 31 ni˜os con sepsis o n ˆ neonatal se encuentra que el valor medio de IL es de x = 1. y dicha distribuci´n presenta un 95 % de probabilidad de ocurrir entre sus o cuantiles T30.5. Adem´s un intervalo de confianza al 95 % para o a la media de la poblaci´n de ni˜os s´pticos. 796 . a Calculemos el intervalo de confianza para la media de los ni˜os con n sepsis. 206 = 170 ± 4. Luego con una confianza del 95 % ıa o ocurre: . 2. Si no fuese as´ habr´ que pensar que la o n ı ıa variable IL est´ relacionada con la presencia de sepsis.2.

Por a n tanto.87. e n 8. que est´n muy alejados de 2. Soluci´n: o σ 2 ∈ [63.α/2 Ejemplo Se estudia la altura de los individuos de una ciudad. podemos afirmar con una confianza del 95 % que est´n relacionados a la IL y la s´psis en ni˜os recien nacidos.73 n ıa y 1. 8| ≤ 0. 8 − µ| ≤ +2. 07 31 Por tanto podemos afirmar (con una confianza del 95 %) que la media poblacional de los ni˜os con sepsis estar´ comprendida entre los valores 1. 04 √ ⇔ |µ − 1. obteni´ndose en e una muestra de tama˜o 25 los siguientes valores: n x = 170 cm S = 10 cm Calcular un intervalo de confianza con α = 0. 05 para la varianza σ 2 de la altura de los individuos de la ciudad. 45 .5 (media de los ni˜os normales).1−α/2 χn−1.186 Bioestad´ ıstica: M´todos y Aplicaciones e 0.3.2. 2 2 χn−1. 201. 2 |1. 60] Por tanto. para el valor poblacional de la desviaci´n t´ o ıpica tenemos que . Intervalo de confianza para la varianza Un intervalo de confianza al nivel 1 − α para la varianza de una distribuci´n gaussiana (cuyos par´metros desconocemos) lo obtenemos como o a σ2 ∈ ˆ ˆ (n − 1)S 2 (n − 1)S 2 .

considerando que ´sta es una variable que se o e . 206 calculados sobre la muestra. 199 con una confianza del 95 %. o simplemente.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 187 7.1−α/2 · √ n precisi´n d o Si n es suficientemente grande. 8. 96 ≤ σ ≤ 14.´ 8. Estimaci´n del tama˜ o muestral o n Antes de realizar un estudio de inferencia estad´ ıstica sobre una variable. n. tomando una muestra piloto que sirve para dar una idea previa de los par´metros que describen una a poblaci´n. a elegir en la muestra u aleatoria. y nos interesa obtener para un nivel de significaci´n o o α dado. Luego una manera de obtener la precisi´n buscada o o consiste en elegir n con el siguiente criterio: 2 z1−α/2 2 ˆ n≥ S d2 ˆ Donde S 2 es una estimaci´n puntual a priori de la varianza de la mueso tra. Para ello consideremos que el estudio se basara en una variable de distribuci´n normal. o Para ello.2. una precisi´n (error) d. la distribuci´n t de Student se aproxima o a la distribuci´n normal. lo primero es decidir el n´mero de elementos. recordemos que un intervalo de confianza para una media en el caso general se escribe como: ˆ S µ = X ± tn−1. Para obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia previa.4. que por supuesto contiene a las estimaciones ˆ puntuales S = 10 y S = 10. o Ejemplo En los ultimos ejemplos se ha estudiado la variable altura de los in´ dividuos de una poblaci´n.

σ 2        ← poblaci´n normal  o              X ← media de la muestra ˆ S 2 ← cuasivarianza de la muestra n ← tama˜o de la muestra n Intervalos de confianza Para µ cuando σ 2 se conoce σ µ ∈ X ± z1−α/2 · √ n Para µ cuando σ 2 no se conoce ˆ S µ ∈ X ± tn−1. N µ. χ2 χ2 n−1.1: Intervalos de confianza para los par´metros de una poblaci´n a o normal. a partir de una muestra aleatoria simple de la misma.1−α/2 · √ n Para σ 2 con µ desconocido σ2 ∈ ˆ ˆ (n − 1)S 2 (n − 1)S 2 .α/2 Cuadro 8. .188 Bioestad´ ıstica: M´todos y Aplicaciones e ? X.1−α/2 n−1.

el tama˜o de la muestra.´ 8. Intervalos para la diferencia de medias de dos poblaciones Consideremos el caso en que tenemos dos poblaciones de modo que el car´cter que estudiamos en ambas (X1 y X2 ) son v. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 189 distribuye de modo gaussiana. 2062 ≈ 694 12 Por tanto.a. 2062 n≈ = 2. Una vez que o el muestreo haya sido realizado. En este caso se obtiene: 2 z0. 01 (al 99 %) y con una precisi´n de d = 1 cm. Esto es ıa una indicaci´n de gran utilidad antes de comenzar el estudio. deber´ ser n a bastante mayor.2. si queremos realizar un estudio con toda la precisi´n requerida o en el enunciado se deber´ tomar una muestra de 694 individuos. Para ello se tom´ una muestra de 25 individuos (que podemos considerar o piloto). que ofreci´ los siguientes resultados: o x = 170 cm S = 10 cm Calcular el tama˜o que deber´ tener una muestra para que se obtun ıa viese un intervalo de confianza para la media poblacional con un nivel de significaci´n α = 0. 582 · 10. σ1 . o o Soluci´n: o Obs´rvese que sobre la muestra piloto. N µ1 .5. 8.995 · 10. debemos confirmar que el error para el nivel de significaci´n dado es inferior o igual a 1 cm. utilizando la muestra o obtenida.2. el error cometido al estimar el e intervalo al 95 % fue aproximadamente de 4 2 cm por lo que si buscamos un intervalo de confianza tan preciso. distribuidas seg´n a u leyes gaussianas 2 X1 . n.

. . e Es decir 2 2 σ 2 = σ1 = σ2 . =⇒ χ2 1 +n2 −2 = χ2 1 −1 +χ2 2 −1 .a. se tiene que o χ2 1 −1 n ˆ2 (n1 − 1)S1 = . σ2 En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple. si las varianzas o fuesen conocidas. X2n2 Podemos plantearnos a partir de las muestras el saber qu´ diferencias e existen entre las medias de ambas poblaciones. . 1) . Z= (X 1 − X 2 ) − (µ1 − µ2 ) 2 σ1 n1 + 2 σ2 = (X 1 − X 2 ) − (µ1 − µ2 ) σ 2 n2 1 1 + n1 n2 . N µ2 . .σ 2 .χ2 1 −1 n σ ˆ2 (n2 − 1)S2 . X1n1 X2 ≡ X21 . A ello vamos a dedicar o los siguientes puntos. o por ejemplo estudiar las relaci´n existente entre sus dispersiones respectivas. .χ2 2 −1 n σ       χ2 reprod. . X22 .N (0. .χ2 1 +n2 −2 n n n n      χ2 2 −1 = n De manera similar al caso de la media de una poblaci´n. Intervalo para la diferencia de medias homoced´ticas a Supongamos que dos poblaciones tengan varianzas id´nticas (homocedasticidad).190 Bioestad´ ıstica: M´todos y Aplicaciones e 2 X2 . muestras que no tienen por que ser necesariamente del mismo tama˜o (respectivamente n1 y n2 ) n X1 ≡ X11 . . X12 . podemos definir la v. Por razones an´logas a las expuestas en el caso de una poblaci´n una poa o blaci´n.

1−α/2 que deja por encima de si α/2 de la masa de probabilidad de Tn1 +n2 −2 P[Tn1 +n2 −2 > tn1 +n2 −2. pero podemos asumir que al menos son iguales.1−α/2 · S Luego el intervalo de confianza al nivel 1−α para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: . INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 191 Cuando las varianzas de las poblaciones son desconocidas.´ 8.2.1−α/2 1 1 + n1 n2 ˆ ⇔ |µ1 − µ2 | ≤ (X 1 − X 2 ) + tn1 +n2 −2. tenemos una probabilidad de 1 − α de que a extraer una muestra aleatoria simple ocurra: |Tn1 +n2 −2 | ≤ tn1 +n2 −2.1−α/2 ] = 1−α 2 Repitiendo un proceso que ya hemos realizado en ocasiones anteriores.1−α/2 ⇔ (X 1 − X 2 ) − (µ1 − µ2 ) ˆ S 1 n1 ⇔ + 1 n2 ≤ tn1 +n2 −2.1−α/2 ] = α ⇔ P[|Tn1 +n2 −2 | ≤ tn1 +n2 −2.tn1 +n2 −2 ˆ S 1 + 1 n1 n2 Tn1 +n2 −2 = = (8. el siguiente estad´ ıstico se distribuye como una t de Student con n1 + n2 − 2 grados de libertad: Z 1 χ2 n1 + n2 − 2 n1 +n2 −2 ˆ S2 (X 1 − X 2 ) − (µ1 − µ2 ) . calculamos el valor tn1 +n2 −1.2) donde se ha definido a ˆ2 ˆ2 de S1 y S2 como la cuasivarianza muestral ponderada ˆ2 ˆ2 (n1 − 1)S1 + (n2 − 1)S2 ˆ S2 = n1 + n2 − 2 Si 1−α es el nivel de significaci´n con el que deseamos establecer el intero valo para la diferencia de las dos medias.

2 Kg S2 = 0. 6 Kg S1 = 0.N µ1 .N µ . El estad´ ıstico que se ha de aplicar para esta cuesti´n o es: (x1 − x2 ) − (µ1 − µ2 ) . Para ello se consideran dos grupos de mujeres emban razadas (unas que fuman y otras que no) y se obtienen los siguientes datos sobre el peso X. y con varianzas que si bien son desconocidas.tn1 +n2 −2 = t35+27−2 = t60 ˆ S 1 + 1 n1 n2 . podemos estimar un intervalo de confianza para µ1 − µ2 . tales que Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo. que describe el peso de un ni˜o que nace de madre no n fumadora. σ 2 2 2 ∃ µ1 . y X2 el de un hijo de madre fumadora. x2 = 3. se tiene por hip´tesis que o   X1 . σ 2    X . 5 Kg ˆ Madres no fumadoras → n2 = 27 mujeres.192 Bioestad´ ıstica: M´todos y Aplicaciones e ˆ µ1 − µ2 = (X 1 − X 2 ) ± tn1 +n2 −2. x1 = 3.a. de sus hijos:   Madres fumadoras    ˆ → n1 = 35 mujeres. σ 2 . podemos suponer que son las mismas. lo que nos dar´ la diferencia de peso esperado entre un ni˜o del primer grupo a n y otro del segundo. Soluci´n: o Si X1 es la v. 8 Kg En ambos grupos los pesos de los reci´n nacidos provienen de sendas dise tribuciones normales de medias desconocidas.1−α/2 · S 1 1 + n1 n2 Ejemplo Queremos estudiar la influencia que puede tener el tabaco con el peso de los ni˜os al nacer. µ2 .

975 = 2 1 1 0.1−0. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION NORMAL 193 donde ˆ2 ˆ2 (n1 − 1)S1 + (n2 − 1)S2 34 · 0.05/2 = t60.4 | (3. . 05. 52 + 26 · 0. 419 =⇒ S = 0. por ejemo plo α = 0.0. 1658 =⇒ µ1 − µ2 = 0.´ 8. 82 ˆ ˆ S2 = = = 0. 4 ± 0.1658 =⇒ µ1 − µ2 = 0. y el intervalo buscado se obtiene a partir de: 0. 731 Kg. 6 − 3. 068 Kg y los 0. 6473 n1 + n2 − 2 60 Consideramos un nivel de significaci´n que nos parezca aceptable.2. 3316 con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora est´ comprendido con un nivel de confianza del 95 % entre los a 0. 4 ± 2 · 0. 6473 + 35 27 0. 2) −(µ1 − µ2 ) | ≤ t60.

σ2  2 2 2     ?            ← poblaciones normales                         X 1 . Cuadro 8. N µ1 . S2 ← cuasivarianzas de las muestras n1 .Los resultados dependen de que podamos suponer cierta o no la condici´n de homocedasticidad. o . calculados a partir de sendas muestras independientes de cada una de ellas.2: Intervalos de confianza para la diferencia de las medias de dos poblaciones normales.194 Bioestad´ ıstica: M´todos y Aplicaciones e  ?      2  X1 .1−α/2 · S 1 1 + n1 n2 2 2 Si σ1 = σ2 (desconocidos) µ1 − µ2 ∈ (X 1 − X 2 ) ± tf. N µ . σ1      X . X 2 ← medias de las muestras ˆ2 ˆ2 S1 .1−α/2 · ˆ2 S 2 ˆ S1 + 2 n1 n2 donde  ˆ2 ˆ2  2 (n1 − 1)S1 + (n2 − 1)S2  ˆ  S =    n1 + n2 − 2                     f =     1     n1 + 1 ˆ2 S 2 ˆ S1 + 2 n1 n2 ˆ2 S1 n1 2 2 1 + n2 + 1 ˆ2 S2 n2 2 − 2 ← Welch. n2 ← tama˜os de las muestras n Intervalos de confianza para µ1 − µ2 2 2 Si σ1 = σ2 (desconocidos) ˆ µ1 − µ2 ∈ (X 1 − X 2 ) ± tn1 +n2 −2.

Si queremos estimar el par´metro p.3. 8. N p. n Es decir.3. Intervalo para una proporci´n o Sean X1 .N (0.a. p) y tomar como estimador suyo la v. y p no es n una cantidad muy cercana a cero o uno: X. .1. el tama˜o muestral e o n necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.´ 8.Ber (p). INTERVALOS DE CONFIANZA PARA VARIABLES DICOTOMICAS 195 8. npq) El estimador p no es m´s que un cambio de escala de X.B (n. n n =⇒ p−p ˆ ≈ Z . p ocurre el ´xito en la realizaci´n e o e o de un experimento. . . Tambi´n nos puede interesar el comparar la diferencia e existente entre las proporciones en distintas poblaciones.3. Tambi´n es de e inter´s calcular para un nivel de significaci´n dado. Intervalos de confianza para variables dicot´mio cas Cuando tenemos una variable dicot´mica (o de Bernoulli) a menudo o interesa saber en qu´ proporci´n de casos. p= ˆ X . p. p) ⇒ X . 1) pq n ≈ . N (np. tomamos como estimaci´n de p la proporci´n de ´xitos obtenidos o o e en las n pruebas. Xn .B (n. y puede ser aproxio u e mada a la normal cuando el tama˜o de la muestra n es grande. por tanto ˆ a p= ˆ X ≈ pq . la maa nera m´s natural de hacerlo consiste en definir la suma de estas —lo que a nos proporciona una distribuci´n Binomial o X = X1 + · · · + Xn . . ˆ La distribuci´n del n´mero de ´xitos es binomial.

N (0. el resultado o o de su voto es una variable dicot´mica: o Xi . 1) deje o la probabilidad α fuera del mismo. As´ se puede afirmar con una ı confianza de 1 − α que: p = p ± z1−α/2 ˆ pq ˆˆ con una confianza de 1 − α n Ejemplo Se quiere estimar el resultado de un refer´ndum mediante un sondeo. 0935 Por tanto. 35 =⇒ q = 0. Con un nivel de significaci´n del 5 %. . Soluci´n: Dada una persona cualquiera (i) de la poblaci´n. tenemos con esa muestra un error aproximado de 9. e Para ello se realiza un muestreo aleatorio simple con n = 100 personas y se obtienen 35 % que votar´n a favor y 65 % que votar´n en contra (sua a ponemos que no hay indecisos para simplificar el problema a una variable dicot´mica). Es decir. la siguiente estimaci´n n o puntual de p: 35 p= ˆ = 0.N (0.Ber (p) El par´metro a estimar en un intervalo de confianza con α = 0. calcule un intervalo de o o confianza para el verdadero resultado de las elecciones.196 Bioestad´ ıstica: M´todos y Aplicaciones e Esta expresi´n presenta dificultades para el c´lculo. 65 ˆ 100 El intervalo de confianza buscado es: p = 0. a y tenemos sobre una muestra de tama˜o n = 100. 05 es p. 3 puntos al nivel de confianza del 95 %. se considera el intervalo cuyos extremos son los cuantiles α/2 y 1 − α/2. siendo m´s c´modo o a a o sustituirla por la siguiente aproximaci´n: o p−p ˆ ≈ Z . 1) pq ˆˆ n Para encontrar el intervalo de confianza al nivel de significaci´n α para o p se considera el intervalo que hace que la distribuci´n de Z. 65 ± 0.

el n´mero de personas a entreı u vistar debe ser muy elevado —lo que puede volver excesivamente costoso . y e sin tener una idea sobre el posible resultado del mismo. 172 = = 11. N . con un 95 % de confianza. 012 As´ para tener un resultado tan fiable. 25 · 2.773 4 0. del porcentaje de votano tes a una cuesti´n en un refer´ndum.3. As´ n ı: N≥ 2 1 z1−α/2 cuando no se tiene estimaci´n de p o 4 error2 Ejemplo Se quiere estimar el resultado de un refer´ndum mediante un sondeo.´ 8.3. Elecci´n del tama˜ o muestral para una proporci´n o n o En unejemplo previo con una muestra de 100 individuos se realiz´ una o estimaci´n confidencial. se desea conocer el tama˜o de muestra que se ha de tomar para obtener un intervalo al 97 % n de confianza. 012 0. con un error del 1 Soluci´n: o Como no se tiene una idea previa del posible resultado del refer´ndum.2. e hay que tomar un tama˜o de muestra.985 0. INTERVALOS DE CONFIANZA PARA VARIABLES DICOTOMICAS 197 8. o n Un valor de N que satisface nuestros requerimientos con respecto al error es: 2 z1−α/2 N ≥ pq ˆˆ error2 Si en un principio no tenemos una idea sobre que valores puede tomar p. obteni´ndose un margen de error de o e e 9. debemos considerar el peor caso posible. N . que se calcula mediante: n N≥ 2 1 z0. que es en el que se ha de estimar el tama˜o muestral cuando p = q = 1/2. Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta el 97 % (α = 0 03) hemos de tomar una muestra l´gicamente de mayor tama˜o. 3 puntos.

p2 ) i=1 X2 = Si las muestras son suficientemente grandes ocurre que una aproximaci´n o para un intervalo de confianza al nivel 1 − α para la diferencia de proporciones de dos poblaciones es: p1 − p2 ∈ (p1 − p2 ) ± z1−α/2 · ˆ ˆ p1 q 1 p2 q 2 ˆ ˆ ˆ ˆ + n1 n2 Ejemplo Se cree que la osteoporosis est´ relacionada con el sexo. Para ello se a elige una muestra de 100 hombres de m´s de 50 a˜os y una muestra de 200 a n mujeres en las mismas condiciones. . . . . X22 . 8. p1 ) X2i . Intervalo para la diferencia de dos proporciones Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v. De cada poblaci´n vamos a extraer muestras de tama˜o o n n1 y n2 X1 ≡ X11 .3. . dicot´mica (Bernoulli) de par´metros reso a pectivos p1 y p2 .B (n2 . X12 .198 Bioestad´ ıstica: M´todos y Aplicaciones e el sondeo. ¿Qu´ podemos concluir con una confianza u e del 95 %? Soluci´n: o . .B (n1 . . Se obtiene que 10 hombres y 40 mujeres con alg´n grado de osteoporosis. X1n1 X2 ≡ X21 . .a. X2n2 Entonces n1 X1 = i=1 n2 X1i .3.

3. 1 ˆ (p1 − p2 ) = (0. 1) ± 0. enemos una confianza del 95 % en la afirmaci´n de que la difeo rencia entre la incidencia de osteoporosis en mujeres y hombres est´ entre a 0. La estimaci´n puntual insesgada que podemos hacer de ambos par´meo a tros a partir de los datos muestrales son: p1 = 40/200 = 0. pero visto de esta manera. por supuesto). 1 × 0. 2 ˆ p2 = 10/100 = 0. este ejemplo puede considerarse como una introducci´n a los contrastes de hip´tesis. 2 × 0. Obs´rvese que como 0 % no es un valor de dicho intervalo puede cone cluirse con una confianza del 95 % que hay diferente incidencia de osteoporosis en hombres que en mujeres para las personas de m´s de 50 a˜os.18 (18 %). INTERVALOS DE CONFIANZA PARA VARIABLES DICOTOMICAS 199 Llamamos p1 a la incidencia de la osteoporosis en las mujeress de m´s a de 50 a˜os y p2 a la de los hombres. 9 + = 0. 8 0.´ 8.02 (2 %) y 0. 08 200 100 Es decir. Calculemos un intervalo de confianza n para la diferencia (p1 − p2 ). 2 − 0. Esta a n conclusi´n es algo m´s pobre de lo que hemos obtenido con el intervalo de o a confianza. o o . Si 0 no forma parte de dicho intervalo con una confianza del 95 % podemos decir que p1 es diferente a p2 (con tal grado de confianza.

12. 0. 1.2. con una confianza o del 99 %. Un cardi´logo se encuentra interesado en encontrar l´ o ımites de confianza al 90 %.77.06. Obtener un intervalo de confianza para la media al 99 %. expresado en litros.2 mg.21.a.200 Bioestad´ ıstica: M´todos y Aplicaciones e 8. Problemas Ejercicio 8. 0. ¿Cu´l ser´ dicho intervalo si se toma una muestra de a a 101 ni˜os al azar.98.3. 1. 16 cm2 ? Ejercicio 8. con o u e una desviaci´n t´ o ıpica de 10. y medimos sus estaturas.5. para la presi´n sist´lica tras un cierto ejercicio f´ o o ısico. 6 cm. Se ha medido el volumen diario de bilis. en 10 individuos sanos. S 2 = 29. es normal.89. Ejercicio 8. S = 3 y suponemos que el comportamiento de la v. suponiendo que la muestra fue extra´ mediante muestreo aleatorio simple sobre una poblaci´n ıda o normal. 0. obteni´ndose e 0. y se obtienen las siguientes estimaciones puntuales: x = 138. Se desea realizar una estimaci´n confidencial de la varianza o de la estatura de los ni˜os varones de 10 a˜os de una ciudad con una n n confianza del 95 %. Su experiencia le indica que ser´ ıa sorprendente que tal proporci´n supere el valor de 1/3. La cantidad m´ ınima requerida para que un anest´sico surta e efecto en una intervenci´n quir´rgica fue por t´rmino medio de 50 mg.03?. para que el valor estimado no difiera del valor real en m´s de a 0. 0. ¿Cuanto vale la producci´n diaria media de bilis en individuos sanos supoo niendo que la muestra ha sido obtenida por muestreo aleatorio simple sobre una poblaci´n normal? o Ejercicio 8.4. ¿Qu´ tama˜o de o e n muestra debe tomar para estimar la anterior proporci´n. 0. en una muestra de 60 pacientes.77.92. 1.01.1. Un investigador est´ interesado en estimar la proporci´n de a o muertes debidas a c´ncer de est´mago en relaci´n con el n´mero de defuna o o u ciones por cualquier tipo de neoplasia. Ejercicio 8. 1. .4. entre todos los que re´nen las caracter´ n u ısticas deseadas.85. Obtenerlos si en 50 individuos se obtuvo x = 13.

366 visitas. para cumplir el objetivo anterior. en los que se obtuvieron o los siguientes tiempos (en segundos): 97. 73. En una determinada regi´n se tom´ una muestra aleatoria o o de 125 individuos. ¿Qu´ n´mero de enfermos habr´ que o e u ıa observar para estimar la proporci´n de curados con un error inferior a 0. ıa se tom´ una muestra preliminar de 5 individuos. a n con una precisi´n de 5 segundos. S´lo una parte de los pacientes que sufren un determinado o s´ ındrome neurol´gico consiguen una curaci´n completa.10. e se obtuvo un peso medio de 5. al 95 %.4.8. Determinar el tama˜o m´ n ınimo de muestra. En o cierto a˜o. de 2.05 o y una confianza del 95 %? Ejercicio 8.900 gr y una desviaci´n t´ o ıpica de 94 gr. n o ¿Entran en contradicci´n las cifras de ese a˜o con el porcentaje establecido o n de siempre? Ejercicio 8. Se desea estimar el tiempo medio de sangr´ en fumadores de ıa m´s de 20 cigarrillos diarios. 2. de los cuales 12 padec´ afecciones pulmonares. PROBLEMAS 201 Ejercicio 8.7.9. dar una estimaciones puntual y un intervalos de la proporci´n de los que sanan. Ante la ausencia de cualquier informaci´n o o acerca de la variabilidad del tiempo de sangr´ es este tipo de individuos.6. 91. Si de 64 pacientes o o observados se han curado 41.8. ¿Cu´ntos ni˜os habr´ que tomar para estimar dicha media con una a n ıa precisi´n de 15 gr? o Ejercicio 8. ıan . 498 dieron lugar a una extracci´n inmediata. Obtener un intervalo de confianza (al 95 %) para el peso medio poblacional. 1. con edades comprendidas entre 35 y 40 a˜os. Ejercicio 8. En una muestra de 25 beb´s varones de 12 semanas de vida. 80. 67. En un determinado servicio de odontolog´ se sabe que el ıa 22 % de las visitas llevan consigo una extracci´n dentaria inmediata.

¿qu´ tama˜o de muestra debemos toe n mar? Ejercicio 8.27. Ejercicio 8. obtenemos: 1. 1. 1. En una muestra de tabletas de aspirinas. Si queremos estimar dicha proporci´n con un error m´ximo del 4 %. 1. o a para una confianza del 95 %. determinar un o intervalo al 80 % de confianza para la varianza. Sin ninguna informaci´n previa. Sabiendo que un sondeo previo se ha observado un 9 % de hipertensas. 1.14. ¿Cuantas embarazadas tenemos que observar para. Se quiere estimar la incidencia de la hipertensi´n arterial o en el embarazo.15.17. estimar dicha incidencia con un error del 2 % en los siguientes casos: 1.23. o o 2.19.19. 2. 1. 1. 1. 1. 1.21.202 Bioestad´ ıstica: M´todos y Aplicaciones e 1. de las cuales observamos su peso expresado en gramos. con una confianza del 95 %.12.2 Suponiendo la Normalidad para esta distribuci´n de pesos. o .11. Est´ ımese la proporci´n de afecciones pulmonares en dicha regi´n.18.

Este tipo de circunstancias son las que nos llevan al estudio de la parcela de la Estad´ ıstica Inferencial que se recoge bajo el t´ ıtulo gen´rico de Contraste de Hip´tesis. que denominaremos hip´tesis nula e hip´tesis alternativa. impl´ ıcitamente. en cualquier investie o gaci´n. o ıa a cuando nos planteamos si los ni˜os de las distintas comunidades espa˜olas n n tienen la misma altura. por ejemplo si pensamos que un tratamiento ıa nuevo puede tener un porcentaje de mejor´ mayor que otro est´ndar.Cap´ ıtulo 9 Contrastes de hip´tesis o 9. De la misma manera aparecen. situaciones en las que exista una a teor´ preconcebida relativa a la caracter´ ıa ıstica de la poblaci´n sometida o a estudio. No podemos olvi- 203 . Es lo o que denomin´bamos estimaci´n puntual y estimaci´n confidencial respeca o o tivamente.1. que de alguna manera reflejar´n o o a esa idea a priori que tenemos y que pretendemos contrastar con la “realidad”.a. Tal ser´ el caso. definida sobre la poblaci´n. la existencia de dos teor´ o hip´tesis impl´ o ıas o ıcitas. Implica. diferentes tipos de errores que podemos cometer durante el procedimiento. Introducci´n o Hasta ahora hemos estudiado c´mo a partir de una muestra de una o poblaci´n podemos obtener una estimaci´n puntual o bien establecer un o o intervalo m´s o menos aproximado para encontrar los par´metros que ria a gen la ley de probabilidad de una v. Pueden presentarse en la pr´ctica.

Desarrollamos en este cap´ ıtulo los contrastes de hip´tesis para los o par´metros m´s usuales que venimos estudiando en los cap´ a a ıtulos anteriores: medias. 1. o o • Se extrae una muestra aleatoria de dicha poblaci´n. o • Si la distribuci´n de la muestra es “diferente” de la distribuci´n o o de probabilidad que hemos asignado a priori a la poblaci´n.55. o Los contrastes de significaci´n se realizan: o • suponiendo a priori que la ley de distribuci´n de la poblaci´n es conocida. 1. depender´. podr´ n ıamos encontrarnos ante uno de los siguientes casos: 1. o o Ejemplo Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de Espa˜a.204 Bioestad´ ıstica: M´todos y Aplicaciones e dar que. Muestra = {1. Antes de tomar una muestra. Los contrastes desarrollados en este cap´ ıtulo se apoyan en que los datos de partida siguen una distribuci´n normal. 1. (hip´tesis que se desea o o o contrastar y que denotamos H0 ): H0 : La altura media no difiere de la del resto del pa´ ıs. el tama˜o de la muestra rea n querida. el estudio y las conclusiones que obtengamos para una poblaci´n cualquiera.55. n lo l´gico es hacer la siguiente suposici´n a priori.63} .50 . concluimos o que probablemente sea err´nea la suposici´n inicial. 1. por ejemplo. para una o dos poblaciones. De la probabilidad con la que estemos dispuestos o e a asumir estos errores. varianzas y proporciones. 1.60. se habr´n apoyado exclusivamente en el an´lisis o a a de s´lo una parte de ´sta.49. 1.48. Al obtener una muestra de tama˜o n = 8.52.1. habitualmente.

1. Ts ) de manera que al calcular sobre la muestra T = Texp o el criterio a seguir sea:   Si Texp ∈ (Ti . o Este ejemplo sirve como introducci´n de los siguientes conceptos: En un o contraste de hip´tesis (tambi´n denominado test de hip´tesis o Contraste de o e o significaci´n) se decide si cierta hip´tesis H0 que denominamos hip´tesis o o o nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la poblaci´n.78} Intuitivamente. de modo que la probabilidad de que el o estad´ ıstico del contraste tome un valor fuera del mismo — regi´n cr´ o ıtica— regi´n cr´ o ıtica ≡ C = I \ (Ti .65.73. aunque esto no o es necesariamente as´ ı. 1. de no rechazo de la o a hip´tesis nula. 1. en el caso a ser´ l´gico suponer que salvo que la muestra ıa o obtenida sobre los habitantes del pueblo sea muy poco representativa1 . Muestra = {1. Normalmente H1 es la negaci´n de H0 . Para realizar el contraste es necesario establecer o previamente una hip´tesis alternativa (H1 ) que ser´ admitida cuando o a H0 sea rechazada. A continuaci´n suponiendo que H0 es verdao dera se calcula un intervalo de denominado intervalo de aceptaci´n2 de la o hip´tesis nula. 1. se establece fijando una cantidad α suficientemente peque˜a o n denominada nivel de significaci´n. 1.75. INTRODUCCION 205 2. la hip´tesis H0 debe ser rechazada. 1. 1. A ´ste lo denominamos o e estad´ ıstico del contraste. sin embargo no podr´ o ıamos descartarla y la admitimos por una cuesti´n de simplicidad. En el caso b tal vez no podamos afirmar o con rotundidad que la hip´tesis H0 sea cierta.´ 9. Ts ) =⇒    Si T / exp ∈ (Ti .75.65.52. \ rechazamos H0 y aceptamos H1 El intervalo de aceptaci´n o m´s precisamente. Ts ) R Esto ocurre con muy baja probabilidad en un muestreo aleatorio simple cuando el n´mero de observaciones es alto u 2 Se entiende la palabra “aceptaci´n¸omo en el sentido de “no rechazo”.80. (Ti . o c 1 . El procedimiento general consiste en definir un estad´ ıstico T relacionado con la hip´tesis que deseamos contrastar. Ts ) =⇒ no rechazamos H0 (⇒ rechazamos H1 ). 1.

2. la hip´tesis o privilegiada es H0 que s´lo ser´ rechazada cuando la evidencia de su o a falsedad supere el umbral del 100 · (1 − α) %. La probabilidad de cometer este error es lo que anteriormente hemos denominado nivel de significaci´n. Esto se ha de o entender como sigue: Si H0 es correcta el criterio de rechazo s´lo se equivoca con probabilidad α. Por tanto no es posible encontrar tests que hagan tan peque˜os como queramos ambos erron res simult´neamente. En los contrastes. Al tomar α muy peque˜o tendremos que β se puede aproximar a uno. 9. de manera que no ser´ rechazada.1. Los errores de tipo I y II no est´n relacionados m´s que del sia a guiente modo: Cuando α decrece β crece.206 Bioestad´ ıstica: M´todos y Aplicaciones e cuando la hip´tesis nula es cierta sea inferior o al 100 · α %. y por tanto es posible cometer o decisiones err´neas. La probabilidad de cometer este error la denotamos con la letra β β=P no rechazar H0 |H0 es falsa =P no rechazar H0 |H1 es cierta . a menos o a que su falsedad se haga muy evidente. Es una costumbre establecida el denotarlo siemo pre con la letra α α=P rechazar H0 |H0 es cierta = P aceptar H1 |H0 es cierta . La decisi´n de rechazar o no la hip´tesis nula est´ al fin y al cabo basado en o o a la elecci´n de una muestra tomada al azar. De este modo es siempre necesario privilegiar a a una de las hip´tesis. o que es la probabilidad de que una muestra ofrezca un valor del estad´ ıstico del contraste extra˜o (en la regi´n cr´ n o ıtica). Los errores que se pueden cometer se clasifican como o sigue: Error de tipo I: Es el error que consiste en rechazar H0 cuando es cierta. Error de tipo II: Es el error que consiste en no rechazar H0 cuando es falsa.1. n Lo ideal a la hora de definir un test es encontrar un compromiso sa- . Observaciones 1.

en principio se ha de tomar como hip´teo o sis nula aquella cuyas consecuencias por no rechazarla siendo falsa son menos graves. a Las consecuencias de equivocarnos: Por ejemplo al juzgar el efecto que puede causar cierto tratamiento m´dico que est´ en fae a se de experimentaci´n. Es decir.1. Criterios a tener en cuenta en estos casos son los siguientes: Simplicidad cient´ ıfica: A la hora de elegir entre dos hip´tesis o cient´ ıficamente razonables.   H0 : el paciente empeora o queda igual ante el tratamiento    H : el paciente mejora con el tratamiento 1 Otro ejemplo claro es cuando acaban de instalar un nuevo ascensor en el edificio que habitamos y queremos saber si el ascensor caer´ o no al vac´ cuando nosotros estemos dentro. Una persona a ıo prudente es la que espera a que un n´mero suficiente de vecinos u suyos hayan usado el ascensor (muestra aleatoria) y realiza un test del tipo . es decir potencia del contraste ≡ 1 − β = P rechazar H0 |H0 es falsa rechazar H0 Error tipo I Probabilidad α Correcto Probabilidad 1 − β H0 es cierta H0 es falsa no rechazar H0 Correcto Probabilidad 1 − α Error tipo II Probabilidad β 3. INTRODUCCION 207 tisfactorio entre α y β (aunque siempre a favor de H0 ). En el momento de elegir una hip´tesis privilegiada podemos en prino cipio dudar entre si elegir una dada o bien su contraria. y como hip´tesis alternativa aquella en o la que el aceptarla siendo falsa trae peores consecuencias.´ 9. tomaremos como H0 aquella que sea m´s simple. Denominamos potencia de un contraste a la cantidad 1 − β.

Como la varianza de X es peque˜a para grandes valores de n. entonces o bien la muestra es muy extra˜a si H0 es cierta (probabilidad α). Es decir a la hora de decidirse por una de las dos hip´tesis no o basta con elegir la m´s probable (nadie dir´ “voy a tomar el a ıa ascensor pues la probabilidad de que no se caiga es del 60 %”). n lo l´gico es pensar que si el valor obtenido con la muestra X = x est´ muy o a alejado de µ = 1. ya que las consecuencias del error de tipo I (ir al hospital) son mucho m´s graves que las del a error del tipo II (subir a pie varios pisos). Volviendo al ejemplo de la estatura de los habitantes de un pueblo. n 3 Estos valores de la media y la desviaci´n t´ o ıpica no han sido tomados de ning´n u estudio.N µ. 74. Si la hip´tesis H0 fuese cierta se tendr´ que ıa X. . 74 (regi´n cr´ o ıtica).208 Bioestad´ ıstica: M´todos y Aplicaciones e   H0 : el ascensor se caer´ a    H : el ascensor no se caer´ a 1 y s´lo aceptar´ la hip´tesis alternativa para α ≈ 0 aunque para o a o ello tenga que ocurrir que β ≈ 1. σ 2 = 102 Denotemos mediante µ0 el verdadero valor de la media en el pueblo que estudiamos. Hay que elegir siempre la hip´tesis H0 a menos que la evidencia o a favor de H1 sea muy significativa. σ2 n (suponiendo claro est´ que la distribuci´n de las alturas de los espa˜oles a o n siga una distribuci´n normal de par´metros conocidos. por ejemplo3 o a N µ = 1. un o estad´ ıstico de contraste adecuado es X.

50. donde la muestra es Muestra = {1.1. 55. 1. 63} el contraste de hip´tesis conveniente es: o   H0 : µ = µ0    H : µ>µ 1 0 En este caso H1 no es estrictamente la negaci´n de H0 . Esto dar´ lugar o a a un contraste unilateral. 55. 60. 1. 1. Ti ] Como vemos. 1. que son aquellos en los que la regi´n cr´ o ıtica est´ formada por un s´lo intervalo: a o Intervalo de no rechazo de H0 Regi´n cr´ o ıtica En el caso b. 1. 1. donde la muestra es Muestra = {1. 49. ahora s´ se puede decir que H1 es la negaci´n de H0 . 52. 1. 1. +∞) Los ultimos conceptos que introducimos son: ´ . +∞) ≡ (−∞. 65. Ti ] ∪ [Ts . 78} el contraste de hip´tesis que deber´ o ıamos realizar es:   H0 : µ = µ0    H : µ=µ 1 0 ≡ (Ti . que son aquellos en los que la regi´n cr´ o ıtica est´ formada por dos intervalos separados: a Intervalo donde no se rechaza H0 Regi´n cr´ o ıtica ≡ (Ti . INTRODUCCION 209 o bien la hip´tesis H0 no es cierta. 1. 65. 1. 48.´ 9. 1. 73. 52. 75. 80. 75. 1. 1. o Concretamente en el caso a. Esto ı o es un contraste bilateral. Ts ) ≡ (−∞. 1.

Vamos a coo a menzar haciendo diferentes tipos de contrastes para medias y despu´s sobre e las varianzas y desviaciones t´ ıpicas. .2. o ´ Hip´tesis compuesta: Aquella en la que se especifica m´s de un posible valor del par´metro. .tn−1 . Por ello la distribuci´n del estimador o del contraste ser´ una t de Student. σ 2 donde ni µ ni σ 2 son conocidos y queremos realizar el contraste   H0 : µ = µ0    H : µ=µ 1 0 Al no conocer σ 2 va a ser necesario estimarlo a partir de su estimador insesˆ gado: la cuasivarianza muestral. S 2 . Contrastes para la media Test de dos colas con varianza desconocida Sea X.1. 9.2.N µ.210 Bioestad´ ıstica: M´todos y Aplicaciones e Hip´tesis simple: Aquella en la que se especifica un unico valor del par´metro. o a a Por ejemplo tenemos que son compuestas las hip´tesis alternativas de o esos mismos contrastes. . X n mediante muestreo aleatorio simple. . 9. Este es el o ´ a caso de las hip´tesis nulas en los dos ultimos contrastes mencionados. Vamos a ver cuales son las t´cnicas e para contrastar hip´tesis sobre los par´metros que rigen X. Contrastes param´tricos en una poblaci´n nore o mal Supongamos que la caracter´ ıstica X que estudiamos sobre la poblaci´n o sigue una distribuci´n normal y tomamos una muestra de tama˜o n o n X ≡ X1 . que ha perdido un grado de libertad: a H0 cierta ⇐⇒ Texp = X − µ0 ˆ S √ n .

Tests de una cola con varianza desconocida Si realizamos el contraste   H0 : µ = µ0    H : µ<µ 1 0   o bien    H0 : µ ≥ µ0      H1 : µ < µ0 por analog´ con el contraste bilateral. definiremos ıa X − µ0 ˆ S √ n Texp = Tteo = tn−1.1−α . a las observaciones de Texp extremas C = Texp < −tn−1. Definiendo entonces o X − µ0 ˆ S √ n Texp = Tteo = tn−1.´ ´ 9. CONTRASTES PARAMETRICOS EN UNA POBLACION NORMAL211 Consideramos como regi´n cr´ o ıtica C.1−α/2 ´ tn−1.1−α/2 el resultado del contraste es el siguiente:   si |Texp | ≤ Tteo    si |T | > T exp teo =⇒ =⇒ no rechazamos H0 . como valores te´ricos. rechazamos H0 y aceptamos H1 .2.1−α/2 < Texp o Observaci´n o Para dar una forma homog´nea a todos los contrastes de hip´tesis es e o costumbre denominar al valor del estad´ ıstico del contraste calculado sobre la muestra como valor experimental y a los extremos de la regi´n cr´ o ıtica.

  H0 : µ = µ0    H : µ>µ 1 0   o bien    H0 : µ ≤ µ0      H : µ>µ 1 0 definimos Texp y Tteo como anteriormente y el criterio a aplicar es (v´ase la e figura 9. y el criterio para contrastar al nivel de significaci´n α es o   si Texp ≥ −Tteo    si T exp ≤ −Tteo =⇒ =⇒ no rechazamos H0 . rechazamos H0 y aceptamos H1 .212 Bioestad´ ıstica: M´todos y Aplicaciones e No hay evidencia contra H0 tn−1.1: Sombreada apreciamos la regi´n cr´ o ıtica sombreada para el contraste bilateral de una media. α −3 −2 tn−1.3):   si Texp ≤ Tteo    si T exp > Tteo =⇒ =⇒ no rechazamos H0 . Para el contraste contrario. 1−α −1 0 1 2 2 2 3 Figura 9. rechazamos H0 y aceptamos H1 . .

´ ´ 9. Ejemplo Conocemos que las alturas X de los individuos de una ciudad. 1−α −3 −2 −1 0 1 2 3 Figura 9.2: Regi´n cr´ o ıtica a la derechapara el contrastes unilaterales de una media. 05 si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n = 25 personas se obtuvo: x = 170 cm S = 10 cm Soluci´n: o El contraste que se plantea es:   H0 : µ = 174 cm    H : µ = 174 cm 1 . CONTRASTES PARAMETRICOS EN UNA POBLACION NORMAL213 No hay evidencia contra H0 tn−1.2. Deseamos contrastar con un nivel de significaci´n o de α = 0. se distribuyen de modo gaussiano.

α −3 −2 −1 0 1 2 3 Figura 9.0. si o |Texp | ≥ t24.o no bajo esta hip´tesis. para el nivel de significaci´n dado.3: Regi´n cr´ o ıtica a la izquierda para el contrastes unilateral de una media. 06 Para ello procedemos al c´lculo de Texp : a ˆ S = 10 =⇒ S = S n = 10 n−1 25 = 10 206 24 . La t´cnica a utilizar consiste en suponer que H0 es cierta y ver si el valor e que toma el estad´ ıstico Texp = x − 174 ˆ S √ n .214 Bioestad´ ıstica: M´todos y Aplicaciones e No hay evidencia contra H0 tn−1. o o Aceptaremos la hip´tesis alternativa (y en consecuencia se rechazar´ la o a hip´tesis nula) si no lo es.975 = 2.1−α/2 = t24.tn−1 = t24 es “razonable. es decir.

no hay una evidencia suficiente para rechazar esta hip´tesis al nivel o de confianza del 95 %. e o Ejemplo Consideramos el mismo ejemplo de antes. ´sta hip´tesis no se rechaza.206 √ 25 = |−1. CONTRASTES PARAMETRICOS EN UNA POBLACION NORMAL215 |Texp | = |170 − 174| 10. por tanto al no ser la evidencia en contra de H0 suficientemente significativa. 06 Luego.975 = 2. no se rechaza H0 . Soluci´n: o Ahora el contraste es . deseamos o realizar el contraste sobre si la altura media es menor de 174 cm. Visto que no hemos podido rechazar el que la altura media de la poblaci´n sea igual a 174 cm. Es decir.0.2. 959| ≤ t24. Figura 9. aunque podamos pensar que ciertamente el verdadero valor de µ no es 174.´ ´ 9.4: El valor de Texp no est´ en la regi´n cr´ a o ıtica (aunque ha quedado muy cerca).

1−α = −t24. 71 Recordamos que el valor de Texp obtenido fue de Texp = −1. 959 < t24. con un nivel de confianza del 95 %. Se o aceptar´ la hip´tesis alternativa (y en consecuencia se rechazar´ la hip´tesis a o a o nula) si Texp ≤ t24.95 = −1.0. Es por ello que podemos decir que no s´lo o .216 Bioestad´ ıstica: M´todos y Aplicaciones e   H0 : µ ≥ 174 cm    H : µ < 174 cm 1 Para realizar este contraste. consideramos el caso l´ ımite y observamos si la hip´tesis nula debe ser rechazada o no.05 = −t24. ıa el “simple hecho”de plantearnos un contraste que parece el mismo pero en versi´n unilateral nos conduce a rechazar de modo significativo que µ = 174 o y aceptamos que µ < 174 cm.0.α = −t24.0.95 = −1. 71 Por ello hemos de aceptar la hip´tesis alternativa o Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no exist´ una evidencia significativa para decir que µ = 174 cm.tn−1 = t24 es aceptable bajo esta hip´tesis. Este es: o   H0 : µ = 174 cm    H : µ < 174 cm 1 De nuevo la t´cnica a utilizar consiste en suponer que H0 es cierta y ver si e el valor que toma el estad´ ıstico Texp = x − 174 ˆ S √ n .

2.´ ´ 9. y a favor de H1 . CONTRASTES PARAMETRICOS EN UNA POBLACION NORMAL217 Figura 9.5: El valor te Texp est´ en la regi´n cr´ a o ıtica. Es en este sentido en el que los tests e con H0 y H0 los consideramos equivalentes:   H0 : µ = 174 cm    H : µ < 174 cm 1   H0 : µ ≥ 174 cm    H : µ < 174 cm 1 ⇐⇒ . sino tambi´n H0 . por tanto existe una evidencia significativa en contra de H0 . H0 es rechazada.

2.1−α/2 .218 Bioestad´ ıstica: M´todos y Aplicaciones e 9. Vamos a contrastar la hip´tesis o 2 H0 : σ 2 = σ0 . La t´cnica consiste en utilizar el teorema de Cochran. e para observar que el siguiente estad´ ıstico experimental que utiliza el estimador insesgado de la varianza.a. Contrastes para la varianza Consideremos que el car´cter que estudiamos sobre la poblaci´n sea una a o v. χ Contraste bilateral Cuando el contraste a realizar es  2  H0 : σ 2 = σ 0    H : σ2 = σ2 1 0 definimos ˆ S2 2 σ0 χ2 exp = (n − 1) · ateo = χ2 n−1. normal cuya media y varianza son desconocidas. con n−1 grados o de libertad: H0 cierta =⇒ χ2 = (n − 1) · exp ˆ S2 2 2 . 2 donde σ0 es un valor prefijado frente a otras hip´tesis alternativas que podr´n dar lugar a contrastes bilao a terales o unilaterales.2. posee una distribuci´n χ2 .α/2 bteo = χ2 n−1.χn−1 σ0 Entonces construimos las regiones cr´ ıticas que correspondan a las hip´tesis o alternativas que se formulen en cada caso atendiendo a la ley de distribuci´n o 2.

´ 9. de modo que cada una de ellas se comporta como una distribuci´n de o Bernoulli de par´metro p: a . CONTRASTES DE UNA PROPORCION 219 y el criterio que suministra el contraste es    si ateo ≤ χ2 ≤ bteo exp =⇒ =⇒ no rechazamos H0 . 9. rechazamos H0 y aceptamos H1 . rechazamos H0 y aceptamos H1 . Para el contraste contrario tenemos la formulaci´n an´loga o a  2  H0 : σ 2 = σ 0    H : σ2 > σ2 1 0   2  H0 : σ 2 ≤ σ 0     o bien   H : σ2 > σ2  1 0 calculamos el extremo inferior de la regi´n cr´ o ıtica en una tabla de la distribuci´n χ2 o n−1 bteo = χ2 n−1.   si χ2 < a o 2 teo ´ χexp > bteo exp Contrastes unilaterales Para un contraste de significaci´n al nivel α del tipo o  2  H0 : σ 2 = σ 0    H : σ2 < σ2 1 0   2  H0 : σ 2 ≥ σ 0    o bien    H : σ2 < σ2  1 0 se tiene que el resultado del mismo es: ateo = χ2 n−1.3.3.α −→   si ateo ≤ χ2  exp   si χ2 < a teo exp =⇒ =⇒ no rechazamos H0 .1−α −→   si χ2 ≤ bteo  exp   si b < χ2 teo exp =⇒ =⇒ no rechazamos H0 . rechazamos H0 y aceptamos H1 . Contrastes de una proporci´n o Supongamos que poseemos una sucesi´n de observaciones independieno tes.

donde p0 es un valor prefijado frente a otras hip´tesis alternativas. . N p0 . . Para ello nos basamos en un estad´ o ıstico (de contraste) que ya fue considerado anteriormente en la construcci´n o de intervalos de confianza para proporciones y que sigue una distribuci´n o aproximadamente normal para tama˜os muestrales suficientemente grann des: ≈ ˆ X . . . N (0.Ber (p) La v. 1) p0 q 0 n ⇐⇒ . X i .a.220 Bioestad´ ıstica: M´todos y Aplicaciones e X ≡ X1 .a. . . definida como el n´mero de ´xitos obtenidos en una muestra de u e tama˜o n es por definici´n una v. donde Xi . X n . de distribuci´n binomial: n o o n X= i=1 Xi . . .B (n. pq P = n n Si la hip´tesis H0 es cierta se tiene o p0 q 0 X ≈ ˆ P = . p) La proporci´n muestral (estimador del verdadero par´metro p a partir de o a la muestra) es X ˆ P = n Nos interesamos en el contraste de significaci´n de o H 0 : p = p0 . N p. X. n n ˆ P − p0 ≈ = Zexp .

6:   si |Zexp | ≤ Zteo    si |Z | > Z exp teo =⇒ =⇒ aceptamos H0 . no rechazamos H0 . CONTRASTES DE UNA PROPORCION 221 Contraste bilateral Para el contraste   H 0 : p = p0    H : p=p 1 0 extraemos una muestra y observamos el valor X = x ⇒ p = ˆ se define p − p0 ˆ p0 q 0 n x n.      Zteo = zα . Contrastes unilaterales Consideremos un contraste del tipo   H 0 : p = p0    H : p<p 1 0  ˆ  Zexp = p − p0   p0 q 0      H 0 : p ≥ p0     o bien   H : p<p  1 0 n →   si Zexp ≤ Zteo    si Z exp > Zteo =⇒ =⇒ rechazamos H0 y aceptamos H1 . rechazamos H0 y aceptamos H1 . Entonces Zexp = Zteo = z1−α/2 siendo el criterio de aceptaci´n o rechazo de la hip´tesis nula el que refleja o o lafigura 9.3.´ 9.

Para ello se elige una muestra aleatoria de 100 de . rechazamos H0 y aceptamos H1 . o Para el test unilateral contrario.6: Contraste bilateral de una proporci´n. n →      Zteo = z1−α Ejemplo Se cree que determinada enfermedad se presenta en mayor medida en hombres que en mujeres.222 Bioestad´ ıstica: M´todos y Aplicaciones e N(0. se tiene la expresi´n sim´trica o e   H 0 : p = p0    H : p>p 1 0    H 0 : p ≤ p0     o bien   H : p>p  1 0 Luego  ˆ  Zexp = p − p0   p0 q 0     si Zexp ≤ Zteo    si Z exp > Zteo =⇒ =⇒ no rechazamos H0 . 1) No hay evidencia contra H0 zα −3 −2 z1−α −1 0 1 2 2 2 3 Figura 9.

o lo que es lo mismo. o o Queremos encontrar evidencia a favor (H1 ) de que p > 1/2. Es decir.3. El estad´ o ˆ ıstico que usamos para el contraste es: Z= p−p ˆ .´ 9. los valores cr´ ıticos de Z (los que nos conducen . CONTRASTES DE UNA PROPORCION 223 N(0. cuando Z se hace “suficientemente ˆ grande”. pero nuestra hip´tesis de partida (mientras no tengamos evidencia en contra) es que o p = 1/2 (H0 ).N (0. 7. 1) pq/n Est´ claro que se obtien mayor evidencia a favor de H1 cuando los valores a de p se acercan a 1. Dicho de otro modo. 1) No hay evidencia contra H0 zα −3 −2 −1 0 1 2 3 Figura 9.7: Contraste unilateral cuando se tiene H0 : p ≥ p0 estos enfermos y se observa que 70 son hombres. ¿Qu´ podemos concluir? e Soluci´n: Sea p la proporci´n de hombres que existen entre los enfermos. plantemos el siguiente contraste unilateral para una proporci´n: o   H0 : p = 1/2    H : p > 1/2 1 La estimaci´n puntual de p es p = 70/100 = 0.

Veamos si el valor experimental del estad´ ıstico (el calculado a partir de la muestra si suponemos cierta H0 ) supera o no dicho valor: Zexp = p−p ˆ = pq/n 0. 96. deber´ ıamos esperar que el valor del estad´ ıstico Z no fuese “demasiado grande”... Contrastes para la diferencia de medias apareadas Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos individuos. 5 × 0. 7 − 0. 50 . por tanto hemos de concluir con el rechazo de la hip´tesis nula y la aceptaci´n o o de la hip´tesis alternativa. 5/100 Como se aprecia. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento m´dico y se mide por ejemplo el nivel de insulina en la sangre e antes (X) y despu´s del mismo (Y ) e Paciente 1 2 . los valores superiores o a zteo = z1−α = 1.. o Resumamos el ejemplo con otras palabras: Si la hip´tesis nula fuese o cierta. debemos concluir que la hip´tesis de partida (H0 ) ha de ser rechazada. Ze xp entra ampliamente dentro de la regi´n cr´ o ıtica... Por tanto como hemos obtenido un valor “grande” del mismo. Si elegimos α = 5 %..224 Bioestad´ ıstica: M´todos y Aplicaciones e a rechazar H0 y aceptar H1 son los de la cola de la derecha de la distribuci´n o N (0. 1).4. es decir. 9. El o valor zteo se calcula exclusivamente a partir de α. y nos sirve para saber a que nos referimos por un valor “demasiado grande” para Z. n xi 150 180 . los valores cr´ ıticos son los que est´n situados a la a derecha del percentil 95 de esta distribuci´n. 140 yi 120 130 .. 90 di 30 50 .. 5 =4 0.

Contraste bilateral Consideramos el contraste de tipo   H0 : µd = ∆    H : µ =∆ 1 d . en el caso en que H0 fuese cierta tendr´ ıamos que el estad´ ıstico de contraste que nos conviene es Texp = d−∆ . CONTRASTES PARA LA DIFERENCIA DE MEDIAS APAREADAS225 No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia clara entre las dos variables. El tipo de contraste ser´ entonces del mismo tipo ıa que el realizado para la media con varianza desconocida. tn−1 1 ˆ √ Sd n ˆ donde d es la media muestral de las diferencias di y Sd es la cuasivarianza muestral de las mismas.N µd . d que se distribuye normalmente. que define la diferencia entre el antes y despu´s del e tratamiento es una v.9. llamemos di a la diferencia entre las observaciones antes y despu´s del tratamiento e di = xi − yi Supongamos que la v.a. pero cuyas media y varianza son desconocidas 2 d. Si queremos contrastar el que los pacientes han experimentado o no una mejor´ con ıa el tratamiento.4. σd Si queremos contrastar la hip´tesis de que el tratamiento ha producido o cierto efecto ∆ H0 : µd = ∆.a.

sino una sola. Los resultados se muestran a continuaci´n. o Antes 200 210 330 240 260 300 245 210 190 225 Despu´s 150 200 275 250 200 250 200 180 190 205 e ¿Que podemos concluir de estos datos. Para el test contrario   H0 : µd = ∆    H : µ >∆ 1 d    H0 : µd ≤ ∆     o bien    H1 : µd > ∆ se rechaza H0 si Texp > tn−1. o o Contrastes unilaterales Si el contraste es   H0 : µd = ∆    H : µ <∆ 1 d    H0 : µd ≥ ∆    o bien    H : µ <∆  1 d entonces se rechaza H0 si Texp < −tn−1.226 Bioestad´ ıstica: M´todos y Aplicaciones e Entonces se define Texp = d−∆ 1 ˆ √ Sd n y se rechaza la hip´tesis nula cuando Texp < −tn−1. Para ello e .1−α/2 . en la cual lo que nos interesa es la diferencia producida entre el colesterol antes del tratamiento y despu´s del mismo. ayuda a reducir el colesterol.1−α .1−α/2 ´ Texp > tn−1. por tanto no tenemos dos muestras aleatorias independientes.1−α . Para ello se reliza un estudio con una muestra aleatoria simple de 10 personas. Soluci´n: Obs´rvese que las mediciones se realizan sobre las mismas o e personas. Ejemplo Se pretende demostrar que cierto tratamiento practicado durante un mes.

9. CONTRASTES PARA LA DIFERENCIA DE MEDIAS APAREADAS227 introducimos una nueva variable que expresa la diferencia existente entre el colesterol antes del tratamiento y despu´s del mismo: e d = Xant − Xdes Antes Despu´s e Diferencia 200 150 50 210 200 10 330 275 55 240 250 -10 260 200 60 300 250 50 245 200 45 210 180 30 190 190 0 225 205 20 Encontrar evidencia a favor de que el tratamiento surgen el efecto deseado (baja el colesterol) es lo mismo que encontrar evidencia estad´ ısticamente significativa en el contraste:   H0 : µd = 0    H : µ >0 1 d Esto es de nuevo un contraste para una media. 43 . 8331. 05.4. los valores cr´ ıticos del contraste son los que superan al percentil 95 de la distribuci´n mencionada. que se realiza sobre la variable diferencia. son los que superan la cantidad o Tteo = T9. es decir.tn−1 = t9 o Si d es “muy grande” deberemos concluir que la hip´tesis H1 es correcta. lo que equivale a decir que la regi´n cr´ o ıtica del contraste est´ en la cola a de la derecha de la distribuci´n t9 .0. Para ver si Texp supera el valor te´rico hemos de calcular previamente a o partir de la muestra las estimaciones insesgadas de la media y la desviaci´n o t´ ıpica: d = 31 ˆ Sd = 7. Si elegimos un nivel de significaci´n o o α = 0. El estad´ ıstico que usamos es: Texp = d − µd ˆ S √d n .95 = 1.

228 Bioestad´ ıstica: M´todos y Aplicaciones e Luego si suponemos que la hip´tesis nula es cierta y que la variable difeo rencia sigue una distribuci´n normal de par´metros desconocidos. 19 7. σ2 De las que de modo independiente se extraen muestras de tama˜o respectivo n n1 y n2 . Contrastes de dos distribuciones normales independientes Consideramos a lo largo de toda esta secci´n a dos poblaciones normales o que representamos mediante 2 X1 .N µ2 .5. o 9.1. σ1 2 X2 . Los tests que vamos a realizar est´n relacionados con la diferencias a existentes entre ambas medias o los cocientes de sus varianzas. queremos en esta ocasi´n contrastar la hip´tesis de que las dos poblaciones (cuyas vao o rianzas suponemos conocidas) s´lo difieren en una cantidad ∆ o H0 : µ1 − µ2 = ∆ frente a hip´tesis alternativas que dar´n lugar a contrastes unilaterales o bio a laterales como veremos m´s tarde. tenemos: o a Texp = 31 − 0 √ = 13.N µ1 . Para ello nos basamos en la distribuci´n a o del siguiente estad´ ıstico de contraste: .5. 9. Contraste de medias con varianzas conocidas De manera similar al caso del contraste para una media. 43/ 10 El valor experimental se encuentra claramente en la regi´n cr´ o ıtica del contraste (Texp > Tteo ) por tanto concluimos que existe evidencia estad´ ısticamente significativa en contra de la hip´tesis nula y a favor de la hip´tesis o o alternativa (al menos con un nivel de significaci´n del 5 %).

rechazamos H0 y aceptamos H1 . σ2  2 2  n2 =⇒ X 1 − X 2 .N µ .9.N µ .N ∆. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 229 H0 cierta =⇒  2   X .5. 1) Contraste bilateral Consideremos en primer lugar el contraste de dos colas   H0 : µ1 − µ2 = ∆    H : µ −µ =∆ 1 1 2 Se define entonces Zexp = (X 1 − X 2 ) − ∆ 2 σ1 n1 + 2 σ2 n2 Zteo = z1−α/2 y el test consiste en   si |Zexp | ≤ Zteo    si |Z | > Z exp teo =⇒ =⇒ no rechazamos H0 .N (0. . σ1   1 1   n1    2    X . 2 σ1 σ2 + 2 n1 n2 ⇐⇒ Z= (X 1 − X 2 ) − ∆ 2 σ1 n1 + 2 σ2 n2 .

Zteo = zα = −z1−α → y para el contraste de significaci´n contrario o   H0 : µ1 − µ2 = ∆    H : µ −µ >∆ 1 1 2    H0 : µ1 − µ2 ≤ ∆     o bien   H : µ −µ >∆  1 1 2 se tiene   si Zexp ≤ Zteo    si Z exp > Zteo =⇒ =⇒ no rechazamos H0 . Zteo = z1−α → . rechazamos H0 y aceptamos H1 . rechazamos H0 y aceptamos H1 .230 Bioestad´ ıstica: M´todos y Aplicaciones e Contrastes unilaterales Para el test   H0 : µ1 − µ2 = ∆    H : µ −µ <∆ 1 1 2    H0 : µ1 − µ2 ≥ ∆    o bien    H : µ −µ <∆  1 1 2 el contraste consiste en   si Zexp ≥ Zteo    si Z exp < Zteo =⇒ =⇒ no rechazamos H0 .

Contraste de medias homoced´ticas a Ahora consideramos el problema de contrastar H0 : µ1 − µ2 = ∆ cuando s´lo conocemos que las varianzas de ambas poblaciones son iguales.tn1 +n2 −2 ˆ S 1 + 1 n1 n2 ˆ ˆ2 ˆ2 donde S 2 es la cuasivarianza muestral ponderada de S1 y S2 ˆ2 ˆ2 (n1 − 1)S1 + (n2 − 1)S2 ˆ S2 = n1 + n2 − 2 Obs´rvese que se han perdido dos grados de libertad a causa de la estimae 2 2 ˆ2 ˆ2 ci´n de σ1 = σ2 mediante S1 y S2 .9.5. o pero desconocidas.1−α/2 . El estad´ ıstico que usaremos para el contraste fue ya introducido en la relaci´n (8.5.2). pues si suponemos que H0 es cierta se o tiene Texp = (X 1 − X 2 ) − (µ1 − µ2 ) .2. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 231 9. o Contraste bilateral Para el contraste de significaci´n o   H0 : µ1 − µ2 = ∆    H : µ −µ =∆ 1 1 2 se tiene como en casos anteriores que el contraste adecuado consiste en definir (X 1 − X 2 ) − (µ1 − µ2 ) ˆ S 1 + 1 n1 n2 Texp = Tteo = tn1 +n2 −2.

5. Contraste de medias no homoced´ticas a Consideramos el contraste . Contrastes unilaterales Cuando el contraste es unilateral del modo   H0 : µ1 − µ2 = ∆    H : µ −µ <∆ 1 1 2    H0 : µ1 − µ2 ≥ ∆    o bien    H : µ −µ <∆  1 1 2 el contraste se realiza siguiendo el mismo proceso que en otros realizados anteriormente. rechazamos H0 y aceptamos H1 .232 Bioestad´ ıstica: M´todos y Aplicaciones e y rechazar o admitir la hip´tesis nula siguiendo el criterio o   si |Texp | ≤ Tteo    si |T | > T exp teo =⇒ =⇒ no rechazamos H0 . rechazamos H0 y aceptamos H1 .1−α → y cuando el contraste de significaci´n es el contrario o   H0 : µ1 − µ2 = ∆    H : µ −µ >∆ 1 1 2    H0 : µ1 − µ2 ≤ ∆     o bien   H : µ −µ >∆  1 1 2 del mismo modo Tteo = tn1 +n2 −2. Tteo = −tn1 +n2 −2. 9.3. rechazamos H0 y aceptamos H1 . lo que nos lleva a   si Texp ≥ Tteo    si T exp < Tteo =⇒ =⇒ no rechazamos H0 .1−α →   si Texp ≤ Tteo    si T exp > Tteo =⇒ =⇒ no rechazamos H0 .

es decir cuando s´lo conocemos de las dos a a o poblaciones que su distribuci´n es normal. Concretamente. realizando el contraste: . es decir. Consistir´ en una distribua o a ci´n t de Student. y que sus varianzas no son conoo cidas y significativamente diferentes. Observaci´n o Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras independientes obtenidas de poblaciones normales son id´nticas.5. el estad´ ıstico que nos interesa es (X 1 − X 2 ) − ∆ ˆ2 S 2 ˆ S1 + 2 n1 n2 . tf T = donde f es el n´mero de grados de libertad que se calcula mediante la u f´rmula de Welch o ˆ ˆ2 S 2 S1 + 2 n1 n2 1 n1 + 1 ˆ2 S1 n1 2 2 f= 1 + n2 + 1 ˆ2 S2 n2 2 −2 No desarrollamos en detalle los c´lculos a realizar. e esto se reduce a los casos anteriores tomando ∆ = 0.9. En este caso el estad´ ıstico de contraste tendr´ una ley de distribuci´n muy particular. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 233 H0 : µ1 − µ2 = ∆ en el caso m´s problem´tico. e n depende de un modo aleatorio mediante las varianzas muestrales. pues la t´cnica para a e efectuar los contrastes son an´logos a los vistos anteriormente cuando las a varianzas son desconocidas e iguales. con un n´mero de grados de libertad que en lugar de o u depender de modo determinista de la muestra (a trav´s de su tama˜o).

χ2 2 −1 n 2 σ2        ˆ2 1 (n1 − 1) S1 \ 2 σ2 (n1 − 1) \ σ1 =⇒ = 2 2  ˆ2 σ1 1 (n2 − 1) S2 \     2  (n2 − 1) \ σ2 ˆ2 S1 . si R = 1 tenemos que ambas varianzas son iguales. del 2 2 modo σ1 − σ2 = ∆.Fn1 −1. Vamos a abordar cuestiones relacionadas con saber si las varianzas de ambas poblaciones son las mismas.4.χ2 1 −1 n 2 σ1 ˆ2 (n2 − 1) S2 . la existencia de una diferencia entre ambas (∆). La igualdad entre las dos varianzas puede escribirse 2 2 σ1 − σ2 = 0 o bien. R. de modo que nos ser´ m´s f´cil sacarle partido a las expresiones a a a de las relaciones entre varianzas como 2 σ1 2 = R. Contrastes de la raz´n de varianzas o Consideramos dos muestras independientes de dos poblaciones que se distribuyen normalmente (cuyas medias y varianzas son desconocidas).5. Consideramos entonces la hip´tesis nula o 2 σ1 2 =R σ2 H0 : la cual vamos a contrastar teniendo en cuenta que: ˆ2 (n1 − 1) S1 .n2 −1 ˆ S2 2 .234 Bioestad´ ıstica: M´todos y Aplicaciones e   H0 : µ1 − µ2 = 0    H : µ −µ =0 1 1 2 9. o si la raz´n (cociente) entre ambas es una o cantidad conocida. σ2 Por ejemplo. Este modo de escribir la diferencia entre varianzas (que era el adecuado para las medias) no es sin embargo f´cil de utilizar para las a varianzas.

CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 235 Por tanto el estad´ ıstico del contraste que nos conviene tiene una distribuci´n o conocida cuando H0 es cierta —v´ase la definici´n de la distribuci´n de e o o Snedecor: ˆ2 1 S1 .α/2 bteo = Fn1 −1.n2 −1. o bien. se define el estad´ ıstico experimental y los l´ ımites de la regi´n cr´ o ıtica como: Fexp = 1 R ˆ2 S1 ˆ S2 2 ateo = Fn1 −1.n2 −1.1−α/2 y el criterio de aceptaci´n o rechazo es: o    si ateo ≤ Fexp ≤ bteo =⇒ =⇒ no rechazamos H0 . rechazamos H0 .5.Fn1 −1. se rechazar´ la hip´tesis nula cuando el el valor o a o que tome el estad´ ıstico del contraste al aplicarlo sobre una muestra sea muy cercano a cero.   si F o exp < ateo ´ Fexp > bteo .9. muy grande. Es decir.n2 −1 ˆ2 R S2 F = Contraste bilateral El contraste bilateral para el cociente de varianzas se escribe como:  2   H : σ1 = R   0 2  σ2     σ2   H1 : 1 = R  2 σ2 Habida cuenta que la distribuci´n F de Snedecor no es sim´trica sino que o e s´lo toma valores positivos.

o . donde R = 1. o En esta situaci´n lo recomendable es o En primer lugar realizar un test de homocedasticidad. El test de homocedasticidad ser´ entonces el ıa mismo que el de un cociente de varianzas. es decir:  2 2  H0 : σ 1 = σ 2    H : σ2 = σ2 1 1 2  2   H : σ1 = 1  0  2  σ2     σ2   H1 : 1 = 1  2 ⇐⇒ σ2 Observaci´n o Una de las razones de la importancia de este contraste es la siguiente: Si queremos estudiar la diferencia entre las medias de dos poblaciones normales. aplicamos un test de diferencia de medias suponiendo que las varianzas son desconocidas pero iguales. Si la igualdad de varianzas no puede ser rechazada de modo significativo. En este caso el n´mero de grados de u libertad es una v.5. o n 2. el caso m´s realista es considerar un contraste donde las varianzas a de las poblaciones son desconocidas.5. Las dos varianzas son iguales. Caso particular: Contraste de homocedasticidad En la pr´ctica un contraste de gran inter´s es el de la homocedasticidad a e o igualdad de varianzas.236 Bioestad´ ıstica: M´todos y Aplicaciones e 9. En otro caso se utiliza la aproximaci´n de Welch. Decimos que dos poblaciones son homoced´ticas a si tienen la misma varianza. Las varianzas son distintas. Este es el caso m´s favorable pues a utilizamos la distribuci´n de Student para el contraste con un n´mero o u de grados de libertad que s´lo depende del tama˜o de la muestra. Ante esta situaci´n podemos encono trarnos dos situaciones: 1.a. (f´rmula de Welch) y por tanto al realizar el o contraste se pierde cierta precisi´n.

pues Fexp nunca estar´ pr´xima a 0. Los datos e e obtenidos fueron los siguientes: Ratas de control Ratas desnutridas n1 = 25 n2 = 36 x1 = 869. 8 x2 = 465 S1 = 106. Fteo = Fn2 −1.1−α =⇒   si Fexp ≤ bteo    si F exp > bteo Ejemplo Se desea comparar la actividad motora espont´nea de un grupo de 25 a ratas control y otro de 36 ratas desnutridas. Con esta definici´n a o o de Fexp el criterio a seguir frente al contraste de significaci´n para un valor o α dado es:   Fn1 −1. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 237 Observaci´n o Al realizar el contraste bilateral sobre la igualdad de varianzas podemos tambi´n economizar parte de trabajo definiendo Fexp como el cociente entre e la mayor varianza muestral y la menor  2  S1  ˆ   2  ˆ  S  2  2  ˆ  S2     ˆ2 ˆ2 si S1 ≥ S2 =⇒ Fexp ≥ 1 ˆ2 ˆ2 si S2 > S1 Fexp = ˆ2 S1 ya que as´ no es necesario calcular el extremo inferior para la regi´n donde ı o no se rechaza H0 .n1 −1. 7 ¿Se observan diferencias significativas entre el grupo control y el grupo desnutrido? .9. Se midi´ el n´mero de veces o u que pasaban delante de una c´lula fotoel´ctrica durante 24 horas.5. rechazamos H0 .n2 −1.1−α    ˆ2 ˆ2 si S1 ≥ S2 ˆ2 ˆ2 si S2 > S1 =⇒ =⇒ no rechazamos H0 . 7 S2 = 153.

859. nos ser´n m´s utiles las cuasivarianzas que las varianzas. 26 n1 − 1 24 n2 36 2 S2 = 153. 72 = 24. Por ello calculaa a ´ mos: ˆ2 S1 = ˆ2 S2 = n1 25 2 S1 = 106. tenemos que el estad´ ıstico del contraste conveniente es  2  S1  ˆ ˆ2 ˆ2  si S1 ≥ S2  2  ˆ  S  2 Fexp = =⇒ Fexp ≥ 1  2  ˆ  S2   ˆ2 ˆ2  si S2 > S1  ˆ2 S 1 ya que as´ no es necesario calcular el extremo inferior para la regi´n donde ı o no se rechaza H0 . Para ello conocemos dos estad´ ısticos posibles. seg´n que las varianzas poblacionales de ambos gruu pos de ratas puedan ser supuestas iguales (homocedasticidad) o distintas (heterocedasticidad).238 Bioestad´ ıstica: M´todos y Aplicaciones e Soluci´n: o En primer lugar.0 95 ≈ 2 97 .298.Fn2 −1.n1 −1 ˆ S2 1 Fexp = Fteo = F35. Para ello realizamos previamente el contraste:  2   H : σ1 = 1  0  2  σ2     σ2   H1 : 1 = 1  2  2 2  H0 : σ 1 = σ 2    H : σ2 = σ2 1 1 2 ⇐⇒ σ2 Suponiendo H0 cierta. 72 = 11.24. En este caso: ˆ2 S2 = 2 0489 . por tratarse de un problema de inferencia estad´ ıstica. 653 n2 − 1 35 El contraste que debemos realizar est´ basado en el de la t de Student a para la diferencia de medias de dos poblaciones.

es decir.5.238 6 n1 + n2 − 2 y posteriormente .8: No hay evidencia significativa para rechazar la homocedasticidad. Fexp > 1. Para ello calculamos en o primer lugar la cuasivarianza muestral ponderada: ˆ2 ˆ2 (n1 − 1)S1 + (n2 − 1)S2 ˆ S2 = = 19.9. no podemos concluir (al menos al nivel de significaci´n o α = 0 05) que H0 deba ser rechazada (figura 9. y pasamos a contrastar la igualdad de las medias   H0 : µ1 − µ2 = 0    H : µ −µ =0 1 1 2 utilizando el estad´ ıstico m´s sencillo (el que no necesita aproximar los graa dos de libertad mediante la f´rmula de Welch). Por lo tanto no rechazamos la hip´tesis de homocedasticidad de ambas o poblaciones. Figura 9.8). CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 239 Como Fexp ≤ Fteo . El estad´ ıstico del contraste ha sido elegido modo que el numerador de Fexp sea mayor que el denominador.

Los resultados se muestran a continuaci´n: o Muestra 1 Muestra 2 10 32 30 39 32 35 23 30 23 37 24 28 20 34 18 33 19 25 45 30 37 33 ¿Cree que las distribuciones normales que describen a ambas poblaciones. poseen los mismos par´metros? a Soluci´n: La distribuci´n normal est´ descrita por dos par´metros: La o o a a media y la varianza.1−α/2 = t59.9: Hay una gran evidencia en contra de la hip´tesis de que ambas o medias poblacionales coincidan. de las que se han extraido respectivamente una muestra aleatoria simple.0 975 ≈ 2 Como |Tteo | ≤ Texp concluimos que se ha de rechazar la hip´tesis de igualo dad de las medias. y por tanto aceptamos que las medias son diferentes.240 Bioestad´ ıstica: M´todos y Aplicaciones e Texp = x1 − x2 ˆ S· 1 n1 + 1 n2 = 11 2101. Ejemplo Supongamos que cierta variable num´rica se comporta de modo gause siano sobre dos poblaciones.tn1 +n2 −2 = t59 Tteo = tn1 +n2 −2. y a favor de que la de la primera poblaci´n o es mayor que la de la segunda. Vamos a realizar entonces el contraste adecuado para . Figura 9.

σ2 n2 = 12 x2 = 32.9.N µ2 . 513 Segunda muestra 2 X2 . Previamente. o El contraste de igualdad de medias es:   H0 : µ1 = µ2    H : µ =µ 1 1 2 . resumimos la informaci´n existente en las muestras con o los estimadores insesgados de los par´metros: a Primera muestra 2 X1 . σ1 n1 = 10 x1 = 22. 75 ˆ S2 = 4. 182 ˆ S1 = 9. 048 El contraste de homocedasticidad es el siguiente:  2 2  H0 : σ 1 = σ 2    H : σ2 = σ2 1 1 2 El estad´ ıstico del contraste lo elegimos de tal modo que la varianza mayor est´ en el numerador. 0482 Smenor S2 Si elegimos un nivel de significaci´n α = 5 %. 5222 = 1 = ˆ2 ˆ2 4.N µ1 .0. vamos a comenzar por el contraste de homocedasticidad (igualdad de varianzas). 8962 Por tanto se rechaza la hip´tesis de igualdad de varianzas.5. pues de este modo tenemos que la regi´n cr´ e o ıtica no es nada m´s que la cola de la derecha de la distribuci´n de Snedecor: a o Fexp = ˆ2 ˆ Smayor S2 9. Como el contraste de igualdad de medias a depende de que las varianzas sean iguales o distintas. 5132 = 5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 241 cada uno de estos par´metros.12.95 = 2. el valor cr´ o ıtico para dicho estad´ ıstico (aquel a pertir del cual rechazamos la homocedasticidad) es Fteo = F10.

0.975 = −2. 0482 /12 La regi´n cr´ o ıtica en este caso est´ dividida en dos zonas (contraste a bilateral).242 Bioestad´ ıstica: M´todos y Aplicaciones e Desconocemos el valor de las varianzas poblacionales.5 o superior al 97.975 = −T12.025 = −Tf . por tanto el estad´ ıstico del contraste es: T = (x1 − x2 ) ˆ ˆ2 S 2 S1 + 2 n1 n2 = 24. hemos de rechazar (al menos para una significaci´n del 5 %) que las medias de ambas poblao ciones coincidan. Mustra 1 10 30 32 23 23 24 20 18 19 35 Muestra 2 12 28 30 30 20 25 31 15 12 22 24 40 .29. Ejemplo Supongamos que cierta variable num´rica se comporta de modo gause siano sobre dos poblaciones.0.0. 5132 /10 + 4.5 de la distribuci´n te´rica o o (la que seguir´ el estad´ ıa ıstico del contraste si la hip´tesis nula fuese cierta). 29 Como Texp es un valor de la regi´n cr´ o ıtica del contraste de igualdad de medias de poblaciones normales con varianzas diferentes. basta con que nos preocumos nada m´s a que de la cola de la izquierda: Tteo = Tf . 173 donde f es el n´mero de grados de libertad que se calcula mediante la u f´rmula de Welch o ˆ2 S 2 ˆ S1 + 2 n1 n2 1 n1 + 1 ˆ2 S1 n1 2 2 f= 1 + n2 + 1 ˆ2 S2 n2 2 − 2 = 12. pero al menos sabemos que hemos rechazado la igualdad de las mismas. 5874 9. Por tanto hemos de observar si el estad´ ıstico del contraste es un valor inferior al percentil 2. o Como Te xp es un valor negativo. 4 − 32. 75 = −2.

9.N µ1 . 721 Segunda muestra 2 X2 . CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 243 ¿Se puede decir que las media de laprimera poblaci´n es menor que la de o la segunda? Usar un nivel de significaci´n del 10 % Soluci´n: Hemos o o de realizar un contraste de medias.90 = 2. Para empezar resumimos la informaci´n existente en las muestras: o Primera muestra 2 X1 . el valor cr´ o ıtico para dicho estad´ ıstico (aquel a pertir del cual rechazamos la homocedasticidad) es Fteo = F12. . no rechazomos la hip´tesis de homocedaso ticidad. 3961 Por tanto no encontramos diferencia que sea estad´ ısticamente significativa entre ambas varianzas. 4662 = 2 = = 1. 4 ˆ S1 = 9. σ2 n2 = 12 x2 = 23. pero para decidir el estad´ ıstico del contraste a elegir.N µ2 . es decir. 7212 Smenor S1 Fexp = Si elegimos un nivel de significaci´n α = 10 %. debemos contrastar la similitud entre las dispersiones de ambas poblaciones.0. 1593 ˆ2 ˆ2 9.10.5. 08 ˆ S2 = 10. σ1 n1 = 10 x1 = 22. pues de este modo tenemos que la regi´n cr´ e o ıtica no es nada m´s que la cola de la derecha de la distribuci´n de Snedecor: a o ˆ2 ˆ Smayor S2 10. 466 El contraste de homocedasticidad se escribe:  2 2  H0 : σ 1 = σ 2    H : σ2 = σ2 1 1 2 El estad´ ıstico del contraste lo elegimos de tal modo que la varianza mayor est´ en el numerador.

90 = −1. . Contrastes sobre la diferencia de proporciones Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones. 3253 Como Texp no es un valor de la regi´n cr´ o ıtica del contraste.244 Bioestad´ ıstica: M´todos y Aplicaciones e El contraste de medias es:   H0 : µ1 = µ2    H : µ <µ 1 1 2 Desconocemos el valor de las varianzas poblacionales.0. la regi´n ıa n o cr´ ıtica es la regi´n comprendida a la izquierda del percentil 10 de la distrio buci´n tn1 +n2 −2 . . X22 . . Por tanto vamos a elegir como estad´ ıstico del contraste al que se usa cuando podemos asumir que las varianzas son iguales: Texp = (x1 − x2 ) = −0. X12 . en cuyo caso el estad´ ıstico del contraste tomar´ valores muy peque˜os. concluimos que no hay evidencia estad´ ısticamente significativa en contra de la hip´tesis o nula y a favor de la alternativa. Dicho de otro modo. X2n2 .6. X1n1 X2 ≡ X21 . cuando los datos muestrales de la primera muestra sean significativamente menores que los de la segunda. . .10 = −T20. 9. o Tteo = T10+12−2. pero las diferencias entre ellas (sean cuales sean) no son estad´ ısticamente significativas. . . . en la que estudiamos una variable de tipo dicot´mico (Bero noulli): X1 ≡ X11 .0. 1574 ˆ S 1 + 1 n1 n2 Esta claro que rechazaremos la hip´tesis nula y aceptaremos la altero nativa.

N p2 .B (n1 .B (n2 .6. N (0. p2 ) i=1 X2 = de modo que los estimadores de las proporciones en cada poblaci´n tienen o distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes) X1 ≈ p1 q 1 ˆ P1 = .9. 1) ≈ . n1 n1 X2 ≈ p2 q 2 ˆ P2 = . CONTRASTES SOBRE LA DIFERENCIA DE PROPORCIONES 245 Si X1 y X2 contabilizan en cada caso el n´mero de ´xitos en cada muestra u e se tiene que cada una de ellas se distribuye como una variable aleatoria binomial: n1 X1 = i=1 n2 X1i .  n1 n2 ∆ Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores. p1 ) X2i . N p 1 − p 2 . N p1 . n2 n2 El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada poblaci´n es una cantidad conocida ∆ o H 0 : p1 − p2 = ∆ Si H0 fuese cierta se tendr´ que ıa   p1 q 1 p 2 q 2  ˆ ˆ ≈  + P1 − P2 . lo que da lugar a un error que es peque˜o cuando los tama˜os n n muestrales son importantes: (p1 − p2 ) − ∆ ˆ ˆ p 1 q 1 p2 q 2 ˆ ˆ ˆ ˆ + n1 n2 = Zexp .

7. y que las cantidades .246 Bioestad´ ıstica: M´todos y Aplicaciones e Contraste bilateral El contraste bilateral sobre la diferencia de proporciones es   H 0 : p1 − p 2 = ∆    H : p −p =∆ 1 1 2 Entonces se define Zexp = (p1 − p2 ) − ∆ ˆ ˆ ˆ ˆ p1 q 1 p 2 q 2 ˆ ˆ + n1 n2 y se rechaza la hip´tesis nula si Zexp < −z1−α/2 o si Zexp > z1−α/2 o Contrastes unilaterales En el contraste   H 0 : p1 − p2 = ∆    H : p −p <∆ 1 1 2    H 0 : p1 − p2 ≥ ∆     o bien   H : p −p <∆  1 1 2 se rechazar´ H0 si Zexp < −z1−α . Problemas En todos los problemas que siguen a continuaci´n. Para el test contrario a   H 0 : p1 − p2 = ∆    H : p −p >∆ 1 1 2    H 0 : p 1 − p2 ≤ ∆     o bien    H 1 : p 1 − p2 > ∆ se rechaza H0 si Zexp > z1−α . 9. se supone que las o muestras han sido elegidas de modo independiente.

11. Una e o serie de nueve pruebas sobre un paciente revelaron una media muestral de 6. se distribuyen de modo gaussiano. Un determinado a˜o se examinaron 50 n alumnos con resultados promedio de 7.1. PROBLEMAS 247 cuantitativas que se miden. El calcio se presenta normalmente en la sangre de los mam´ ıferos en concentraciones de alrededor de 6 mg por cada 100 ml del total de sangre. y una desviaci´n o t´ ıpica muestral de 2 mg de calcio por cada 100 ml de sangre. ¿Fue efectiva la campa˜a? n Ejercicio 9. La desviaci´n t´ o ıpica normal de ´sta variable es 1 mg de cale cio por cada 100 ml del volumen total de sangre. 9. Una variabilidad mayor a ´sta puede ocasionar graves trastornos en la coagulaci´n de la sangre. El promedio de las puntuaciones de un n´mero elevado de u alumnos de Bioestad´ ıstica es de 6. El n´mero de accidentes mortales en una ciudad es.2. ¿Variaron las calificaciones? Ejercicio 9.4. para un nivel α = 0.50. en u promedio.9. ¿Hay alguna evidencia.5. 10 . Ejercicio 9.2 mg de calcio por 100 ml del volumen total de sangre. de 12 mensuales. ¿Modifica la dieta el peso medio? Ejercicio 9. Tras una campa˜a de se˜alizaci´n y adecentan n o miento de las v´ urbanas se contabilizaron en 6 meses sucesivos ıas 8. 9 accidentes mortales. En temas posteriores se ver´ c´mo contrastar si estas premisas pueden ser aceptadas a o o no al examinar las muestras.3. 05. n Un estudio realizado en 16 mujeres de tales edades que siguen una dieta vegetariana da x = 50 y S = 5. El peso medio de mujeres de 30 a 40 a˜os es de 53 kg.7. de que el nivel medio de calcio para este paciente sea m´s alto del normal? a Ejercicio 9.25 y desviaci´n t´ o ıpica de 1. Una poblaci´n infantil se dice que es susceptible de recibir o una campa˜a de educaci´n e higiene si su porcentaje de ni˜os con dientes n o n . 7.

y de ellos 5 desarrollaron la reacci´n adversa.8. n a Los datos fueron los siguientes: Placebo Tratamiento ¿Es eficaz el tratamiento? Ejercicio 9. Una poblaci´n con 12. ¿debe hacerse o n la campa˜a si de 387 de ellos 70 ten´ alg´n diente cariado? n ıan u Ejercicio 9.9. la o hipertensi´n est´ incluida como la primera patolog´ a controlar. ¿Puede afirmarse que han variado los h´bitos de estas si.7. De entre los no hiperutilizadores. a Tras cada periodo. Se conoce que un 20 % de los individuos tratados cr´nicao mente con digoxina sufren una reacci´n adversa por causa de ella. tras una a campa˜a de informaci´n y control de visitas. se tomaron 10 pacientes con eczema de m´s de 9 meses y se les someti´ durante 3 semanas a un tratamiento ficticio a o (placebo) y durante las tres siguientes a un tratamiento con ´cidos grasos. En un programa de Control de Enfermedades Cr´nicas. Un 8 % de los individuos que acuden a un servicio sanitario son hiperutilizadores del mismo (m´s de 11 visitas al a˜o) y. A 10 o pacientes se les administr´ durante largo tiempo digoxina mas otros medio camentos.637 ni˜os.6. de entre a n ellos. 15 pao a ıa cientes hipertensos son sometidos al programa y controlados en su tensi´n o 6 5 8 6 4 4 8 5 5 3 6 6 5 6 6 2 4 2 5 6 . Para comprobar si un tratamiento con ´cidos grasos es eficaz a en pacientes con eczema at´ ıpico. son mujeres el 51 %. de 90 mujeres elegidas al azar n o 6 resultaron hiperutilizadoras? Ejercicio 9. ¿Puede afirmarse o que la asociaci´n entre la digoxina y los otros medicamentos hace variar el o n´mero de reacciones adversas? u Ejercicio 9. un m´dico ajeno al proyecto evalu´ la importancia del e o eczema en una escala de 0 (no eczema) a 10 (tama˜o m´ximo de eczema).248 Bioestad´ ıstica: M´todos y Aplicaciones e cariados es superior al 15 %. un 70 % son mujeres.

5 grs.05 si la bilis hep´tica puede o a considerarse neutra. PROBLEMAS 249 asist´lica antes y despu´s de 6 meses de tratamiento.52. 6. Se realiza dicha prueba a o 10 individuos.79.83. Por fistulizaci´n se obtuvo el pH de 6 muestras de bilis o hep´tica con los siguientes resultados: a 7. 8. Los datos son los o e siguientes: Inic. La prueba de la d–xilosa permite la diferenciaci´n entre o una esteatorrea originada por una mala absorci´n intestinal y la debida o a una insuficiencia pancre´tica. Si se conociera σ = 0.Muchos autores afirman que los pacientes con depresi´n tienen una o funci´n cortical por debajo de lo normal debido a un riego sangu´ o ıneo cerebral por debajo de lo normal.10.11.. 5. de modo que cifras inferiores a 4 grs. obteni´ndose una media de 3. ¿qu´ decisi´n tomar´ e o ıamos? Ejercicio 9. 7. ¿Sepuede decir que esos pacientes padecen una mala absorci´n o intestinal? .57. de a d–xilosa. A dos muestras de individuos. 7. indican una mala absorci´n intestinal. y una desviaci´n t´ e o ıpica de 0’5 grs. Fin.9.58 Se desea saber al nivel de significaci´n del 0.7. 7. se les midi´ un ´ o o ındice que indica el flujo sangu´ ıneo en la materia gris (dado en mg/(100g/min))obteni´ndose: e Depresivos Normales n1 = 19 n2 = 22 x1 = 47 x2 = 53 8 ˆ S1 = 7 8 ˆ S2 = 6 1 ¿Hay evidencia significativa a favor de la afirmaci´n de los autores? o Ejercicio 9.32. 180 140 200 170 160 160 170 140 180 130 190 150 190 140 180 150 190 190 160 170 170 120 190 160 200 170 210 160 220 150 ¿Es efectivo el tratamiento? 10. unos con depresi´n y otros normales.

En 50 individuos e con insuficiencia card´ ıaca se observ´ una eliminaci´n media de aldosterona o o de 13 mgs/24 h. o Placebo H–cloro 211 181 210 172 210 196 203 191 196 167 190 161 191 178 177 160 173 149 170 119 163 156 Seg´n estos datos experimentales.5 mgs/24 h. De un estudio sobre la incidencia de la hipertensi´n en la o provincia de M´laga. e Ejercicio 9. con una desviaci´n t´ o ıpica de 2.250 Bioestad´ ıstica: M´todos y Aplicaciones e Ejercicio 9. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presi´n sangu´ o ınea sist´lica de 11 pacientes. Comprobar que no hay razones suficientes o u para afirmar la eficacia del m´todo con un nivel de confianza del 95 %.13. ¿podemos afirmar que existe diferencia u en la presi´n sist´lica media durante la utilizaci´n de estos dos f´rmacos? o o o a Ejercicio 9. se sabe que en la zona rural el porcentaje de hipera tensos es del 27.7 %. La eliminaci´n por orina de aldosterona est´ valorada en o a individuos normales en 12 mgs/24 h. se aplica ´ste a 30 pacientes de los cuales 17 requieren e alguna intervenci´n quir´rgica. por t´rmino medio. ¿Son compatibles estos resultados con los de los individuos normales? 2.15. 1. Tras una encuesta a 400 personas de una zona urbana.14. o u o u Para determinar si un nuevo m´todo de fisioterapia reduce el porcentaje e de intervenciones.. Se sabe que el 70 % de los pacientes internados en un hospital traumatol´gico requieren alg´n tipo de intervenci´n quir´rgica. ¿La insuficiencia card´ ıaca aumenta la eliminaci´n por orina de aldoso terona? Ejercicio 9. 1. ¿Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que en la zona rural? .12. se obtuvo un 24 % de hipertensos.

8 x2 = 465 S1 = 106. PROBLEMAS 251 2. e e Los datos obtenidos fueron los siguientes: Ratas de control Ratas desnutridas n1 = 25 n2 = 36 x1 = 869. se hizo una revisi´n sobre a e o las historias cl´ ınicas de 21 mujeres muertas por carcinoma de cuello uterino. 7 ¿Se observan diferencias significativas entre el grupo control y el grupo desnutrido? Ejercicio 9. Con cierto m´todo de ense˜anza para ni˜os subnormae n n les se obtiene una desviaci´n t´ o ıpica de 8.16. Se midi´ el n´mero o u de veces que pasaban delante de una c´lula fotoel´ctrica durante 24 horas. en 28 de las cuales se observ´ la presencia o del citado ant´ ıgeno. observando que 6 de ellas presentaban el citado ant´ ıgeno. en las puntuaciones de los tests finales.9. 7 S2 = 153.7. ¿Puede asegurarse que el nuevo m´todo produce distinta variaci´n en las e o puntuaciones? Ejercicio 9. ¿Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural? Ejercicio 9. con edades o o similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello uterino. ¿Est´ relacionada la presencia del ant´ a ıgeno con una efectividad del tratamiento? Ejercicio 9. Se quiso probar si la cirrosis de h´ ıgado hacia variar el . Se pretende comprobar la hip´tesis expuesta en algunos o trabajos de investigaci´n acerca de que la presencia del ant´ o ıgeno AG–4 est´ relacionada con un desenlace Con ´ste fin. Por otro lado y con fines de comparaci´n se tom´ otra muestra de 42 personas. Se pone a prueba un nuevo m´todo y se ensaya en 51 ni˜os.17. Se desea comparar la actividad motora espont´nea de un a grupo de 25 ratas control y otro de 36 ratas desnutridas.18. Las e n calificaciones obtenidas en los tests finales dan una desviaci´n t´ o ıpica de 10.19.

Anot´ el tiempo en horas en que cada uno dijo que el o s´ ıntoma hab´ desaparecido y obtuvo los siguientes resultados: ıa Muestra 1a Muestra 2a n1 = 25 n2 = 30 = 85 i xi2 = 216 i xi1 2 i xi1 = 343 2 i xi2 = 1.650 ¿Puede concluir el investigador que el tratamiento es realmente efectivo? Ejercicio 9. El test consiso ti´ en medir el nivel de glucosa en sangre en el momento de la ingesti´n o o (nivel basal) de 100 grs. 8 x2 = 0. Los resultados fueron: Individuos normales Individuos cirr´ticos o n1 = 20 n2 = 25 x1 = 1. 4 S2 = 0.21. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se realiz´ un test oral de glucosa a dos o muestras de pacientes sanos. 66 S1 = 0. 2 La cirrosis de h´ ıgado. Se eligieron dos muestras aleatorias e independientes de individuos. ¿hace variar el ´ ındice de la colinesterasa en suero? Ejercicio 9. Un investigador ha realizado el siguiente experimento: Tom´ una primera muestra de 25 pacientes que padec´ cierto s´ o ıan ıntoma y otra segunda muestra de 30 pacientes con el mismo s´ ıntoma.20. Los resultados fueron los siguientes: Basal 60 minutos Basal 60 minutos 81 136 98 196 89 150 94 190 80 149 93 191 75 141 88 189 74 138 79 159 97 154 90 185 76 141 86 182 89 155 89 190 83 145 81 170 77 147 90 197 J´venes: o Adultos: . unos j´venes y otros adultos. A los de la primera muestra les aplic´ un tratamiento especifico y a los de la segunda o les dio un placebo.252 Bioestad´ ıstica: M´todos y Aplicaciones e ´ ındice de actividad de la colinesterasa en suero. de glucosa y a los 60 minutos de la toma.

¿Es mayor la concentraci´n de glucosa en sangre a los 60 minutos. en los j´venes? o . ¿es menor en j´venes que en o adultos? 4. PROBLEMAS 253 1.7. ¿Se detecta a los 60 minutos una variaci´n del nivel de glucosa en o sangre diferente de los adultos.9. en o adultos que en j´venes? o 3. El contenido basal de glucosa en sangre. ¿Se detecta una variaci´n significativa del nivel de glucosa en sangre o en cada grupo? 2.

254 Bioestad´ ıstica: M´todos y Aplicaciones e .

por los que los m´todos estudiados e en los cap´ ıtulos anteriores no ser´ aplicables. el sexo. Estos son los contrastes asociados con el estad´ ısti2 . discretas o continuas o e agrupadas en intervalo). entre las que el investigador est´ interesado en determinar e e posibles relaciones. el nivel socio-cultural. Sin embargo. aunque ´ste sea el aspecto m´s conocido.Cap´ ıtulo 10 Contrastes basados en el estad´ ıstico Ji–Cuadrado 10. el uso del test e a 255 . Introducci´n o Existen multitud de situaciones en el ´mbito de la salud en el que las a variables de inter´s. o u etc.a. dependiendo de las modalidades que presente cada paciente en cada una de las variables. las cuales no pueden cuantificarse mediante cantidae des num´ricas. a lo sumo. ıan El objetivo de este tema es el estudio de este tipo de cuestiones en relaci´n con las variables cualitativas (y tambi´n v. Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervenci´n quir´rgica. tambi´n o e denominadas “frecuencias esperadas”.1. En este caso tendr´ ıamos. las observaciones agrupadas en forma de frecuencia. En general este tipo de tests consisten en tomar una muestra y co χ observar si hay diferencia significativa entre las frecuencias observadas y las especificadas por la ley te´rica del modelo que se contrasta.

2. Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores p0 . Podr´ ıamos decir que existen tres aplicaciones b´sicas en el uso de este test. El estad´ ıstico χ2 y su distribuci´n o Sea X una v. cuyo rango son los valores i = 1. . ad de varias muestras cualitativas: Sirve para contrastar la igualdad de procedencia de un conjunto de muestras de tipo cualitativo.  i → P[X = i] = pi     . discretos o bien intervalos para variables continuas. de modo que pi es la probabilidad de cada valor.256 Bioestad´ ıstica: M´todos y Aplicaciones e χ2 no se limita al estudio de variables cualitativas. c2 . k. .. . . . . . en funci´n de los resultados experimentales o . y cuyo desarrollo a veremos en el transcurso de este cap´ ıtulo: Tres son los temas que abordaremos de esta manera: Test de ajuste de distribuciones: Es un contraste de significaci´n para saber si los datos de una muestra o son conformes a una ley de distribuci´n te´rica que sospechamos que o o es la correcta. . . k). Test para tablas de contingencia: Es un contraste para determinar la dependencia o independencia de caracteres cualitativos.    k → P[X = k] = pk Supongamos que el resultado de un experimento aleatorio es una clase c1 . .a. 10. . i = 1.2... que puede representar valores cualitativos. Sea pi la probabilidad de que el resultado del experimento sea la clase ci .. propuestos para las i cantidades pi son correctas o no.   1 → P[X = 1] = p1    2 → P[X = 2] = p2     X. . . ck (ci .

2. EL ESTAD´ ISTICO χ2 Y SU DISTRIBUCION 257   H0 : Los p0 son correctos  i   H : Alguno de los p0 es falso 1 i ⇐⇒        H :  0                  H :  1      p1 = p 0 1 p2 = p 0 2 . pk = p0 . Ok k Oi = n i=1 Supongamos que la hip´tesis nula es cierta.. . Ok Clase ci c1 c2 . Abs.. es una n v. O1 . . el n´mero de individuos de o u que presentan esta modalidad al tomar una muestra de tama˜o n. ck Frec.a. . .´ 10.. k k Ei = n · i=1 i=1 p0 = n i . B n..1) Mediante muestreo aleatorio simple. Al ser pi = p0 la proporci´n o o i de elementos de la clase ci en la poblaci´n.. Por tanto la frecuencia esperada de o i individuos de esa clase es Ei = n · p0 i k ∀ i = 1.. k y y o bien o bien (10.2.. de distribuci´n binomial. . . . p0 . pk = p 0 k p1 = p 0 1 p2 = p 0 2 . . Oi O1 O2 . se toma una muestra de tama˜o n n y se obtienen a partir de ella unas frecuencias observadas de cada clase que representamos mediante O1 ..

De cualquier modo. siguiendo la linea de razonamiento anterior debe tomar valores peque˜os si H0 es cierta. de clases usadas. que son las frecuencias que e realmente se obtienen en una muestra. Para o decidir cuando los valores de χ2 son grandes es necesario conocer su ley de probabilidad. u si la unica condici´n sobre los Ei es que k Ei = n entonces h = 1. χk−p−h Ei donde el n´mero de grados de libertad depende de u El n´mero k. Se tiene entonces el siguiente resultado Teorema [Ley asint´tica para χ2 ] Si la hip´tesis H0 es cierta.258 Bioestad´ ıstica: M´todos y Aplicaciones e Obs´rvese que a diferencia de las cantidades Oi . entonces χ2 se o o distribuye aproximadamente como: k χ2 = i=1 (Oi − Ei )2 ≈ 2 . Si al tomar una muestra. las frecuencias esperadas no tienen por que ser n´meros enteros. su valor es grande n eso pone en evidencia que la hip´tesis inicial es probablemente falsa. n Pearson propuso el estad´ ıstico k χ2 = i=1 (Oi − Ei )2 Ei el cual. u El n´mero p de par´metros estimados a partir de la muestra para u a calcular los Ei . bajo la suposici´n de que u o H0 es cierta cabe esperar que las diferencias entre las cantidades Ei y Oi sea peque˜a. Por ejemplo. Por ejemplo si todas las cantidades p0 son especificadas i entonces p = 0. El n´mero de relaciones o condiciones impuestas a los Ei . ´ o i=1 .

 exp teo   Si χ2 > χ2 se rechaza H y se acepta H . χ es decir. nos indica que el contraste es unilateral: o . Se rechaza H0 0 5 10 15 20 25 Figura 10.2. 0 1 exp teo     2  χ = χ2 teo k−p−h.1−α Observaci´n o A pesar de que el contraste parece ser bilateral al ver la expresi´n de o la relaci´n (10. la forma de C.1).    2   χexp =  k i=1 sean (Oi − Ei )2 Ei −→   Si χ2 ≤ χ2 no rechazamos H0 . ∞) χ2 para n=10 n No se rechaza H0 χ2 1−α n. EL ESTAD´ ISTICO χ2 Y SU DISTRIBUCION 259 La aproximaci´n mejora cuando n es grande y los pi son cercanos a 1 . la regi´n cr´ o ıtica es C = (χ2 k−p−h.1: Regi´n cr´ o ıtica (sombreada) para un contraste con el estad´ ıstico 2. o 2 Como s´lo son los valores grandes de χ2 los que nos llevan a rechazar o H0 .´ 10.1−α .

. Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la pr´ctica. . salvo a lo sumo un 20 % de ellos. Ei = n · pi > 5 para todo i = 1. 2. Luego al o realizar la aproximaci´n mencionada hay que precisar en qu´ condiciones o e el error cometido es peque˜ o. Ok ) exp s´lo puede tomar un n´mero finito de valores distintos (aunque sean cano u tidades con decimales). Para ninguna clase ocurre que Ei = n · pi < 1 2. Si a pesar de todo. Ok . Por tanto su distribuci´n no es continua. . estas condiciones no son verificadas. que unicamente toman valores discretos. . Ei = n · pi > 5 para casi todos los i = 1. . o pero no podemos contrastar hip´tesis alternativas del tipo “pi mayor que o cierto valor”. k. Se utiliza entonces una regla m´s flexible y que no sacrifica a a demasiada precisi´n con respecto a la anterior: o 1. . . . De modo aproximado podemos enunciar n el siguiente criterio que recuerda al de la aproximaci´n binomial por la o distribuci´n normal: o 1. . . O2 . . . Luego las cantidades ´ χ2 (O1 .260 Bioestad´ ıstica: M´todos y Aplicaciones e S´lo podemos saber si existe desajuste entre los esperado y lo observado. . es necesario agrupar las clases que tengan menos elementos con sus adyacentes. . O2 . n > 30. . . Observaci´n o Obs´rvese que en realidad χ2 no es una variable aleatoria continua: Los e posibles resultados de la muestra se resumen en las cantidades O1 . k. .

p−p ˆ .N (0. calcuo lemos la significatividad del contraste: Zexp = Por otro lado. Para ello se considera una muestra de n = 618 individuos que padecen la enfermedad. Para ello le invitamos a o estudiar el siguiente ejemplo. ¿Qu´ conclusiones se obtiene de ello? e Soluci´n: o El contraste a realizar se puede plantear de dos formas que despu´s e veremos que son equivalentes: Contraste de una proporci´n: Si p es el porcentaje de hombres en la o poblaci´n de enfermos. podemos considerar el contraste: o   H0 : p = 1/2    H : p = 1/2 1 De la muestra obtenemos la siguiente estimaci´n puntual del porceno taje de enfermos de sexo masculino: p = 341/618 = 0.´ 10.2. Ejemplo Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. EL ESTAD´ ISTICO χ2 Y SU DISTRIBUCION 261 Observaci´n o El lector puede considerar los contrastes con el estad´ ıstico χ2 como una generalizaci´n del contraste de proporciones. y se observa que 341 son hombres y el resto son mujeres. 55178 ˆ Para ver si esto es un valor “coherente” con la hip´tesis nula. 1). p ∗ q/n .

574 0. 5/60 Como el contraste es de tipo bilateral. 574] = 2 · P[Z > 2. afirmamos que existe una evidencia o significativa a favor de la hip´tesis de que la enfermedad no afecta o por igual a hombres y mujeres. 5 = 2. χk−p−h = χ2 2−0−1 = χ1 Ei donde: . 5 × 0. es decir. la significatividad del contraste es (buscando en la tabla de la distribuci´n normal): o P[|Z| > 2. 005 = 1 % < 5 % Lo que nos indica que se ha de rechazar la hip´tesis nula y aceptar o la hip´tesis alternativa. Contraste con el estad´ ıstico χ2 : En este caso planteamos el contraste:    H :  0          H :  1  phombres = 1/2 pmujeres = 1/2 phombres = 1/2 pmujeres = 1/2 y o bien Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres. junto a los valores esperados en el caso de que la hip´tesis nula fuese cierta: o frecuencias observadas Oi 341 277 618 frecuencias esperadas Ei 618 × 1/2 = 309 618 × 1/2 = 309 618 Hombres Mujeres diferencia Oi − Ei 9 -9 0 (Oi − Ei )2 /Ei 322 /309 (−32)2 /309 6.262 Bioestad´ ıstica: M´todos y Aplicaciones e Zexp = 0. 55178 − 0.63 Consideremos entonces el estad´ ıstico k χ2 = i=1 (Oi − Ei )2 ≈ 2 2 . 574] = 2 ∗ 0.

En conclusi´n. S´lo hay una (que es habitual). EL ESTAD´ ISTICO χ2 Y SU DISTRIBUCION 263 k = 2 es el numero de modalidades posibles que toma la variable sexo: hombres y mujeres. La ventaja de la ultima forma de plantear el con´ traste (diferencia entre frecuencias observadas y esperadas) es que la t´cnica e se puede aplicar a casos m´s generales que variables dicot´micas. u El estad´ ıstico calculado sobre la muestra ofrece el valor experimental: χ2 = 6. con los dos m´todos llegamos a que hay una fuerte evio e dencia en contra de que hay el mismo porcentaje de hobres y mujeres que padecen la enfermedad. u a h = 1 es el n´meros de restricciones impuestas a los valores u esperados. p = 0 es el n´mero de par´metros estimados. De nuevo se obtiene que o 1 la significatividad del contraste es del 1 %<5 %. a a Observaci´n o Hay una f´rmula alternativa para el c´lculo de χ2 cuya expresi´n es m´s o a o a f´cil de utilizar cuando realizamos c´lculos: a a Proposici´n o k χ2 = i=1 2 Oi −n Ei Demostraci´n o .2.´ 10. que consiste en que o el n´mero esperado de enfermos entre hombres y mujeres es 60. 63 exp que es el percentil 99 de la distribuci´n χ2 . como se a o ver´ m´s adelante.

264 Bioestad´ ıstica: M´todos y Aplicaciones e k χ2 = i=1 k (Oi − Ei )2 Ei 2 Oi − 2 Oi Ei + Ei2 Ei k k 2 Oi −2 Oi + Ei Ei i=1 i=1 2 Oi − 2n + n Ei 2 Oi −n Ei = i=1 k = i=1 k = i=1 k = i=1 10. a . Podemos encontrarnos entonces o con dos casos: La ley de la v. La ley de la v. X sigue o no cierta distribuci´n. Contraste de bondad de ajuste para distribuciones Vamos a aplicar el contraste χ2 para determinar a trav´s de una muestra e si una v. X no es totalmente conocida y es necesario estimar algunos de sus par´metros.3.a.a.a. X que deseamos contrastar est´ completamente determia nada.

1.2: En los contrastes de distribuciones.  i → P[X = i] = pi     .a. . se compara si las observaciones (histograma) se distribuye seg´n una ley de probabilidad conocida. CONTRASTE DE BONDAD DE AJUSTE PARA DISTRIBUCIONES265 350 300 250 200 150 100 50 0 Frecuencias observadas Frecuencias esperadas ’observaciones’ esperado(x) 55 60 65 70 75 80 85 90 Figura 10.3. el contraste consiste en: .3. Distribuciones de par´metros conocidos a Deseamos contrastar si la v.10. u 10.    k → P[X = k] = pk donde todos los pi est´n fijados (hip´tesis H0 ). X sigue una ley de distribuci´n o   1 → P[X = 1] = p1    2 → P[X = 2] = p2     X. Entonces por lo mencionado a o anteriormente.....

Ejemplo Dadas dos parejas de genes Aa y Bb.1−α En este contraste se comete cierto error de aproximaci´n y por tanto ser´ tano a to mejor cuanto mayor sea n.  exp teo   Si χ2 > χ2 se rechaza H 0 exp teo     2  χ = χ2 teo k−1. debe estar compuesto del siguiente modo: u Frecuencias relativas 9/16 3/16 3/16 1/16 Leyes de Mendel −→ Fenotipo AB Ab aB ab Elegidos 300 individuos al azar de cierta poblaci´n se observa la siguiente o distribuci´n de frecuencias: o Frecuencias observadas 165 47 67 21 300 Fenotipo AB Ab aB ab Total ¿Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha poblaci´n? o Soluci´n: o .266 Bioestad´ ıstica: M´todos y Aplicaciones e    2   χexp =  k i=1 (Oi − n pi )2 n pi −→   Si χ2 ≤ χ2 no rechazamos H0 . la descendencia del cruce efectuado seg´n las leyes de Mendel.

5 de la distribuci´n χ2 .03 Bajo la hip´tesis de que H0 sea cierta.27 85. χ2 = exp i 2 Oi /Ei − n = 313. o Por otro lado. Por tanto la significatividad del contraste es del o 3 . 03 que seg´n la tabla de la distribuci´n χ2 es aproximadamente el percentil u o 99. CONTRASTE DE BONDAD DE AJUSTE PARA DISTRIBUCIONES267 El contraste a realizar es:        H :  0                  H :  1        H0 : Se cumplen las leyes de Mendel    H : No se cumplen 1 pAB = 9/16 pAb = 3/16 paB = 3/16 pab = 1/16 pAB = 9/16 pAb = 3/16 paB = 3/16 pab = 1/16 y y y ⇐⇒ o bien o bien o bien Para ello vamos a representar en una s´la tabla las frecuencias observao das. 75 300 × 3/16 = 52. 75 300 2 Oi /Ei 161. junto con las que ser´ de esperar en el caso de que H0 fuese cierta: ıan Fenotipo AB Ab aB ab Total Oi 165 47 67 21 300 Ei 300 × 9/16 = 168. no se ha estimado ning´n par´metro (la u a distribuci´n seg´n las leyes de Mendel es conocida). se tiene que: o χ2 = exp i 2 Oi /Ei − n. que es: i Ei = 300.10. 25 300 × 1/16 = 18.3.33 42.91 23. 25 300 × 3/16 = 52.52 313. y sobre las cantidades o u Ei existe solamente una restricci´n.χ2 4−0−1 ya que 4 son los posibles fenotipos. 03 − 300 = 13.

268

Bioestad´ ıstica: M´todos y Aplicaciones e

0, 5 % < 5 %, lo que nos conduce a rechazar la hip´tesis de que la poblaci´n o o de la que la muestra ha sido extra´ sigue las leyes de Mendel. ıda Al mismo resultado llegamos sin calcular con precisi´n la significatio vidad del contraste, sino considerando que el valor te´rico m´ximo que o a admitimos para el estad´ ıstico experimental con un nivel de significaci´n del o 5 % es el percentil 95 de χ2 , es decir, 3 χ2 = χ2 teo 3;0,95 = 7, 815 y claramente ocurre que χ2 > χ2 , por lo que se rechaza la hip´tesis nula. o exp teo Obs´rvese tambi´n que el que se haya rechazado la hip´tesis nula signifie e o ca que hay diferencia estad´ ısticamente significativa entre las frecuencias observadas y las esperadas.

Figura 10.3: Aunque aparentan ser aproximadamente iguales las frecuencias observadas y esperadas, existe diferencia estad´ ısticamente significativa entre ellas.

10.3.2.

Distribuciones con par´metros desconocidos a

Supongamos que la distribuci´n de X que queremos contrastar no eso pecifica ciertos valores de r par´metros a

10.4. CONTRASTE DE HOMOGENEIDAD DE MUESTRAS CUALITATIVAS269

X;Fam (θ1 , . . . , θr ) =⇒ X;

  1 → P[X = 1] = p1 (θ1 , . . . , θr )    2 → P[X = 2] = p2 (θ1 , . . . , θr )    

...

 i → P[X = i] = pi (θ1 , . . . , θr )     ...   

k → P[X = k] = pk (θ1 , . . . , θr )

Estimemoslos a partir de la muestra, y consideremos las cantidades ˆ ˆ pi = pi (θ1 , . . . , θr ) Entonces el contraste consiste en
   2   χexp = 
k i=1

(Oi − n pi )2 n pi

−→

  Si χ2 ≤ χ2 no rechazamos H0 ;  exp teo   Si χ2 > χ2 se rechaza H 0 exp teo

    2  χ = χ2 teo k−r−1,1−α

10.4.

Contraste de homogeneidad de muestras cualitativas

Vamos a generalizar el contraste de comparaci´n de dos proporciones o (p´gina 244). Consideremos una variable cualitativa (o cuantitativa agrua pada en intervalos) que puede tomar valores en diferentes clases. Se toman r muestras diferentes y se desea contrastar:
  H0 : Las r muestras son homog´neas con respecto a la variable e    H : Alguna muestra es diferente 1

La manera de proceder consiste en representar las r muestras en una tabla del tipo

270

Bioestad´ ıstica: M´todos y Aplicaciones e

Muestra1 Clase1 Clase2 ... Clasek Tama˜o n muestras → donde O11 O21 ... Ok1 C1

Muestra2 O12 O22 ... Ok2 C2

··· ··· ··· ... ··· ···

Muestrar O1r O2r ... Okr Cr

Frec. clases ↓ F1 F2 ... Fk T

Oij
k

→ frecuencia observada de la clase i en la muestra j

Fi =
j=1 r

Oij

→ n´mero de individuos de la clase i u

Cj =
i=1 r k

Oij

→ total de individuos de la muestra j

T =
i=1

Fi =
j=1

Ci → total de individuos muestreados

Bajo la hip´tesis H0 , la frecuencia esperada para la clase i en la muestra o j es —comp´rese con la condici´n de independencia en tablas de doble a o entrada, relaci´n (??): o Fi · Cj T

Eij =

La diferencia entre lo esperado y lo observado la mide el estad´ ıstico χ2

10.4. CONTRASTE DE HOMOGENEIDAD DE MUESTRAS CUALITATIVAS271

χ2 = exp

(Oij − Eij )2 = Eij i=1 j=1

r

k

2 Oij −T E i=1 j=1 ij

r

k

Su distribuci´n es aproximadamente χ2 , donde los grados de libertad, o gl gl = a − b − c, se calculan teniendo en cuenta que a = k · r → n´mero de casillas u b = k − 1 → n´mero de par´metros estimados u a c = r → relaciones impuestas sobre losEij Por tanto χ2 ; χ2 (k−1)×(r−1) y rechazamos H0 si χ2 > χ2 exp (k−1)×(r−1),1−α . Ejemplo Se desea saber si la distribuci´n de los grupos sangu´ o ıneos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria simple de cada una de ellas, obteni´ndose los datos reflejados en la tabla: e Frec. Obs. Muestra 1 Muestra 2 A 90 200 B 80 180 AB 110 240 0 20 30

(10.2)

¿Qu´ conclusiones pueden obtenerse de estos datos si se usa un nivel de e significaci´n del 5 %? o Soluci´n: Poseemos una variable cualitativa X, que es el grupo sano gu´ ıneo, y debemos contrastar si la distribuci´n es la misma en la primera o poblaci´n y la segunda. Para ello planteamos el contraste de homogeneidad o conveniente:

272

Bioestad´ ıstica: M´todos y Aplicaciones e

  H0 : La variable X se distribuye igualmente en ambas poblaciones    H : La distribuci´n no es homog´nea o e 1

Para ello escribimos la que ser´ la distribuci´n de frecuencias esperadas. ıa o ´ Estas se calculan a partir de las frecuencias marginales de la distribuci´n o de frecuencias esperadas: Frec. Esp. Muestra 1 Muestra 2 A 91,58 198,42 290 B 82,11 177,89 260 AB 110,53 239,47 350 0 15,79 34,21 50

300 650 950

El estad´ ıstico del contraste mide las discrepancia entre las observaciones observadas y esperadas: χ2 = exp
2 Oij 902 302 − 950 = + ··· + − 950 = 1, 76 E 91, 58 34, 21 i=1 j=1 ij 2 4

Los valores cr´ ıticos est´n a la derecha del percentil 95 del la distribuci´n a o χ2 = χ2 , que es χ2 = χ2 = 2, 35. Por tanto de dichas muesteo 3 3;0,95 (2−1)×(4−1) tras no se obtiene evidencia estad´ ıstica suficiente en contra de que exista una distribuci´n homog´nea del grupo sangu´ o e ıneo en ambas poblaciones.

10.5.

Contraste de independencia de variables cualitativas

A partir de una poblaci´n se toma mediante muestreo aleatorio simple o una muestra de tama˜o n. En cada observaci´n se analizan dos caracter´ n o ısticas cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales presentan r y s modalidades respectivamente. Deseamos contrastar si las dos variables son independientes, o sea, queremos realizar un test de significaci´n para las hip´tesis: o o

10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS273

  H0 : Las caracter´ ısticas A y B son independientes    H : Las caracter´ ısticas A y B est´n asociadas a 1

Este test puede ser enunciado de forma equivalente ordenando la muestra en una tabla de doble entrada denominada tabla de contingencia, muy parecida a la de la secci´n anterior: o B A A1 A2 ... Ai ... Ar B1 n11 n21 ... ni1 ... nr1 n•1 B2 n12 n22 ... ni2 ... nr2 n•2 ... ... ... ... ... ... ... ... Bj n1j n2j ... nij ... nrj n•j ... ... ... ... ... ... ... ... Bs n1p n2p ... nip ... nrp n•p n 1• n 2• ... ni• ... nr • n••

Aunque sobre la poblaci´n las siguientes probabilidades sean desconocidas, o introducimos la siguiente notaci´n o pij → Probabilidad de una observaci´n del tipo (Ai , Bj ); o

pi• → Probabilidad de una observaci´n de Ai ; o p•j → Probabilidad de una observaci´n de Bj ; o (10.3)

Recordando el concepto de independencia entre variables bidimensionales cualitativas, otro modo de escribir el contraste a realizar lo obtenemos bas´ndonos en la relaci´n (??): a o
  H0 : ∀ i = 1, . . . , r ∀ j = 1, . . . , s    H : ∃ i = 1, . . . , r ∃ j = 1, . . . , s 1

pij = pi• p•j pij = pi• p•j

1−α . o o Ejemplo 500 ni˜os de escuela primaria se clasificaron de acuerdo con el grupo n socioecon´mico y la presencia o ausencia de cierto defecto en la pronunciao ci´n. Oij = nij . han de ser estimadas a partir de las frecuencias observadas   pi• = ni•  ˆ  n••    p = n•j ˆ •j =⇒ Eij = n•• pi• p•j = ˆ ˆ ni• n•j n•• n•• lo que nos hace perder (r − 1) + (s − 1) grados de libertad adicionales al estad´ ıstico del contraste: χ2 exp = (nij − Eij )2 ≈ 2 . Como las cantidades pi y pj no son en principio conocidas.274 Bioestad´ ıstica: M´todos y Aplicaciones e La idea para realizar este contraste consiste en comparar como en los casos anteriores las frecuencias esperadas bajo la hip´tesis H0 . los resultados son los siguientes: o Grupo socioecon´mico o Medio–Superior Medio–Inferior 24 32 121 138 145 170 Con defecto Sin defecto Total Superior 8 42 50 Inferior 27 108 135 Total 91 409 500 . o con las obtenidas en la muestra. Observaci´n o Aunque el contraste de homogeneidad de muestras es conceptualmente diferente al de independencia de variables cualitativas. Eij = n•• pi• p•j . χ(r−1)×(s−1) Ei j i=1 j=1 r s Luego rechazamos H0 si χ2 > χ2 exp (r−1)×(s−1). obs´rvese la analog´ e ıa existente entre los criterios de aceptaci´n o rechazo de ambas hip´tesis.

no est´ relacionado con el grupo socioecon´mico? o a o Soluci´n: En forma de contraste de hip´tesis. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS275 ¿Son compatibles estos datos con la hip´tesis de que el defecto en la proo nunciaci´n. las diferencias entre las cantidades Oij Eij = nij ni• · n•j = n•• . o si por el contrario hay una fuerte evidencia a favor de H1 . de suponer H0 cierta. y anao lizamos gracias al estad´ ıstico χ2 . las diferencias existentes entre los valores esperados y los observados. fijamos un nivel de significaci´n α = 0. se ha de realizar el siguiente: o o   H0 : Son independientes el nivel socioecon´mico y el defecto de pronunciaci´n o o    H : No son independientes ambas cuestiones. es decir.5. 1 Para ver si H0 puede considerarse cierta. 05.10.

no existe evidencia significativa a favor de la hip´teo sis alternativa.1−α = χ3. . no se rechaza la independencia entre el defecto de pronunciaci´n de los ni˜os de la poblaci´n y el nivel socioecon´mico de su o n o o familia. 82 = 33. Luego de ser H0 cierta. teo Calculemos χ2 : exp χ2 = exp i.j 2 Oij − n•• = 500. 438 = 136. 61 2 O22 E22 O23 = 138 E23 = 139. o sea. 758 Eij En consecuencia. que se muestra en la Figura 10. 43 2 O24 E24 n2• = 409 = 43. 948 = 105. 06 2 O23 E23 O24 = 108 E24 = 110. 9 2 O21 E21 O22 = 121 E22 = 118. 033 = 21. 1 2 O11 E11 O14 = 27 E14 = 24. 67 O21 = 42 No E21 = 40.276 Bioestad´ ıstica: M´todos y Aplicaciones e Defecto Superior Medio superior O12 = 24 Grupo socioecon´mico o Medio inferior O13 = 32 E13 = 30. 758 − 500 = 0. 57 2 O14 E14 E12 = 26. 623 n•• = 500 Total n•1 = 50 n•2 = 145 n•3 = 170 n•4 = 135 El n´mero de grados de libertad del estad´ u ıstico del contraste es gl = (2 − 1) × (4 − 1) = 3. 39 2 O12 E12 n1• = 91 = 7.0 95 = 7 81. la cantidad χ2 no deber´ superar ıa exp el valor te´rico.j (Oij − Eij )2 = Eij i.4: o χ2 = χgl. 096 = 29. 130 = 123. 94 2 O13 E13 Inferior Total O11 = 8 Si E11 = 9.

o o .5.10. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS277 Figura 10.4: Comparaci´n del valor te´rico con el experimental.

1 y 2 para no palpable. Los datos son los de la tabla siguiente: o Palpabilidad 0 1 2 20 5 5 60 20 10 45 15 15 10 5 5 Degeneraci´n o 0 1 2 3 ¿Existe relaci´n entre el grado de palpabilidad y el an´lisis anatomopao a tol´gico? o Ejercicio 10. Se realiz´ una encuesta a 2979 andaluces para evaluar su o opini´n acerca de la atenci´n recibida en los Ambulatorios de la Seguridad o o Social. se tomaron dos muestras.6.2.1. clasific´ndolos tambi´n en relaci´n a sus estudios. Varios libros de Medicina Interna recomiendan al m´dico e la palpaci´n de la arteria radial con el fin de evaluar el estado de la pared o arterial. Ante la sospecha de que el h´bito de fumar de una embaa razada puede influir en el peso de su hijo al nacer.3. respectivamente) y seg´n una puntuaci´n de 0 a 4 en orden creciente u o de degeneraci´n arterial (evaluada tras la muerte del paciente y su an´lisis o a anatomo-patol´gico). Se tomaron 215 pacientes y se les clasific´ seg´n la palpabilidad de o u dicha arteria (grados 0. y se clasific´ a sus hijos en tres o categor´ en funci´n de su peso en relaci´n con los percentiles P10 y P90 ıas o o de la poblaci´n. El resultado se expresa en la tabla siguiente: o Peso del ni˜o n Entre P10 y P90 529 1147 ¿Madre fumadora? Si No Menor de P10 117 124 Mayor de P90 19 117 ¿Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra? Ejercicio 10.278 Bioestad´ ıstica: M´todos y Aplicaciones e 10. Analizar los datos a e o . palpable y muy palpable o dura. una de fumadoras y otra de no fumadoras. Problemas Ejercicio 10.

expresados en mg/dl en 90 ni˜os de 6 a˜os: n n Nivel de triglic´ridos e 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90 Frecuencias 5 11 15 24 18 12 4 1 Contrastar la hip´tesis de que el nivel de triglic´ridos en ni˜os de 6 a˜os o e n n . La siguiente tabla recoge la distribuci´n de los triglic´ridos o e en suero.10.4. se divide un u cultivo en 576 ´reas iguales y se cuenta el n´mero de bacterias en cada a u a ´rea. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado cultivo o si.5. los extremos.6. lo hacen con alg´n tipo de preferencia (el centro. por el contrario. PROBLEMAS 279 de la siguiente tabla: Opini´n o Buena Regular 800 144 905 312 287 157 95 48 38 32 Nivel de estudios Ninguno Primarios Bachiller Medios Superiores Mala 32 67 44 11 7 Ejercicio 10. Los resultados son los siguientes: no de bacterias no de ´reas a 0 229 1 211 2 93 3 35 4 7 ≥5 1 ¿Obedecen los datos a una distribuci´n de Poisson? o Ejercicio 10.. etc.)..

Cada paciente despu´s de haber tomado el nuevo analg´sico durane e te un periodo de tiempo determinado. fue interrogado para saber si prefer´ ıa ´ste o el que hab´ tomado anteriormente con regularidad. B. Ejercicio 10. 100 m´dicos seleccioe e naron cada uno de ellos una muestra de 25 pacientes para participar en el estudio. En M´laga. 30 %. se realiz´ el estudio en una muestra de 200 individuos obteni´ndose a o e una distribuci´n del 50 %. B AB y o O respectivamente. y 10 % para los grupos A. Se desea saber si la distribuci´n del grupo sangu´ o ıneo en dicha provincia es igual que en Andaluc´ ıa. 18 %. obteniendo los e ıa siguientes resultados: no de pacientes que prefieren el nuevo analg´sico e 0 1 2 3 4 5 6 7 8 9 10 o m´s a Total no de m´dicos que e obtienen estos resultados 5 6 8 10 10 15 17 10 10 9 0 100 no total de pacientes que prefieren el nuevo analg´sico e 0 6 16 30 40 75 102 70 80 81 0 500 Queremos saber si estos datos se ajustan a una distribuci´n binomial.7. En un estudio dise˜ado para determinar la aceptaci´n por n o una parte de los pacientes de un nuevo analg´sico. La distribuci´n en Andaluc´ del grupo sangu´ o ıa ıneo es de un 35 %. o Ejercicio 10. 6 % y un 49 % para los grupos A. 10 %. o .6. AB y O respectivamente.280 Bioestad´ ıstica: M´todos y Aplicaciones e sigue una distribuci´n Normal.

14 corresponden al tratamiento A y de los 14 que tienen una mala recuperaci´n corresponden al tratamiento A.500 Ejercicio 10. si las distribuciones atendiendo al grupo sangu´ ıneo.320 105 1. y queremos n saber si los datos de esta muestra provienen de una distribuci´n Normal.8. PROBLEMAS 281 Ejercicio 10. en tres muestras referidas atendiendo al tipo de tensi´n arteo rial. cuyos pesos son los presentados en la tabla adjunta. Disponemos de una muestra de 250 mujeres mayores de 18 a˜os. normal. clasific´ndose ´sta en baja.10. se reuni´ una muestra de o 1500 sujetos a los que se les determin´ su grupo sangu´ o ıneo y se les tom´ la o tensi´n arterial. Para lo cual. y alta. o Pesos 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90 90 – 100 100 – 110 no de mujeres 16 18 22 51 62 55 22 4 Ejercicio 10. buena y mala. se distribuyen de igual manera.9. Se adminisıas: tra el tratamiento A a 30 pacientes y B a otros 30: De las 22 recuperaciones muy buenas.6. La recuperaci´n producida por dos tratamientos distintos o A y B se clasifican en tres categor´ muy buena. 10 corresponden al tratamiento A. Deseamos conocer.10. de las 24 recuperaciones buenas . ¿Son igualmente efectivos o . Obteni´ndose o a e e los siguientes resultados: Grupo sangu´ ıneo B AB O 9 7 31 211 90 476 22 8 31 242 105 538 Tensi´n arterial o Baja Normal Alta Total A 28 543 44 615 Total 75 1.

282 Bioestad´ ıstica: M´todos y Aplicaciones e ambos tratamientos para la recuperaci´n de los pacientes? o .

σ 2 X3 . Es por ello por lo que el an´lisis de a 1 surge como una generalizaci´n del contraste para la varianza. e e 283 . Introducci´n o Del mismo modo que el contraste χ2 generalizaba el contraste de dos proporciones.Cap´ ıtulo 11 An´lisis de la varianza a 11.N µ2 . Por ejemplo.1. σ 2 X2 .N µ3 . supongamos que tenemos 3 muestras de diferentes tama˜os n que suponemos que provienen de tres poblaciones normales con la misma varianza: x1 ∈ I n1 R x2 ∈ I n2 R x3 ∈ I n3 R Si queremos realizar el contraste 1 X1 . σ 2 Del t´rmino ingl´s “Analysis of variance”.N µ1 . ANOVA o dos medias de la t de Student. es necesario definir un nuevo contraste de hip´tesis que sea o aplicable en aquellas situaciones en las que el n´mero de medias que queu remos comparar sea superior a dos. cuando el n´mero de muestras a contrastar u es mayor que dos.

El error de tipo I para este contraste es: o Prob Rechazar H0 |H0 es cierta = 1 − Prob No rechazar H0 |H0 es cierta = 1 − Prob No rechazar H0 ni H0 ni H0 = 1 − (1 − α) 3 |H0 y H0 y H0 son ciertas . H1 ´ H1 es aceptada y rechazada su correspondiente o hip´tesis nula.284 Bioestad´ ıstica: M´todos y Aplicaciones e   H0 : µ1 = µ2 = µ3    H : µ =µ ´µ =µ ´µ =µ 1 1 2 o 1 3 o 2 3 podr´ ıamos en plantearnos como primer m´todo el fijar una cantidad α e 3 pr´xima a cero y realizar los o = 3 contrastes siguientes con α como 2 nivel de significaci´n: o   H0 : µ1 = µ2    H : µ =µ 1 2 1 nivel de significaci´n α o   H0 : µ1 = µ3    H : µ =µ 1 3 1 nivel de significaci´n α o   H0    H 1 : µ2 = µ3 nivel de significaci´n α o : µ2 = µ3 de modo que se aceptar´ H1 y se rechazar´ H0 s´lo si alguna de las hip´teıa ıa o o sis alternativas H1 .

t. Por ejemplo podemos considerar un f´rmaco que se u a administra a t = 3 grupos de personas y se les realiza cierta medici´n del o efecto causado: Resultado de la medici´n o 5 4 3 → n1 = 6 7 8 9 10 8 10 → n2 = 9 1 2 3 2 → n3 = 7 Gripe (nivel 1) Apendicitis (nivel 2) Sanos (nivel 3) 5 8 2 3 9 3 2 6 2 . Consideremos una variable a sobre la que act´a un factor que puede presentarse bajo un determinado u n´mero de niveles. lo que es una cantidad muy alta para lo que acostumbramos a usar.11. ANOVA con un factor Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada la hacemos depender de un s´lo factor de tal manera que las causas de su variabilidad son englobadas o en una componente aleatoria que se denomina error experimental: X = factor ± error Vamos a exponer esto con m´s claridad. 11. En consecuencia. 27.2. Una t´cnica que nos permite realizar el contraste de modo conveniente e es la que exponemos en este cap´ ıtulo y que se denomina an´lisis de la a varianza. sino 1 − (1 − α)3 . 93 = 0. si tomamos un nivel de significaci´n α = 0 1 para cada uno de los contrastes de igualdad de dos medias. ANOVA CON UN FACTOR 285 Por ello el nivel de significaci´n obtenido para este contraste sobre la igualo dad de medias de tres muestras no es α como hubi´semos esperado obtener e inicialmente.2. no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante una multitud de contrastes de igualdad de medias de dos muestras. Por ejemplo. o se obtendr´ que el nivel de significaci´n (error de tipo I) para el contraste ıa o de las tres medias es de 1 − 0.

dentro de a cada nivel las observaciones son independientes entre s´ ı. .. los tama˜os de cada muestra ni . provienen de una variable Xij de forma que todas tienen la misma varianza —hip´tesis de homocedasticidad: o Xij . Xij = µi + ij . . e De modo general podemos representar las t muestras (o niveles) del siguiente modo: Niveles Nivel 1 ≡ N1 Nivel 2 ≡ N2 . con valor . no tienen por que ser n iguales. xt2 ··· tama˜os muestrales n n1 n2 .. y los errores ij son variables aleatorias independientes. .286 Bioestad´ ıstica: M´todos y Aplicaciones e En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe. σ 2 o lo que es lo mismo. Nivel t ≡ Nt Observaciones de X x12 · · · x1n1 x22 · · · x2n2 . o que est´ sana. Observaci´n o De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras: Las observaciones proceden de poblaciones normales. j = 1.. Adem´s. σ 2 De este modo µi es el valor esperado para las observaciones del nivel i. ... Las t muestras son aleatorias e independientes. En el modelo de un factor suponemos que las observaciones del nivel i. apendicitis.N µi .. nt x11 x21 xt1 xtnt donde por supuesto. xij .N 0. ni donde ij . En este caso decimos que se trata del modelo no equilibrado.

ANOVA CON UN FACTOR 287 esperado nulo. . ij es la parte de la variable Xij no explicada por µ ni αi .2. Especificaci´n del modelo o Con todo lo anterior. αi . y considerar los efectos αi introducidos por los niveles. σ 2 y con la siguiente interpretaci´n: o µ es una constante com´n a todos los niveles. . a . de modo que µi = µ + αi t i = 1. de los niveles no son independientes. u αi es el efecto producido por el i–´simo nivel.11. el modelo ANOVA de un factor puede escribirse como Xij = µ + αi + ij . y que se distribuye del mismo modo (aunque independientemente) para cada observaci´n. . y es fundamental en el o an´lisis de la varianza. donde ij . t ni αi = 0 i=1 11.2.N 0.1. y con el mismo grado de dispersi´n para todas las o observaciones. seg´n la ley gaussiana: o u ij .N 0. Otro modo de escribir lo mismo consiste en introducir una cantidad µ que sea el valor esperado para una persona cualquiera de la poblaci´n o (sin tener en cuenta los diferentes niveles). Al sumarlos todos deben e compensarse los efectos negativos con los positivos para que la media com´n a todos los niveles sea realmente µ. σ 2 ´ Esta es la condici´n de homocedasticidad. . Esto implica en particular u que los efectos.

de forma que ambas tengan la misma varianza muestral (lo que indica que no se puede rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante diferentes. o La producida por los restantes factores que entran en juego. controlables o no. Si mediante los contrastes estad´ ısticos adecuados la variaci´n producida o por cierto factor es significativamente mayor que la producida por el error experimental podemos aceptar la hip´tesis de que los distintos niveles del o factor act´an de forma distinta. conocidos o no. a Te´ricamente es posible dividir la variabilidad de la variable que se estudia o en dos partes: La originada por el factor en cuesti´n.288 Bioestad´ ıstica: M´todos y Aplicaciones e Obs´rvese que ahora podemos escribir el contraste de que los diferentes e niveles no tienen influencia sobre la observaci´n de la variable como: o   H0 : µ1 = µ2 = · · · = µt    H : Al menos dos son distintos 1 o bien   H0 : α1 = α2 = · · · = αt = 0    H : Alg´n α = 0 u 1 i Observaci´n o Se utiliza el nombre de an´lisis de la varianza ya que el elemento b´sia a co del an´lisis estad´ a ıstico ser´ precisamente el estudio de la variabilidad. Por ejemplo: . u Ejemplo Consideremos dos muestras tomadas en diferentes niveles de una variable. que se conocen con el nombre de error experimental.

2. 55 x2 = 12  ˆ2  S =1 2 La dispersi´n calculada al medir la de los dos niveles conjuntamente es o mucho mayor que la de cada uno de ellos por separado. En primer lugar tenemos: e t N = i=1 ni ni xij j=1 n´mero total de observaciones (entre todos los niveles) u suma de las observaciones del nivel i media muestral del nivel i xi• = xi• = x•• = xi• ni t ni t xij = i=1 j=1 i=1 ni xi• suma de todas las observaciones x•• = x•• N media muestral de todas las observaciones Usando estos t´rminos vamos a desglosar la variaci´n total de la muestra en e o variaci´n total dentro de cada nivel (intravariaci´n) m´s la variaci´n entre o o a o los distintos niveles (intervariaci´n). Algo de notaci´n relativa al modelo o Este apartado est´ dedicado a introducir alguna notaci´n para escribir los a o t´rminos que ser´n m´s importantes a la hora de realizar un contraste por e a a el m´todo ANOVA. ANOVA CON UN FACTOR 289 nivel 1  n1 = 3  1.   n2 = 3                          =⇒   n = n1 + n2 = 6  x=7  ˆ2  S ≈ 5. 12.2. 2. Por tanto puede deducirse que ambos niveles no tienen el mismo valor esperado. 3 . Para ello utilizamos la proposici´n ?? o o (p´gina ??): a .11. 13 . 11. x1 = 2  ˆ2  S =1 1 nivel 2 11.2.

3) .290 Bioestad´ ıstica: M´todos y Aplicaciones e SCT = SCD + SCE donde t ni SCT = i=1 j=1 t ni (xij − x•• )2 (xij − xi• )2 i=1 j=1 t Suma de Cuadrados Totales SCD = SCE SC Dentro de cada nivel = i=1 ni (xi• − x•• )2 SC Entre todos los niveles Observaci´n o En el c´lculo del estad´ a ıstico SCT intervienen N cantidades. a Por razones an´logas tenemos que el n´mero de grados de libertad de SCD a u es N − t y el de SCE es t − 1.2) (11. ligadas por una relaci´n: o t ni x•• = i=1 j=1 xij de este modo el n´mero de grados de libertad de este estad´ u ıstico es N − 1 (recu´rdese la noci´n de grados de libertad de un estad´ e o ıstico. As´ introducimos los siguientes estad´ ı ısticos: ˆ2 ST = ˆ2 SE = ˆ2 SD = SCT N −1 SCE t−1 SCD N −t Cuasivarianza total Intervarianza Intravarianza (11.1) (11. p´gina ??).

En la figura inferior s´ ı.3.1: En la figura de superior no existe una evidencia significativa en contra de que las medias de los tres grupos de observaciones coinciden. n o Figura 11. 11.2. Forma de efectuar el contraste Consideramos el contraste   H0 : α1 = α2 = · · · = αt = 0    H : Alg´n α = 0 u 1 i y suponemos que estamos en las condiciones del modelo factorial de un .11.2. que la o intervarianza sea peque˜a en relaci´n con la intravarianza. ANOVA CON UN FACTOR 291 Estos son los estad´ ısticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias. es de esperar que la cuasivarianza total sea pr´xima a la intravarianza. o lo que es lo mismo. Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja.

era de esperar que SE fuese peque˜o en relaci´n n o ˆ2 ).N −t.N −t ˆ S2 D Luego si al calcular Fexp obtenemos que Fexp > Ft−1. con SD 11.Ft−1.1−α donde α es un nivel de significaci´n dado.292 Bioestad´ ıstica: M´todos y Aplicaciones e factor. deberemos de rechazar la hip´tesis nula o o ˆ2 (ya que si H0 fuese cierta. En primer lugar a calculamos los siguientes estad´ ısticos a partir de la tabla de las observaciones en cada nivel: t ni A = i=1 j=1 t x2 ij x2• i ni B = C = i=1 x2 •• N . Si H0 es cierta se puede demostrar que el siguiente estad´ ıstico se distribuye como una F de Snedecor: Fexp = ˆ2 SE . indicando la forma m´s sencilla de realizar el contraste.2. M´todo reducido para el an´lisis de un factor e a En este apartado vamos a resumir lo m´s importante de lo visto hasta ahoa ra.4.

.. x2• .N −t.2.. .2.1−α rechazando H0 si Fexp > Fteo . Nivel t xt1 xt2 . xt• x•• x2• 2 n2 n2 x2 2j j=1 ...11... ANOVA CON UN FACTOR 293 Niveles Nivel 1 Observaciones de X x11 x12 ··· x1n1 C´lculos al margen a n1 x1• x2• 1 n1 n1 x2 1j j=1 Nivel 2 x21 x22 ··· x2n2 n2 .. ··· xtnt nt N x2• t nt B nt x2 tj j=1 A Entonces las siguientes cantidades admiten una expresi´n muy sencilla: o SCE ˆ2 SE = t−1 SCD ˆ2 SD = N −t SCE SCT = B−C = A−C =⇒ SCD = A − B Calculamos =⇒ Fexp = ˆ2 SE ˆ S2 D y dado el nivel de significaci´n α buscamos en una tabla de la distribuci´n o o F de Snedecor el valor Fteo = Ft−1. como se aprecia en la Figura 11.

obteni´ndose los resultados de la tabla que se adjunta. En principio la independencia entre las observaciones es algo bastante natural a la hora de realizar un estudio. m=16 No rechaza la igualdad de medias: H0 Fn. Para ello vamos a suponer que estamos en condiciones de aplicar el modelo de un factor2 . pero no lo es tanto la condici´n de homocedasticidad. 1−α 0 1 2 3 Se rechaza H0 4 Figura 11. 2 . m. M´s adelante veremos ciertos contrastes o a de homocedasticidad que deben ser siempre realizados antes de aplicar esta t´cnica: test e de Cochran y test de Bartlett. m para n=3. Esto es algo que debe ser contrastado previamente.2: Regi´n cr´ o ıtica en un contraste ANOVA. Queremos saber si se e puede concluir que todos los tratamientos tienen el mismo efecto.294 Bioestad´ ıstica: M´todos y Aplicaciones e Fn. Ejemplo Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes.

Fexp > Fteo .167 · = SCD N −t =18. nos interesa conocer que niveles del factor son los a que han influido m´s para que se de este resultado.2.676 Fteo = Ft−1. An´lisis de los resultados del ANOVA: Comparacioa nes m´ ltiples u Una vez contrastado el que existen diferencias significativas mediante el an´lisis de la varianza. en el caso u en que la igualdad de medias sea rechazada. Esto motiva a los contrastes de comparaciones m´ltiples (dos a dos).65 En conclusi´n. para que. o 11.033 5 295 ni Tratamientos Tratamiento Tratamiento Tratamiento Tratamiento 1 2 3 4 -1 -2 0 1 Observaciones 1 -4 -1 4 2 -5 -2 6 0 -4 -4 3 -1 -7 -1 8 ni 5 5 5 5 N = 20 xi• 1 -22 -8 22 x•• = 7 ⇓ 49 C= 20 x2 ij j=1 7 110 22 126 A = 265 Fuente de variaci´n o Entre tratamientos Dentro de los tratamientos grados de libertad t−1=3 Suma cuadrados SCE =B−C =204.4 se representan las observaciones de cada nivel de tratamiento mediante una curva normal cuyos par´metros se han estimado a puntualmente a partir de las observaciones. En la Figura 11.5. ANOVA CON UN FACTOR x2• i ni 1/5 484/5 64/5 484/5 B = 1.15 Cuasivarianzas ˆ2 SE ˆ2 SD = SCE t−1 Estad´ ıstico Fexp = ˆ2 SE ˆ2 SD =68.N −t =3. Como ilustraci´n. Obs´rvese que las diferencias e m´s importantes se encuentran entre Los tratamientos 2 y 4.11. se pueda establecer qu´ niveles e tuvieron mayor influencia en esta decisi´n.4 =3.2. por tanto se ha de rechazar la igualdad de o efectos de los tratamientos.24 N − t = 16 SCD =A−B =58. en a o .

296 Bioestad´ ıstica: M´todos y Aplicaciones e F3.95 0 5 10 15 20 Figura 11. y probablemente de ah´ venga el que se haya ı rechazado la igualdad de todos los efectos. . 0. tN −t . . 16 Se rechaza la igualdad de medias: H0 Fexp = 18. . que consiste en realizar todas e a las comparaciones por parejas:   H0 : µi = µj    H : µ =µ 1 i j i. Hay gran evidencia estad´ ıstica en contra. 16. que tienen en este caso como estad´ ıstico experimental a (de nuevo suponiendo la homocedasticidad en todas las muestras): Texp = ˆ SD xi − xj 1 1 + ni ni . t i = j =⇒ t 2 contrastes lo que corresponde a los ya conocidos contrastes de la t de Student. El m´todo m´s simple es el de Bonferroni. el ultimo ejemplo se ve claramente que los tratamientos segundo y cuarto ´ dan resultados muy diferentes. .3: Se rechaza la hip´tesis de que los tratamientos tienen el mismo o efecto en los diferentes grupos. j = 1.68 F3.

Para una probabilidad de error de tipo I (nivel de significaci´n) α.3. CONSIDERACIONES SOBRE LAS HIPOTESIS SUBYACENTES EN EL MODELO FAC Figura 11.4: Las diferencias m´s importantes se encuentran entre los niveles a 2 y 4. las siguientes suposiciones: .3. entre otras. el procedimiento de comparaciones m´ltiples o u de Bonferroni nos indica que declaremos significativas las diferencias entre muestras cuando estas sean significativas en contrastes bilaterales para el estad´ ıstico anterior para el nivel de significaci´n o α = α t 2 11. ˆ ya que la intravarianza SD . Sin embargo el nivel de significaci´n de los contrastes debe ser disminuio do para tener en cuenta que ahora al hacer multitud de contrastes aumenta la probabilidad del error de tipo I.´ 11. Consideraciones sobre las hip´tesis subyao centes en el modelo factorial Para aplicar el modelo de un factor hemos hecho. es un estimador de σ 2 con N − t grados de libertad.

3. El estad´ ıstico del contraste es: Rexp = ˆ m´x Si2 a t t i=1 ˆ Si2 i=1 ˆ donde se define Si2 como la cuasivarianza de la muestra del nivel i. o 11.298 Bioestad´ ıstica: M´todos y Aplicaciones e Las observaciones de cada muestra han de ser independientes y tambi´n la de las muestras entre s´ Para ello podemos aplicar cualquiera e ı. por ejemplo. y que es mucho m´s c´modo de utilizar.1. es decir ˆ Si2 = 1 ni − 1 ni (xij − xi• )2 = j=1 1 ni − 1 ni x2 − ij j=1 ni x2 ni − 1 i• . En este caso N = t · n. es decir:   H0 : σ 1 = σ 2 = · · · = σ t    H : Alg´n σ = σ u i 1 j Para esto podemos utilizar un par de contrastes que exponemos brevemente a continuaci´n: contraste de Cochran y contraste de Bartlett. o bien el test de d’Agostino. Contraste de homocedasticidad de Cochran Este test se aplica cuando n = n1 = n2 = · · · = nt y si ha sido verificada previamente la aleatoriedad y la normalidad de las observaciones. de los contrastes no param´tricos de aleatoriedad. Esto es algo que deber´ ser contrastado previamente antes de utilizar el ıa ANOVA de un factor mediante. e Los datos han de ser normales en cada una de las muestras. a o Las varianzas de cada muestra son todas iguales. el test de ajuste a la distribuci´n normal mediante el estad´ o ıstico χ2 que ya conocemos. que veremos m´s adelante en la p´gina a a 308. En principio esta e aleatoriedad es algo que es bastante razonable admitir si la metodolog´ para elegir los datos (muestreo) ha sido realizada siguiendo ıa t´cnicas adecuadas.

3.´ 11.1−α y se rechaza H0 si Rexp > Rteo . o pero en este caso no es necesario el que todas las muestras sean del mismo tama˜o. El estad´ n ıstico del contraste es: 1 k t χ2 = exp ˆ2 (N − t) ln SD − i=1 ˆ ln Si2 . En la inferior. Contraste de homocedasticidad de Bartlett Este test se aplica si estamos en la misma situaci´n que en el de Cochran.t. CONSIDERACIONES SOBRE LAS HIPOTESIS SUBYACENTES EN EL MODELO FAC Figura 11.2.5: En la figura superior hay evidencia en contra de la homocedasticidad en las tres muestras. no.3. Fijado un nivel de significaci´n α se busca en la tabla de la distribuci´n de o o Cochran el valor Rteo = Rn−1. 11.

300 Bioestad´ ıstica: M´todos y Aplicaciones e siendo k =1+ 1 3 (t − 1) t i=1 1 1 − ni − 1 N − t Se rechaza H0 si χ2 > χ2 exp t−1.1−α .

Metab´lica o Acid. pas´ndoles a cada una a de ellas un test que mide el grado de ansiedad del individuo.4. Los datos se dan en la siguiente tabla: .En una experiencia para comparar la eficacia de diversas t´cnicas en el e tratamiento del dolor producido por una intervenci´n quir´rgica superficial.11...4. con esas enfermedades. Mixta 51 60 69 70 56 65 73 75 58 66 74 76 68 75 85 86 72 78 87 88 73 80 88 89 Obtener conclusiones a partir de los resultados de esas muestras. 3. Problemas 1. Respiratoria Acid. Para ello se tomaron tres muestras de 10. Enfermedad A B C Grado 5 6 5 4 7 9 de 3 6 3 ansiedad 3 2 6 4 4 4 5 5 4 2 7 6 1 5 5 5 8 5 3 3 2 ¿Que puede concluirse de los datos?. PROBLEMAS 301 11. Los resultados se dan en la tabla adjunta. se obtuvieron o los datos de la siguiente tabla: Niveles de 60 62 68 68 78 79 77 79 glucemia 63 65 69 73 79 82 80 82 Controles Acid. o u 28 pacientes se agruparon al azar en 4 grupos de 7. 12 y 8 personas.Se desea saber si el grado de ansiedad es el mismo.Para evaluar la influencia del tipo de acidosis del reci´n nacido en los e niveles de glucemia medidos en el cord´n umbilical del mismo. en e tres enfermedades distintas. por t´rmino medio.. tratando al primero con placebo. respectivamente. y a los siguientes con dos tipos de analg´sicos (A y B) y e acupuntura. 2.

n 8 y 10. Los valores obtenidos para cada individuo vienen expresados en la tabla: Individuos 2 3 4 16 18 15 17 21 16 14 18 15 16 20 13 Antes de los tratamientos Despu´s de I e Despu´s de II e Despu´s de III e 1 14 16 15 17 5 20 24 22 18 Estudie si el efecto de estos f´rmacos en la variaci´n respiratoria producida a o .302 Bioestad´ ıstica: M´todos y Aplicaciones e Tratamiento Placebo Analg´sico A e Analg´sico B e Acupuntura Minutos para la remisi´n del dolor o 35 22 5 14 38 42 65 85 80 46 61 99 114 110 100 107 142 88 63 94 70 86 125 103 99 154 75 160 ¿Que conclusiones pueden obtenerse de esta experiencia?. Los niveles de colesterina medidos despu´s de 2 semanas de dieta e se representan a continuaci´n: o Dieta A B C Nivel 3’3 2’75 2’55 de colesterina 3’1 3’25 3’25 2’6 2’8 3’05 2’3 2’35 2’6 2’9 3’15 3 3’35 2’95 2’6 3’25 2’8 2’65 3 3’1 2’2 3’1 2’35 3’05 2’6 3’25 3 Analice los resultados obtenidos...Se est´ llevando a cabo un estudio para comprobar el efecto de tres diea tas diferentes en el nivel de colesterina de pacientes hipercolesterin´micos. de tama˜os 12. 4.En un colectivo de 5 individuos se aplican 3 f´rmacos para estudiar a su influencia sobre sus movimientos respiratorios (n´mero de inspiraciones u por minuto). e Para ello se han seleccionado al azar 3 grupos de pacientes. 5.

.11. PROBLEMAS 303 puede considerarse o no el mismo.4.

304 Bioestad´ ıstica: M´todos y Aplicaciones e .

Introducci´n o Hasta ahora todas las t´cnicas utilizadas para realizar alg´n tipo de e u inferencia exig´ ıan: bien asumir de ciertas hip´tesis como la aleatoriedad en las observao ciones que componen la muestra. algunos de los cuales desarrollamos en este cap´ ıtulo. varianza. o bien. a a e 305 .1. o a proporci´n. etc. o o la igualdad de varianzas de dos poblaciones. o la normalidad de la poblaci´n. etc. Existen sin embargo otros m´todos paralelos cuyos procedie e mientos no precisan la estimaci´n de par´metros ni suponer conocida nino a guna ley de probabilidad subyacente en la poblaci´n de la que se extrae la o muestra. o o El conjunto de estas t´cnicas de inferencia se denominan t´cnicas pae e ram´tricas. Estas son las denominadas t´cnicas no param´tricas o cone e trastes de distribuciones libres. Sus mayores atractivos residen en que: Son m´s f´ciles de aplicar que las alternativas param´tricas.Cap´ ıtulo 12 Contrastes no param´tricos e 12. de la poblaci´n. la estimaci´n de cualquier par´metro como la media.

Tambi´n podemos denominar a este contraste como test e de independencia de las observaciones de una muestra. Consideremos una muestra de tama˜o n que ha sido dividida en dos n categor´ ıas y ⊕ con n1 y n2 observaciones cada una. m´s que para establecer una relaci´n de menor a a o mayor entre las mismas. Como ilustraci´n obs´rvese la ıa o o e figura adjunta. son o o m´s generales que las param´tricas. una poblaci´n de personas podemos considerar como categor´ el sexo o ıa ≡ ser hombre ⊕ ≡ ser mujer 4 ⊕ ⊕ ⊕ 3 rachas ⊕ 2 1 3   n1 = 5   2  n=n +n =9 1 2 n =4 .306 Bioestad´ ıstica: M´todos y Aplicaciones e Al no exigir ninguna condici´n suplementaria a la muestra sobre su o proveniencia de una poblaci´n con cierto tipo de distribuci´n. denominadas rangos. con lo cual no estamos en las condiciones de un muestreo aleatorio simple. El principal es la falta de sensibilidad que poseen para detectar efectos importantes. a Por otro lado.2. Se denomina racha a una sucesi´n de valores de la misma categor´ Por ejemplo si estudiamos o ıa. pudi´ndose aplicar en los mismos a e e casos en que estas son v´lidas. esta liberaci´n en los supuestos sobre la poblaci´n tiene o o inconvenientes. Aleatoriedad de una muestra: Test de rachas A veces al realizar un muestreo. 12. En las t´cnicas no param´tricas juega un papel e e fundamental la ordenaci´n de los datos. ya que la ley de probabilidad var´ de una observaci´n a otra. hasta el punto de que en gran cano tidad de casos ni siquiera es necesario hacer intervenir en los c´lculos las a magnitudes observadas. puede llegar a influir el orden temporal o espacial en que las muestras han sido elegidas.

2. ALEATORIEDAD DE UNA MUESTRA: TEST DE RACHAS 307 x Q #w  £ƒ  g ‚ ¢d t t t £ t t t t¢ t f t t E g £ 3 5 6 g 7¢ 8 9 f 1 2 3 x f ‡ g¢ I  £ £ no observaci´n o ~  x X $ $ XX $$ $$ B ˆ¨ z¨ U t t t tt t t t t t E I   1&3 3 5 6 7 8 9 2 Ib & no observaci´n o Aleatoria No aleatoria (tendencia) x X $ $ E  ~ 0 t t t t t t t t t t E e  1 2  3 5 6 7 e8ˆ¨ 3 …ˆ9¨  zB I    x # ££g f  g t£ t t ¢t t ¢gt t ¢t t t E e ¢ £ 2 g 3¢ 3 f 5 ¢ 6g 7 ¢8 e 1 g 9 f¢ g x … e £ ¢ ‡ g¢ nggo observaci´n o ‡¢ no observaci´n o No aleatoria (peri´dica) o No aleatoria (alternante) .12.

3. se busca un intervalo (Dn. para un nivel de significaci´n α. la desviaci´n t´ o ıpica un estad´ ıstico T y por ultimo el estad´ ´ ıstico del contraste D cuya distribuci´n est´ tabulada o a n T D= T n2 S = i=1 i− n+1 2 n xi = i=1 i xi − n(n + 1) x 2 (12. si consideramos la mediana de las observaciones como el valor que sirve para dividir a la muestra: ≡ observaci´n inferior a la mediana o ⊕ ≡ observaci´n superior a la mediana o Se define la v. 12. Dn.n2 .α ) de modo o . las cuales ordenamos de menor a mayor y les asignamos su rango en funci´n de este orden o Observaciones ordenadas Rango → x1 x2 x3 · · · xi · · · xn → ··· ··· 1 2 3 i n Se calculan sobre la muestra la media. La aleatoriedad en la extracci´n de la muestra se rechaza cuando R ≤ Rn1 . n Si las observaciones son cantidades num´ricas estas pueden ser divididas e en dos categor´ que poseen aproximadamente el mismo tama˜o (n1 = ıas n n2 ± 1).α . R como el n´mero de rachas. Su distribuci´n est´ tau o a bulada para los casos n1 ≤ 20 y n2 ≤ 20 (tabla 7 de Downie). Normalidad de una muestra: Test de D’Agostino Consideremos n observaciones. (tabla 8) D.n2 .308 Bioestad´ ıstica: M´todos y Aplicaciones e En funci´n de las cantidades n1 y n2 se espera que el n´mero de rachas no o u sea ni muy peque˜o ni muy grande.1−α/r .2) En la tabla de la distribuci´n del estad´ o ıstico de D’Agostino.1) (12.a.α/2 o o ´ R ≥ Rn1 .

p´gina 228). ordenadas de menor a mayor. x2 . Rexp . 12.1. Esto puede realizarse mediante un test de rachas. que exponemos a continuaci´n. .5.4. cabe esperar que bajo la hip´tesis o H0 : Las poblaciones de las que provienen las muestras est´n equidistribuidas a las dos muestras est´n muy entremezcladas. Supongamos que el contraste de aleatoriedad de ambas muestras (cuantitativas) no permite que ´sta se rechace a un nivel de significaci´n α.α . . . formadas por las categor´ ıas ≡ Observaci´n de la muestra x o ⊕ ≡ Observaci´n de la muestra y o debe ser muy alto. Contraste de rachas de Wald—Wolfowitz Si combinamos las dos muestras y disponemos el conjunto completo de todas las observaciones. . . y2 . Para aplicar e estos contrastes ser´ en primer lugar necesario contrastar si cada una de a las muestras se ha obtenido mediante un mecanismo aleatorio. o 12. Est´n concebidas o a a para contrastar la hip´tesis de que dos muestras aleatorias independientes o x = x1 . Dn.α ) se rechaza la normalidad y en otro caso se asume. . y por tanto el n´mero de rae u chas. xn1 y = y1 . . EQUIDISTRIBUCION DE DOS POBLACIONES 309 que si D ∈ (Dn. yn2 provienen de poblaciones que tienen id´nticas distribuciones. / Para realizar este test es necesario que al menos n ≥ 10. . . Equidistribuci´n de dos poblaciones o Estas son las alternativas no param´tricas del contraste de la t de Student e para poblaciones normales (secci´n §9.´ 12. Ene o tonces aplicaremos el contraste de Mann—Withney o el de rachas de Wald—Wolfowitz.4.4.

α se busca en la tabla 7 (de Downie) y entonces no se rechaza H0 si Rexp ≥ Rteo y se rechaza en otro caso.n2 . para despu´s calcular los estad´ e ısticos U1 = n1 n2 + U2 n1 (n1 + 1) − R1 2 n2 (n2 + 1) = n1 n2 + − R2 = n1 n2 − U1 2 (12.3) (12. U1 y U2 tienen una distribuci´n de o o Mann—Withney de par´metros n1 y n2 que est´ tabulada (tabla 9) para a a . Se asignan despu´s n´meros de rango a cada observaci´n e u o Observaciones unidas y z =x∪y ordenadas Rango → z1 z2 z3 · · · zi · · · zn1 +n2 → 1 2 3 ··· i · · · n1 + n2 Se calcula despu´s la suma de los rangos de las observaciones pertenecientes e a la primera muestra y a la segunda. Rteo = Rn1 . El contraste se efect´a combinando las dos muestras y disponiendo u el conjunto completo de las observaciones.4) Entonces si la hip´tesis H0 es cierta. obteni´ndose respectivamente R1 y e R2 . Contraste de Mann—Withney El objetivo es el mismo que el del test anterior: contrastar la hip´tesis o   H0 : Las poblaciones de las que provienen las muestras est´n equidistribuidas a    H : Las poblaciones no est´n equidistribuidas a 1 para dos muestras x. 12. tomadas de modo aleatorio.4.2. n2 ≤ 20 el valor te´rico del n´mero de rachas por debajo o u del cual se rechaza H0 . y cuantitativas independientes.310 Bioestad´ ıstica: M´todos y Aplicaciones e Cuando n1 . ordenado de menor a mayor.

n. n2 } ≥ 20 Para el contrate bilateral.5) rechazaremos la hip´tesis nula si U1 < Un1 .α . U2 } y se rechaza H0 si Uexp < Un1 . 12.4.12. p´gina 224). Contraste de Wilcoxon para muestras apareadas El contraste de Wilcoxon es la t´cnica no param´trica paralela a el de la t e e de Student para muestras apareadas (secci´n §9. i–´sima observaci´n ≡ (xi . yi ) que podemos considerar como una variable medida en cada sujeto en dos momentos diferentes. Igualmente o a dispondr´ ıamos de n parejas de valores (xi . . . n2 } ≤ 40  a   m´ ın{n1 . como por ejemplo. se define Uexp = m´ ın{U1 . yi ) → diferencia ≡ di = xi −yi e o El test de Wilcoxon. CONTRASTE DE WILCOXON PARA MUESTRAS APAREADAS311 valores en que   m´x{n1 .n2 .n2 .5. Si el test es el contrario o   H0 : La segunda poblaci´n toma valores menores o iguales a la primera o    H : Los de la primera son menores 1 se rechaza H0 si U2 < Un1 .   H0 : La primera poblaci´n toma valores menores o iguales a la segunda o    H : Los de la segunda son menores 1 (12. Si el contraste que pretendemos realizar es unilateral.α . . . con el inconveniente o e .5.α .n2 . al igual que los otros contrastes no param´tricos puede e realizarse siempre que lo sea su hom´logo param´trico. ∀ i = 1.

Ordenar las cantidades |di | de menor a mayor y obtener sus rangos. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia (no consideramos las cantidades di = 0) y calculamos su suma. claro de no normalidad es cuando los datos pertenecen a una escala ordinal. Si T ´ T es menor o igual que las cantidades que aparecen en la o tabla de Wilcoxon (tabla n´mero 10).312 Bioestad´ ıstica: M´todos y Aplicaciones e de que este ultimo detecta diferencias significativas en un 95 % de casos que ´ el de la t de Student. pero si hemos ya calculado T la siguiente expresi´n de T es m´s sencilla o a de usar T = m(n + 1) − T donde m es el n´mero de rangos con signo de di de menor frecuencia. El procedimiento consiste en: 1. 2. Sin embargo a veces las hip´tesis necesarias para el test param´trico o e (normalidad de las diferencias apareadas. se rechaza la hip´tesis nula del u o contraste   H0 : No hay diferencia entre las observaciones apareadas    H : Si la hay 1 . T = Del mismo modo es necesario calcular la cantidad T . suma de los rangos de las observaciones con signo de di de mayor frecuencia. u 3. si los signos negativos de di son menos frecuentes. di ) no se verifican y es estrictamente necesario realizar el contraste que presentamos aqu´ Un caso muy ı. T      di >0 di <0 i i si los signos positivos de di son menos frecuentes.

.6.. es decir. Para la exposici´n de este contraste. ´sta se apoya en el uso a e e e de los rangos asignados a las observaciones. Niveles Nivel 1 ≡ N1 Nivel 2 ≡ N2 . Nivel k ≡ Nk Observaciones de X x12 · · · x1n1 x22 · · · x2n2 . xk2 ··· x11 x21 xk1 xknk El n´mero total de elementos en todas las muestras es: u N = n1 + n2 + · · · + nk La hip´tesis a contrastar es: o   H0 : Las k muestras provienen de la misma poblaci´n o    H : Alguna proviene de una poblaci´n con mediana diferente a las dem´s o a 1 (12. CONTRASTE DE KRUSKAL–WALLIS 313 12. Contraste de Kruskal–Wallis El contraste de Kruskall–Wallis es la alternativa no param´trica del m´toe e do ANOVA.. este contraste es el que debemos aplicar necesariamente cuando no se cumple algunas de las condiciones que se necesitan para aplicar dicho m´todo.. .6) El modo de realizar el contraste es el siguiente: Se ordenan las observaciones de menor a mayor. no haciendo reo ferencia a ninguna de las otras condiciones adicionales de homocedasticidad y normalidad necesarias para la aplicaci´n del test param´trico ANOVA.12. sirve para contrastar la hip´tesis de que k muestras o cuantitativas han sido obtenidas de la misma poblaci´n.6. asignando a cada una de ellas su rango (1 para la menor.N para la mayor). supongamos que tenemos k mueso tras representadas en una tabla como sigue. o e De este modo. 2 para la siguiente. . . . e Al igual que las dem´s t´cnicas no param´tricas. La unica exigencia o ´ versa sobre la aleatoriedad en la extracci´n de las muestras..

Problemas 1. Se cree que en centros donde con un elevado n´mero de estudiantes en pr´cticas esta cifra es menor.314 Bioestad´ ıstica: M´todos y Aplicaciones e Para cada una de las muestras. u En cualquier otro caso. . se compara el valor de H con el de la tabla de la χ2 con k − 1 grados de libertad. k. i = 1. ¿Constituyen estos datos una muestra aleatoria? . Se rechaza H0 si el valor del k−1 estad´ ıstico supera el valor te´rico χ2 o k−1. como la suma de los rangos de las observaciones que les corresponden. .1−α . 12. se calcula Ri .. . cabe esperar que esas cantidades sean muy diferentes. Se calcula el estad´ ıstico: H= 12 N (N + 1) k i=1 2 Ri − 3(N + 1) ni (12. indican que la duraci´n media de la visita por u o paciente es de 22 minutos. Se obtuvieron los u a siguientes datos sobre las visitas de 20 pacientes aleatoriamente seleccionados: Duraci´n en minutos de la visita o 21’6 13’4 20’4 16’4 23’5 26’8 24’8 19’3 23’4 9’4 16’8 21’9 24’9 15’6 20’1 16’2 18’7 18’1 19’1 18’9 1.7.7) La regla para decidir si se ha de rechazar o no la hip´tesis nula es la siguiente: o Si el n´mero de muestras es k = 3 y el n´mero de observaciones en u u cada una de ellas no pasa de 5 se rechaza H0 si el valor de H supera el valor te´rico que encontramos en la tabla de Kruskall–Wallis —tabla o n´mero 11. . Si H0 es falsa.Recientes estudios sobre el ejercicio de la Medicina en centros en los que no act´an estudiantes.

o e Los resultados fueron: Nivel de eficacia del tratamiento 15 21 17 38 42 10 23 35 18 25 14 52 65 40 43 35 Tratamiento primero Tratamiento segundo 12 21 28 42 Decidir si existe diferencia entre los tratamientos.7. a Se estudian tres grupos: controles normales. pacientes con cirrosis hep´tica. se espera que los pacientes con enfermedades de h´ a ıgado tengan dificultades en la eliminaci´n de f´rmacos. PROBLEMAS 315 2.Se ensayaron dos tratamientos antirreum´ticos administrados al azar. Se realiza un estudio de la respuesta del sistema a este f´rmaco. mayor eficacia).12. ¿Podemos concluir en base a estos datos que la poblaci´n de la cual o fue extra´ esta muestra sigue una distribuci´n Normal? ıda o 2. con referencia a una escala convencional (a mayor puntuaci´n. Se obtienen los e o siguientes resultados: Tensi´n arterial o 116 107 100 101 82 90 94 84 Antes Despu´s e 150 90 132 102 130 80 96 93 90 89 78 8????? ¿Se puede concluir que la intervenci´n quir´rgica tiende a disminuir la o u tensi´n arterial? o 3. a . a sobre dos grupos de 10 pacientes. Uno de tales f´rmacos es la fenilo a a butazona. valorada despu´s del tratamiento.Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes cuya funci´n renal est´ deteriorada a causa de o a una met´stasis maligna avanzada de causa no urol´gica. 4.Puesto que el h´ ıgado es el principal lugar para el metabolismo de los f´rmacos.. Se mide la tensi´n a o o arterial de cada paciente antes y despu´s de la operaci´n...

de peso. En el mercado hay 5 de tales aparatos. les asignen un rango de acuerdo con el orden de preferencia. Bas´ndose en los an´lisis a a de sangre se determina para cada uno el tiempo de m´xima concentraci´n a o en plasma (en horas). Se obtienen estos datos: Normal 4 30’6 26’8 37’9 13’7 49 Cirr´sis o 22’6 14’4 26’3 13’8 17’4 Hepat´ ıtis 16’6 12’1 7’2 6’6 12’5 15’1 6’7 20 ¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de m´xima concentraci´n en plasma de fenilbutazona? a o 5. Se obtienen los siguientes datos: a Analizador de sangre I II III IV V 1 3 4 2 5 4 5 1 2 3 4 1 3 5 2 1 3 2 5 4 1 2 3 4 5 5 1 3 2 4 5 1 4 3 2 T´cnico e 1 2 3 4 5 6 7 .. Se le pide a cada uno de los 7 t´cnicos m´dicos que despu´s e e e de probar los aparatos.316 Bioestad´ ıstica: M´todos y Aplicaciones e pacientes con hepatitis activa cr´nica.El administrador de un laboratorio est´ considerando la compra de un a aparato para analizar muestras de sangre. d´ndole el rango 1 al preferido. A cada individuo se les suministra o oralmente 19 mg de fenilbutazona/Kg.

Los efectos de tres drogas con respecto al tiempo de reacci´n a cierto o est´ ımulo fueron estudiados en 4 grupos de animales experimentales. a ..7. PROBLEMAS 317 Utilizar el contraste adecuado para determinar si los t´cnicos perciben die ferencias entre los aparatos. 6. mientras que a los grupos I. Usar el test de Kruskal–Wallis para contrastar a un nivel de confianza de 0’05.12. II y III les o fueron aplicadas las drogas A.La cantidad de amino´cidos libres fue determinada para 4 especies de a ratas sobre 1 muestra de tama˜o 6 para cada especie.La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4 grupos de personas. la hip´tesis nula de que no o existe diferencia en los niveles de PPB en los cuatro grupos considerados.. B y C respectivamente. Comprobar si el n contenido de amino´cidos libres es el mismo para las 4 especies. Niveles de 12 31 32 19 10 12 1 08 PPB 11 9 33 18 6 6 2 5 Grupo Grupo Grupo Grupo I II III IV 10 4 15 7 37 35 5 11 23 8 15 3 8. El grupo IV sirvi´ de grupo control. con anterioridad a la aplicaci´n del est´ o ımulo: I ←A 17 20 40 31 35 II ←B 8 7 9 8 III ←C 3 5 2 9 IV ←Control 2 5 4 3 ¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reacci´n? o 7..

Febrero 4’7 4’9 5’0 4’8 4’7 Mayo 4’7 4’4 4’3 4’4 4’1 Agosto 4’8 4’7 4’6 4’4 4’7 Noviembre 4’9 5’2 5’4 5’1 5’6 10. Usar un contraste no ıa n param´trico para comprobar si el consumo de comida es el mismo en los 4 e meses considerados..318 Bioestad´ ıstica: M´todos y Aplicaciones e Especies I II 431’1 477’1 440’2 479’0 443’2 481’3 445’5 487’8 448’6 489’6 451’2 403’6 de ratas III IV 385’5 366’8 387’9 369’9 389’6 371’4 391’4 373’2 399’1 377’2 379’4 381’3 9.Los siguientes datos nos dan el peso de comida (en Kg. 11.) consumidos por adulto y d´ en diferentes momentos en un a˜o. 15 animales de laboratorio sirvieron de suo .En un experimento dise˜ado para estimar los efectos de la inhalaci´n n o prolongada de ´xido de cadmio.Se hizo un estudio neurofisiol´gico sobre la conducci´n motora tibial o o posterior en dos grupos de pacientes embarazadas con las siguientes determinaciones: Conducci´n motora tibial posterior o 40 41 53 48 50 45 58 45 43 40 45 41 42 44 52 56 Primer grupo Segundo grupo 51 58 44 48 Comprobar la igualdad o no de ambas muestras...

PROBLEMAS 319 jetos para el experimento. obteni´ndose los datos siguientes: e Presi´n sangu´ o ınea sist´lica o 122 130 129 114 116 122 127 122 110 120 Antes Despu´s e 126 119 120 116 124 117 119 112 112 110 118 111 ¿Hay un descenso significativo de la presi´n sangu´ o ınea sist´lica tras la ino gesti´n de etanol? o 13. tiene dos formas de determinar su valoraci´n o suponiendo inicialmente que ambos m´todos miden igualmente la extroe versi´n. mientras que 10 animales similares sirvieron de controles.7... Se desea saber si puede concluirse que la inhalaci´n prolongada o de ´xido de cadmio disminuye el nivel de hemoglobina seg´n los siguientes o u datos que presentamos: Nivel de hemoglobina 16’5 14’1 16’6 15’9 15’3 14’0 17’5 15’0 16’0 16’9 Expuestos No expuestos 14’4 15’7 17’4 14’2 16’7 16’2 13’8 13’7 17’1 15’6 15’0 14’1 16’3 15’3 16’8 12.Un test de personalidad. La variable de inter´s fue el nivel de hemoglobina despu´s del exe e perimento. Para ello se estudia en 12 personas obteni´ndose los siguientes o e resultados: Medida de la extraversi´n o 21 10 15 27 31 6 15 20 5 21 24 29 7 11 Forma A Forma B 12 10 18 17 13 13 8 8 10 11 ¿Hay diferencia entre los dos m´todos? e .12.A 11 ratas tratadas cr´nicamente con alcohol se les midi´ la presi´n o o o sangu´ ınea sist´lica antes y despu´s de 30 minutos de administrarles a todas o e ellas una cantidad fija de etanol.

320 Bioestad´ ıstica: M´todos y Aplicaciones e .

Madrid. Brooks/Cole Publishing Company. 1982. R´ D´ ıus ıaz. Paraninfo. Statistical Methods for the Social and Behavioral Sciences. Curso de Estad´ ıstica Descriptiva. a a 1991. Armitage. [RMR 91] T. Carrasco de la Pena. Applied Nonparemetric Statistics. M. Bioestad´ ın ıstica para las Ciencias de la salud. Rivas Moya. W. Luna del Castillo. M´laga. PWS–Kent Publishing Company.A. Karpus. Mateo.D. ıa Secretariado de Publicaciones de la Universidad de M´laga. ´ [Mar 94] A. 1990. Hamilton. Boston. Estad´ n ıstica: Modelos y M´todos. R. Marascuilo.A.C. Mart´ Andres. Alianza Universidad Textos. [Ham 90] L. Madrid. Pacific Grove. Berry. Freeman and Company. Madrid.C. 1988. 1994. 1974. 321 . F. e 1.L. e [Cal 74] G. Doyma.W. J. Granada. Ruiz.Bibliograf´ ıa [AB 92] P. M. Nueva York. o e [Dan 90] W. Norma. ˜ [Car 82] J. 1990. Estad´ ıstica Aplicada a las Ciencias Sociales: Teor´ y Ejercicios (EAC). Barcelona. Pena Sanchez de Rivera. Serlin. Calot. El M´todo Estad´ e ıstico en la Investigaci´n M´dica. ˜ ´ [Pe˜ 94] D.H. 1992. 1994. Daniel. [MS 88] L. Estad´ ıstica para la Investigaci´n o Biom´dica. Modern Data Analysis. G.

[Zar 74] J. 1982. Remington.N. 1974. Mexico. 1990. Zar. Gu´ para la Asignatura de ıa Bioestad´ ıstica (EAC). 1985. Bioestad´ ıstica (Principios y Procedimientos). [RS 79] R. Prentice Hall Inc. Englewood Cliffs. ıa Interamericana Mac Graw–Hill. Estad´ ıstica Biom´trica y Sae nitaria. Goldberg. Mart´ ınez Terrer y otros.D.L. 1992. R´ D´ ıus ıaz. Bogot´.. Ruiz–Maya. K. Weinberg. Colecci´n Monograf´ Did´cticas. Estad´ ıstica para Psicolog´ y Ciencias de la Salud. a a [ST 85] Steel. Bioestad´ ıstica. Mac Graw–Hill. I. Schork. o a a 1977.E. Sanchez Font. Prentice Hall International. Zaragoza. M´todos Estad´ e ısticos de investigaci´n (Introo ducci´n al An´lisis de la Varianza). Artes Gr´ficas. Madrid. Estad´ ıstica B´sica para las a Ciencias Sociales.H. Madrid. Nueva Editorial Interamericana. [WG 82] S. 1979. Secretariado de Publicaciones de la Universidad de M´laga. Biostatistical Analysis. .322 BIBLIOGRAF´ IA [RM 92] E. 1989. F.A. ´ [SR 90] E. Torrie. M. Madrid. M´laga. a [Tso 89] M. Rubio Calvo. [Rum 77] L.P. Universidad de Zaragoo ıas a za. T. Tsokos.