Bio Est Ad Is Tic A

Bioestadı́stica
Profesorado en Ciencias Biológicas
Marcela Ribas Garcı́as

Federico De Olivera Lamas
Material realizado para trabajar guiado por el tutor de semipresencial.

2
Marcela Ribas - Federico De Olivera

Organización del curso:
El presente curso de Bioestadı́stica estará organizado alrededor de tres bloques

temáticos:
1. El primer bloque está dedicado a desarrollar los principales instrumentos

metodológicos que se utilizan para describir las caracterı́sticas de la muestra
(Estadı́stica Descriptiva).
2. El segundo bloque hace una revisión de algunos aspectos de la teorı́a de

las Probabilidades. Dichos aspectos están seleccionados con el objetivo de
permitir al estudiante comprender el siguiente y último bloque, el cual con-
stituye el núcleo del curso.
3. El tercer bloque presenta a la Inferencia Estadı́stica, a través de algunos de

sus instrumentos, y tiene el objetivo de mostrar el poder que tiene la Es-
tadı́stica, como ciencia que busca crear conocimiento acerca de la realidad.
Entendemos que se trata de un curso instrumental, el cual tiene como principal

objetivo que el estudiante de Profesorado en Ciencias Biólogica se familiarice con
las herramientas estadı́sticas que habitualmente se encuentra en la bibliografı́a
de esta especialidad. Es por este motivo que de ninguna manera puede permitirse
extenderse en deması́a en los bloques temáticos 1 y 2 y ser escueto en el bloque
temático 3, pues es el bloque temático 3 el que realmente tiene los instrumentos
que ayudan al estudiante en su futura formación.
Estimamos conveniente que se le dedique no más allá de las vacaciones de julio

para los bloques temáticos 1 y 2 (primer semestre) y luego dedicar con tiempo y
comodidad al tercer y más importante bloque temático.
Índice general
I Implementación del curso 1
0.1. Fundamentación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2.1. Objetivos Generales . . . . . . . . . . . . . . . . . . . . . 4
0.2.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . 5
0.3. Rol del Alumno y el Tutor . . . . . . . . . . . . . . . . . . . . . . 5
0.4. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.5. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.6. Cronograma del curso . . . . . . . . . . . . . . . . . . . . . . . . 9
II Contenido disciplinar 21
0.7. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
0.7.1. La Estadı́stica y el Método Cientı́fico . . . . . . . . . . . . 24
0.7.2. ¿Qué entendemos por Estadı́stica? . . . . . . . . . . . . . 25

iv ÍNDICE GENERAL
0.7.3. Etapas de un estudio estadı́stico . . . . . . . . . . . . . . 27
1. La Estadı́stica Descriptiva 31
1.1. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.1.1. Variables categóricas o de atributo o cualitativas . . . . . . 32
1.1.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . 32
1.2. Análisis de las variablebles cuantitativas agrupadas en intervalos . 35
1.2.1. Tabla de la Distribución de Frecuencias . . . . . . . . . . . 35
1.2.2. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.3. Medidad de resumen . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.3.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . 41
1.3.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . 46
1.4. Ejericicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.5. Artı́culos OMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2. La Probabilidad y las Variables Aleatorias 61
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2. Teorı́a de las probabilidades . . . . . . . . . . . . . . . . . . . . . 62
2.3. Principales reglas de la Probabilidad . . . . . . . . . . . . . . . . 65
2.4. Variables Aleatorias (v.a) . . . . . . . . . . . . . . . . . . . . . . . 70
2.4.1. Variable aleatoria Normal . . . . . . . . . . . . . . . . . . 72
2.4.2. Tabla de la Distribución Normal Estándar . . . . . . . . . 73

ÍNDICE GENERAL v
2.4.3. Estandarización de variables aleatorias Normales . . . . . . 79
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.6. Anexo: Esperanza matemática y Varianza . . . . . . . . . . . . . 87
2.6.1. Distribución de Probabilidad de la variable aleatoria X . . 87
2.6.2. Esperanza de X: E(X) . . . . . . . . . . . . . . . . . . . 87
2.6.3. Varianza de X: V ar(X) . . . . . . . . . . . . . . . . . . . 88
2.7. Algunas variables aleatorias . . . . . . . . . . . . . . . . . . . . . 90
2.7.1. Variable aleatoria Uniforme Discreta . . . . . . . . . . . . 90
2.7.2. Variable aleatoria Bernoulli . . . . . . . . . . . . . . . . . 91
2.7.3. Variable aleatoria Binomial . . . . . . . . . . . . . . . . . 92
2.7.4. Variablea aleatorias continuas . . . . . . . . . . . . . . . . 95
2.7.5. Teorema de De Moivre – Laplace . . . . . . . . . . . . . . 97
2.7.6. Otras variables aleatorias continuas . . . . . . . . . . . . . 97
2.8. Artı́culo: Pruebas diagnósticas . . . . . . . . . . . . . . . . . . . 98
3. La Inferencia Estadı́stica 105
3.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2. La Inferencia Estadı́stica Paramétrica . . . . . . . . . . . . . . . 106
3.2.1. Parámetro vs Estadı́stico . . . . . . . . . . . . . . . . . . 106
3.2.2. Distribuciones de algunos Estadı́sticos . . . . . . . . . . . 107
3.2.3. Distribución de X̄ . . . . . . . . . . . . . . . . . . . . . . 111

vi ÍNDICE GENERAL
√
n·(X̄−µ)
3.2.4. Distribución de Z = σ
. . . . . . . . . . . . . . . . 112
√ (X̄−µ)
3.2.5. Distribución de T = n· S0.
. . . . . . . . . . . . . . . 114
3.3. Estimación puntual e intervalos de confianza . . . . . . . . . . . 116
3.3.1. Estimación puntual e intervalos de confianza para µ cuan-

do conozco σ 2 . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2. Intervalo de confianza para µ , cuando no conozco σ 2 . . 120
3.3.3. Intervalo de confianza para una proporción . . . . . . . . 122
3.4. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.4.1. Sı́ntesis de algunos Test Paramétricos . . . . . . . . . . . 127
3.5. La Inferencia Estadı́stica no Paramétrica . . . . . . . . . . . . . 136
3.5.1. Test de independencia de dos variables: . . . . . . . . . . . 136
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Parte I
Implementación del curso

0.1 Fundamentación 3
0.1. Fundamentación
La formación de un futuro Profesor en Ciencias biológicas debe indudablemente

proveerlo de herramientas que permitan su inserción inmediata en la sociedad
para el ejercicio de su profesión.
No obstante, los objetivos de su carrera de grado no deben limitarse a esto, sino

que debe incluir aspectos que favorezcan una formación autónoma más allá de la
carrera de grado, de manera de posibilitar la actualización y formación continua.
Las Ciencias biológicas, con su carácter experimental, requieren formas rigurosas

de procesar datos y sacar conclusiones para la generación de conocimientos, y de
esta manera posibilitar su avance.
El futuro Profesor en Ciencias biológicas debe conocer el origen de los contenidos

temáticos que enseña, para lo que es imprescindible estar familiarizado con la
generación de conocimiento, la metodologı́a cientı́fica y la Bioestadı́stica.
Por otra parte, la Biologı́a tiene caracterı́sticas particulares dentro de las Ciencias
experimentales, a partir de que su objeto de estudio está constituido por los seres
vivos. La variabilidad biológica y la diversidad son algunas de ellas. Esto trae
aparejado el carácter impredecible de los procesos que esta ciencia estudia, los
que están regidos por la aleatoriedad.
La incorporación temprana de las relaciones entre la aleatoriedad y la ocurrencia

de eventos biológicos, predispone favorablemente al estudiante de Profesorado en
Ciencias biológicas a la comprensión rigurosa de los procesos a estudiar, y con-
tribuye a minimizar el planteo de determinismos erróneos, ası́ como a establecer
ligeramente relaciones de causalidad. De esta manera, desde ideas relativamente
simples y concretas como “afinidad bioquı́mica”, hasta conocimientos generales
y complejos como “teorı́as del origen de la vida”, podrán ser interpretados en

4
términos de probabilidad desde el inicio de la carrera.
Por otra parte, tanto durante su carrera de grado como en la formación continua
más allá de esta etapa, es deseable que el Profesor en Ciencias biológicas tenga
como hábito la consulta de artı́culos cientı́ficos que permitan su actualización.
Nociones básicas de muestreo y pruebas estadı́sticas, permitirán al futuro profesor
seleccionar en base a criterios de confiabilidad, su fuente de información.
0.2. Objetivos
0.2.1. Objetivos Generales
Lograr una visión integradora de la realidad que trascienda el pensar sólo

asociado a su campo de formación especı́fica.
Contribuir con el desarrollo de una actitud autónoma y crı́tica en la con-

strucción del propio proceso de aprendizaje.
Construir herramientas conceptuales y metodológicas que permitan sosten-

er la actualización y profundización en el conocimiento, como base para la
formación permanente.
Contextualizar los conocimientos disciplinares en distintos marcos de refer-

encia.
Comprender la necesidad de la rigurosidad, en particular en la toma de

datos, y la necesidad de fijación de criterios claros y precisos para su ob-
tención.
Desarrollar competencias en el uso de herramientas estadı́sticas para el

análisis e interpretación de datos biológicos.

0.3 Rol del Alumno y el Tutor 5
0.2.2. Objetivos Especı́ficos
Relacionar la aleatoriedad con la ocurrencia de eventos biológicos.
Comprender la utilidad en la utilización de distribuciones de probabilidad

para el estudio cientı́fico de procesos biológicos.
Adquirir conocimientos básicos de muestreo y tipos de pruebas estadı́sticas,

que permitan valorar artı́culos cientı́ficos y determinar su confiabilidad.
Adquirir herramientas básicas que permitan realizar tomas de datos, agru-

parlos para su presentación mediante la tabulación, gráficos, y cálculo de
medidas de resumen.
Comprender el carácter indispensable de la utilización de la Estadı́stica in-

ferencial para establecer relaciones entre las variables biológicas estudiadas
y realización de valoraciones.
Comprender las limitaciones de la Estadı́stica Inferencial en la determi-

nación de relaciones de causalidad en las Ciencias biológicas.
0.3. Rol del Alumno y el Tutor
El estudiante de profesorado que realiza un curso semipresencial de Bioestadı́stica,

al ser ésta una asignatura que, en algunos puntos de su programa, presenta un
nivel abstracto, debe desarrollar ciertas capacidades o cualidades que le permitan
el satisfactorio seguimiento del curso tales como:
La capacidad de concentración adecuada para comprender los nuevos con-

ceptos, muchos de ellos con nombres y notaciones un poco alejados de la
realidad cotidiana del estudiante.

6
La responsabilidad como para hacer un seguimiento del cuso acorde a las

exigencias del ritmo que plantea el tutor, pues es una asignatura que ar-
rastra conceptos, en el sentido que si no se comprendió adecuadamente lo
dado en una clase anterior, se acumularán dificultades para la comprensión
de la clase siguiente.
La capacidad de autoconocimiento que lo ayude a darse cuenta cuando debe

conceder más estudio a un tema que no comprendió bien, y cuando debe
recurrir en busca de apoyo del tutor, pues lo que le hace falta es una visión
más integradora del tema, que lo ayude a superar la dificultad presente.
El estudiante debe saber manejar muy bien sus tiempos, a fin de conceder
en cada semana las horas de estudio adecuadas como para mantener la
correcta continuidad del curso.
El docente tiene el rol de orientador en la construcción de conocimiento bioes-

tadı́stico. Ya aludimos al nivel de abstracción que este requiere, y por eso es de
fundamental importancia la trasposición didáctica que realice el tutor, con la fi-
nalidad de contextualizar los conocimientos disciplinares, en distintos marcos de
referencia, a fin de que los estudiantes aprehendan las nociones de esta ciencia
bioestadı́stica, que es instrumental en su carrera.
Con este espı́ritu, se considera importante que el profesor tutor, además de

cumplir con el papel de guı́a al que su nombre alude, incorpore, en la medida
que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de activi-
dades tales como:
resolución de problemas
discusión de artı́culos de divulgación cientı́fica vinculados a problemas bi-

ológicos.

0.4 Metodologı́a 7
0.4. Metodologı́a
Acorde a un curso de nivel terciario, se deberá tener presente que el proceso de

enseñanza y aprendizaje estará centrado en el propio estudiante.
De esta manera, se sugiere la promoción de instancias de trabajo colaborativo y

autónomo, que contribuyan a lograr un perfil de egreso acorde a las dimensiones
personal e institucional previstas en el Plan 2008.
El docente tiene el rol de orientador en la construcción de conocimiento. En

este sentido, la guı́a contiene apuntes completos sobre algunos temas; y en otros,
plantea la lectura directa de ciertos capı́tulos del libro indicado como el principal
dentro de la bibliografı́a. Además, la guı́a indica ejercicios a ser resueltos por el
estudiante, los cuales cuentan con solución dentro del libro de texto antedicho.
No obstante, se considera importante que el profesor tutor incorpore, en la me-

dida que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de
actividades tales como:
resolución de problemas;
discusión de artı́culos de divulgación cientı́fica vinculados a problemas bi-

ológicos, haciendo énfasis en los aspectos de muestreo, presentación de datos
y pruebas estadı́sticas utilizadas;
0.5. Evaluación
Acorde a lo estipulado en el Plan se realizarán dos pruebas parciales escritas, en

forma individual.
Se realizará también una evaluación continua basada en la corrección de los ejerci-

8
cios que el estudiante enviará regularmente al docente, ası́ como en la discusión de

trabajos y artı́culos de divulgación propuestos en el cronograma y otros sugeridos
por el tutor.

0.6 Cronograma del curso 9
0.6. Cronograma del curso
El plan de estudios del Sistema Único Nacional de Formación Docente 2008, item
X, capı́tulo III: de los cursos, en su Art. 25 indica que la duración de los cursos
será de treinta semanas.
Partiendo de allı́ es que este cronograma incluye la antedicha cantidad de sem-

anas; sin embargo incluye dentro de éstas semanas compensatorias, en las cuales
da lugar a que el docente cubra en ellas temas no desarrollados adecuadamente
en semanas anteriores. El objetivo es cubrir las eventualidades de atraso por dis-
tintos motivos que lo ameriten, ya sea por la imposibilidad de atención del tutor
en alguna semana, porque la exigencia de los estudiantes requiera poner mayor
énfasis en algún tema en particular, o porque el tutor ası́ lo decida.
Todo ello está dirigido a poner los esfuerzos para que todos los temas sean trata-
dos, especialmente los últimos que son aquellos que le dan el cierre al curso y
permiten que los estudiantes observen la real dimensión que tiene la estadı́stica
en el contexto de la disciplina Biológica.
Los ejercicios planteados permiten la autoevaluación del estudiante dado que se

plantea su solución. No obstante se cuenta con otros ejercicios sin solución que
serán utilizados por el tutor para la evaluación continua del estudiante, éstos son
los marcados para entrega obligatoria.
Semana 1
Presentación del curso e introducción a la Bioestadı́stica (sección 0.7):

En esta primera semana, se presenta a la Estadı́stica como una herramienta para
la investigación experimental, para el control de calidad y en general, para el
manejo de información.

10
Estadı́stica Descriptiva, variables estadı́sticas, clasificación en categorı́as (sección

1.1):
Se pretende que el estudiante identifique los distintos tipos de variables estadı́sti-
cas, ası́ como que comprenda la agrupación de los valores que asumen éstas, en
distintas categorı́as.
Ejercicios: realizar el ejercicio 1 y el item 1, del ejercicio 2.
Semana 2
Tabla de frecuencias y gráficos (sección 1.2):

En el contexto de la investigación biológica, el objetivo es ubicar la necesidad
de representar la información obtenida, en forma sencilla y gráfica, utilizando
para esto una serie de herramientas de la Esdı́stica Descriptiva. Dentro de la
sección 1.2, llamado Análisis de las variables cuantitativas agrupadas en intervalos
, correspondiente al bloque 1, se muestra cómo presentar los datos estadı́sticos, a
través de dos instrumentos como son las tablas de frecuencias y distintos gráficos.
Ejercicios: ejercicio 2, items 2, 3, 4 y 5.
Otros instrumentos descriptivos:

A partir de fragmentos de un artı́culo de la OMS (Anexo 1.5), observar la variedad
de presentaciones que pueden tener los datos estadı́sticos.
Semana 3
Medidas de posición (sección 1.3.1):

Continuando con la sección 1.2 del bloque 1, se presentan distintas medidas de
resumen de datos estadı́sticos, las primeras de las cuales son las medidas de posi-
ción. Se pretende que el estudiante las sepa calcular e interpretar adecuadamente.

Ejercicios: ejercicio 2, items 6, y 7.
Semana 4
Foro: E lección de la medida de centralización más adecuada a cada situación:
Se pretende que se entable una discusión acerca de las limitaciones de la media

y la importancia de la mediana, como medida robusta de tendencia central. Los
estudiantes deberán plantear ejemplos, en donde se deba decidir cuál medida de
centralización es más acertada en cada caso.
Semana 5
Medidas de dispersión (sección 1.3.2):

Las medidas de posición siempre deben estar acompañadas de una medida de
dispersión. En esta semana se busca que el estudiante comprenda ésto, a través
del cálculo e interpretación de dichas medidas.
Semana 6
Foro: i mportancia de la variabilidad relativa:
Se busca que los estudiantes discutan acerca de las limitaciones del desvı́o stan-
dard y la importancia del coeficiente de variación, como medidas de resumen de
la variabilidad de los datos, a través de ejemplos.

12
Semana 7
Ejercicios: Aplicación de los conceptos recién aprendidos, a través de la real-

ización de los ejercicios 4 y 5.
Semana 8
Entrega de ejercicios:
El estudiante debe entregar al tutor, el ejercicio 3 resuelto.
Probabilidad (secciones 2.2 y 2.3):

Introducción a los conceptos básicos de la probabilidad y sus principales
propiedades.
Ejercicios: ejercicios 1, 2 y 3.
Semana 9
Foro: T eorema de Bayes. Aplicación: falso positivo y falso negativo.

Por considerar al Teorema de Bayes de particular importancia, se recomienda su
lectura, ya sea en el la enciclopedia virtual wikipedia o en el libro Estadı́stica para
Biologı́a y Ciencias de la Salud de Milton-Tsokos (páginas 97 a 100), incluı́do en
la bibiografı́a.
Lectura y discusión del artı́culo titulado pruebas diagnósticas (Anexo 2.8), en el
cual se presenta la definición de sensibilidad y especificidad de un tratamiento,
en cual involucra conceptos referentes a la idea de falso positivo y falso negativo.
Ejercicios: ejercicios 5, 6, 7, 8, 9 y 10.

Semana 10
Variables aleatorias. Variable aleatoria Normal (sección 2.4).
Se introduce la idea de variable aleatoria genérica y en seguida se presenta la

variable aleatoria Normal, la cual será de vital importancia en este curso, pues se
asume que la mayor parte de las variables biológicas que son continuas, pueden
modelarse con esta distribución Normal.
Ejercicios: ejercicios 13 y 14.
Semana 11
Foro: V ariables biológicas que se distribuyen Normal:

Se pretende que los estudiantes discutan, a partir de su investigación en la web
o en bibliografı́a, el acierto en la aplicación del modelo de distribución Normal
a la mayorı́a de las variables biológicas que son continuas. En especial observar lo
que sucede cuando el recorrido de la variable no incluye todos los valores reales,
lo que implicarı́a aplicar un modelo de distribución Normal truncada.
Semana 12
Variable aleatroria Bernoulli y Binomial:

Se pretende que el estudiante comprenda la definición de la distribución Binomial
(subsecciones 2.7.2 y 2.7.2 o busqueda en la web), a partir de la definición de even-
tos Bernoulli, y vea su importancia en relación a la gran cantidad de fenómenos
o experimentos biológicos de tipo dicotómico, con los que, al repetirse n veces en
determinadas condiciones ese experimento, se construye la distribución Binomial.

14
Semana 13
Esta semana se utilizará para redondear los puntos que no se hayan analizado
convenienteme y se dará apoyo en los ejercicios obligatorios a entregar: 5, 10, 12
y 16.
Semana 14
Entrega de ejercicios y posterior discución: ejercicio 5, 10, 12 y 16.
Actividad de investigación:
Se considera de gran relevancia que el estudiante tenga la experiencia de recolectar
datos en relación a un problema biológico de su interés, como forma útil de
comprender adecuadamente la importancia de cada herramienta aprendida. El
estudiante en esta semana, recabará, presentará y resumirá información de las
variables elegidas, aplicando los conocimientos y destrezas adquiridas. Para este
trabajo el estudiante destinará horas extras en esta semana y será apoyado por
el tutor.
Semana 15
Esta semana será dedicada a contestar preguntas de los estudiantes, referidas a

los dos primeros bloques del curso, todo esto dirigido a apoyar al estudiante en
su preparación del primer parcial de la asignatura, a realizarse en la próxima
semana.
Semana 16
Primer parcial con temas correspondientes a los bloques temáticos 1 y 2. En este

parcial se pretende la aplicación de los conceptos teóricos a partir de la realización

de ejercicios prácticos, en los cuales se permite el uso de material.
Semana 17
Introducción a la Inferencia Estadı́stica (sección 3.2, subsecciones 3.2.1, 3.2.3 y

3.2.4):
Se busca que el estudiante comprenda muy bien la relación que existe entre la
población y la muestra, ası́ como la que existe entre parámetro y estadı́stico
(estimador).
En esta semana también se pretende que el estudiante dé una leı́da a los teoremas
que involucran la distribución de la media muestral ( teoremas 1, 2, 3 y 4 de las
subsección 3.2.3 y 3.2.4 ), extrayendo su utilidad (comprender que X̄ es una
variable aleatoria y conocer su distribución en diversas situaciones), más allá de
los detalles de su demostración, que no son de particular importancia en este
curso introductorio de la inferencia estadı́stica.
Semana 18
Distribución del estadı́stico T (subsección 3.2.5):

En esta semana se define un estimador de la varianza poblacional, la cuasivar-
ianza, y se presenta un nuevo estadı́stico denominado T, el cual involucra el
estimador anterior y tiene una distribución de probabilidades denominada dis-
tribución t con n-1 grados de libertad (teorema 4).
Aquı́ se pretende que el estudiante se familiarice con esta nueva variable t, en

particular, con la lectura de la tabla que contiene sus probabilidades para algunos
grados de libertad, a través de unos sencillos cálculos.
Para que el estudiante se failiarice con algunos cálculos realizar el siguiente ejer-
cicio:

16
Ejercicios: ejercicios 1.
Semana 19
Estimación puntual e intervalo de confianza para µ con σ conocida (subsección

3.3.1):
Comienza en esta semana lo que será de real importancia para comprender la
investigación bioestadı́stica, en cuanto a que se comprenderá los mecanismos a
partir de los cuales esta ciencia busca crear conocimiento acerca de la realidad,
ası́ como las limitaciones intrı́nsecas de tales mecanismos.
Se introduce la estimación puntual y por intervalo de confianza, a través de un

ejemplo (estimación de µ, cuando se conoce la varianza poblacional) y se contruye
paso a paso dicho intervalo. Este proceso, aunque un poco engorroso, es necesario
para que el estudiante, frente a la lectura de un intervalo cualquiera, comprenda
su significado, a partir de que conoce los detalles de la construcción de un intervalo
en particular .
Semana 20
Estimación puntual e intervalo de confianza para µ con σ desconocida (subsección

3.3.2):
Sin entrar en los detalles de la construcción del intervalo de confianza mencionado
(es similar al intervalo de la semana anterior) se busca que el estudiante com-
prenda su aplicación, a través de la realización de los ejercicios 4, 5, 6, 7 y 8.
Ejercicios: ejercicios 4, 5, 6, 7 y 8.

Semana 21
Estimación puntual e intervalo de confianza para p (subsección 3.3.3) De igual

forma que con el intervalo anterior, no se pretende ahondar en los detalles de
construcción del presente intervalo, sino que se busca que el estudiante comprenda
su aplicación a través de la realización de los ejercicios 2, 3 y 9.
Semana 22
Prueba de Hipótesis (sección 3.4):

En esta semana se definirán los conceptos generales involucrados en las pruebas
o test de hipótesis: la hipótesis nula y la alternativa, los tipos de error que se
generan al tomar la decisión de rechazar o no la hipótesis nula y sus respectivas
probabilidades, la definición de la región crı́tica.
Semana 23
Foro: S obre la elección de las hipótesis nula y alternativa:
Este foro está pensado para que los estudiantes discutan entre ellos y con el tutor,
como pueden llegar a variar ciertas conclusiones a partir de un test de hipótesis,
si se alteran por ejemplo la probabilidad máxima tolerada para el error de tipo
1, o si se intercambian las hipótesis.

18
Semana 24
Prueba de hipótesis para µ con σ conocido, contraste bilateral (subsección 3.4.1):
A través de la confección de esta prueba de hipótesis en particular, se le presenta

al estudiante cuáles son las etapas que se deben atravesar para obtener cualquier
prueba de hipótesis, en particular aquéllas que involucran parámetros.
Semana 25
Otras pruebas de hipótesis :

De acuerdo a lo presentado en la subsección 3.4.1, se presentan los ejemplos
2 y 3 otras dos prueba de hipótesis: una prueba para para µ con σ conocido,
con contraste unilateral y una prueba para µ con σ desconocido, con contraste
bilateral.
Semana 26
En esta semana se pone a prueba la comprensión del estudiante de este importante

punto del curso, a través de la realización y entrega de algunos ejercicios para su
evaluación: 10, 11, 12, 13, 18, 19 y 20.
Entrega de ejercicios y posterior discución:10, 11, 12, 13, 18, 19 y 20.
Semana 27
Inferencia no paramétrica (subsección 3.5):

Tomando como base lo explicado para las pruebas de hipótesis paramétricas, se

presenta un caso la inferencia no paramétrica como son las pruebas de hipótesis

de independencia, muy usadas cuando se intenta saber si dos caracterı́sticas de
interés poblacionales (en particular, caracterı́sticas o variables cualitativas) están
o no relacionadas.
Semana 28
Esta semana se utilizará para redondear los puntos del bloque tres, que no se
hayan analizado convenientemente en las semanas anteriores.
Semana 29
Segundo parcial con temas correspondientes al bloques temáticos 3. Al igual que el

parcial anterior, en este parcial se pretende la aplicación de los conceptos teóricos
a partir de la realización de ejercicios prácticos, en los cuales se permite el uso
de material.
Semana 30
Esta última semana se destinará a aprender las nociones generales de los últimos
puntos del programa: el análisis de la Correlación Lineal y el análisis de Regresión
lineal. Dichos temas se encuentran en el libro [2], capı́tulo 11.

Parte II
Contenido disciplinar

Introducción
0.7. Introducción
La forma de pensar llamada “estadı́stica” se ha vuelto importante para todos

los profesionales: no sólo para aquéllos que están dedicados a la ciencia o a los
negocios, sino también le preocupa a personas que quieren ayudar a hacer del
mundo, un mejor lugar.
Pero, ¿qué es Bioestadı́stica? y ¿qué puede ésta hacer?.
Hay definiciones y percepciones populares de los que significan “las estadı́sticas”.

Vemos “estadı́sticas de vida” en el diario: nacimientos, defunciones, matrimonios,
divorcios, etc. El uso público de la palabra “estadı́sticas” es ampliamente variado
y la mayor parte de las veces indica una lista de números o datos.
En este curso no enfatizaremos las estadı́sticas como “cosas” sino que pensaremos
en el concepto de “hacer estadı́stica” en el sentido de pensar acerca de números
(recolectados, analizados y presentados) y su interpretación. Las fórmulas son
sólo una parte de esa forma de pensar, simples herramientas que son necesarias,
pero que no son las únicas cosas que debemos conocer.

24
0.7.1. La Estadı́stica y el Método Cientı́fico
¿Alguna vez te has preguntado cómo se llega a la verdad acerca de los fenómenos
que interesan al ser humano? ¿Cómo se sabe que el cigarrillo causa cáncer o cómo
se sabe que la vitamina C ayuda a prevenir el resfrı́o?.
El ser humano, desde el comienzo de los tiempos ha aceptado varias fuentes de

conocimiento:
La autoridad: algo era cierto sólo porque una cierta autoridad, llámese rey,
iglesia o autoridad cientı́fica, lo afirmaba. Esta fuente de conocimiento se
basa en la fé de las personas o en la incapacidad de verificar, por sı́ mismas
la veracidad del conocimiento que aceptan como válido.
La razón: el racionalismo es un método que utiliza exclusivamente el ra-

zonamiento para llegar al conocimiento. Supone que si las premisas son
válidas y el razonamiento se realiza de manera correcta, de acuerdo con
las reglas de la lógica, entonces las conclusiones llegarán a la verdad. Sin
embargo , existe un gran número de situaciones en que el solo razonamiento
es inadecuado para determinar la verdad. Es el caso, por ejemplo, del caso
en que existen dos explicaciones lógicas razonables para un fenómeno; y por
sı́ sola la razón resulta inadecuada para distinguir entre ellas.
La intuición: a través de ella, muchos cientı́ficos han comenzado a dar

forma a sus teorı́as, o han resuelto intrincados problemas que se negaban a
ser resueltos a través de la razón. Sin embargo, a pesar de que la intuición
ha sido utilizada como fuente de conocimiento durante toda la existencia
de la humanidad, sigue siendo un proceso misterioso acerca del cual sólo
tenemos una comprensión muy rudimentaria.
El método cientı́fico: aunque este método utiliza el razonamiento y la

0.7 Introducción 25
intuición para llegar a la verdad, se fundamenta en una evaluación objeti-

va, que es lo que lo distingue de los otros métodos. El método cientı́fico es
bastante directo: por algún medio, generalmente un razonamiento deducti-
vo a partir de la teorı́a existente o una inducción a partir de hechos reales
o a través de la intuición, el cientı́fico llega a una hipótesis sobre cierta par-
ticularidad de la realidad. Entonces el investigador diseña un experimento
para verificar de manera objetiva dicha hipótesis. Los datos, resultado del
experimento, posteriormente se analizan en forma estadı́stica y la hipótesis
se acepta o se rechaza.
La caracterı́stica más importante de esta metodologı́a es que no importa lo que el

cientı́fico crea que es verdadero con respecto a la hipótesis en cuestión, pues el ex-
perimento proporciona una base para una evaluación objetiva de dicha hipótesis.
Aquı́ es donde la Estadı́stica cobra un papel relevante: uno de sus principales

objetivos es evaluar, en forma cientı́fica, las afirmaciones o hipótesis planteadas
por el investigador.
0.7.2. ¿Qué entendemos por Estadı́stica?
Como disciplina, se la define como la ciencia que estudia ciertos conjuntos de datos
cuantitativos o cualitativos y los interpreta en términos matemáticos, estable-
ciendo métodos para la obtención ciertas medidas que los describen (Estadı́stica
Descriptiva). Ası́ como también los analiza y extrae conclusiones generales o leyes
a partir de dichos datos particulares (Inferencia Estadı́stica o Estadı́stica Induc-
tiva); para esto último se vale de la teorı́a de las probabilidades, considerada
también como ciencia de base matemática. Uno de los objetivos de un trabajo
estadı́stico puede ser la toma de decisiones en presencia de la incertidumbre.
Cuando se aplican los métodos y herramientas de la ciencia Estadı́stica a la

26
Biologı́a, nace la Bioestadı́stica.
Por ejemplo, ciertas investigaciones manejan la hipótesis de que está aumentando

la cantidad de adolescentes con altos niveles de azúcar en sangre, los cuales corren
el riesgo de desarrollar diabetes, en algún momento de su vida. Para comprobar
la veracidad de dicha hipótesis se recogen muestras de sangre en ayunas de un
grupo de 500 adolescentes de una determinada ciudad. Se les mide el nivel de
glucemia (miligramos de glucosa por decilitro de sangre) a todos ellos y ası́ se
cuenta con 500 datos a ser ordenados y analizados por la Estadı́stica Descriptiva,
a partir de las herramientas con que ésta cuenta, las cuales veremos en detalle
más adelante.
Si queremos extraer conclusiones generales, como por ejemplo saber cuál es el

nivel promedio de glucemia entre todos los adolescentes de la cuidad, podemos
hacerlo a partir del promedio obtenido entre los 500 adolescentes estudiados, pero
debemos indicar, por ejemplo, un margen de error que nos permita generalizar
dicho dato particular. Aquı́ utilizaremos las herramientas de la Estadı́stica In-
ductiva y trataremos de conocer, por ejemplo, cuál es la probabilidad de que un
adolescente de dicha ciudad tenga un nivel de glucosa mayor a 126 mg/dl de
sangre lo que lo llevarı́a a tener diabetes.
Por último, a partir de las conclusiones obtenidas de este trabajo de investigación,

si resulta que efectivamente hay altos niveles de glucemia entre los adolescentes,
las autoridades de la ciudad pueden tomar medidas de polı́tica tendientes a re-
vertir dicha situación en el futuro, por ejemplo, fomentar los hábitos saludables
de alimentación en la escuela, prohibiendo la venta de golosinas dentro de los
establecimientos escolares.

0.7.3. Etapas de un estudio estadı́stico
1. Planteamineto del Problema:
a) Definir el objetivo de la investigación.
Por ejemplo: diversas Organizaciones internacionales han dirigido su

atención sobre un reciente fenómeno: se observa una disminución de
los umbrales de percepción auditiva en niños, adolescentes y jóvenes,
provocada por exposición a altos niveles sonoros.
En particular, en Argentina es cada vez mayor el porcentaje de jóvenes
aspirantes al ingreso laboral que son rechazados por problemas de au-
dición. El objetivo de una investigación al respecto, puede ser, entre
otros, determinar, comprender y evaluar el conjunto de los diversos
factores que pueden contribuir al desarrollo de las hipoacusias tem-
pranas en adolescentes en dicho paı́s, con el fin de realizar acciones
tendientes a la prevención de esta problemática social.
b) Definir la población o universo: es el conjunto completo de individ-

uos, objetos o datos que el investigador está interesado en estudiar. En
el caso del ejemplo anterior, serı́an todos los adolescentes argentinos.
c) Definir el tipo de información que se desea extraer de los elementos

de la población: podrı́an ser un conjunto de preguntas, observaciones
o mediciones dirigidas hacia dichos elementos. A partir de la infor-
mación anterior, se construirán variables: son cualquier propiedad o
caracterı́stica de los elementos de la población, que puede ser de interés
para el investigador en el sentido de contribuir a lograr el objetivo de
su estudio.
En nuestro ejemplo, podemos considerar ciertas preguntas, mediciones

28
u observaciones, a realizar a los adolescentes, que tengan relación con

su problemática auditiva. Por ejemplo, estas pueden involucrar aspec-
tos tanto auditivos, como acústicos o psicosociales:
1) Se les puede chequear la capacidad de audición, medida en canti-

dad de decibeles mı́nimos que pueden percibir.
2) Preguntar cuántas veces al mes concurren a locales con música

por encima de 100 decibeles.
3) Preguntar si viven cerca de algún aeropuesto, fábrica u otro edifi-

cio que provoque contaminación sonora.
4) Preguntar cuántos minutos al dı́a escuchan música con auriculares.
De lo anterior surgen las siguientes variables:
Variable 1: Capacidad de audición, en decibeles mı́nimos percibidos.
Variable 2: Cantidad de veces al mes que concurren a locales con música por
encima de 100 decibeles.
Variable 3: Se la define como 1: si el estudiante vive cerca de algún edificio

que provoque contaminación sonora; y 0: en caso contrario.
Variable 4: Tiempo, medido en minutos al dı́a, en que el estudiante escucha

música con auriculares.
2. Recogida de la Información Muestral
Por lo general, no se puede disponer del valor de todas las variables para
todos los elementos de la población, por ejemplo por razones económicas.
Entonces se seleccionan algunos de sus elementos: a este subconjunto de la
población se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a
cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y
en el cuestionario que ésta incluye, se plantean las tres preguntas anteriores,
además de realizarles un chequeo auditivo.

3. Análisis Descriptivo de los Datos Obtenidos: Estadı́stica

Descriptiva:
Consiste en procedimientos estadı́sticos que sirven para organizar y re-

sumir, de diversas formas de acuerdo a nuestro interés, un conjunto de
datos obtenidos de la realidad. Los conjuntos de datos no organizados re-
sultan de poco valor. Sin embargo se dispone de técnicas estadı́sticas para
organizar este tipo de datos en forma significativa: tablas de frecuencias,
gráfico de barras, histograma, medidas de resumen, entre otros.
Aquı́ se toman los 1000 formularios que resultaron de la encuesta anterior y

con la ayuda de las herramientas de la Estadı́stica Descriptiva se organizan
y analizan todos los datos que éstos contienen. Y se sacan conclusiones
particulares, en relación a esa parte de la población que fue estudiada. Por
ejemplo, se podrá conocer cuántos minutos por dı́a, en promedio, estos 1000
adolescentes, escuchan música con auriculares. Y también se podrá saber
cuál es el porcentaje, entre ellos, que concurren más de una vez por semana
a locales con música a un volúmen por encima de 100 decibeles, lo cual es
nocivo para su salud auditiva.
4. Inferencia Estadı́stica
Una vez organizados, analizados y resumidos los datos de la muestra, pode-

mos tratar de ver más allá de lo que esta muestra nos presenta: podemos
buscar conocer caracterı́sticas generales de la población, a partir de las
caracterı́sticas particulares que nos presenta la muestra. Con este fin exis-
ten distinstas técnicas estadı́sticas como son la estimación o la prueba de
hipótesis.
Este tipo de razonamiento que va de lo particular a lo general es del tipo

30
inductivo, y de allı́ que a la Inferencia Estadı́stica se la conozca también

con el nombre de Estadı́stica Inductiva. Ésta utiliza la Teorı́a de las Prob-
abilidades, que es una rama de la Matemática.
Sabiendo cuántos minutos por dı́a, en promedio, estos 1000 adolescentes,

escuchan música con auriculares (dato aportado por la Estadı́stica Descrip-
tiva), se puede “estimar”, con cierto margen de error prefijado por el in-
vestigador, cuál es dicho promedio pero entre todos los adolescentes
argentinos.
De esta forma nos aproximamos a obtener conocimiento acerca de un aspec-

to de la realidad social de Argentina, información que puede ser de interés
no sólo para dicho paı́s, sino que puede incentivar estudios internacionales
similares y de esta forma vamos construyendo, con la ayuda de la Estadı́sti-
ca, el conocimiento de la realidad global.

Bloque temático 1
La Estadı́stica Descriptiva
Objetivo:
El objetivo de este bloque temático es presentar a la Estadı́stica Descriptiva, rama

de la Estadı́stica que provee procedimientos útiles para organizar y resumir, de
diversas formas de acuerdo a nuestro interés, un conjunto de datos obtenidos de
la realidad.
1.1. Conceptos generales
Recorrido y tipos de Variables:
Es el conjunto de todos los valores que, en teorı́a, puede tomar la variable. De

acuerdo a su recorrido, existen diferentes tipos de variables. Se clasifican
en dos grandes grupos:
1. las variables categóricas o cualitativas o de atributos,
2. y las variables medibles o cuantitativas.

32 1. La Estadı́stica Descriptiva
1.1.1. Variables categóricas o de atributo o cualitativas
Son aquéllas que no son cuantificables, es decir que para su recolección no in-
tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos
categorı́a, puede ser asociado con un número, con la única finalidad de simpli-
ficar el procesamiento de los datos.
Por ejemplo, son variables cualitativas (entre paréntesis está un posible recorrido):
1. el color de ojos(1.negros, 2.castaños, 3.grises, 4.celestes, 5.verdes, 6.otro )
2. sexo de nacimiento: (1.mujer, 2.hombre).
3. el rendimiento académico (1.bajo, 2.promedio, 3.sobre).
4. el estado nutricional (1.bueno, 2.regular, 3.malo).
Los dos primeros ejemplos son de variables cualitativas nominales, que son
aquéllas en las cuales las asignaciones de los números no suponen ningún orden
entre ellas. En otras palabras: cualquier asignación es válida.
Los otros dos ejemplos son de variables cualitativas ordinales, llamadas

ası́ pues existe un orden particular preestablecido entre los diferentes valores
que puede tomar una variable.
Mientras que entre los valores de las variables nominales sólo podemos comparar
si son iguales o distintos, entre los de las variables ordinales podemos establecer
la relación ”mayor que.o “menor que”.
1.1.2. Variables Cuantitativas
Son variables que resultan de contar o medir ciertas caracterı́sticas de los ele-
mentos de la muestra. Se expresan numéricamente, y dichos valores se usarán

1.1 Conceptos generales 33
algebraicamente a fin de realizar cálculos, a diferencia de los números asignados

a las variables cualitativas.
Ejemplos de dichas variables:
1. Cantidad de hijos, que tiene una mujer mayor de 40 años.
2. Cantidad de cigarrillos fumados por dı́a, por los estudiantes de Biologı́a.
3. La estatura de un jugador de basquetball.
4. El tiempo de recuperación de los pacientes operados de apendicitis.
Dentro de este grupo de variables, se distingue entre variables discretas o con-

tinuas. Los dos primeros ejemplos son de variables cuantitativa discretas, lla-
madas ası́ pues entre dos valores de la variable no siempre existe otro: por ejemplo
una mujer puede tener 1 o 2 hijos, pero no 1 hijo y medio. Los otros dos ejemplos
son de variables cuantitativas continuas pues dados dos valores de la variable
siempre puede existir (aunque sea en teorı́a) otro valor: entre una altura de 2
m y otra de 2 m 1 cm, podemos encontrar un jugador que mida 2 metros 1/2
cm, y podemos seguir subdividiendo los intervalos y siempre, en teorı́a, podremos
encontrar un jugador que tenga una altura en dicho intervalo, apesar de que nue-
stros instrumentos de medicion, llegará un momento, que no tendrán la presición
adecuada como para notar diferencias.
Categorı́as:
Son los distintos grupos, entre los cuales podemos clasificar los distintos valores
que toma una variable. Surgen de partir su recorrido. Muchas veces las categorı́as
pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el
caso de las variables continuas, cuyo recorrido está formado por infinitos números

y entonces debemos particionar su recorrido en intervalos, que serán nuestras

categorı́as.
Sea cual sea el tipo de variable, las categorı́as en las cuales se agrupan los
diferentes valores que toma la variable, deben ser exhaustivas y mutuamente
excluyentes.
Categorı́as exhaustivas: éstas cubren todo el recorrido. Cualquier obser-

vación se debe poder colocar en alguna categorı́a; por ejemplo, si la persona
se niega a contestar, se la coloca en la categorı́a no sabe, no contesta.
Categorı́as mutuamente excluyentes: no se deben superponer.

Cualquier observación se debe colocar sólo en una categorı́a, no debe haber
ambigüedades.
Ejemplos:
1. Variable X: cantidad de dı́as por semana que trabaja una persona.
Recorrido de X: 0, 1, 2, 3, 4, 5, 6, 7 . Puedo considerar como categorı́as

exactamente el recorrido de la variable; o sino podrı́a considerar como cat-
egorı́as: 0, 1, 2, 3,4,5, 6,7 .
2. Variable Y: peso de los bebés en kg, nacidos a término.
Posible recorrido: [2.3, 5] . Puedo tomar como categorı́as los siguientes in-
tervalos: [2.3, 2.5), [2.5, 3.5), [3.5, 3.9), [3.9, 5] , u otros, dependiendo de
los intervalos que sean de interés.
Observación:

1.2 Análisis de las variablebles cuantitativas agrupadas en intervalos 35
1. Los intervalos no tienen por qué tener todos igual amplitud.
2. Los intervalos que son válidos son los del tipo [ , ) o ( , ]. Si los intervalos
son todos ( , ), no cumplen con la caracterı́stica de la exhaustividad, pues
los valores de los extremos no están incluidos en ningún intervalo. Si los
intervalos son todos [ , ], no cumplen con la caracterı́stica de ser mutuamente
excluyentes, pues se superponen.
1.2. Análisis de las variablebles cuantitativas

agrupadas en intervalos
Ya vimos que el objetivo de la Estadı́stica era extraer la información contenida

en un conjunto de observaciones o datos. Para ello cuenta con las siguientes
herramientas:
1.2.1. Tabla de la Distribución de Frecuencias
Continuando con el ejemplo anterior de los adolescentes y su nivel de glucemia,

vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por
lo general de mayor tamaño, pero tomamos sólo 20 para manejar con facilidad
los datos.
Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos

como X = nivel de glucemia en ayunas, medido en miligramos de glucosa por
decilitro de sangre (mg/dl). Estos datos son :
98, 150, 100, 70, 80, 110, 123, 85, 115, 120
130, 110, 105, 98, 140, 81, 125, 120, 130, 126

En primer lugar, organizamos estos datos muestrales en una tabla de distribución

de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con
el fin de que los podamos interpretar de alguna forma.
Existen ciertos valores lı́mite, para distintas condiciones relacionadas con la can-
tidad de azúcar en sangre en ayunas. Según algunos especialistas se puede afirmar
lo siguiente:
mg de glucosa por dl de sangre Condición
48 a 73 hipoglucemia
74 a 99 glucemia normal
100 a 125 pre-diabetes
126 a 152 diabetes
Adoptaremos la convención de construir intervalos de la forma [ , ): implica que

el valor de la izquierda está en el intervalo pero no el de la derecha. Y recordando
que las categorı́as deben ser exhaustivas, nuestros intervalos serán ligeramente
diferentes a los planteados en la tabla anterior:
Categorı́as: [xi−1 , xi ) ni total
[48, 74) X 1
[74, 100) XXXXX 5
[100, 126) XXXXXXXXX 9
[126, 152) XXXXX 5
n = 20
A la columna ni se la llama columna de frecuencias absolutas, y en ella se colo-

can cuántos datos caen en cada intervalo. Una práctica común para completarla,
es leer uno a uno los datos y colocar una marca (checkmark) al lado del intervalo
donde cada dato se encuentra. Luego contamos la cantidad de X y obtenemos ni .

Al sumar esta columna debemos obtener n: el tamaño de la muestra.
Es importante tener en cuenta que al organizar los datos en intervalos pierdo

la información de los datos originales, pero gano en un mejor ordenamiento
de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in-
tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca
de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o
están distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros
vamos a adoptar esta ultima hipótesis.
La tabla de frecuencias también incluye las siguientes columnas:
ci : marca de clase del intervalo: es el punto medio de dicho intervalo, que se

calcula como la semisuma de sus valores extremos.
Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61.
La marca de clase viene a ser el valor representativo del intervalo.
hi : frecuencia relativa del intervalo: es la proporción de datos que hay en él.

Se calcula como hi = ni /n. La suma de todos las hi es siempre 1.
Si multiplicamos hi · 100, obtenemos el porcentaje de datos en cada intervalo.

Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes
poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de
glucosa por dl de sangre) que los lleva a tener pre-diabetes.
Fi∗ : Función de distribución acumulada empı́rica: es la proporción (o por-

centaje si se multiplica cada valor de Fi∗ por 100) de observaciones que existen
hasta cada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,
los valores de hi de todos los intervalos anteriores a él.
A partir de Fi∗ , podemos decir que el 30 % de los adolescentes tienen hipoglucemia

o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre-

diabetes o diabetes (pues F · 100 = 0, 3).
fi∗ : función de densidad empı́rica: es la frecuencia relativa por unidad de me-

dida en cada intervalo. Me indica la concentración o “densidad de datos” que hay
en cada intervalo.
Se calcula ası́: fi∗ = hi /amplitud de cada intervalo. La amplitud del intervalo es

la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de
fi∗ es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.
Categorı́as: [xi−1 , xi ) ni hi Fi∗ = F ∗ (xi ) ci f∗
[48, 74) 1 0,05 0,05 61 0,002

[74, 100) 5 0,25 0,3 87 0,01
[100, 126) 9 0,45 0,75 113 0,017
[126, 152) 5 0,25 1 139 0,01
n = 20 1
1.2.2. Gráficos
Histograma
El Histograma es una forma gráfica de presentar la información que nos propor-

cionan los datos, acompañando la tabla de frecuencias. Nos permite, a golpe de
vista, sacar algunas conclusiones más rápidamente que observando la tabla. Ese
es su principal objetivo.
En el eje horizontal se indican los extremos de los intervalos. En el eje vertical

van los valores de fi∗ . Y se levantan “barras” encima de cada intervalo, a la altura
del correspondiente fi∗ .
Observar que el área encima de cada intervalo (base por altura =amplitud del

intervalo por fi∗ = hi ) es su correspondiente frecuencia relativa.
El área total del histograma es 1, por ser la suma de todas las barras, que son
las frecuencias relativas hi .
Figura 1.1: Histograma del nivel de glucemia
Ojiva o gráfico de la función de distribución acumulada empı́rica Fi∗
Para variables cuantitativas agrupadas en intervalos, la gráfica de Fi∗ se repre-

senta como una función continua, pues trabajamos con la hipótesis de que los
valores que caen dentro de cada intervalo, se consideran distribuidos uniforme-
mente dentro del mismo. Por lo tanto :
1. Primero, se marcan en el gráfico las frecuencias acumuladas en los extremos

superiores de los intervalos, que son los que aparecen en la tabla. Es decir:
F ∗ (74) = 0,05, F ∗ (100) = 0,3, F ∗ (126) = 0,75, F ∗ (152) = 1
2. Y posteriormente, se trazan los segmentos que determinan dos puntos con-

secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo,
en forma coherente con el supuesto antedicho.
Ojiva
1
0.8
Distribucion empirica
0.6
0.4
0.2
0
40 60 80 100 120 140 160
nivel de glucemia
Figura 1.2: Ojiva del nivel de glucemia
Distribuciones Empı́ricas y Teóricas Las distribu-

ciones estudiadas: fi∗ y F ∗ (xi ) son empı́ricas, pues son realizadas a partir de
la observación de una muestra.
Existen otras distribuciones llamadas teóricas ( f (xi ) y F (xi ) ), que resultan de

estudios realizados con modelos probabilı́sticos e involucran los datos de toda la
población.

1.3 Medidad de resumen 41
Se demuestra que, al aumentar el número de observaciones en las muestras, las

distribuciones empı́ricas se aproximan cada vez más a las teóricas.
1.3. Medidad de resumen
Las medidas de resumen muestrales sirven para obtener caracterı́sticas generales

de dicha muestra, con el riesgo que siempre implican los resúmenes, en cuanto al
grado en que reflejan la información del conjunto de datos. Veremos dos grupos
de medidas de resumen:
Medidas de posición: Indican “por dónde” se sitúan los datos de la mues-

tra. Estas medidas pueden ser de tendencia central o medidas no centrales
(los cuartiles y percentiles).
Medidas de dispersión: Se utilizan para medir el grado de concentración

de los datos, en torno a determinados valores. Por ejemplo, deben acom-
pañar a las medidas de tendencia central, para dar una idea de qué tan
confiable es el dato proporcionado por ellas.
1.3.1. Medidas de posición
Medidas de tendencia central
Son tres: la media, la mediana y el modo.
Media (aritmética): Se la puede definir como el “centro de gravedad”

de la distribución de frecuencias. Constituye el valor central por excelen-
cia, pues considera la totalidad de las observaciones, ponderadas por su
frecuencia relativa. Se calcula como la suma de las marcas de clase por la

correspondiente frecuencia relativa. Observar en la tabla siguiente que la

media surge de sumar la columna indicada como ci · hi .
La media en nuestro caso vale 110,4 lo cual significa que, en promedio, los
adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en
ayunas. Ello sólo no nos dice mucho pues no sabemos si la mayorı́a tienen
ese valor de glucemia, o tienen valores inferiores y superiores que hacen que
sea tal el promedio. Más adelante calcularemos el desvı́o standard y se nos
aclarará un poco el panorama.
Esta media muestral es una aproximación de la verdadera media muestral

(que se calcula como la suma de todos los datos originales dividido 20 o sea
110,8 ), pues dentro de cada intervalo, los diferentes valores han sido todos
sustituidos por un único valor, ci, el punto medio de dicho intervalo.
Mediana (Xme ): Cuando la muestra contiene unos pocos datos sumamente

grandes o muy pequeños, la media puede no ser representativa. El punto
central de tales datos puede describirse mejor utilizando otra medida de
tendencia central como es la M ediana, pues ella no considera dichos valores
extremos. Es el valor de la variable que divide en dos mitades al conjunto de
datos ordenados: es el valor Xme que acumula el 50 % de las observaciones
o sea que cumple que F ∗ (Xme ) = 0, 5.
Dos casos:
1. Si en la tabla se observa que F ∗ (xi ) = 0,5, entonces Xme =

extremo superior del intervalo correspondiente.
2. Si no es ası́, entonces la mediana se debe obtener por interpolación

dentro del intervalo que contiene a Xme . En este caso, se procede ası́:
a) Encontramos el intervalo donde se encuentra Xme : es el primer

intervalo donde F ∗ (xi ) es mayor a 0,5. En nuestro caso es [100,
126).

b) Aplicamos la fórmula siguiente:

(0,5 − F ∗ (xi−1 ))
Xme = xi−1 +
fi∗
donde:
xi−1 : extremo inferior del intervalo donde está la mediana. O sea

xi−1 = 100
F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de la
mediana. O sea F ∗ (xi−1 ) = 0,3
fi∗ : valor de la función de densidad empı́rica, correspondiente al
intervalo donde está la mediana. O sea fi∗ = 0,017
(0,5–0,3)
Xme = 100 + = 111,76
0,017
Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de
glucemia de 111,76 mg/dl o menos. O más significativamente, podemos
decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76
lo que implicarı́a que tienen pre-diabetes o diabetes.
3. Modo ( Xmo ): Es la categorı́a con la mayor cantidad de observaciones.

Puede existir más de una categorı́a que cumpla lo anterior. En ese caso,
el modo no es único. Si existen dos modos se dice que la distribución
es bimodal. En la forma es que estamos trabajando, con datos agru-
pados en intervalos, no hablamos de Modo sino de I ntervalo Modal:
es el intervalo que concentra la mayor frecuencia relativa por unidad
de medida, por lo tanto es aquel intervalo, al cual le corresponde el
máximo valor de la función de densidad empı́rica fi∗ .
En nuestro ejemplo, el intervalo modal es [100, 126), lo cual significa
que la mayor parte de los adolescentes de esta muestra (un 45 %) tienen
niveles de glucemia entre 100 y 126 (no inclusive) mg de glcosa por dl
de sangre en ayunas, lo cual significa que son pre-diabéticos.

Categorı́as: [xi−1 , xi ) ni hi Fi∗ = F ∗ (xi ) ci f∗ ci · hi c2i · hi
[48, 74) 1 0,05 0,05 61 0,002 3,05 186,05

[74, 100) 5 0,25 0,3 87 0,01 21,75 1892,25
[100, 126) 9 0,45 0,75 113 0,017 50,85 5746,05
[126, 152) 5 0,25 1 139 0,01 34,75 4830,25
total n = 20 1 110,4 12654,6
Medidas de posición no centrales
Además de las medidas de tendencia central , también hay algunas medidas útiles
de posición “no central” que suelen utilizarse al resumir o describir propiedades
de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles.
Los Cuartiles son tres valores: Q1 , Q2 , y Q3 , que me dividen los datos ordenados
de la variable, en cuartos (25 %).
25 % | 25 % | 25 % | 25 %
Q1 Q2 Q3
Q1 es el valor cuya frecuencia acumulada es 25 %.
Q2 es el valor cuya frecuencia acumulada es 50 %. Entonces Q2 = Xme
Q3 es el valor cuya frecuencia acumulada es 75 %.
Percentiles: Hay noventa y nueve percentiles.
Por ejemplo, el percentil 10 (que anotamos P10 ) es el valor cuya frecuencia acu-
mulada es del 10 %. Y el percentil 90 ( P90 ) cumple que Fi∗ (P90 ) = 0, 9
La determinación de estas medidas es análoga a la de la mediana o los cuartiles.

Cálculo de PRIMER CUARTIL:
Es aquel valor que cumple que F ∗ (Q1 ) = 0, 25.
Dos casos:
1. Si en la tabla se observa que F ∗ (xi ) = 0,25, entonces Q1 = xi , extremo

superior del intervalo correspondiente.
2. Si no es ası́, entonces Q1 se debe obtener por interpolación dentro del in-

tervalo que lo contiene. En este caso, se procede de la siguiente forma:
a) Encontrar el intervalo donde se encuentra Q1 : es el primer intervalo

donde F ∗ (xi ) es mayor a 0,25.
b) Aplico la formula siguiente:

(0, 25 − F ∗ (xi−1 ))
Q1 = xi−1 +
fi∗
donde:
xi−1 : extremo inferior del intervalo donde está Q1 .
F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de Q1 .
fi∗ : valor de la función de densidad empı́rica del intervalo donde
está Q1 .
En el ejemplo, el intervalo donde está Q1 es [74 , 100 ). Por lo tanto:
(0, 25–0, 05)

Q1 = 74 + = 94
0,01
Es decir el 25 % de los adolescentes de esta muestra tienen niveles de
glucemia de hasta 94 mg/dl.
Cálculo de TERCER CUARTIL:

Es aquel valor que cumple que F ∗ (Q3 ) = 0, 75.
Dos casos:
1. Si en la tabla se observa que F ∗ (xi ) = 0,75, entonces Q3 = xi , extremo

superior del intervalo correspondiente.
2. Si no es ası́, entonces Q3 se debe obtener por interpolación dentro del in-

tervalo que lo contiene. En este caso, se procede de la siguiente forma:
a) Encontrar el intervalo donde se encuentra Q3 : es el primer intervalo

donde F ∗ (xi ) es mayor a 0,75.
b) Aplico la formula siguiente:
(0, 75 − F ∗ (xi−1 ))
Q3 = xi−1 +
fi∗
donde:
xi−1 : extremo inferior del intervalo donde está Q3 .
F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de Q3 .
fi∗ : valor de la función de densidad empı́rica del intervalo donde

está Q3 .
En el ejemplo, se observa en la tabla que F ∗ (126) = 0, 75. Por lo

tanto Q3 = 126. Es decir, el 75 % de los adolescentes de esta muestra
tienen niveles de glucemia hasta 126 mg/dl. O más significativamente,
el 25 % de ellos tienen niveles de 126 mg/dl o mayores, es decir que
tienen diabetes.
1.3.2. Medidas de dispersión
Las medidas de dispersión dan idea de cuánto se dispersan o concentran los datos
de nuestra muestra.

Son útiles para medir, de algún modo, la representatividad de las medidas de ten-
dencia central. En otras palabras: los valores centrales pierden significación
cuando la dispersión es alta, y por ello debemos conocer y complementar las
medidas de posición, con las medidas de dispersión.
EJEMPLO: los ingresos mensuales de 4 personas (en $) son los siguientes: 7.800,
8.200, 8.000, 8.400.
La media es 8.100, y a simple vista notamos que los valores están concentrados
en torno a ella, pues se separan poco de la media (la dispersión es baja).
Los ingresos mensuales de otras 4 personas son los siguientes:
800 2 700 1 000 12 900
La media es también 8.100, pero se advierte una dispersión mucho mayor que
en el caso anterior. Por lo tanto la información que brinda la media en este caso
se desvirtúa y para no realizar conclusiones erróneas imaginar que 8.100 es un
sueldo representativo de estas 4 personas, debemos acompañarla de una medida
de dispersión, como es el desvı́o standard.
Rango: R
El rango de un conjunto de datos es la diferencia entre el mayor y el menor de

todos ellos. Da idea de la amplitud del recorrido total de la variable en la muestra.
Para datos agrupados en intervalos, es la diferencia entre el extremo superior del

último intervalo y el extremo inferior del primer intervalo. Es decir: R = 152–48 =
104. Al interpretarlo, decimos que los valores de glicemia de los adolescentes de
mi muestra están entre 48 mg/dl y 152 mg/dl, (es decir recorren 104 valores).
Una limitación que tiene R es que sólo considera los valores extremos, sin aportar

información sobre los valores interiores.
Rango Intercuartı́lico: RI o desviación respecto a Xme :
RI = Q3 –Q1
Es una medida complementaria de la mediana, la cual se encuentra en el intervalo

que corresponde al rango intercuartı́lico.
En nuestro ejemplo,
RI = 126–94 = 32 . Se interpreta diciendo que el 50 % de los adolescentes de la

muestra tienen niveles de glicemia de entre 94 mg/dl y 126 mg/dl (recorren 32
valores).
Varianza : S 2
Da idea de la dispersión promedio de los datos, respecto a la media aritmética. Se

calcula como el promedio del cuadrado de las desviaciones de los valores respecto
de la media.
(ci –(media)2 ).ni

P
2
S =
n
o más fácil para los cálculos S 2 = (c2i · hi ) − (media)2

P
Entonces la varianza muestral se puede calcular fácilmente a partir de la tabla,

agregando la columna c2i · hi y siendo
P 2
ci · hi la suma de dicha columna. Por lo
tanto S 2 = 12654, 6 − (110,4)2 = 466, 44
Observación 1: Las desviaciones de cada xi con respecto a la media, se elevan

al cuadrado pues de lo contrario la suma de todas ellas serı́a siempre cero.
Observación 2: La varianza es una de las más importantes medidas de disper-

sión, pero su resultado implica una magnitud que no tiene una interpretación útil

en sı́ misma, pues al elevar al cuadrado, tenemos unidades de medida al cuadrado.
Su significado cobra relevancia al comparar la varianza de dos muestras: a may-

or varianza, mayor dispersión y menor concentración de datos. Como tiene el
inconveniente de medir la dispersión, en términos del cuadrado de las unidades,
se calcula su raı́z cuadrada: la desviación standard
Desvı́o tı́pico o desciación standard: S
Se calcula tomando la raı́z cuadrada de la varianza.
Entonces S = 21, 6
Al contrario de la varianza, donde los desvı́os se elevan al cuadrado y entonces los

valores quedan expresados en unidades al cuadrado, en la desviación standard, al
aplicarles la raı́z cuadrada, los llevamos nuevamente a su unidad original, y por lo
tanto S tiene interpretación en sı́ misma: En promedio, los niveles de glicemia de
los adolescentes de la muestra se desvı́an 21,6 mg/dl, con respecto a la media que
es 110,4 mg/dl. Pero dicha dispersión, ¿ es grande o pequeña ?. Esto lo contesta
el coeficiente de variación.
Coeficiente de variación : C.V. relaciona la desviación standard con la me-

dia, brindando una medida sobre la dispersión relativa del conjunto de observa-
ciones. Se calcula sólo cuando los datos son positivos:
S
C.V. =
media
Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando
Al C.V. generalmente se lo interpreta como un porcentaje. Como es una medi-

da que no tiene unidades, resulta muy útil para comparar muestras que tengan
unidades diferentes.

Se interpreta diciendo que el desvı́o standard de los niveles de glucemia, representa

un 20 % de la media, lo cual es una baja dispesión. Y por lo tanto podemos
concluir que la media de 110,4 mg/dl representa bien a mi muestra.

1.4 Ejericicos 51
1.4. Ejericicos
Atención es muy importante que interpretes los resultados de casa ejercicio. Uno
de los objetivos de la Estadı́stica es resumir y presentar información cuantitativa
de forma clara, por lo que es especialmente relevante que, en la resolución de los
ejercicios, se exprese de forma evidente el planteamiento del problema, el método
seguido para su resolución, los resultados y las conclusiones que se obtengan.
1. A continuación se presenta una lista de variables, las cuales el estudiante

debe poder identificar de acuerdo a la clasificación señalada el punto ante-
rior:
a) Número de micciones en 24 horas.
b) Presión arterial sistólica (mm de Hg).
c) Color de ojos (agrupados en tres categorı́as: 1) celestes, azules o verdes;

2) pardos o negros; 3) otros).
d ) Apetito sexual: fuerte, moderado, leve o nulo.
e) Número de deposiciones por dı́a en un bebé de tres meses.
f ) Número de cromosomas.
g) Cantidad de glóbulos rojos.
2. Los items de este primer ejercicio, tienen como fuente de datos la tabla
que se presenta a continuación, la cual surge de una encuesta realizada
a usuarios de un servicio de salud. El significado de las variables, que se
encuentran en la primera fila de la tabla, se explican a continuación de la
misma.
Edad Sexo BH Talla Peso GLU CT HDL

78 0 0 145 67.00 106 188 35

37 0 0 156 97.50 90 212 37
43 0 0 158 60.00 98 202 39
46 0 0 158 81.00 101 275 43
20 0 0 155 55.50 80 358 43
36 0 0 164 67.40 113 189 43
42 0 0 159 64.20 91 191 45
41 0 0 156 77.00 106 223 46
90 0 0 145 54.50 119 302 50
39 0 0 159 68.10 92 184 51
39 0 0 149 53.10 109 183 54
43 0 0 161 70.00 98 280 55
35 0 0 173 77.50 89 207 56
36 0 0 159 60.50 110 219 57
61 0 0 155 80.00 117 196 58
75 0 0 150 43.50 85 196 59
24 0 0 165 66.20 84 182 60
53 0 0 169 66.80 96 218 64
37 0 0 160 65.20 100 193 69
57 0 0 152 85.50 137 260 69
24 0 0 174 64.00 73 196 70
22 0 0 159 54.90 78 158 70
28 0 0 161 57.80 86 239 75
28 0 0 164 75.50 85 283 80
21 0 1 164 64.00 87 193 39
36 0 1 160 55.00 88 217 42
34 0 1 151 57.00 105 163 52

1.4 Ejericicos 53
35 0 1 158 66.00 93 242 54

26 0 1 167 47.70 82 179 61
21 0 1 157 57.40 72 232 77
71 1 0 154 61.60 96 233 34
35 1 0 173 97.50 138 211 36
29 1 0 169 81.00 101 229 39
50 1 0 167 67.50 103 221 41
39 1 0 174 88.00 102 214 42
39 1 1 167 82.00 97 273 45
47 1 1 164 70.00 240 264 49
39 1 1 180 81.00 80 238 67
69 1 1 168 71.40 109 235 77
41 1 1 166 82.00 125 255 30
EDAD: En años
SEXO: 0 (Mujeres) 1 (Varones)
BH: Bebedor/a habitual: 1 (Sı́) 0 (No)
TALLA: en cm.
PESO: En Kg.
GLU: Glucemia (mg/dl)
CT : Colesterol Total (mg/dl)
HDL: Fracción de colesterol unido a lipoproteı́nas de alta densidad: High
Density Lipoproteins (mg/dl).
a) Clasifica todas las variables de la tabla, según sean cuantitativas, cual-

itativas, discretas o continuas.
b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,

a partir de los datos de la variable edad, de la tabla anterior. Con-

sidera 5 intervalos de igual longitud. Interpreta los valores de la tabla
construida.
c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,

a partir de los datos de glucemia de los varones de la tabla anterior.
Considera 4 intervalos de igual longitud. ¿ Qué porcentaje de hombres
tienen un nivel normal de glucemia ? Contesta de dos formas: a partir
de la tabla de frecuencias y a partir de los datos originales. Explica las
diferencias que surjan.
d ) Representa el histograma de la variable talla.Considera 5 interval-

os.Haz lo mismo, discriminando por sexo, considerando los mismos
intervalos. Compara.
e) Representa la tabla de frecuencias de la variable BH, diferenciando por

tres grupos de edades: de 20 a 39 años, de 40 a 59 años y de 60 a 90
años. Compara.
f ) ¿Qué puedes decir sobre las medidas de tendencia central de la variable

CT en las mujeres de la tabla? ¿Y sobre su dispersión?. Considere 5
intervalos.
g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-

terol bueno) más alto que los hombres”, a la luz de esta muestra.
3. Con el fin de observar la relación entre la inteligencia y el nivel socioe-

conómico (medido por el salario mensual familiar, en miles de pesos) se
tomaron dos grupos: uno formado con personas de cociente intelectual infe-
rior a 95 y otro formado por los demás. De cada persona se anotó el salario
mensual familiar. Teniendo en cuenta los resultados que se indican en la
tabla:

1.4 Ejericicos 55
Nivel socioeconómico Personas con CI < 95 Personas con CI ≥ 95

Intervalos Frecuencia Frecuencia
[4, 10) 75 19
[10, 16) 35 26
[16, 22) 20 25
[22, 28) 30 30
[28, 34) 25 54
[34, 40] 15 46
a) Dibuje un gráfico que permita comparar ambos grupos.
b) Calcule las medidas de tendencia central para cada uno de los dos
grupos de personas.
c) Calcular las medidas de dispersión para cada uno de los grupos.
d ) ¿Qué conclusiones se pueden sacar a raı́z de la información obtenida

en los items anteriores?
4. Un estudio consistió en anotar el número de palabras leı́das en 15 segundos

por un grupo de 120 sujetos disléxicos y 120 individuos normales. Teniendo
en cuenta los resultados de la tabla
N ro de palabras leı́das Disléxicos Normales
25 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 2 32
calcule:
a) Las medias aritméticas de ambos grupos.

b) Las medianas de ambos grupos.
c) El porcentaje de sujetos disléxicos que superaron la mediana de los

normales.
d ) Compare la variabilidad relativa de ambos grupos.
5. En una epidemia de escarlatina, se recogieron el número de fallecidos, en

40 ciudades de un paı́s, obteniéndose la siguiente tabla:
N ro de fallecidos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
a) Representar gráficamente estos datos.
b) Obtener la distribución acumulada y representarla.
c) Calcular media, mediana y moda. Interpretarlas
d ) Calcular la varianza y la desviación standard.
e) Calcular el porcentaje de ciudades con al menos 2 muertos.
f ) Calcular el porcentaje de ciudades con más de 3 muertos.
g) Calcular el porcentaje de ciudades con, a lo sumo, 5 muertos.
1.5. Artı́culos OMS
A continuación se presentan algunos extractos del artı́culo: “Informe sobre la

salud en el mundo 2008. La atención primaria de la salud: Más necesaria que
nunca”.

Informe sobre la salud en el mundo 2008
La atención primaria de salud
REFORMAS DE
LA PRESTACIÓN
DE SERVICIOS
Más
REFORMAS
REFORMAS EN PRO DE LAS POLÍTICAS
DE LA COBERTURA PÚBLICAS
UNIVERSAL
necesaria
REFORMAS DEL
LIDERAZGO
que
nunca
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
Recuadro 1.3 Conforme mejora la información se hacen más patentes las múltiples
dimensiones de las crecientes desigualdades sanitarias
En los últimos años se ha descrito de forma mucho más detallada el alcance de las diferencias existentes en cada país en cuanto a
vulnerabilidad, acceso a la atención y resultados sanitarios (figura 1.9)59 . El hecho de disponer de mejor información ha permitido observar
que las desigualdades en materia de salud tienden a aumentar, lo que resalta los fallos y la desigualdad de las medidas adoptadas por
los sistemas de salud para responder a las necesidades sanitarias de la población. Pese a la importancia concedida últimamente a la
reducción de la pobreza, los sistemas de salud siguen teniendo dificultades para llegar a los pobres tanto en las zonas rurales cuanto
en las urbanas, así como para afrontar las muy diversas causas y consecuencias de la desigualdad en materia de salud.
Figura 1.9 Desigualdades en materia de salud y en la prestación de atención en los países

Gasto de los hogares en salud por habitante Tiempo medio (minutos) para desplazarse
como porcentaje del gasto total de los a un ambulatorio, por grupo de ingresos
hogares, por grupo de ingresos
6 50
5
40
4
30
3
20
2
1 10
0 0
Côte d’Ivoire Ghana Madagascar Bosnia y Herzegovina Comoras Ecuador
1988 1992 1993–4 2003–4 2003–4 2003–4
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior
Mujeres sometidas a profilaxis Cobertura vacunal básica completa (%),

contra la malaria (%), por grupo de ingresos por grupo de ingresos
100 100
80 80
60 60
40 40
20 20
0 0
Guinea Malawi Níger Tanzanía Bangladesh Colombia Indonesia Mozambique
2005 2004 2006 2004 2004 2005 2002–3 2003
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior
Tasa de mortalidad neonatal, Partos atendidos por profesionales sanitarios (%),

por nivel de estudios de la madre por nivel de estudios de la madre
100 100
80 80
60 60
40 40
20 20
0 0
Bolivia Colombia Lesotho Nepal Filipinas Benin Bolivia Botswana Camboya Perú
2003 2005 2003 2006 2003 2001 2003 1998 2005 2000
Fuentes: (60, 61, 62, 63).
Sin estudios Estudios primarios Educación secundaria o superior
10
de uno de los artífices de la estrategia de APS Entre los factores que limitan ese despliegue
de ese país: «Dado que era imposible poner en progresivo de redes de atención primaria cabe
marcha el proyecto en todas las provincias al destacar la falta de una categoría de personal de
mismo tiempo, decidimos centrarnos cada año nivel intermedio con dotes de liderazgo que orga-
en una sola provincia» (recuadro 2.3). nice los distritos sanitarios y tenga la capacidad
de mantener, año tras año, el esfuerzo constante
requerido para lograr resultados sostenibles para
Recuadro 2.3 Reducción de la brecha toda la población. Cuando la puesta en marcha se
urbano-rural mediante la expansión progresiva ha llevado a cabo como una actividad meramente
administrativa, los resultados han sido decep-
de la cobertura de APS en las zonas rurales cionantes: muchos distritos sanitarios existen
de la República Islámica del Irán31 sólo teóricamente. Sin embargo, allí donde la
impaciencia y la presión para lograr la visibili-
En los años setenta las políticas del Gobierno iraní hicieron hincapié dad a corto plazo se han gestionado de manera
en la prevención como forma de inversión a largo plazo, la asignación adecuada, la combinación de la respuesta a las
de recursos a las zonas rurales y desfavorecidas, y la primacía de la necesidades y la demanda y la participación
atención ambulatoria respecto a la hospitalización. Se estableció una de la población y las instancias principales ha
red de equipos distritales encargados de supervisar y administrar casi
2500 centros rurales sanitarios en aldeas. La plantilla de esos centros es
permitido construir redes sólidas de atención
un equipo formado por un médico, una partera, una enfermera y varios primaria, incluso en situaciones de conflicto y
técnicos sanitarios. Cada centro supervisa de uno a cinco pequeños posconflicto muy difíciles y faltas de recursos
puntos de atención conocidos como «casas de salud». Gracias a esas (recuadro 2.4).
17 000 casas de salud, más del 90% de la población rural tiene acceso a En la práctica la distinción entre el despliegue
atención sanitaria. En las zonas rurales remotas, el personal de las casas
de salud está formado por behvarz (trabajadores de salud multifuncio-
rápido de intervenciones prioritarias y el des-
nales) que, tras ser seleccionados por la comunidad, reciben entre 12 y pliegue progresivo de redes de atención prima-
18 meses de formación y luego son contratados por la Administración. ria no suele ser tan sencilla como se acaba de
Los equipos distritales imparten formación basada en la solución de describir. Sin embargo, pese a esa convergencia,
problemas, así como supervisión y apoyo permanentes. la búsqueda de un compromiso entre rapidez y
El Gobierno aplicó esta estrategia progresivamente, ampliando la cober- sostenibilidad es un verdadero dilema político30.
tura de provincia en provincia. Con los años, la red de APS ha crecido
En Malí, por poner un ejemplo, se ha demostrado
y está ahora en condiciones de prestar servicios a más de 24 millones
de personas en aldeas rurales y localidades pequeñas, aproximando que, si se le permite elegir, la gente opta volun-
los consultorios a los lugares donde las personas viven y trabajan, e tariamente por la puesta en marcha progresiva
impartiendo formación al personal sanitario auxiliar necesario para que mediante la transformación de los centros de
proporcione servicios de planificación familiar, atención preventiva y salud comunitarios – cuya infraestructura es
atención curativa esencial para la mayoría de los problemas sanitarios.
propiedad de la comunidad local, que también
En la actualidad las tasas de utilización de los servicios rurales de salud
son similares a las de las zonas urbanas. La puesta en marcha progresiva se hace cargo de contratar al personal – en la
de este sistema ha contribuido a reducir las diferencias de mortalidad base de distritos sanitarios funcionales.
infantil entre las zonas urbanas y las rurales (figura 2.5). Lo realmente importante es que la preocupa-
Figura 2.5 Mortalidad de menores de cinco años en zonas rurales y urbanas,
ción por la equidad no se traduzca en la búsqueda
República Islámica del Irán, 1980–200032 del «mínimo común denominador»: la igualdad de
Mortalidad por 1000 menores de cinco años acceso a un conjunto de servicios en gran medida
80
Rural
insatisfactorios. La calidad y la sostenibilidad
son importantes, de ahí la gran necesidad de
60 armonización entre los numerosos proveedores
públicos y privados sin fines de lucro y comercia-
40
Urbana les, dinámicos y de diversos tipos. El despliegue
gradual de servicios de salud brinda la oportuni-
dad de imprimir una coherencia beneficiosa a la
20
dirección de la prestación de atención sanitaria a
nivel de distrito. Ejemplos típicos y en gran escala
0
1980 1985 1990 1995 2000 de este enfoque en los países en desarrollo son la
subcontratación de servicios distritales de salud
32
misma oferta. Los sistemas de salud son también mejores, de que haya menos inequidades en salud
reflejo de una cultura de consumo que se está y de poder participar en las decisiones que afec-
generalizando. Sin embargo, por otra parte hay tan a la salud es más común e intenso que hace
indicios de que la población es consciente de que 30 años. En consecuencia, actualmente se espera
esos sistemas de salud no aportan una respuesta mucho más de las autoridades sanitarias.
adecuada a las necesidades y la demanda, y de
que se mueven por intereses y objetivos no rela- Equidad sanitaria
cionados con las expectativas de las personas. A Rara vez, si no nunca, se logra una situación de
medida que las sociedades se modernizan y se equidad en cuanto a la salud, la riqueza o el poder.
vuelven más prósperas e informadas, va cam- Algunas sociedades son más igualitarias que otras,
biando la vida que la gente desea llevar como
personas y como miembros de la sociedad, es
decir, cambian sus valores112. Hoy día se tiende Recuadro 1.5 La salud, una de las
a considerar los servicios de salud más como un principales prioridades personales
producto, pero también son cada vez mayores las
expectativas con respecto a la salud y la atención
Cuando se pregunta a las personas por los problemas más
sanitaria. La gente se interesa más de que lo se
importantes con que se enfrentan ellas y sus familias, casi
piensa por la salud como factor que influye en siempre se citan en primer lugar los apuros económicos,
su vida cotidiana y la de sus familias (recuadro seguidos de cerca por la salud118 . En uno de cada dos países,
1.5)113, y espera que sus familias y comunida- las enfermedades propias, los costos de la atención sanitaria,
des estén protegidas de los riesgos y los peligros la mala calidad de la atención y otros temas de salud son
las principales preocupaciones personales de más de una
para la salud. Desea una atención sanitaria que
tercera parte de la población encuestada (figura 1.11). Así
la trate como personas con derechos y no como pues, no resulta sorprendente que el desmoronamiento del
meros objetivos de programas o beneficiarios de sistema de atención sanitaria – incluso los meros indicios de
obras de caridad. Está dispuesta a respetar a los un posible desmoronamiento – pueda provocar una situación
profesionales sanitarios, pero desea ser respe- de descontento popular que amenace las ambiciones de los
políticos considerados responsables119 .
tada a su vez, y que exista un clima de confianza
mutua114. Figura 1.11 Porcentaje de la población que cita la salud como su principal
preocupación, por delante de otras cuestiones como los problemas
Las personas también tienen expectativas económicos, la vivienda y la delincuencia118
sobre la manera en que la sociedad se debe ocu- Polonia
Ucrania
par de la salud y la atención sanitaria. Aspiran Federación de Rusia
Bulgaria
Alemania
a una mayor equidad y solidaridad sanitarias Italia
Suecia
y cada vez toleran menos la exclusión social, Israel
Turquía
España
aunque a título individual se resistan a veces a República Checa
Francia
actuar conforme a esos valores115. Esperan que Reino Unido
Eslovaquia
las autoridades sanitarias, ya sean de la Adminis- México

Chile
tración o de otros organismos, hagan un mayor Canadá
Perú
esfuerzo para proteger su derecho a la salud. Las Argentina
Brasil
Estados Unidos
encuestas sobre valores sociales realizadas desde Venezuela
Bolivia
la década de los ochenta muestran cada vez más República de Corea
China
puntos en común a este respecto entre los valores Japón
Malasia
de los países en desarrollo y los de las sociedades Bangladesh
India
más prósperas, donde la protección de la salud y Indonesia
el acceso a la atención a menudo se dan por des- Marruecos
Pakistán
contados112,115,116. La mayor prosperidad, el acceso Egipto
Líbano
Kuwait
a conocimientos y la conectividad social están Jordania
Territorio palestino ocupado
asociados a un aumento de las expectativas. La Uganda
Malí
población quiere poder intervenir más en lo que República Unida de Tanzanía
Côte d’Ivoire
ocurre en su lugar de trabajo, en la comunidad Senegal
Nigeria
Ghana
en que vive y en las decisiones gubernamentales Sudáfrica
Kenya
importantes que afectan a su vida117. El deseo de Etiopía
0 10 20 30 40 50 60 70
que la atención y la protección de la salud sean
16
Bloque temático 2
La Probabilidad y las Variables

Aleatorias
Objetivo:
A lo largo del primer bloque aprendimos lo que es la Estadı́stica Descriptiva y

estudiamos en detalle algunas de sus principales herramientas. Este conocimiento
es fundamental para estudiar el área fascinante de la Estadı́stica Inferencial, tema
del siguiente y último bloque, el cual constituye el núcleo del curso. Pero aún
nos falta comprender un concepto que sirve de nexo entre las dos ramas de la
Estadı́stica: la Probabilidad
El objetivo de este segundo bloque temático, es presentar la Teorı́a de las Proba-

bilidades, rama de la Matemática y hacer una revisión de algunos de sus aspectos,
seleccionados con el fin de permitir al estudiante comprender la Inferencia Es-
tadı́stica.

62 2. La Probabilidad y las Variables Aleatorias
2.1. Introducción
Con la Estadı́stica Descriptiva nuestra preocupación principal era la presentación

y descripción de los conjuntos de datos, que llamamos muestra, de la manera más
significativa y eficaz. En la Estadı́stica Inferencial, vamos más allá: buscamos
basarnos en la información particular anterior para hacer una afirmación general
acerca de la población. Y este proceso inductivo sólo es posible gracias al apoyo
que nos da la teorı́a de las probabilidades.
Para poder aplicar las reglas de la probabilidad (que pronto veremos) es necesario
que la muestra sea aleatoria lo cual, básicamente significa que cada muestra de
tamaño dado n tiene igual probabilidad de ser elegida y que cada elemento de
la población tiene igual probabilidad de estar en la muestra. Lo anterior permite
generalizar una caracterı́stica que presenta una muestra, a toda la población, es
decir, permite hacer inferencia.
2.2. Teorı́a de las probabilidades
En la realidad objetiva, los fenómenos son de dos tipos:
1. ciertos: seguros o imposibles. Por ejemplo es seguro que mañana la Tierra

seguirá girando en torno al Sol. Y es imposible que, si tiro un dado común,
salga el 10.
2. o posibles. Por ejemplo es posible que mañana llueva.
La probabilidad intentará dar una medida a los fenómenos que se mueven en

el ámbito de “lo posible”, denominados también eventos o sucesos inciertos o
aleatorios. Dicha medida será una medida de confianza, que le daremos a la
incertidumbre de nuestras previsiones, sobre sucesos pasados o futuros.

2.2 Teorı́a de las probabilidades 63
Definiciones de probabilidad
La probabilidad se puede estudiar desde dos puntos de vista:
1. A priori o definición clásica: la probabilidad se deduce usando la razón, no

la experiencia. Pero para aplicar dicha definición se requiere que se cumplan
determinadas condiciones:
a) Número finito de alternativas posibles.
b) Éstas deben ser igualmente probables.
La “probabilidad de ocurrencia un evento A”, se escribe como P (A) y se

la define como la relación o cociente entre el número de casos favorables al
evento A y el número de casos posibles:
Sea N : la cantidad de casos posibles y N (A): la cantidad de casos favorables

al evento A, entonces:
cantidad de casos favorables N (A)

P (A) = =
cantidad de casos posibles N
Supongamos que tenemos un dado no cargado y deseamos saber cuál es la

probabilidad de obtener un número mayor que 4 en una tirada.
Definimos A = “ obtener 5 o 6 en una tirada”. Ası́ P (A) = 26 .
Observemos que para este cálculo no tuvimos que recurrir a ninguna colec-
ción de datos observados. Sólo utilizamos nuestra razón.
2. A posteriori o definición empı́rica o frecuencista: la probabilidad se deduce

utilizando la experiencia observada después del hecho, es decir, después de
reunir algunos datos. Las condiciones requeridas son:
a) realizar determinadas pruebas un número grande de veces

b) todas en las mismas condiciones (experimentos repetibles).
La “probabilidad de ocurrencia un evento A” ( P (A)) se la define como la

relación o cociente entre el número de pruebas en las cuales el evento A se
verifica y el número total de pruebas realizadas, cuando éste último tiende
a ser cada vez más grande:
Sea n: cantidad de pruebas realizadas y n(A): cantidad de pruebas, en las

cuales el evento A se verifica. Entonces:
n(A)
P (A) = lı́m = lı́m h(A)
n→+∞ n n→+∞
proporción (frecuencia relativa) de pruebas en las cuales el evento A se

verifica, cuando el número de pruebas tiende a ser cada vez más grande.
En la práctica, no calculamos ningún lı́mite. Simplemento realizamos la

suficiente cantidad de pruebas o experimentos a fin de tener un n confiable
(ello depende de cada caso, lo veremos después), contamos la cantidad de
pruebas en las cuales se cumple el evento A y realizamos el cociente, es
decir obtenemos h(A) = n(A)/n. Esta frecuencia relativa la tomamos como
una estimación o aproximación del verdadero valor de P (A), desconocido
generalmente.
Supongamos que tenemos un dado que sospechamos que está cargado a

favor del 6, es decir que este número tiene más probabilidad de salir que
el resto. Entonces calcularemos esta probabilidad, de forma empı́rica. Lan-
zamos el dado por ejemplo 100 veces y observamos cuántas veces sale el
6. Si fuera un dado honesto deberı́a salir aproximadamente 16 o 17 veces
(100/6 = 16, 67). Si el 6 sale 17 veces, entonces h(6) = 17/100 = 0, 17 que
es aproximadamente 1/6 , la probabilidad a priori.
Si el 6 sale muchas más veces, sospecharı́amos que está cargado. Pero,

¿qué significa muchas más veces? ¿Con 20 veces alcanza ? ¿O deben ser al

2.3 Principales reglas de la Probabilidad 65
menos 25 veces que sale el 6, para afirmar que el dado está cargado a favor
del 6? Lo resolveremos más adelante, al estudiar la Inferencia Estadı́stica.
2.3. Principales reglas de la Probabilidad
1. Como la probabilidad es, por definición una proporción, su valor fluctúa

entre 0 y 1.
Ejemplo: como es seguro el que E: “una persona tenga el grupo sanguı́neo

A, B, AB u O” se cumple entonces P (E) = 1. Y como es imposible que D:
“una persona tenga el grupo sanguı́neo A y O a la vez”, entonces P (D) = 0.
Ası́ como P (“una persona tenga grupo sanguı́neo O”) es un valor entre 0 y
1.
2. Probabilidad de la unión
a) Para dos sucesos cualesquiera:
Sean A y B dos sucesos. La probabilidad de ocurrencia de A o B se

puede expresar como P (A ∪ B) y vale
P [A ∪ B] = P [A] + P [B] − P [A ∩ B]
b) Para tres sucesos cualesquiera:
Sean A, B y C tres sucesos. La probabilidad de ocurrencia de A o B o

C se puede expresar como :
P [A∪B∪C] = P [A]+P [B]+P [C]–P [A∩B]–P [A∩C]–P [C∩B]+P [A∩B∩C]

c) Para sucesos mutuamente excluyentes:
Sean A y B mutuamente excluyentes, es decir que son sucesos que

no pueden ocurrir al mismo tiempo, de forma que A ∩ B = ∅. Entonces
la probabilidad de que se cumpla el suceso A o B es:
P [A ∪ B] = P [A] + P [B]
Esta regla se cumple también para más de dos sucesos mutuamente

excluyentes.
3. Probabilidad de la intersección:
a) Para sucesos dependientes:
Primero daremos una noción de probabilidad condicionada.
NOTACIÓN: Anotaremos como P [A|B] a la probabilidad de que ocur-

ra el suceso A, condicionada al hecho de que el suceso B ya ha ocurrido.
Usualmente se denomina probabilidad de A dado B, a P [A|B].
Análoga definición para P [B|A]: probabilidad de B, dado A.
Por ejemplo, si lanzamos un dado honesto y consideramos los siguientes

eventos:
A = “sale un 4”
B = “sale un número par”
P (A) = 1/6, un caso favorable entre 6 posibles. Pero P (A|B) = 1/3,

pues hay un caso favorable entre 3 posibles: puede ser el 2, 4 o 6
solamente pues ya sabemos que sale un número par.

¿Cuánto es P (B|A) ?. P (“sale par”| “sale el 4”) = 1, pues como ya

sabemos que sale el 4, es seguro que salga un número par.
La probabilidad de ocurrencia de A y B se expresa como P [A ∩ B] y

vale
P [A ∩ B] = P [A]. · P [B|A]
P [A ∩ B] = P [B] · P [A|B]
Se usa una u otra fórmula, dependiendo de los datos que se tengan.
b) Para sucesos independientes:
Si A y B son sucesos independientes, la probablidad de ocurrencia

de A y B es:
P [A ∩ B] = P [A] · P [B]
Pues P [A|B] = P [A] y P [B|A] = P [B], ya que los eventos A y B no

se influyen o condicionan mutuamente, al ser independientes.
c) Para sucesos mutuamente excluyentes:
Si A y B son mutuamente excluyentes, al cumplirse A ∩ B = ∅,

entonces
P [A ∩ B] = P [∅] = 0
3. Pues el ∅ simboliza un suceso imposible.
4. Probabilidad del suceso contrario

Sea Ac el suceso opuesto o contrario al suceso A. Se le llama también el

suceso complementario de A. Su probabilidad puede calcularse en base a la
P [A], ası́:
P [Ac ] = 1 − P [A]
Ejemplo: El cuadro siguiente muestra la distribución de la predisposición

al alcoholismo, según cada grupo sanguı́neo, en un grupo de 200 personas:
Grupo Sanguı́neo Alcohólico No alcohólico Total
A 35 35 70
B 9 9 18
AB 1 5 6
O 70 36 106
Total 115 85 200
Se escoge al azar una persona del grupo anterior:
a) ¿ Cuál es la probabilidad de que tenga el grupo sanguı́neo A o AB?
b) ¿ Cuál es la probabilidad de que tenga el grupo A o sea alcohólico ?
c) ¿ Cuál es la probabilidad de que sea del grupo B o AB o no sea

alcohólico ?
d ) ¿ Cuál es la probabilidad de que sea alcohólico y del grupo O ?
e) ¿ Cuál es la probabilidad de que sea del grupo A y AB ?
f ) ¿ Cuál es la probabilidad de que no sea del grupo O ?
g) Los eventos “ser alcohólico” y “ser del grupo AB”, ¿ son independientes
?
Notaciones:

A: “la persona es del grupo A”

B: “la persona es del grupo B”
AB: “la persona es del grupo AB”
O: “la persona es del grupo O”
AL: “la persona es alcohólica”
a) P [A ∪ AB] = P [A] + P [AB] = 70/200 + 6/200 = 0, 38
b) P [A∪AL] = P [A]+P [AL]−P [A∩AL] = 70/200+115/200–35/200 =

0, 75
c)
P [B ∪ AB ∪ ALc ] = P [B] + P [AB] + P [ALc ]
−P [B ∩ AB] − P [B ∩ ALc ] − P [ALc ∩ AB]
+P [B ∩ AB ∩ ALc ]
18 6 85 9 5 95
= + + −0− − +0=
200 200 200 200 200 200
= 0, 475
d ) P [O ∩ AL] = P [O] · P [AL|O] = 106/200,70/106 = 0, 35
Otra forma: P [O ∩ AL] = P [AL] · P [O|AL] = 115/200,70/115 = 0, 35
e) P [A ∩ AB] = P [∅] = 0
f ) P [Oc ] = 1–P [O] = 1–106/200 = 0, 47
g) Si P [AL] = P [AL|AB], entonces el evento AL es independiente del

evento AB.
Pero P [AL] = 115/200 = 0, 575 y P [AL|AB] = 1/6 = 0, 167.

De igual manera son distintas P [AB] = 0, 03 y P [AB|AL] = 0, 0087.

Por lo tanto, no podemos afirmar que “ser alcohólico” y “ser del grupo
AB” sean eventos independientes. Quizás guarden cierta relación, a
pesar de que no podamos establecer, con certeza, cuál es esta relación.
2.4. Variables Aleatorias (v.a)
Hasta ahora vimos probabilidades de sucesos o sea probabilidades de conjuntos.
A través de ejemplos, vamos a acercarnos ahora al concepto de variable aleatoria,

cuyo principal objetivo es trabajar con los números reales. En concreto, dicha
variable aleatoria permite asociar, a cada suceso, con un subconjunto de los reales.
Asumimos la siguiente clasificación, entre los pacientes de un hospital: entre 0 y

2 años es un bebé; entre 2 y 9 años es un niño; entre 9 y 15 años un adolescente;
entre 15 y 21 años, un joven; entre 21 y 60, un adulto y más de 60, un adulto
mayor.
Por ejemplo, considerando la variable aleatoria X= edad del paciente, la

P [“que el paciente sea un adolescente”], lo podemos escibir como P [9 < X ≤ 15]
, o la P [“que el paciente sea un adulto mayor”] = P [X > 60] , y ası́ con las
demás categorı́as:
P [“que el paciente sea un bebé”] = P [0 < X ≤ 2]

P [“que el paciente sea un niño”] = P [2 < X ≤ 9]
P [“que el paciente sea un joven”] = P [15 < X ≤ 21]
P [ “que el paciente sea un adulto”] = P [21 < X ≤ 60]
Todas las variables aleatorias tienen valores que las caracterizan, llamados
parámetros. Dos de ellos muy importantes son la media poblacional o es-
peranza (que se simboliza µ ) y la varianza poblacional (que se simboliza σ 2

2.4 Variables Aleatorias (v.a) 71
).
La esperanza es el promedio de todos los valores que toma la variable en la

población y la varianza poblacional, es un parámetro que nos da idea de cómo
están dispersos los valores de la variabla aleatoria, alrededor de su esperanza: a
mayor varianza, más alejados están los valores, de la esperanza.
Observar la similitud de dichos parámetros, con respecto a la media y varianza

muestrales: se diferencian en que, mientras que la media y la varianza pobla-
cionales son valores fijos (parámetros), pues son únicos para cada población, la
media y la varianza muestrales varı́an en cada muestra, y por lo tanto son “vari-
ables”.
Otros parámetros son la mediana y moda poblacionales, cuyo cálculo es similar

a sus homónimos muestrales. No nos concentraremos en estos parámetros en este
curso.
El cálculo exacto de la esperanza y varianza poblacionales para una variable

aleatoria genérica, exceden el nivel de este curso introductorio de probabilidad.
Este análisis, ası́ como la presentación de algunas variables aleatorias discretas y
continuas, se presentan en un anexo, al final de este segundo bloque.
El estudio de las variables aleatorias cuantitativas discretas y continuas, es fun-

damental en ciencias de la salud. La mayor parte de ellas se comportan como
cuantitativas continuas y, cumpliendo ciertas condiciones, las variables biológicas
puede decirse que, en lı́neas generales, siguen una distribución llamada Normal.
En seguida veremos que significa esto.

2.4.1. Variable aleatoria Normal
En Estadı́stica y Probabilidad se llama distribución Normal, distribución de

Gauss o distribución gaussiana, a una de las distribuciones de probabilidad
de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica que muestra cómo se distribuyen las probabilidades de esta vari-

able aleatoria (llamada función de densidad), tiene una forma acampanada y
es simétrica respecto de su esperanza. Esta curva se conoce como campana de
Gauss. La importancia de esta distribución radica en que permite modelizar nu-
merosos fenómenos naturales, sociales y psicológicos.
Figura 2.1: Gráfico de la densidad de la v.a. Normal
Esta gráfica asigna probabilidades a la variable Z , la cual tiene una distribución

Normal con media 0 y varianza 1, ( se anota ∼ N (0, 1)), denominada usualmente
como variable Normal Standard.
El área de la zona sombreada indica p = la probabilidad de que la variable Z

tome valores menores que el valor a (o menores o iguales a a). Por este motivo al
valor a a veces se lo anota como a = zp . O sea
P [Z ≤ zp ] = p
Para calcular probabilidades con esta variable, basta saber leer adecuadamente
la siguiente tabla, y efectuar unos sencillos cálculos. En esta tabla se muestran

las probabilidades de que la variable aleatoria Normal Z, con esperanza 0 y

varianza 1, tome valores por debajo de un cierto número zp : la parte entera de zp
está en las columnas y sus decimales en las filas. En su encuentro o intersección
está p = P [z ≤ zp ]
2.4.2. Tabla de la Distribución Normal Estándar
Zp 0 1 2 3 4
0 0, 500 000 0, 841 344 0, 977 249 0, 998 650 0, 999 968
0,01 0, 503 989 0, 843 752 0, 977 784 0, 998 693 0, 999 969
0,02 0, 507 978 0, 846 135 0, 978 308 0, 998 736 0, 999 970
0,03 0, 511 966 0, 848 494 0, 978 821 0, 998 777 0, 999 972
0,04 0, 515 953 0, 850 830 0, 979 324 0, 998 817 0, 999 973
0,05 0, 519 938 0, 853 140 0, 979 817 0, 998 855 0, 999 974
0,06 0, 523 922 0, 855 427 0, 980 300 0, 998 893 0, 999 975
0,07 0, 527 903 0, 857 690 0, 980 773 0, 998 929 0, 999 976
0,08 0, 531 881 0, 859 928 0, 981 237 0, 998 964 0, 999 977
0,09 0, 535 856 0, 862 143 0, 981 691 0, 998 999 0, 999 978
0,1 0, 539 827 0, 864 333 0, 982 135 0, 999 032 0, 999 979
0,11 0, 543 795 0, 866 500 0, 982 570 0, 999 064 0, 999 980
0,12 0, 547 758 0, 868 643 0, 982 997 0, 999 095 0, 999 981
0,13 0, 551 716 0, 870 761 0, 983 414 0, 999 125 0, 999 981
0,14 0, 555 670 0, 872 856 0, 983 822 0, 999 155 0, 999 982
0,15 0, 559 617 0, 874 928 0, 984 222 0, 999 183 0, 999 983
0,16 0, 563 559 0, 876 975 0, 984 613 0, 999 211 0, 999 984
0,17 0, 567 494 0, 878 999 0, 984 996 0, 999 237 0, 999 984
0,18 0, 571 423 0, 880 999 0, 985 371 0, 999 263 0, 999 985
0,19 0, 575 345 0, 882 976 0, 985 737 0, 999 288 0, 999 986

0,2 0, 579 259 0, 884 930 0, 986 096 0, 999 312 0, 999 986
0,21 0, 583 166 0, 886 860 0, 986 447 0, 999 336 0, 999 987
0,22 0, 587 064 0, 888 767 0, 986 790 0, 999 358 0, 999 987
0,23 0, 590 954 0, 890 651 0, 987 126 0, 999 380 0, 999 988
0,24 0, 594 834 0, 892 512 0, 987 454 0, 999 402 0, 999 988
0,25 0, 598 706 0, 894 350 0, 987 775 0, 999 422 0, 999 989
0,26 0, 602 568 0, 896 165 0, 988 089 0, 999 442 0, 999 989
0,27 0, 606 419 0, 897 957 0, 988 396 0, 999 462 0, 999 990
0,28 0, 610 261 0, 899 727 0, 988 696 0, 999 480 0, 999 990
0,29 0, 614 091 0, 901 474 0, 988 989 0, 999 499 0, 999 991
0,3 0, 617 911 0, 903 199 0, 989 275 0, 999 516 0, 999 991
0,31 0, 621 719 0, 904 902 0, 989 555 0, 999 533 0, 999 991
0,32 0, 625 515 0, 906 582 0, 989 829 0, 999 549 0, 999 992
0,33 0, 629 299 0, 908 240 0, 990 096 0, 999 565 0, 999 992
0,34 0, 633 071 0, 909 877 0, 990 358 0, 999 581 0, 999 992
0,35 0, 636 830 0, 911 491 0, 990 613 0, 999 595 0, 999 993
0,36 0, 640 576 0, 913 084 0, 990 862 0, 999 610 0, 999 993
0,37 0, 644 308 0, 914 656 0, 991 105 0, 999 624 0, 999 993
0,38 0, 648 027 0, 916 206 0, 991 343 0, 999 637 0, 999 994
0,39 0, 651 731 0, 917 735 0, 991 575 0, 999 650 0, 999 994
0,4 0, 655 421 0, 919 243 0, 991 802 0, 999 663 0, 999 994
0,41 0, 659 096 0, 920 730 0, 992 023 0, 999 675 0, 999 994
0,42 0, 662 757 0, 922 196 0, 992 239 0, 999 686 0, 999 995
0,43 0, 666 402 0, 923 641 0, 992 450 0, 999 698 0, 999 995
0,44 0, 670 031 0, 925 066 0, 992 656 0, 999 709 0, 999 995
0,45 0, 673 644 0, 926 470 0, 992 857 0, 999 719 0, 999 995
0,46 0, 677 241 0, 927 854 0, 993 053 0, 999 729 0, 999 995

0,47 0, 680 822 0, 929 219 0, 993 244 0, 999 739 0, 999 996
0,48 0, 684 386 0, 930 563 0, 993 430 0, 999 749 0, 999 996
0,49 0, 687 933 0, 931 887 0, 993 612 0, 999 758 0, 999 996
0,5 0, 691 462 0, 933 192 0, 993 790 0, 999 767 0, 999 996
0,51 0, 694 974 0, 934 478 0, 993 963 0, 999 775 0, 999 996
0,52 0, 698 468 0, 935 744 0, 994 132 0, 999 784 0, 999 996
0,53 0, 701 944 0, 936 991 0, 994 296 0, 999 792 0, 999 997
0,54 0, 705 401 0, 938 219 0, 994 457 0, 999 799 0, 999 997
0,55 0, 708 840 0, 939 429 0, 994 613 0, 999 807 0, 999 997
0,56 0, 712 260 0, 940 620 0, 994 766 0, 999 814 0, 999 997
0,57 0, 715 661 0, 941 792 0, 994 915 0, 999 821 0, 999 997
0,58 0, 719 042 0, 942 946 0, 995 059 0, 999 828 0, 999 997
0,59 0, 722 404 0, 944 082 0, 995 201 0, 999 834 0, 999 997
0,6 0, 725 746 0, 945 200 0, 995 338 0, 999 840 0, 999 997
0,61 0, 729 069 0, 946 301 0, 995 472 0, 999 846 0, 999 997
0,62 0, 732 371 0, 947 383 0, 995 603 0, 999 852 0, 999 998
0,63 0, 735 652 0, 948 449 0, 995 730 0, 999 858 0, 999 998
0,64 0, 738 913 0, 949 497 0, 995 854 0, 999 863 0, 999 998
0,65 0, 742 153 0, 950 528 0, 995 975 0, 999 868 0, 999 998
0,66 0, 745 373 0, 951 542 0, 996 092 0, 999 873 0, 999 998
0,67 0, 748 571 0, 952 540 0, 996 207 0, 999 878 0, 999 998
0,68 0, 751 747 0, 953 521 0, 996 318 0, 999 883 0, 999 998
0,69 0, 754 902 0, 954 486 0, 996 427 0, 999 887 0, 999 998
0,7 0, 758 036 0, 955 434 0, 996 532 0, 999 892 0, 999 998
0,71 0, 761 148 0, 956 367 0, 996 635 0, 999 896 0, 999 998
0,72 0, 764 237 0, 957 283 0, 996 735 0, 999 900 0, 999 998
0,73 0, 767 304 0, 958 184 0, 996 833 0, 999 904 0, 999 998

0,74 0, 770 350 0, 959 070 0, 996 927 0, 999 907 0, 999 998
0,75 0, 773 372 0, 959 940 0, 997 020 0, 999 911 0, 999 998
0,76 0, 776 372 0, 960 796 0, 997 109 0, 999 915 0, 999 999
0,77 0, 779 350 0, 961 636 0, 997 197 0, 999 918 0, 999 999
0,78 0, 782 304 0, 962 462 0, 997 281 0, 999 921 0, 999 999
0,79 0, 785 236 0, 963 273 0, 997 364 0, 999 924 0, 999 999
0,8 0, 788 144 0, 964 069 0, 997 444 0, 999 927 0, 999 999
0,81 0, 791 029 0, 964 852 0, 997 522 0, 999 930 0, 999 999
0,82 0, 793 892 0, 965 620 0, 997 598 0, 999 933 0, 999 999
0,83 0, 796 730 0, 966 375 0, 997 672 0, 999 935 0, 999 999
0,84 0, 799 545 0, 967 115 0, 997 744 0, 999 938 0, 999 999
0,85 0, 802 337 0, 967 843 0, 997 813 0, 999 940 0, 999 999
0,86 0, 805 105 0, 968 557 0, 997 881 0, 999 943 0, 999 999
0,87 0, 807 849 0, 969 258 0, 997 947 0, 999 945 0, 999 999
0,88 0, 810 570 0, 969 946 0, 998 011 0, 999 947 0, 999 999
0,89 0, 813 267 0, 970 621 0, 998 073 0, 999 949 0, 999 999
0,9 0, 815 939 0, 971 283 0, 998 134 0, 999 951 0, 999 999
0,91 0, 818 588 0, 971 933 0, 998 192 0, 999 953 0, 999 999
0,92 0, 821 213 0, 972 571 0, 998 249 0, 999 955 0, 999 999
0,93 0, 823 814 0, 973 196 0, 998 305 0, 999 957 0, 999 999
0,94 0, 826 391 0, 973 810 0, 998 358 0, 999 959 0, 999 999
0,95 0, 828 943 0, 974 412 0, 998 411 0, 999 960 0, 999 999
0,96 0, 831 472 0, 975 002 0, 998 461 0, 999 962 0, 999 999
0,97 0, 833 976 0, 975 580 0, 998 510 0, 999 964 0, 999 999
0,98 0, 836 456 0, 976 148 0, 998 558 0, 999 965 0, 999 999
0,99 0, 838 912 0, 976 704 0, 998 605 0, 999 966 0, 999 999

A continuación explicaremos como proceder si, en lugar de tener una variable Z,

N (0, 1), tenemos una variable X: Normal con media µ y varianza σ (N (µ, σ) , y
queremos hallar p = P [X ≤ b] .
Previamente, presentaremos algunas propiedades.
Distribución de probabilidades alrededor de la media en una variable aleatoria X

, con distribución N (µ, σ).
Notación: X ∼ N (µ, σ)
Figura 2.2: Gráfico de la densidad de la v.a. Normal de parámetros µ y σ
Algunas propiedades de la distribución Normal, X ∼ N (µ, σ) son:
1. Es simétrica respecto de su media, µ ;
2. La moda y la mediana son ambas iguales a la media, µ;
3. Los puntos de inflexión de la curva se dan para x = µ − σ y x = µ + σ.
4. Distribución de probabilidad en un entorno de la media:
a) en el intervalo [µ − σ, µ + σ] se encuentra comprendida, aproximada-

mente, el 68,26 % de la distribución;

b) en el intervalo [µ − 2σ, µ + 2σ] se encuentra, aproximadamente, el

95,44 % de la distribución;
c) por su parte, en el intervalo [µ − 3σ, µ + 3σ] se encuentra comprendida,

aproximadamente, el 99,74 % de la distribución. Estas propiedades son
de gran utilidad para el establecimiento de intervalos de confianza. Por
otra parte, el hecho de que prácticamente la totalidad de la distribución
se encuentre a tres desviaciones tı́picas de la media justifica los lı́mites
de las tablas empleadas habitualmente en la normal estándar.
5. Si X ∼ N (µ, σ) , a y b son números reales, entonces (aX + b) ∼ N (aµ +

b, aσ).
6. Si X ∼ N (µx , σx ) e Y ∼ N (µy , σy ) son variables aleatorias normales inde-

pendientes , entonces:
a) Su suma está normalmente distribuida con

q
S = X + Y ∼ N (µx + µy , σx2 + σy2 )
b) Su diferencia está normalmente distribuida con

q
D = X − Y ∼ N (µx − µy , σx2 + σy2 )
c) Si las varianzas de X e Y son iguales, entonces S y D son independi-

entes entre sı́.
7. Si X1 , . . . , Xn son variables normales estándar independientes, entonces

X12 + · · · Xn2 sigue una distribución χ2 con n grados de libertad. Esta vari-
able aleatoria será de gran utilidad a la hora de realizar algunas pruebas de
hipótesis estadı́sticas, que se basen en medir diferencias. El cálculo de prob-
abilidades asociado a la variable χ2 se encuentra tabulado y será explicado
en el bloque temático 3.

8. Si X1 , . . . , Xn son variables normales estándar independientes, entonces la

media muestral
X 1 + · · · + Xn
X̄ =
n
y la varianza muestral
[(X1 − X)2 + · · · (Xn − X)2 ]

S2 =
n−1
son independientes. Esta propiedad caracteriza a las distribuciones Nor-

males.
2.4.3. Estandarización de variables aleatorias Normales
Como consecuencia de la Propiedad 5, es posible relacionar todas las vari-

ables aleatorias normales con la distribución Normal estándar. En efecto: Si
X−µ
X ∼ N (µ, σ), entonces Z = σ
es una variable aleatoria Normal estándar:
Z ∼ N (0, 1).
La transformación de una distribución X ∼ N (µ, σ) en una v.a. Con distribución

N (0, 1) se llama normalización, estandarización o tipificación de la variable
X.
Y a la inversa: si Z es una distribución Normal estándar Z ∼ N (0, 1), entonces
X = σZ + µ
es una variable aleatoria Normal tipificada de media µ y varianza σ 2 .
Como la distribución Normal estándar está tabulada y las otras distribuciones

Normales pueden obtenerse como transformaciones simples de la distribución
estándar, como se describe más arriba, se pueden usar los valores tabulados de
la función de distribución normal estándar para encontrar valores de la función
de distribución de cualquier otra distribución Normal.

Ejemplo: Si X ∼ N (1, 2), y deseo calcular la P [X < 2], entonces planteo
X −1 2−1 1 tabla
P [X ≤ 2] = P [ ≤ ] = P [Z ≤ ] = 0,691462
2 2 2
Otros ejemplos se presentarán en el práctico.

2.5 Ejercicios 81
2.5. Ejercicios
1. En una universidad de Argentina, el 50 % de los alumnos habla inglés, el

20 % francés y el 5 % los dos idiomas. ¿Cuál es la probabilidad de encontrar
alumnos que hablen alguna lengua extranjera?
2. El 60 % de los individuos de una población están vacunados contra una

cierta enfermedad. Durante una epidemia se sabe que el 20 % la ha contraı́do
y que 2 de cada 100 individuos están vacunados y son enfermos. Calcular el
porcentaje de vacunados que enferma y el de vacunados entre los que están
enfermos.
3. Dos tratamientos A y B curan una determinada enfermedad en el 20 % y

30 % de los casos, respectivamente. Suponiendo que ambos actúan de modo
independiente, cuál de las dos siguientes estrategias utilizar para curar a
un individuo con tal enfermedad:
a) Aplicar ambos tratamientos a la vez.
b) Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.
4. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar

un control antidopaje; Se sabe que 2 de los jugadores del equipo han tomado
sustancias prohibidas. ¿Cuál es la probabilidad de elegir para el análisis a
alguno de los infractores?
5. Estamos interesados en saber cuál de dos análisis A y B es mejor para

el diagnóstico de una determinada enfermedad, de la cual sabemos que la
presentan un 10 % de individuos de la población. El porcentaje de resultados
falsos positivos del análisis A es del 15 % y el de B es del 22 %. El porcentaje
de falsos negativos de A es del 7 % y de B es del 3 %.
¿Cuál es la probabilidad de acertar en el diagnóstico con cada método?

6. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal técnica

tiene una sensibilidad del 91 % y una especificidad del 98 %. En la población
que nos ocupa la probabilidad de colelitiasis es del 20 %.
a) Si a un individuo de tal población se le aplican los ultrasonidos y dan

positivos, ¿cuál es la probabilidad de que sufra la colelitiasis?
b) Si el resultado fuese negativo, ¿cuál es la probabilidad de que no tenga

la enfermedad?
Sugerencia: Siendo T + el evento “el diagóstico es positivo” y E el evento

“el paciente está enfermo”, el teorema de Bayes nos dice que:
P (T + |E)P (E)
P (E|T + ) =
P (T + |E)P (E) + P (T + |E c )P (E c )
De ahora en más tenerlo presente.
7. Entre los estudiantes de una Facultad se dan las siguientes proporciones:

el 40 % son hombres. El 70 % de los varones fuman, mientras que entre
las mujeres sólo fuman el 20 %. Escogido un estudiante al azar, calcular la
probabilidad de que fume.
Sugerencia: Siendo H el suceso “el estudiante es Hombre”, F “el estudiante

fuma”, análogo para mujer (M) y no fuma (F c ), el Teorema de probabili-
dades Totales nos dice:
P (F ) = P (F |H)P (H) + P (F |M )P (M )
De ahora en más tenerlo presente.
8. Los estudios epidemiológicos indican que el 20 % de los ancianos sufren un

deterioro neuropsicológico. Sabemos que la tomografı́a axial computerizada
(TAC) es capaz de detectar este trastorno en el 80 % de los que lo sufren,
pero que también da un 3 % de falsos positivos entre personas sanas. Si

2.5 Ejercicios 83
tomamos un anciano al azar y da positivo en el TAC, ¿cuál es la probabil-

idad de que esté realmente enfermo?
9. Una enfermedad puede estar producida por tres virus: A, B, o C. En el

laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B
y 5 tubos con el virus C. La probabilidad de que el virus A produzca la
enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el
virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad.
¿Cuál es la probabilidad de que el virus que se inocule sea el C?
10. El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba

otra asignatura B. Sabemos, además, que un 35 % del total aprueba ambas.
Elegido un estudiante al azar, calcular las probabilidades de las siguientes

situaciones:
a) Haya aprobado la asignatura B, sabiendo que ha aprobado la A.
b) Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A.
c) No haya aprobado la asignatura B, sabiendo que ha aprobado la A.
d ) No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
11. En un campus universitario existen 3 carreras sanitarias. Se sabe que el

50 % cursan estudios de Enfermerı́a el 30 % Medicina y el 20 % Veterinaria.
Los que finalizaron sus estudios son el 20, 10 y 5 % respectivamente. Elegido
un estudiante al azar, hallar la probabilidad de que haya acabado la carrera.
12. En una mutualista, sucede que muchas veces un individuo enfermo es di-
agnosticado como sano y a veces uno sano es diagnosticado como enfermo.
Las estadı́sticas de datos se resumen en el siguiente cuadro:
Enfermo Sano
Diagnosticado enfermo 89 12
Diagnosticado sano 11 388

Calcular las siguientes probabilidades:
a) Que un individuo esté enfermo.
b) Que un individuo esté sano.
c) Que un individuo sano sea diagnosticado como enfermo.
d ) Que un individuo enfermo sea diagnosticado como sano.
e) Que a un individuo le den un diagnóstico errado.
f ) Que un individuo, diagnosticado como sano, esté enfermo.
g) Que un individuo, diagnosticado como enfermo, esté sano.
13. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede

suponerse de distribución aproximadamente normal, con media 106 mg/100
ml y desviación tı́pica 8 mg/100 ml.
a) Hallar P [X ≤ 112].
b) ¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 102

y 112 mg/100 ml.
c) Hallar P [106 ≤ X ≤ 110].
d ) Hallar P [X ≤ 115].
e) Hallar el punto x caracterizado por la propiedad de que el 75 % de

todos los diabéticos tiene un nivel de glucosa en ayunas inferior o
igual a x.
f ) Hallar el punto x caracterizado por la propiedad de que el 25 % de

todos los diabéticos tiene un nivel de glucosa en ayunas inferior o
igual a x.
14. Se supone que la glucemia basal en individuos sanos, Xs , sigue una dis-
tribución Normal con µs = 80 y σs = 10, mientras que en los diabéticos,

2.5 Ejercicios 85
Xd , sigue una distribución Normal con media µd = 160 y σd = 31, 4. Si se

conviene en clasificar como sanos al 2 % de los diabéticos (con valores más
bajos):
a) ¿Por debajo de qué valor xs se considera sano a un individuo

diabético?.
b) Si un individuo sano tiene un valor de glucemia mayor a xs es con-

siderado diabético. ¿Qué porcentaje de sanos serán clasificados como
diabéticos?.
c) Se sabe que en la población en general el 10 % de los individuos son

diabéticos ¿cuál es la probabilidad de que un individuo elegido al azar
y diagnosticado como diabético, realmente lo sea?
15. Se supone que en una cierta población humana el ı́ndice cefálico I, (co-
ciente entre el diámetro transversal y el longitudinal expresado en tanto
por ciento), se distribuye según una Normal. El 58 % de los habitantes son
dolicocéfalos (I ≤ 75), el 38 % son mesocéfalos (75 < I ≤ 80) y el 4 %
son braquicéfalos (i > 80). Hallar la media y la desviación tı́pica del ı́ndice
cefálico en esa población.
16. Se está llevando a cabo un estudio que pretende descubrir cuál es el nivel
del tabaquismo en la Universidad.
Analizando datos, se descubre que la cantidad promedio de cigarrillos fuma-

dos diariamente por los estudiantes es de 15,2 cigarrillos con una desviación
standard de 9,5 cigarrillos. Asimismo se encuentra que tiene distribución
Normal.
Suponga que una caja chica (una cajilla) tiene 10 cigarrillos.
a) ¿ Cuál es la probabilidad de que una persona no termine una cajilla a

diario?.

b) ¿ Cuál es la probabilidad de que fume más de media cajilla diaria ?.
c) Al 30 % las personas que consumen más cigarrillos se les realiza un

estudio posterior, para analizar el origen de su tabaquismo. Por lo
tanto serán analizadas aquellas personas que fuman.............................
cigarrillos por dı́a.

2.6. Anexo: Esperanza matemática y Varianza
2.6.1. Distribución de Probabilidad de la variable aleato-

ria X
Para las v. a. discretas, se define la función de cuantı́a PX (x).
Es una función tal que, a cada valor que toma la v.a. X, le asigna su
probabilidad.
PX (x) = P (X = x)
Para las v. a. continuas, se define la función de densidad fX (x).
En este curso no nos ocuparemos de esta función, por requerir cálculos

matemáticos avanzados.
Propiedades que cumplen PX (x) y fX (x)
1. 0 ≤ PX (x) ≤ 1 ∀x ∈ Rec(X)
fX (x) ≥ 0 ∀x ∈ R
P
2. x∈Rec(X) PX (x) = 1
R +∞
−∞
fX (x)dx = 1
2.6.2. Esperanza de X: E(X)
Esperanza ( o valor medio, o media poblacional, o valor esperado ) de una v. a.

X es el “promedio ponderado” de los valores que toma la v. a. X.
En las v. a. discretas, los valores x son ponderados por sus probabilidades.

X
E(X) = PX (x)
x∈Rec(X)
En las v. a. continuas, los valores x son ponderados por la función de den-

sidad. Z ∞
E(X) = x · fx (x)dx
−∞
2.6.3. Varianza de X: V ar(X)
Varianza de una v. a. X: es el promedio ponderado de las

desviaciones al cuadrado, de todos los valores que toma la v. a. X, respecto a
su esperanza.
cuentas
V ar(X) = E[(X–E(X))2 ] = E(X 2 ) − E(X)2
En las v. a. discretas, los valores x son ponderados por sus probabilidades.
X h X i h i2
2 2
V ar(X) = (x−E(X)) ·P (X = x) = x ·P (X = x) − E(X)
x∈Rec(X) x∈Rec(X)
¿ Cómo calculo E(X 2 ) ? . Para v. a. discretas:

X
E(X 2 ) = x2 · P (X = x)
x∈Rec(X)
En las v. a. continuas, los valores x son ponderados por la función de den-

sidad. Z +∞
V ar(X) = (x − E(X))2 · fx (x)dx
−∞
Dado el grado de difultad matemático la definición para v.a. continuas es

sólo a los efectos ilustrativos.

2.6 Anexo: Esperanza matemática y Varianza 89
Propiedades de la Varianza de X
1. V ar(a) = 0 , para toda constante a
2. V ar(a · X) = a2 · V ar(X)
3. Si X e Y son v. a. independientes V ar(X + Y ) = V ar(X) + V ar(Y ) .
No podemos interpretar el valor de la varianza de X, pues no tiene interpretación

en sı́ misma , por ser una magnitud expresada en unidades al cuadrado (recordar
Estadı́stica Descriptiva). Para poder interpretar, debemos tomar la raı́z cuadrada-
da de la varianza, es decir: la desviación standard (o desviación tı́pica ).
Propiedades de la esperanza de X
1. E(a) = a , para toda constante1 a.
2. E(a · X) = a · E(X), para toda constante a y toda variable aleatoria X.
3. E(X + Y ) = E(X) + E(Y ), para todo par de variables aleatorias X e Y .
p
Desvı́o standard de X: V ar(X)
Es un “tipo de promedio ponderado” de las desviaciones, de todos los valores que

toma la v. a. X, respecto a su esperanza (E(X) ).
De acuerdo con esta definición, el desvı́o standard se calcula tomando la raı́z

cuadrada de la varianza.
1
Una constante es pensada como una variable aleatoria que con probabilidad 1 tomo siempre
el mismo valor

2.7. Algunas variables aleatorias
2.7.1. Variable aleatoria Uniforme Discreta
Es una variable discreta cuyo recorrido es un conjunto finito de puntos, y cumple,

además, que cada punto de su recorrido tiene igual probabilidad.
Si X es una variable uniforme discreta toma valores en el conjuto {x1 , x2 , . . . , xn },

o sea está compuesto por n puntos, entonces cumplirá que:
1
P (X = x1 ) =
n
1
P (X = x2 ) =
n
..
.
1
P (X = xn ) =
n
P (X = x) = 0 si x 6∈ {x1 , x2 , . . . , xn }
Ejemplos:
1. X1 = número que sale en la cara superior al tirar un dado.
Rec(X1 ) = {1, 2, . . . , 6}.
P (X1 = 1) = 1/6, . . . , P (X1 = 6) = 1/6
2. X2 = número que sale al sacar una carta de una baraja española (sin
comodines).

2.7 Algunas variables aleatorias 91
Rec(X2 ) = 1, 2, . . . , 12.
P (X2 = 1) = 4/48 = 1/12, . . . , P (X2 = 12) = 1/12
2.7.2. Variable aleatoria Bernoulli
La variable aleatoria Bernoulli surge a partir de un determinado experimento

aleatorio, del cual pueden resultar sólo dos situaciones:
1. un éxito E, con probabilidad p
2. o un fracaso F = E C , con probabilidad 1–p.
A partir de lo anterior, se define la variable aleatoria de Bernoulli ( X ) como:

 1 si sucede éxito (E)
X=
 0 si sucede fracaso (F )
La función de probabilidad de esta variable es, entonces:
P (X = 1) = P (E) = p
P (X = 0) = P (F ) = 1 − p
Esperanza y varianza de una v.a. Bernoulli
P
E(X) = x∈Rec(X) x · P (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = p
P 2
V ar(X) = x∈Rec(X) x2 · P (X = x) − E(X) = p − p2 = p(1 − p)
En resumen, si X ∼ Bernoulli(p), entonces E(X) = p y V ar(X) = p(1 − p).

2.7.3. Variable aleatoria Binomial
El esquema de la variable aleatoria Binomial consta de los siguientes elementos:
1. Un experimento aleatorio, del cual pueden resultar:
a) un éxito E, con probabilidad p
b) o un fracaso F = E C , con probabilidad (1–p)
2. Un número n de repeticiones del experimento anterior, realizadas:
a) de forma independiente
b) y siempre en las mismas condiciones.
La v. a. Binomial X se define como
X =“ cantidad de éxitos (E) en los n experimentos realizados”.
Observación: ¿ Qué tipo de v. a. es ?.

Analicemos su recorrido: Rec(X) = 0, 1, 2, ..., n. Por lo tanto, como es un conjunto
finito, la v. a. Binomial es una v. a. discreta.
¿Cuál es la distribución de probabilidad para la v.a. Binomial X?
Al ser X una v. a. discreta, tiene función de cuantı́a PX (i) = P (X = i), la cual

puede calcularse por medio de cálculos combinatorios de conteo:
PX (i) = P (X = i) = Cin · pi (1 − p)n−i
n! n·(n−1)·(n−2)···3·2·1
donde i ∈ Rec(X) y Cin = (n−i)!i!
= [(n−i)·(n−i−1)·(n−i−2)···3·2·1][i·(i−1)·(i−2)···3·2·1]
Ejemplo:

Tiro un dado tres veces ¿ Cuál es la probabilidad de que me salga sólo un seis en
las tres tiradas ?
Vamos a analizarlo, sin usar la fórmula de la v. A. Binomial (en forma explı́cita):
1. El seis puede salir en cualquiera de las tres tiradas; entonces los eventos que
me sirven son:
A : 6, 6= 6, 6= 6
B : 6= 6, 6, 6= 6
C : 6= 6, 6= 6, 6
2. Como las tiradas son independientes, entonces:
P (A) = P (“6 en la 1ra tirada” y “no 6 en la 2da tirada” y “ no 6 en la 3ra tirada”)

indep
= P (“6 en la 1ra tirada”) · P (“no 6 en la 2da tirada”) · P (“ no 6 en la 3ra tirada”)
1 2
1 5 5 1 5
= · · = ·
6 6 6 6 6
De la misma forma se obtiene:
1 2
5 1 5 1 5
P (B) = · · = ·
6 6 6 6 6
1 2
5 5 1 1 5
P (C) = · · = ·
6 6 6 6 6
3. Por lo tanto, la probabilidad de que me salga sólo un seis en las tres tiradas es :
1 2
mutuamente 1 5
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) = 3 · ·
excluyentes 6 6
Otra forma: usando la v.a. Binomial.
Antes que nada , analizo si estoy en presencia de un experimento Binomial:

1. Existe un experimento aleatorio, que consiste en tirar una vez el dado, en

el cual hay dos resultados posibles:
un éxito E: si sale un seis, con probabilidad p = 1/6
o un fracaso F = E C = “si no sale un seis” , con probabilidad (1−p) =

5/6
2. Un número n = 3 de repeticiones del experimento anterior, realizadas :
de forma independiente, pues el resultado de una tirada no condiciona

los resultados de las tiradas siguientes.
y siempre en las mismas condiciones, pues supongo que el dado no se

carga con las sucesivas tiradas; es decir, la probabilidad de que salga
un seis, es siempre 1/6 .
Entonces, la probabilidad de que me salga sólo un seis en las tres tiradas ,

es
1 3−1 1 2
1 1 1 5
PX (1) = P (X = 1) = C1n ·p1 (1−p)n−1 = C13 · · 1− = 3· ·
6 6 6 6
igual a lo calculado antes.
Esperanza y varianza de una v.a. Binomial
Sea X una v. a. Binomial con parámetros p = probabilidad de Éxito, y n =

cantidad de repeticiones. Se demuestra que X puede ser representada por una
suma de n variables Bernoulli de parámetro p todas independientes, es decir:
X = X1 + X2 + · · · + Xn

donde X ∼ Binomial(n, p), y X1 , X2 , . . . , Xn son Bernoulli(p) todas independi-

entes.
Ahora, usando las propiedades de la esperanza y la varianza tenemos:
1.
E(X) = E(X1 + X2 + · · · + Xn )
= E(X1 ) + E(X2 ) + · · · + E(Xn ))
= p + p + ··· + p
= n·p
2.
V ar(X) = V ar(X1 + X2 + · · · + Xn )
indep
= V ar(X1 ) + V ar(X2 ) + · · · + V ar(Xn ))
= p(1 − p) + p(1 − p) + · · · + p(1 − p)
= n · p(1 − p)
En resumen, si X ∼ Binomial(n, p), entonces E(X) = n·p y V ar(X) = n·p(1−p).
2.7.4. Variablea aleatorias continuas
Variable aleatoria Normal
Una v. a. X se distribuye Normal, con esperanza E(X) = µ, µ ∈ R y varianza

V ar(X) = σ 2 , σ ∈ R+ , si su función de densidad es: fX : R → R tal que
1
fX (x) = √ −1 (x−µ)2
·
2πσ · e 2 σ2

p
Notación: Siendo σ = V ar(X) el desvı́o standard de X, anotamos X ∼
N (µ, σ) para indicar que X es una v.a. Con distribución normal y cuya esperanza
es µ y su desvı́o standard es σ.
Vale aclarar que algunos autores prefieren poner en el segundo parámetro la

varianza en lugar del desvı́o standard, en todo caso hay que estar atento a la
bibliografı́a a leer.
NOTA: µ es el parámetro de posición y puede ser un número real cualquiera, σ

es el parámetro de dispersión y debe ser un número real positivo.
Distribución Normal Standard o Tipificada
Una v. a. Z se distribuye Normal Standard, o sea si sus parámetros son cero y

uno respectivamente, es decir: Z ∼ N (0, 1).
Es inmediato deducir que E(Z) = 0 y V ar(Z) = 1.
La función de densidad de la v.a. Normal estándard es φ : R → R tal que
1 1 2
φ(x) = · e− 2 ·x
2π
Observación: ¿ Cómo calculo probabilidades con la v.a. Z, con Z ∼ N (0, 1) ?
Teóricamente, deberı́amos efectuar el cálculo:

Z a Z a
1 1 2
P (Z ≤ a) = φ(x)dx = · e− 2 ·x dx
−∞ −∞ 2π
Pero ello es imposible incluso con cálculo avanzado, en lugar de ello, buscamos el
resultado en la tabla de la variable Normal Standard, de la forma explicada en el
bloque temático 2.

2.7.5. Teorema de De Moivre – Laplace
Aproximación de la distribución Binomial, por la distribución Nor-

mal
Sea X una v.a. Con X ∼ Binomial(n, p), por lo tanto E(X) = np y V ar(X) =
np(1 − p)
Entonces, la v. a.
X − np
Y =p
np(1 − p)
tiende a la Normal standard (Z ∼ N (0, 1)), conforme el número de ensayos
independientes n tiende al infinito.
Esquemáticamente: Si X ∼ Binomial(n, p), entonces
X − np n→∞
p → Z ∼ N (0, 1)
np(1 − p)
Este teorema es útil, pues cuando el n es grande, puede ser engorroso hacer los
cálculos con la fórmula de la cuantı́a Binomial.
2.7.6. Otras variables aleatorias continuas
Otras variables aleatorias continuas, muy útiles en Inferencia Estadı́stica son:
variable aleatoria t de Student: se utiliza en el test de hipótesis sobre

la media, cuando la varianza es desconocida.
variable aleatoria chi2 : se utiliza en el test de hipótesis sobre la varianza,

en la comparación de medias entre dos poblaciones Normales y en el test
de independencia, entre otros.

variable aleatoria F: se utiliza en el análisis de varianzas entre dos pobla-

ciones Normales.
Su análisis práctico será tratado al presentarse cada test estadı́stico, en el bloque

temático 3. Su análisis teórico no se presenta, pues su desarrollo matemático es
muy complejo.
2.8. Artı́culo: Pruebas diagnósticas
A continuación se presenta el artı́culo sobre pruebas diagnósticas, escrito por Pita

Fernández y Pértegas Dı́az, de la Unidad de Epidemiologı́a Clı́nica y Bioestadı́sti-
ca del Complexo Hospitalario-Universitario Juan Canalejo, La Coruña (España).

Investigación: Pruebas diagnósticas 1/6
Pruebas diagnósticas
Pita Fernández, S. spita@canalejo.org, Pértegas Díaz, S. spertega@canalejo.org
Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo.
A Coruña (España)
Cad Aten Primaria 2003; 10: 120-124.
Actualización 14/07/2003.
__________________________________
La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre

se extiende no sólo a las actividades preventivas, terapéuticas y pronósticas sino también a las
diagnósticas. En las fases del proceso diagnóstico intervienen la historia clínica, la exploración física y la
realización de pruebas complementarias1-2. Cuando existen varias hipótesis diagnósticas, se realizará el
diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si
solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. La
realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en
paralelo y la realización de pruebas complementarias según los resultados de otras previas, se denomina
pruebas complementarias en serie. Al realizar pruebas en paralelo aumenta la probabilidad de
diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano.
El riesgo de la realización de pruebas en serie es no diagnosticar a algunos enfermos. En cambio, pocos
sanos serán considerados como enfermos.
Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y
negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son3:
• Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia
el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos?
La sensibilidad y la especificidad de un test son medidas de su validez.
• Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite
su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la
introducida por el propio observador y la derivada del propio test, determinan su
reproductividad.
• Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o
negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un
resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de
la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la
prevalencia de la patología.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población
general, que tenga los mínimos efectos adversos y que económicamente sea soportable.
En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez de un test
(sensibilidad y especificidad) y su seguridad (valores predictivos positivos y negativos).
La validez de una prueba diagnóstica. Sensibilidad y especificidad.
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada
paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En
casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un
resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos
obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra
en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los
pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que
vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo)
o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los
valores de sensibilidad y especificidad4:
www.fisterra.com Atención Primaria en la Red

Sensibilidad
Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que

para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la
capacidad del test para detectar la enfermedad.
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se
muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes
enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir:
VP
Sensibilid ad =
VP + FN
De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”.
Especificidad
Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para

un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como
la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría
como:
VN
Especifici dad =
VN + FP
De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”.
Ejemplo:
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se incluyó a 2.641
pacientes con sospecha de cáncer prostático que acudieron a una consulta de Urología durante un periodo
de tiempo determinado. Durante su exploración, se recogió el resultado del tacto rectal realizado a cada
uno de estos pacientes, según fuese éste normal o anormal, y se contrastó con el posterior diagnóstico
obtenido de la biopsia prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla
2. Se encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos
estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56% (634/1121) y la
especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un 56,56% de los casos de cáncer
prostático y normal en un 82,3% de los casos que presentaron finalmente otras patologías. Esto significa
que un 100-56,56=43,44% de los pacientes que efectivamente tenían cáncer presentaban tactos normales.
Claramente ello indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus
derivados, para poder establecer el diagnóstico de forma más precisa.
Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad,
pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para
poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos
casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con
enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que
un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo,
la realización de mamografía en el cáncer de mama).
Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto
sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de
alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en
enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por
conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no
padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en
el caso del SIDA).

La seguridad de una prueba diagnóstica. Valores predictivos.
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba
diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la
especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto
(positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin
embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori
acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un
resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente
enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una
dirección. Por medio de los valores predictivos completaremos esta información5:
Valor predictivo positivo:
Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor

predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado
positivo en la prueba que finalmente resultaron estar enfermos:
VP
VPP =
VP + FP
Valor predictivo negativo:
Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima
dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la
prueba:
VN
VPN =
FN + VN
Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en este caso del
70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738). Ello significa que en un
70,21% de los pacientes con un tacto anormal finalmente se confirmó la presencia de cáncer, mientras
que de los que no se detectaron anomalías en el tacto un 71,98% estaban efectivamente sanos.
La influencia de la prevalencia.
Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez
de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora
de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja
adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez
independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica.
Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar
decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de
que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto
de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la
enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un
resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo.
Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han
confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%.
Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000
habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una
prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos,
obteniéndose un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos con
un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los

mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la
utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría.
Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de
enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un
800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a
un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la
prevalencia es alta, un resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que
si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia.
Razones de probabilidad
Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por
lo tanto, éstos , no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos
diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello,
resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no
dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de
sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de
verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto más probable
es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad:
• Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula

dividiendo la probabilidad de un resultado positivo en los pacientes enfermos entre la
probabilidad de un resultado positivo entre los sanos. Es, en definitiva, el cociente entre la
fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad):
Sensibilidad
RV + =
1 - Especificidad
• Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula

dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la
probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el
cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos
negativos (especificidad):
1 - Sensibilidad
RV − =
Especificidad
Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer prostático a partir
del tacto rectal. En este caso, se obtiene un cociente de probabilidades positivo de 3,20. Ello viene a
indicarnos que un tacto anormal es, por lo tanto, 3 veces más probable en un paciente con cáncer
prostático que en otro sujeto sin cáncer.
La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una
prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una
nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal
o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la
especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre
diferentes pruebas para un mismo diagnóstico.
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo),
pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro
numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a
estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una
clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La
diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de
sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares
correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en

representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los
posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha
curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la
prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer
comparaciones entre diferentes pruebas diagnósticas7-10.
En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas
diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad
y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva
de un test11,12. Los estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener
esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este
tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una
vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices
calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la
forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la
presencia de sesgos11,13,14.
Bibliografía
1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la
medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary test.
Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University
Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity. BMJ
1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994; 309:
102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios: a
real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. [Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación de las
pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental
evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic
plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5(4):
229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed
Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed. Baltimore:
Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en
cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline] [Texto completo]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997;
315: 540-543. [Medline] [Texto completo]
Tabla 1. Relación entre el resultado de una prueba diagnóstica y la

presencia o ausencia de una enfermedad.
Verdadero diagnóstico
Resultado de la prueba
Enfermo Sano
Verdaderos Positivos Falsos Positivos
Positivo
(VP) (FP)
Falsos Negativos Verdaderos Negativos
Negativo
(FN) (VN)

Tabla 2. Resultados de la exploración y biopsia prostática de una muestra

de pacientes con sospecha de cáncer de próstata.
Resultado del Resultado de la biopsia prostática
tacto rectal Cáncer Patología benigna Total
Anormal 634 269 903
Normal 487 1251 1738
Total 1121 1520 2641
Tabla 3. Resultados de la aplicación del test de VIH en una población de

baja prevalencia.
Resultado del test
VIH+ VIH- Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000
Tabla 4. Resultados de la aplicación del test de VIH en una población de

alta prevalencia.
Resultado del test
VIH+ VIH- Total
Positivo 796.000 10.000 806.000
Negativo 4.000 1.990.000 1.994.000
Total 800.000 2.000.000 2.800.000

Bloque temático 3
La Inferencia Estadı́stica
Objetivo:
El tercer bloque presenta a la Inferencia Estadı́stica, a través de algunos de sus

instrumentos, y tiene el objetivo de mostrar el poder que tiene la Estadı́stica
como ciencia que busca crear conocimiento acerca de la realidad.
3.1. Introducción:
La Inferencia Estadı́stica se basa en la información particular que brinda la

muestra; información que es resumida por la Estadı́stica Descriptiva y, con la
ayuda de la teorı́a de las Probabilidades, busca hacer una afirmación general
acerca de la población. Si esta afirmación involucra un valor fijo caracterı́stico
de la población (parámetro), estamos en el ámbito de la Inferencia Estadı́stica
Paramétrica. Cuando no sea ası́, trataremos con las herramientas de la Inferencia
Estadı́stica no Paramétrica, por ejemplo cuando buscamos saber si dos variables
están relacionadas o en cambio, son independientes.

106 3. La Inferencia Estadı́stica
Cada una de estas Inferencias presenta diversos test o pruebas de hipótesis, cuyos
complejos mecanismos serán sintetizados y presentados a través de ejemplos, a
fin de facilitar la comprensión del estudiante.
3.2. La Inferencia Estadı́stica Paramétrica
Lo primero es acercarnos informalmente al concepto de estimación: para nosotros

estimar será “calcular aproximadamente siguiendo las reglas de la Inferencia
Estadı́stica”.
Un ejemplo de Estadı́stica Paramétrica lo tenemos cuando queremos “estimar”

la media de una población: lo primero que hacemos es tomar un conjunto de n
observaciones de esa población y calculamos la media de esas observaciones. Un
valor calculado a partir de una muestra, tal como la media de la muestra, se llama
estadı́stico. En otras palabras un estadı́stico es una función de observaciones de
la muestra.
3.2.1. Parámetro vs Estadı́stico
Debemos diferenciar entre un estadı́stico y un parámetro de población. Para

hacerlo, usamos con frecuencia los términos media de la muestra (X̄) y media
de la población (µ), en lugar de usar simplemente media. Un parámetro de la
población tiene un cierto valor constante, pero no se conoce en realidad.
Por otra parte, podemos calcular un estadı́stico a partir de la muestra, pero el es-
tadı́stico variará de muestra a muestra. Aunque quisiéramos conocer el parámetro
de la población, observamos solamente muestras obtenidas de la población. Por

3.2 La Inferencia Estadı́stica Paramétrica 107
lo tanto , tenemos que estimar el parámetro de la población, a partir de un

estadı́stico.
¿ Cómo podrı́amos hacer para tener una idea aproximada del valor de µ, la media
poblacional de la variable X ? Considerando una muestra de tamaño n, evaluando
Xi en cada uno de ellos y calculando el valor de X̄
¿ Por qué X̄?. Porque es un “buen estimador” del valor desconocido µ, pues
tiene buenas propiedades, entre ellas que “los valores de X̄ (correspondientes a
las distintas muestras) no se alejan, en promedio demasiado” del verdadero valor
de µ.
Ahora, ¿qué podemos decir del valor de µ, conociendo el valor de X̄?. No podemos
decir tan rápidamente que coinciden, pues en una muestra la información es
parcial. Nos acercaremos a la respuesta, conociendo la distribución de X̄ como
variable aleatoria. En la Figura siguiente se muestra el camino a seguir para
estimar la media de la población.
3.2.2. Distribuciones de algunos Estadı́sticos
En la Inferencia Estadistica debemos conocer la distribución de probabilidades de

varios estadı́sticos. Para acercarnos a la idea de estas distribuciones, realizamos
un experimento de muestreo: por ejemplo, usando una computadora generamos
un conjunto de n = 5 observaciones de una variable aleatoria X, con distribución
Normal, con esperanza 50 y varianza 22 ; y calculamos X̄ , Z y T donde

Figura 3.1: Esquema de estimación
√ (X̄ − µ)
Z = n
σ
√ (X̄ − µ)
T = n
S0
siendo S 0 , la raı́z cuadrada de S 02 , la cuasivarianza muestral, estadı́stico que

definiremos pronto.
Repetimos los anteriores cálculos 10.000 veces. De esta manera tendremos 10.000
observaciones de los estadı́sticos X̄, Z y T . La siguiente tabla muestra los
primeros 10 casos y a continuación está el gráfico de los histogramas de las 10.000
observaciones de los estadı́sticos mencionados: allı́ podremos observar el contorno
de la distribución de cada uno de ellos.

N ro X1 X2 X3 X4 X5 X̄ Z T
1 51,211 49,354 50,188 54,322 45,428 50,101 0,112413 0,069844

2 50,973 50,214 50,019 48,069 47,735 49,402 −0,668633 −0,941755
3 49,686 49,305 49,690 50,055 48,630 49,473 −0,588893 −2,177293
4 47,132 51,674 54,448 50,065 53,702 51,404 1,569804 1,066539
5 48,283 48,706 53,621 51,713 52,172 50,899 1,004885 0,870111
6 49,627 50,567 51,059 49,848 52,029 50,626 0,700043 1,443663
7 53,001 45,007 51,038 52,913 50,581 50,508 0,568062 0,348364
8 47,056 47,349 50,346 50,156 49,707 48,923 −1,204446 −1,514269
9 52,669 45,245 50,407 49,501 53,309 50,226 0,252742 0,158192
10 50,646 51,328 53,196 49,756 49,672 50,920 1,028452 1,424934
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
Figura 3.2: Histograma del estadı́stico X̄

Figura 3.3: Histograma del estadı́stico Z
Figura 3.4: Histograma del estadı́stico T

3.2.3. Distribución de X̄
De la figura 3.2 podemos ver que:
a) X̄ se distribuye simétricamente alrededor de su media, dando la apariencia

de una distribución Normal.
b) La media de X̄ (igual a 50,0023) se acerca mucho a la media de la población

( µ = 50).
c) La desviación standard de X̄ (igual a 0,9011) se acerca √1 “veces” por la

n
√
desviación standard de la población (2/ 5 = 0, 8944).
Todas estas observaciones nos lleva a presentar los siguientes teoremas que gen-
eralizan los resultados.
Estos teoremas, por lo general, se cumplen: depende fundamentalmente de la

forma en que extraigamos nuestra muestra. Pero, como los distintos tipos de
muestreos no es un tema que abordaremos con detalle en este curso, sólo di-
remos que estos resultados se verifican cuando los muestreos se realizan sobre
poblaciones muy grandes, como es el caso de las investigaciones biológicas.
Teorema 1
Supongamos que X1 , X2 , . . . , Xn es una muestra de n observaciones de la variable
X en una población con una media µ y una varianza σ 2 , y que X̄ es la media de
la muestra. Entonces el valor esperado, la varianza y la desviación standard de
X̄, son respectivamente:
E(X̄) = µ
σ2
V ar(X̄) =
n
σ
q
V ar(X̄) = √
n

Teorema 2
Supongamos que X1 , X2 , ..., Xn es una muestra de n observaciones de la variable
X que tiene, en la población, una distribución de probabilidades Normal (µ, σ 2 )
y X̄ es la media de la muestra.
Entonces, X̄ se distribuye Normal de parámetros (µ, σ 2 /n), es decir,
σ2

X̄ ∼ N µ,
n
Teorema 3 (Teorema del Lı́mite Central)

La distribución de la media muestral X̄, de una una variable que en la población
tiene varianza finita, tiende a seguir una distribución Normal, a medida que el
tamaño de la muestra tiende hacia el infinito.
Según el teorema 2, la media muestral de una variable que en la población se

distribuye Normalmente, se distribuye exactamente en forma de una distribu-
ción Normal. Y el teorema 3 dice que, aún si la distribución de una población
no es Normal, la media muestral se aproxima a la distribución Normal. Esta
aproximación se cumple mejor para n (tamaño muestral) de valor grande, pero
es adecuada, según algunos investigadores, para un valor de n tan bajo como
n = 20.
√
n·(X̄−µ)
3.2.4. Distribución de Z = σ
De la figura 3.2, podemos ver que:
a) Z se distribuye simétricamente alrededor de su media, dando la apariencia

de una distribución Normal.
b) La media de Z (igual a 0, 0026) se acerca mucho a cero.

c) La desviación standard de Z (igual a 1, 0075) se acerca a uno.
Todas estas observaciones nos lleva a presentar el siguiente teorema:
Teorema 4
Sea X̄ la media de una muestra X1 , X2 , . . . , Xn de variables Normales con media
√
µ y varianza σ 2 . Entonces el estadı́stico Z = n (X̄−µ)
σ
se distribuye Normal con
media cero y varianza uno.
Ahora vamos a definir un nuevo estadı́stico, o sea una variable que depende de
los valores de la muestra.
Definición 1
S 02 Llamamos cuasivarianza muestral al estadı́stico S 02 determinado por:
n
02 1 X
S = (xi − X̄)
n − 1 i=1
Observación: La cuasivarianza muestral se puede definir a partir de la varianza

muestral S 2 , ası́:
n
02 1 X n
S = (xi − X̄) = S 2
n − 1 i=1 n−1
Recordar que " #

n n
2
X 1X
S = (xi − X̄)2 = (xi )2 − (X̄)2
i=1
n i=1
Como vemos, el cálculo de S 2 es más fácil a nivel manual, lo que lo hace preferible
en un primer momento, para calcular las medidas descriptivas de la muestra
(recordar Estadı́stica Descriptiva).
Sin embargo, S 02 tiene mejores propiedades que S 2 , como estimador de la varianza

poblacional, pues se cumple que la Esperanza de S 02 es σ 2 . Por eso, para la

Inferencia Estadı́stica, el estadı́stico de relevancia es S 02 .
√ (X̄−µ)
3.2.5. Distribución de T = n· S0.
Nuevamente en la figura 3.2 vemos que la distribución del estadı́stico T es acam-

panada y similar a la distribución de Z, pero tiene una variación ligeramente
mayor. Ello se debe a que en el denominador de T está el estadı́stico S 0 que,
como todo estadı́stico, varı́a con cada muestra distinta, mientras que en el de-
nominador de Z está σ, parámetro poblacional, y, por lo tanto, fijo. Se dice que
la distribución de T “tiene colas más pesadas”, pues T acumula más probabili-
dad que Z, en valores alejados de la media. La distribución de T se explica en el
siguiente teorema.
Teorema 5
Sea X̄ y S 0 , la media y la raı́z cuadrada de la cuasivarianza, respectivamente, y
sea una muestra X1 , X2 , . . . , Xn de variables Normales con media µ y varianza σ 2 .
√ (X̄−µ)
Entonces el estadı́stico T = n S 0 sigue una distribución denominada t con
n − 1 grados de libertad; lo cual se anota: T ∼ tn−1 .
El gráfico y la tabla siguiente, muestran las probabilidades acumuladas, para

distintos valores de t, las cuales se leen en el interior de la tabla.

Tabla de probabilidades de la distribución t con n grados de

libertad
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831

22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
∞ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
3.3. Estimación puntual e intervalos de confian-

za
3.3.1. Estimación puntual e intervalos de confianza para

µ cuando conozco σ 2
Un investigador está interesado en estudiar la presión diastólica (mı́nima) de

la sangre de varones, en edades comprendidas entre 20 y 30 años, sometidos a
tensión nerviosa. Pretende responder la pregunta ¿ cuál es la presión diastólica
media, bajo tensión nerviosa para este grupo ?

3.3 Estimación puntual e intervalos de confianza 117
Lo primero que debe realizar es tomar una muestra aleatoria de un determinado

tamaño n, dentro de la población en estudio (todos los varones de entre 20 y
30 años, sometidos a tensión nerviosa). Con respecto al valor de n, veremos más
adelante cómo se determina, para que se cumpla ciertos requisitos que buscamos
en nuestra investigación.
La presión diastólica es la variable de interés a observar y medir para cada uno

de los integrantes de la muestra extraı́da. Para contestar la pregunta anterior
(¿ cuál es la presión diastóloca media, bajo tensión nerviosa para este grupo ?)
deberı́amos conocer la media de la variable antedicha, en la población referida,
valor que llamaremos µ. Pero µ es un parámetro desconocido que deberemos
estimar a partir de la media muestral X̄ , calculada a partir de la muestra. Ya
conocemos la distribución de la media muestral X̄. Ello nos va a ser de utilidad
para realizar la siguiente Inferencia Estadı́stica.
NOTA: se dice que X̄ es un estimador de µ, y se escribe
µ
b = X̄
Ahora, ¿qué podemos decir del valor de µ, conociendo el valor de X̄ ?.
Para contestar, podemos utilizar dos procedimientos:
1) Se estima el verdadero valor de µ, a partir del valor particular de X̄ ,

que proviene de la muestra. Este procedimiento se denomina Estimación
Puntual .
En la práctica, se calcula X̄ a partir de una muestra, y se toma ese valor

como estimador (valor aproximado) de la media poblacional, µ .
Por ejemplo, luego que se midió la presión diastólica para cada uno varones
de entre 20 y 30 años, sometidos a tensión nerviosa, de mi muestra, con esos
datos calculo X̄ (supongo que X̄ = 10). Sé que µ es distinto a X̄, pero por

la propiedad de E(X̄) = µ (esta propiedad dice que si hago un promedio de

todos los posibles valores de X̄, obtengo µ) confı́o en que X̄ es útil, como
aproximación del valor desconocido µ, y escribo
µ
b = 10
2) Otra opción es no quedarnos simplemente con el valor de X̄, sino que con-
struı́mos un intervalo con centro en X̄, de radio ε.
NOTA: ε es el máximo error que nos permitimos cometer, al aproximar el valor

de µ, por X̄. Decimos entonces que el intervalo de la forma:
[X̄ − ε, X̄ + ε]
contiene a µ, con una cierta probabilidad (1−α) o nivel de confianza (1−α)·100 %
Este procedimiento se denomina Estimación por Intervalo de Confianza.
¿ Cómo se determina el intervalo [X̄ − ε, X̄ + ε]?. Es decir ¿Cómo se determina

ε?
Se debe cumplir que en el (1 − α) · 100 % de las muestras que se extraigan, los

intervalos [X̄−ε, X̄+ε], deben incluir el verdadero valor del parámetro poblacional
µ.
En otras palabras, la probabilidad de que el intervalo aleatorio [X̄ − ε, X̄ + ε]

contenga la media poblacional µ, debe ser igual a 1 − α.
Definición 2
Al valor epsilon se lo denomina precisión. Y el valor 1 − α es una probabilidad y
se llama nivel de confianza.
Se debe cumplir, por lo tanto, que:
P (X̄ − ε ≤ µ ≤ X̄ + ε) = 1 − α

√ (X̄−µ)
De ahı́, buscamos dejar la variable aleatoria n σ en el “ medio de la de-
sigualdad”, para utilizar lo que conocemos sobre su distribución: por el Teorema
del Lı́mite Central (teorema 3) y por el teorema 4 se cumple que :
√ X̄ − µ n→+∞
n −→ Z donde Z ∼ N (0, 1)
σ
Entonces realizamos las siguientes operaciones:
P (X̄ − ε ≤ µ ≤ X̄ + ε) = 1 − α ⇔ P (−ε ≤ µ − X̄ ≤ ε) = 1 − α
⇔ P (ε ≥ X̄ − µ ≥ −ε) = 1 − α
⇔ P (−ε ≤ X̄ − µ ≤ ε) = 1 − α
√
n·ε √ X̄−µ
√
n

⇔ P − σ
≤ n· σ
≤ σ
·ε =1−α
√ ∼
Entonces, siendo n · (X̄−µ)
σ = Z ∼ N (0, 1), se cumple que, cuando n es grande :
√ √
n·ε n·ε
P − ≤Z≤ =1−α donde Z ∼ N (0, 1)
σ σ
√
n·ε
Ahora buscamos obtener el valor de σ
:
A partir de la afirmación anterior, se deduce que:
√
n·ε α
P Z≤ =1− ver que la Normal es simétrica
σ 2
√
α n·ε
Por lo tanto: el número z que acumula 1 − 2
de probabilidad, es z1− α2 = σ
√
n·ε
Busco despejar ε , para construir el intervalo de confianza: z1− α2 = σ
⇒ε=
z1− α ·σ
√2
n

Aquı́ ε es llamdo error de muestreo.
Ası́ tengo, entonces, determinado el intervalo de confianza para la media

poblacional µ:
(z1−α/2 ) · σ (z1−α/2 ) · σ

X̄ − √ , X̄ + √
n n
INTERPRETACIÓN: La probabilidad de que el intervalo anterior incluya el

verdadero valor de µ, es (1 − α).
¿Qué relación existe entre ε y n ?

(z1− α )·σ (z1− α )2 ·σ 2
Ya vimos que ε = √2
n
, por lo tanto, se deduce que: n = 2
ε2
Vemos que la relación entre ε y n es inversa: cuanto más grande es el tamaño de

la muestra n, menor es ε, el error que se comete, al aproximar el valor de µ, por
X̄ .
3.3.2. Intervalo de confianza para µ , cuando no conozco

σ2
Observación: Por lo general no conozco σ. Lo que conozco es S 0 , estadı́stico

calculado a partir de los valores de la muestra, y que es un buen estimador de σ.
Se dice que S 02 es un estimador de σ 2 , y se escribe:
b2 = S 02
σ
También se cumple que S 0 es un estimador de σ , y se escribe:
b = S0
σ
Al sustituir σ por el estimador S 0 , el estadı́stico usado en el intervalo de confianza

para µ, cambia: en lugar de Z es T, y su distribución también cambia:

vimos, por el teorema 5 que, si la muestra proviene de una variable, que se

distribuye Normal en la población, el estadı́stico T tiene una distribución t con
n − 1 grados de libertad.
n→+∞
Observación: Se cumple que la distribución tn−1 −→ Z ∼ N (0, 1)
Por lo tanto si n es grande ( n > 30 ) y la muestra proviene de una Población

Normal, utilizo el siguiente intervalo de confianza aproximado para µ:
(z1−α/2 ) · S 0 (z1−α/2 ) · S 0

X̄ − √ , X̄ + √
n n
Intervalo aproximado para µ si n > 30 y la población es Normal.
Siendo tn−1,1−α/2 el valor de la tabla t que acumula 1 − α/2 de probabilidad a su

izquierda, para n − 1 grados de libertad.
Pero si la muestra es pequeña, y proviene de una población Normal, el intervalo

de confianza para µ es
" #
tn−1,1−α/2 · S tn−1,1−α/2 · S
X̄ − √ , X̄ + √
n n
Ejemplo: Supongamos que mi muestra está compuesta por 100 varones de entre
20 y 30 años, sometidos a tensión nerviosa, cuya presión diastólica media es X̄ =
10 y cuya varianza es S 2 = 0, 81. Supongamos también que la variable presión
diastólica se distribuye Normal en la población. Si busco obtener un intervalo
aproximado para µ, que tenga un 95 % de confianza, entonces 1–α = 0, 95 de
donde 1 − α/2 = 0, 975 y si voy a la tabla con valores Normales (0, 1), veo que
el valor z que acumula 0, 975 de probabilidad, es 1, 96 , y anoto z1−α/2 = 1, 96 .
Con todos estos datos, calculo ε:
z1−α/2 S 0
ε= √
n

para el intervalo de confianza aproximado para µ:
√
0, 81
ε = (1, 96) · = 0, 1764
10
Y construyo en intervalo de confianza aproximado al 95 % para µ, que es:
[10–0, 1764; 10 + 0, 1764]
o sea [9, 8236; 10, 1764].
Con este resultado, afirmo que la probabilidad, de que la presión diastólica media
entre todos los varones de entre 20 y 30 años que están sometidos a tensión
nerviosa , esté entre 9, 8 mmHg y 10, 2 mmHg, es de 0, 95.
Si deseo calcular el intervalo de confianza exacto para µ, debo ir a la tabla de

la distribución t, y observar cuánto es t99 para una probabilidad acumulada de
0, 975: es t99;0,975 = 1, 9842.
Entonces, ε = (1, 9842),0, 91/10 = 0, 1806 y el intervalo de confianza al 95 % para

µ que es [10–0, 1806; 10 + 0, 1846] o sea [9, 8194; 10, 1806].
3.3.3. Intervalo de confianza para una proporción
Para comprender, en términos estadı́sticos , qué es una proporción definamos una

nueva variable aleatoria: Una variable aleatoria X se denomina de Bernouilli con
parámetro p, si toma sólo dos valores

 1 si ocurre el éxito
X=
 0 si ocurre el fracaso
Donde el parámetro p es:
p = P (X = 1) = “probabilidad de que ocurra el éxito”

Se cumple que E(X) = µX = p, es la proporción de éxitos en la población
Por lo tanto el parámetro p es una media poblacional, y podemos encontrar

un intervalo de confianza para él: si el valor de p: proporción de éxitos en la
población, es desconocido, podemos calcular el valor de X̄ : proporción de éxitos
en la muestra, y realizar la inferencia correspondiente.
Ası́ como se dijo que X̄ (media muestral) es un buen estimador de µ(media

poblacional) , y se escribe:
µ
b = X̄
También se dice que X̄ : proporción de éxitos en la muestra es un buen estimador

de p (proporción poblacional), y se escribe por ello:
pb = X̄
proporción de éxitos en la muestra
Al igual que antes, podemos estimar de dos formas, el verdadero valor de p, a

partir de pb, la proporción muestral:
Estimación Puntual de p: Se estima el verdadero valor de p = µX , a partir

del valor particular de pb = X̄ , proporción muestral.
E stimación de p por intervalo de confianza: En este caso, para la distribu-

ción de pb = X̄ , se aplicará el Teorema de De-Moivre Laplace (ver anexo al
bloque 2), donde surge que la variable
X − np n→∞
Z=p −→ N (0, 1)
np(1 − p)

donde X es la cantidad de éxitos en la población.
Y el intervalo de confianza para la proporción poblacional p es :

p p
h z1−α/2 · pb(1 − pb) z1−α/2 · pb(1 − pb) i
pb − √ ; pb + √
n n
Ejemplo: Queremos estimar en Uruguay, la proporción de personas de más de 60

años, que tienen problemas cardı́acos (éxito). Con ese fin, extraemos una muestra
aleatoria de tamaño 500, dentro de la población de interés. Encontramos que
la cantidad de personas de la muestra que tienen problemas cardı́acos son 6,
con lo cual la proporción de personas con problemas cardı́acos en la muestra es
pb = 6/500 = 0, 012, estimación puntual de p. Y el intervalo de confianza al 99 %
de confianza es
p p
h z1−0,01/2 · 0, 012(1 − 0, 012) z1−0,01/2 · 0, 012(1 − 0, 012) i
0, 012 − √ ; 0, 012 + √
500 500
donde z1−0,01/2 = z0,995 = 2, 58
Y entonces el intervalo de confianza al 99 %, para p, queda [−0, 00056; 0, 02456]
Se interpreta diciendo que 0, 99 es la probabilidad de que la proporción de per-

sonas de más de 60 años con problemas cardı́acos, esté entre 0 % y 2, 456 %.

3.4. Prueba de Hipótesis
Hasta ahora hemos estudiado cómo, a partir de una muestra de una variable
extraı́da de una cierta población, podemos obtener una estimación puntual o
bien establecer un intervalo más o menos aproximado, para acercarnos a conocer
los parámetros que caracterizan dicha variable aleatoria en esa población.
Pueden presentarse en la práctica, situaciones en las que exista una teorı́a pre-
concebida, relativa a la caracterı́stica de la población sometida a estudio. Tal
serı́a el caso, por ejemplo si pensamos que un nuevo tratamiento médico puede
tener un porcentaje de mejorı́a mayor que otro tratamiento estándar, o cuando
nos planteamos si los niños de los distintos departamentos del Uruguay tienen el
mismo desempeño escolar.
Este tipo de circunstancias son las que nos llevan al estudio de la parte de la
Estadı́stica Inferencial que recibe el nombre de Contraste o Prueba de Hipótesis.
Ésta implica ciertas pasos:
1. Planteamiento de dos teorı́as o hipótesis, que denominaremos

hipótesis nula (H0 ) e hipótesis alternativa (H1 ) que, de alguna manera,
reflejarán esa idea a priori que tenemos y que pretendemos contrastar con
la “realidad”, observada a través de la muestra extraı́da.
La Hipótesis nula reflejará la idea conservadora, que reflejará la “perma-

nencia” el “no cambio”, aquella idea que el investigador está dispuesto a
creer a priori; mientras que en la hipótesis alternativa, como lo dice su nom-
bre, plantearemos que “las cosas pueden ser diferentes” a lo que pensamos
habitualmente. A veces, H1 es la negación de H0 , pero no necesariamente
debe ser ası́.
La lógica implı́cita en la prueba de hipótesis es una lógica conser-

vadora: mientras no tengamos suficientes elementos (a partir de la

evidencia que brinda la muestra) para afirmar que Ho no se cumple,
“no la rechazaremos”. Es decir, las conclusiones que saquemos serán que:
Rechazamos H0 o No rechazamos H0 .
Durante el procedimiento anterior, implı́citamente, se dan diferentes tipos

de errores que podemos cometer, debido a que, habitualmente, el estu-
dio y las conclusiones que obtengamos para una población cualquiera, se
habrá apoyado exclusivamente en el análisis de sólo una parte de ésta.
La realidad puede ser que H0 sea cierta o que H0 no sea cierta. Si intersec-
tamos estos dos sucesos con las dos decisiones posibles, arriba mencionadas,
tendremos los dos errores posibles en el cuadro siguiente:
a) Rechazar H0 cuando esta es cierta, al cual llamaremos error de tipo 1

(el más grave) y cuya probabilidad de ocurrencia designaremos con la
letra alfa.
P (“Rechazar H0 dado H0 cierta”) = α
b) No rechazar H0 , cuando esta es falsa, al cual llamaremos error de tipo

2, y cuya probabilidad de ocurrencia designaremos con la letra beta.
P (“No rechazar H0 dado H0 falsa”) = β
De la probabilidad con la que estemos dispuestos a asumir estos errores,

dependerá, por ejemplo, el tamaño de la muestra requerida.
no rechazar H0 rechazar H0
H0 es cierta Correcto (Probabilidad: 1 − α) Error tipo 1 (Probabilidad: α)

H0 es falsa Error tipo 2 (Probabilidad: 1 − β) Correcto (Probabilidad: β)

3.4 Prueba de Hipótesis 127
2. Decisión acerca de cuál será el estadı́stico que resuma adecuada-

mente la información muestral, en relación al parámetro o caracterı́stica
poblacional, acerca del cual se va a llevar a cabo el contraste.
3. División del espacio muestral en dos regiones no solapadas: región

crı́tica (donde se rechaza H0 ) y región de aceptación (donde no se rechaza
H0 ). La región crı́tica se establece, fijando de antemano el error de
tipo 1 en un pequeño valor α, llamado nivel de significación, de forma
que la probabilidad de que el estadı́stico tome un valor en ella, cuando la
hipótesis nula es cierta, sea alfa. De esta forma, sólo nos equivocaremos en
nuestra decisión, al cometer el error más grave, un alfa.100 % de las veces.
4. Obtención de la muestra de un determinado tamaño, la cual nos dará in-

formación acerca de la caracterı́stica poblacional de interés.
5. Cálculo del estadı́stico en la muestra recogida.
6. Resolución de la prueba de hipótesis o decisión: Si el valor muestral

del estadı́stico cae en la región crı́tica, se rechaza H0 . Si cae en la región de
aceptación, entonces no se rechaza H0 .
Los contrastes desarrollados en este capı́tulo se apoyan en el supuesto de que los

datos de la población de partida siguen una distribución Normal.
La verificación de este supuesto implica una prueba de hipótesis previa (test de

Kolmogorof-Smirnoff), que por su complejidad, no explicaremos en este curso.
3.4.1. Sı́ntesis de algunos Test Paramétricos
Serán presentados a través de ejemplos:

Ejemplo 1
Por fistulización se obtuvo el PH de 6 muestras de bilis hepática con los siguientes
resultados:
7, 83; 8, 52; 7, 32; 7, 79; 7, 57; 6, 58
Se desea saber al nivel de significación del 0, 05 si la bilis hepática puede con-

siderarse neutra (P H = 7). Si se conociera σ = 0, 5, ¿qué decisión tomarı́amos
?
Solución:
El PH de la bilis hepática es considerada una variable aleatoria Normal X, con

media µ, desconocida, y desvı́o standard σ = 0, 5 conocido.
1. Planteo de la prueba de hipótesis:
H0 ) µ = 7
H1 ) µ 6= 7
A esta prueba se la llama prueba de hipótesis o contraste de dos

colas.
α = 0, 05 = probabilidad del error de tipo 1
2. Estadı́stico: X̄ pues es el mejor estimador de µ. Lo calculamos : X̄ = 7, 60
Este valor es distinto a 7, pero no podemos asegurar que la media pobla-

cional no sea 7, pues la media muestral tiene variación y no siempre es igual
a la media de la población.
La variación de X̄ se debe a que es una variable aleatoria que, como vimos

anteriormente tiene una cierta distribución: X̄ se distribuye Normal con
parámetros (µ, σ 2 /n).
3. Región crı́tica implica los valores de X̄ que me llevan a rechazar H0 .

Se debe cumplir que:
P (“ Rechazar H0 dado H0 cierta”) = 0, 05 = α
pues establecimos como dato, que queremos esa probabilidad de error de

tipo 1. Rechazamos H0 , es decir rechazamos que µ sea 7, si X̄ está alejada
de 7. Y por el contrario No rechazamos H0 si X̄ está cerca de 7, a menos
de de distancia, es decir si se cumple, matemáticamente que
X̄ ∈ (7 − ε, 7 + ε) ⇔ 7 − ε < X̄ < 7 + ε
Busco encontrar el valor de ε y ası́ calcular los valores crı́ticos 7 − ε y 7 + ε

para obtener la Región de Aceptación (7 − ε, 7 + ε) (e implı́citamente la
Región Crı́tica, que es el complemento, en R).
P (“Rechazar H0 dado H0 cierta ”) = 0,05 entonces

P (“No rechazar H0 dado H0 cierta ”) = 0,95 entonces
P (“X̄ pertenezca a la región de aceptación, dado H0 cierta ”) = 0,95 entonces
P (7 − ε < X̄ < 7 + ε), dado H0 cierta ) = 0,95
Entonces, busco dejar en el medio de la desigualdad, una variable con dis-

tribución tabulada que me permita encontrar los extremos del intervalo.
√
(X̄−µ) n
Sé que σ
∼ N (0, 1). Recordando que µ = 7 si H0 es cierta, tenemos
P (−ε < X̄ − 7 < ε) = 0,95
√ √ √
−ε n (X̄−µ) n ε n
P σ
< σ
< σ
= 0,95
Por lo tanto √
ε n
= z1−0,05/2 = z0,975 = 1,96
σ

de donde obtenemos que ε = 0,4. Por lo tanto la Región de Aceptación son

las muestras que cumplen que X̄ ∈ (6,6; 7,4).
Simplificando el procedimiento para encontrar la Región Crı́tica podemos

decir que la Región Crı́tica está formada por aquellas muestras tales que:
√
(X̄ − µ0 ) n
|z0 | =
≥ z1−α/2
σ
siendo z0 un estadı́stico cuando H0 se cumple.
En el caso de mi muestra se cumple que:
 √ √
(X̄−µ0 ) n (7,6−7) 6


 X̄ = 7,6 ⇒ σ
= 0,5
= 2,94









 α = 0,05 ⇒ z

1−α/2 = z0,975 = 1,96
Como 2,94 > 1,96 estamos en la Región Crı́tica, entonces Rechazo H0 .
Conclusión: Con un 95 % de confianza, puede afirmarse que el PH (prome-

dio) de la bilis hepática no es 7.

Prueba de Hipótesis para µ con σ conocido

Contraste de dos colas o bilateral
1) Planteo de Hipótesis 1) Planteo del Hipótesis

y nivel de significación y nivel de significación
H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significación α α = 0,05
2) Estadı́sticos 2) Estadı́sticos
Pn
Xi
X̄ = i=1
n
X̄ = 7,6
√ √
(X̄−µ) n (7,6−7) 6
Z0 = σ
z0 = 0,5
= 2,94
Estadı́stico, si se cumple H0
3) Región Crı́tica y Decisión 3) Región Crı́tica y Decisión
Si |z0 | ≥ z1−α/2 rechazo H0 z0 = 2,94, z1−α/2 = z0,975 = 1,96

Si |z0 | < z1−α/2 no rechazo H0 como |z0 | = 2,94 > 1,96 rechazo H0
4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática no es 7

Ejemplo 2
En el ejemplo anterior, ¿ podemos considerar que la bilis hepática es alcalina (con
PH mayor a 7) ?
Solución:
Ahora la prueba de hipótesis implica la misma hipótesis nula (µ = 7) pero otra

hipótesis alternativa (µ > 7). A esta prueba se la llama prueba de hipótesis o
contraste de una cola. Por lo tanto, con respecto al ejemplo anterior, tendremos
otra región crı́tica (y por lo tanto otra región de aceptación).
Se resume el procedimiento en el siguiente cuadro:

Prueba de Hipótesis para µ con σ conocido

Contraste de una cola o unilateral

H0 : µ = µ0 H0 : µ = 7
H1 : µ > µ0 H1 : µ > 7
Pn
Xi
X̄ = i=1
n
X̄ = 7,6
√ √
(X̄−µ) n (7,6−7) 6
Z0 = σ
z0 = 0,5
= 2,94
Si z0 ≥ z1−α rechazo H0 z0 = 2,94, z1−α = z0,95 = 1,64

Si z0 < z1−α no rechazo H0 como z0 = 2,94 > 1,64 rechazo H0
hepática es alcalina

Ejemplo 3
Supongamos ahora que no conocemos la desviación standard del grado de PH de
la bilis hepática, y lo debemos estimar a partir de la muestra obtenida. ¿ Podemos
considerar ahora que la bilis hepática es neutra ?.
Solución:
La prueba de hipótesis es similar a la del ejemplo 1, excepto en el estadı́stico pues

al tener que estimar σ, éste cambia: ya no tenemos una distribución Normal (0,1),
sino que ahora tendremos la distribución t con n-1 grados de libertad (recordar
intervalo de confianza para µ con σ desconocida)
Estimamos σ a partir de la raı́z cuadrada de la cuasivarianza muestral.
n·S 2
b2 =
σ n−1
= S 02
348,77
donde S 2 = Xi2 /n − X̄ 2 = − (7, 6)2 = 0, 368
P
6
b2 =
σ 6·0,368
5
= 0,442 = S 0 2
b = 0,66 = S 0
⇒σ
Se resume el procedimiento en el siguiente cuadro:

Prueba de Hipótesis para µ con σ desconocido

Contraste de dos colas o bilateral

H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
Pn
Xi
X̄ = i=1
n
X̄ = 7,6
q
nS 2
S0 = con S 2 = Xi2 /n − X̄ 2 S 0 = 0,66
P
n−1
√ √
(X̄−µ0 ) n (7,6−7) 6
T0 = S0
T0 = 0,66
= 2,23
con distribución tn−1
Si |t0 | ≥ tn−1,1−α/2 rechazo H0 tn−1,1−α/2 = t5,0,95 = 2,015

Si |t0 | < tn−1,1−α/2 no rechazo H0 como |t0 | = 2,23 > 2,015 rechazo H0
hepática no es 7

3.5. La Inferencia Estadı́stica no Paramétrica
Hasta ahora presentamos ejemplos de pruebas de hipótesis que involucran afir-

maciones acerca de parámetros poblacionales desconocidos, lo cual entra dentro
de lo que se denomina Inferencia Estadı́stica Paramétrica.
Ahora, en la Inferencia Estadı́stica No Paramétrica, las hipótesis no tendrán

parámetros sino que involucrarán afirmaciones acerca de alguna caracterı́stica
estadı́stica de la población, como por ejemplo serán del tipo: las observaciones son
independientes, la distribución de la variable en estudio es normal, la distribución
es simétrica, etc.
En este curso presentaremos un test no paramétrico que es útil para decidir si

dos variables son o no independientes.
3.5.1. Test de independencia de dos variables:
Explicaremos el mecanismo de esta prueba de hipótesis a la luz de un ejemplo.
Ejemplo 4
Se encuesta a 400 ciudadanos uruguayos y se les hizo dos preguntas:
1) ¿ De que afiliación polı́tica es? Para simplificar el estudio de esta variable

se les pidió que se definieran por izquierda o derecha.
2) ¿ Está de acuerdo con la aprobación de la ley ZZZ ? Los valores de esta

variable se clasifican en tres categorı́as: a favor, indeciso o en contra
Una vez obtenidas las respuestas (suponiendo que todos ellos contestan ambas
preguntas), se armó la tabla siguiente, y se completó con los datos conseguidos a
través de la encuesta:

3.5 La Inferencia Estadı́stica no Paramétrica 137
A favor Indecisión En contra
Derecha 68 22 110
Izquierda 92 18 90
Nuestro objetivo es averiguar si hay independencia o, por el contrario, hay

relación, entre la opinión sobre una determinada ley (una variable) y la tendencia
polı́tica (la otra variable). Para ello se deben seguir los siguientes pasos:
1. Plantear la Prueba de Hipótesis:
H0 ) No hay asociación entre las dos variables (son independientes)
H1 ) Existe cierto grado de asociación o dependencia entre ellas.
2. Computar las frecuencias observadas ( n0 ) y completar el cuadro

descriptivo con los totales.
A favor Indecisión En contra Total

Derecha 68 22 110 200(50 %)
Izquierda 92 18 90 200(50 %)
Total 160 40 200 400(100 %)
Observación: Se observa que existe: un 50 % de afiliados a la derecha y

un 50 % de afiliados a la izquierda.
Si las opiniones no dependieran del perfil polı́tico (H0 ), entonces

dichos porcentajes se deberı́an mantener dentro de cada opinión (a favor,
en contra o indecisión).
3. Calcular las frecuencias esperadas: ne ( frecuencias esperadas, si se

cumple H0 : variables independientes):

Por ejemplo:
si hay indep 160 200

P (Derecha y A favor) = P (Derecha)·P (Af avor) = · = 0, 2
400 400
Entonces la frecuencia esperada correspondiente a la categorı́a Derecha-A

favor es: 0, 2 · 400 = 80
si hay indep 200 40

P (Izquierda e indeciso) = P (Izquierda)·P (indeciso) = · = 0, 05
400 400
Entonces la frecuencia esperada correspondiente a la categorı́a Izquierda-A

favor es: 0, 05 · 400 = 20
Y ası́ se calculan análogamente todas las frecuencias esperadas y se completa

el cuadro de frecuencias esperadas:
A favor Indecisión En contra
Derecha 80 20 10
Izquierda 80 20 100
4. Calcular el estadı́stico χ-cuadrado o Estadı́stico de Pearson ob-

servado, que se define de la siguiente forma:
X (n0 − ne )2
χ2 observado =
ne
Cuadro de ayuda para el cálculo del estadı́stico de Pearson observado:

no ne no –ne (no –ne )2 (no − ne )2 /ne

68 80 −12 144 1,8
92 80 12 144 1,8
22 20 2 4 0,2
18 20 −2 4 0,2
110 100 10 100 1
90 100 −10 100 1
Total: 6
P (no −ne )2
χ2 obs = ne
(68−80)2 (92−80)2 (22−20)2 (18−20)2 (110−100)2 (90−100)2
= 80
+ 80
+ 20
+ 20
+ 100
+ 100
=6
Por lo tanto: el estadı́stico de Pearson observado vale 6
5. Buscar el estadı́stico chi cuadrado crı́tico o sea aquél que permite

construir la región crı́tica y decidir. Primero hay que calcular los grados de
libertad, que se definen de la siguiente forma.
Grados de libertad: (no de categorı́as en las filas –1) · (no categorı́as en las columnas –1 )
O sea : (2–1) · (3–1) = 2 grados de libertad.
Busco el valor de la distribución χ2 correspondiente a dos grados de libertad,

con una confianza 1 − α (α es la probabilidad del error de tipo 1: decir que
existe relación entre las variables, cuando son independientes).
Si busco tener un nivel de confianza del 95 %, entonces hallo x tal que

P (χ2 < x) = 0, 95.
Buscando en la tabla de la distribución χ2 (se presenta a continuación), se

obtiene que x = 5, 99 (estadı́stico crı́tico con 2 grados de libertad y
que acumula 0,95 de probabilidad).

6. Regla de decisión:
Si el estadı́stico observado es mayor que el crı́tico, entonces rec-

hazo H0 Si es menor o igual al crı́tico, entonces no rechazo H0 .
7. Decisión:
95 % de confianza: (en cinco de cada 100 muestras me puedo equivocar en

mi decisión)
Como 6 > 5, 99, entonces Rechazamos H0 (rechazo la independencia entre

las variables).
Con un 95 % de confianza puedo pensar que existe cierto grado de depen-

dencia entre las variables.
Observación:
Si deseo elevar mi nivel de confianza al 97 % y con ello disminuir la proba-

bilidad del error de tipo 1 (α) a un 3 %, mi decisión va a cambiar, en este
caso.
Si busco tener un nivel de confianza del 97 %, entonces hallo el valor x tal

que P (χ2 < x) = 0, 97.
Buscando en la tabla de la distribución χ2 (se presenta a continuación), se

obtiene que x = 7, 38. (estadı́stico crı́tico con 2 grados de libertad
y que acumula 0,97 de probabilidad).
97 % de confianza: (en tres de cada 100 muestras me puedo equivocar en

mi decisión).
Como 6 < 7, 38, entonces No rechazo H0 (no rechazo que haya independen-
cia).
Con un 97 % de confianza no rechazo que haya independencia. O sea, la

evidencia observada no me permite negar la posibilidad de que las variables

puedan ser independientes.

Tabla de la distribución χ2:
P (χ2n ≥ x)=α
Grados de libertad\ α 0,1 0,05 0,03 0,01 0,01

1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,6
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,3
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25 27,49 30,58 32,8
16 23,54 26,3 28,85 32 34,27
17 24,77 27,59 30,19 33,41 35,72

18 25,99 28,87 31,53 34,81 37,16

19 27,2 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40
21 29,62 32,67 35,48 38,93 41,4
22 30,81 33,92 36,78 40,29 42,8
23 32,01 35,17 38,08 41,64 44,18
24 33,2 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,5 71,42 76,15 79,49
60 74,4 79,08 83,3 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,3
100 118,5 124,34 129,56 135,81 140,17

3.6. Ejercicios
1. Hallar los valores x tales que se cumplan las condiciones impuestas:
a) T se distribuye t con 6 grados de libertad y P (T < x) = 0, 975
b) T se distribuye t con 30 grados de libertad y P (T < x) = 0, 995
c) T se distribuye t con 10 grados de libertad y P (T > x) = 0, 05
d ) T se distribuye t con 15 grados de libertad y P (T > x) = 0, 005
2. Se quiere estimar el resultado de un referéndum mediante un sondeo. Para

ello se realiza un muestreo aleatorio simple con n = 100 personas y se ob-
tienen que 35 de ellos votarán a favor y 65 votarán en contra (suponemos
que no hay indecisos para simplificar el problema, a una variable dicotómi-
ca). Con un nivel de significación del 5 %, calcule un intervalo de confianza
para el verdadero resultado de las elecciones.
3. Los analistas de la empresa que realiza el sondeo no están conformes con los
resultados de la encuesta anterior. En particular les parece que el margen de
error es muy grande. Deciden fijar este error en 1 punto porcentual, como
máximo y buscan también tener un nivel de confianza de 97 % ¿ Cómo
pueden conseguir estos objetivos ?
4. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos

sanos, obteniéndose
0, 98; 0, 85; 0, 77; 0, 92; 1, 12; 1, 06; 0, 89; 1, 01; 1, 21; 0, 77
¿Cuanto vale la producción diaria media de bilis en individuos sanos,

suponiendo que la muestra ha sido obtenida por muestreo aleatorio sim-
ple sobre una población Normal? Considerar una confianza del 95 %.

3.6 Ejercicios 145
5. La cantidad mı́nima requerida para que un anestésico surta efecto en una

intervención quirúrgica fue por término medio de 50 mg, con una desviación
tı́pica de 10, 2 mg, en una muestra de 60 pacientes. Obtener un intervalo de
confianza para la media, al 99 %, suponiendo que la muestra fue extraı́da
mediante muestreo aleatorio simple sobre una población Normal.
6. Un investigador está interesado en estimar la proporción de muertes debidas

a cáncer de estómago en relación con el número de defunciones por cualquier
tipo de neoplasia. Su experiencia le indica que serı́a sorprendente que tal
proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar
para estimar la anterior proporción, con una confianza del 98 %, para que
el valor estimado no difiera del valor real en más de 0, 03?.
7. Un cardiólogo se encuentra interesado en encontrar lı́mites de confianza al

90 %, para la presión sistólica tras un cierto ejercicio fı́sico. Obtenerlos, si en
50 individuos se obtuvo x̄ = 13, S = 3 y suponemos que el comportamiento
de la variable sistólica es Normal.
8. En una muestra de 25 bebés varones de 12 semanas de vida se obtuvo un

peso medio de 5,900 gr y una desviación tı́pica de 94 gr.
a) Obtener un intervalo de confianza (al 95 %) para el peso medio pobla-

cional.
b) ¿Cuántos niños habrá que tomar para estimar dicha media con una
precisión de 15 gr?
9. En un determinado servicio odontológico se sabe que el 22 % de las visitas

llevan consigo una extracción dentaria inmediata. En cierto año, de 2.366
visitas, 498 dieron lugar a una extracción inmediata. ¿ Entran en contradic-
ción las cifras de ese año con el porcentaje establecido de siempre?

10. Sólo una parte de los pacientes que sufren un determinado sı́ndrome neu-
rológico consiguen una curación completa. Si de 64 pacientes observados,
se han curado 41, dar una estimaciones puntual y un intervalo, de la pro-
porción de los que sanan. ¿Qué número de enfermos habrá que observar
para estimar la proporción de curados con un error inferior a 0,05 y una
confianza del 95 %?
11. En una determinada región se tomó una muestra aleatoria de 125 individ-
uos, de los cuales 12 padecı́an afecciones pulmonares.
a) Estı́mese la proporción de afecciones pulmonares en dicha región.
b) Si queremos estimar dicha proporción con un error máximo del 4 %,

para una confianza del 95 %, ¿qué tamaño de muestra debemos tomar?
12. En una muestra de tabletas de aspirinas, de las cuales observamos su peso

expresado en gramos, obtenemos:
1, 19; 1, 23; 1, 18; 1, 21; 1, 27; 1, 17; 1, 15; 1, 14; 1, 19; 1, 2
Suponiendo la Normalidad para esta distribución de pesos, determinar un

intervalo al 80 % de confianza para el peso promedio de las aspirinas.
13. Se quiere estimar la incidencia de la hipertensión arterial en el embarazo.

¿Cuántas embarazadas tenemos que observar para, con una confianza del
95 %, estimar dicha incidencia con un error del 2 % en los siguientes casos:
a) Sabiendo que un sondeo previo se ha observado un 9
b) Sin ninguna información previa.
Ejercicios de Prueba de Hipótesis:

3.6 Ejercicios 147
En todos los problemas que siguen a continuación, se supone que las mues-
tras han sido elegidas de forma independiente, y que las cantidades cuanti-
tativas que se miden, se distribuyen según una distribución Normal.
14. El calcio se presenta normalmente en la sangre de los mamı́feros en con-

centraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La
desviación tı́pica normal de ésta variable es 1 mg de calcio por cada 100 ml
del volumen total de sangre. Una variabilidad mayor a ésta puede ocasionar
graves trastornos en la coagulación de la sangre. Una serie de nueve pruebas
sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100
ml del volumen total de sangre, y una desviación tı́pica muestral de 2 mg
de calcio por cada 100 ml de sangre. ¿Hay alguna evidencia, para un nivel
α = 0, 05, de que el nivel medio de calcio para este paciente sea más alto
del normal?
15. El número de accidentes mortales en una ciudad es, en promedio, de 12

mensuales. Tras una campaña de señalización y mejoramiento de las vı́as
urbanas se contabilizaron en 6 meses sucesivos: 8, 11, 9, 7, 10, 9 accidentes
mortales. ¿Fue efectiva la campaña ?
16. El promedio de las puntuaciones de un número elevado de alumnos de

Bioestadı́stica es de 7,50. Un determinado año se examinaron 50 alumnos
con resultados promedio de 8,25 y desviación tı́pica de 1. ¿Variaron las
calificaciones?.
17. El peso medio de mujeres de 20 a 30 años es de 53 kg. Un estudio realizado

en 16 mujeres de tales edades que siguen una dieta vegetariana da x̄ = 50
y S = 5. ¿Modifica la dieta el peso medio?
18. Una población infantil se dice que es susceptible de recibir una campaña
educación e higiene si su porcentaje de niños con dientes cariados es superior

al 15 %. Una población con 12.637 niños, ¿debe hacerse la campaña si de

387 de ellos 70 tenı́an algún diente cariado?
19. Un 8 % de los individuos que acuden a un servicio sanitario son hiperuti-

lizadores del mismo (más de 11 visitas al año) y, de entre ellos, un 70 %
son mujeres. De entre los no hiperutilizadores, son mujeres el 51 %. ¿Puede
afirmarse que han variado los hábitos de estas si, tras una campaña de in-
formación y control de visitas, de 90 mujeres elegidas al azar 6 resultaron
hiperutilizadoras?
20. Se conoce que un 20 % de los individuos tratados crónicamente con digoxina

sufren una reacción adversa por causa de ella. A 10 pacientes se les admin-
istró durante largo tiempo digoxina mas otros medicamentos, y de ellos 5
desarrollaron la reacción adversa. ¿Puede afirmarse que la asociación entre
la digoxina y los otros medicamentos hace variar el número de reacciones
adversas?
21. Con el propósito de determinar como influye la dinámica familiar sobre el

control metabólico de la glicemia en pacientes diabéticos tratados con hi-
poglicemiantes orales, se procedió a seleccionar una muestra de 80 pacientes
diabéticos a los cuales se les aplicó el test del apgar familiar encontrándose
30 pacientes con alteraciones de la dinámica familiar, 40 pacientes no pre-
sentaron alteraciones ni en la dinámica familiar ni en el control metabólico
de la glicemia y solo 30 pacientes presentaron mal control metabólico de la
glicemia.
22. Un grupo de investigadores inicia un estudio de epidemia de hepatitis para la

cual se plantean como hipótesis que las malas condiciones sanitarias favore-
cen la propagación de los casos, observándose que de 240 sujetos estudiados
27 tenı́an hepatitis de los cuales 7 tenı́an altas condiciones sanitarias y 80
que no presentaron hepatitis tenı́an bajas condiciones sanitarias.

3.6 Ejercicios 149
23. Un investigador plantea un diseño epidemiológico para poner en evidencia

como influye el estrato social sobre el peso al nacer, para lo cual controla
la edad materna y conforma dos grupos uno de 40 con bajo peso y otro de
720 recién nacidos con peso normal observando: que los niños con bajo peso
30 pertenecı́an al estrato social bajo, mientras que de los niños con peso
normal 700 pertenecı́an al estrato social alto.

Solución de algunos ejercicios:
Correspondientes al Bloque temático 1:
[2]
a) Clasifica todas las variables de la tabla, según sean cualitativas: nom-

inales u ordinales; o cuantitativas: discretas o continuas.
EDAD: Variable cuantitativa continua, pues existen innumerables val-

ores posibles de edades, entre dos edades distintas cualesquiera.
Nota: El hecho que la variable se mida en años, no impide que sea

continua. Entre una persona que tiene 30 años y otra que tiene 31
años, puede existir otra que tenga 31 años y 6 meses, y ası́ el tiempo,
que es continuo, se puede seguir subdiviviendo indefinidadmente.
SEXO: Variable cualitativa nominal, a pesar de los números 0 y 1,

pues sólo se utilizan para codificar: la adjudicación de los números es
arbitraria.
BH: Bebedor/a habitual: Variable cualitativa nominal, por el mismo

motivo anterior.
TALLA: Variable cuantitativa continua, pues existen innumerables

valores posibles, entre dos alturas o tallas distintas cualesquiera.
PESO: Variable cuantitativa continua.
GLU: Variable cuantitativa continua.
CT : Variable cuantitativa continua.
HDL: Variable cuantitativa continua.
Observación: es normal que las variables continuas, al medirlas y regis-

trarlas, se redondeen a valores enteros, lo que no impide que pudieran
registrarse con valores decimales, lo que harı́a más evidente su carácter
de continuas.
3.6 Ejercicios 151
b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a

partir de los datos de la variable edad, de la tabla anterior. Considera
5 intervalos de igual longitud.
Como el mı́nimo valor de edad, en mi muestra de 40 usuarios del

servicio de salud, es 20 y la máxima edad es 90, la longitud de cada
intervalo será: ( 90 - 20 ) / 5 = 14
Edades ni hi Porcentaje Fi∗
[20, 34) 10 10/40 = 0, 25 25 0, 25

[34, 48) 21 21/40 = 0, 525 52, 5 0, 775
[48, 62) 4 4/40 = 0, 1 10 0, 875
[62, 76) 3 3/40 = 0, 075 7, 5 0, 95
[76, 90) 2 2/40 = 0, 05 5 1
40 1 100
Interpretación de algunos valores de la tabla anterior :
En la columna ni , el 21: Entre los usuarios del servicio de salud de la

muestra, hay 21 de ellos que tienen entre 34 y 47 años de edad.
En la columna hi , el 0,25: Entre los usuarios del servicio de salud de la

muestra, hay un 25 % de ellos que tienen entre 20 y 33 años de edad.
En la columna Porcentaje, el 10: Entre los usuarios del servicio de

salud de la muestra, hay un 10 % de ellos que tienen entre 48 y 61
años de edad.
En la columna Fi∗ , el 0,775: Entre los usuarios del servicio de salud de

la muestra, hay un 77,5 % de ellos que tienen menos de 48 años.
c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a

partir de los datos de glucemia de los varones de la tabla anterior.
Glucemia ni hi Fi∗
[80, 120) 7 0, 7 0, 7
[120, 160) 2 0, 2 0, 9
[160, 200) 0 0 0, 9
[200, 240) 1 0, 1 1
10 1
Un nivel normal de glucemia es aquél que se encuentra en el intervalo

[75, 100).
A partir de la tabla anterior, calcularemos el porcentaje de hombres

que se encuentran en el intervalo [80, 100), pues no hay nadie en el
intervalo [75, 80).
Para hacerlo utilizaremos una regla de tres simple:
[80, 120) longitud 40 70 %

[80, 100) longitud 20 x = 20 · 70/40 = 35 %
Por lo tanto, a partir de la tabla de frecuencias, vemos que existe

un 35 % de hombres en mi muestra que tienen un nivel normal de
glucemia. A partir de los datos originales, vemos que hay tres hom-
bres con un nivel normal de glucemia, lo cual corresponde a un 30 %.
La diferencia se debe a que el 30 % es real, mientras que el 35 % es
estimado, siguiendo la hipótesis de distribución uniforme de los datos
en el intervalo correspondiente, lo cual no siempre se cumple. Pero,
a pesar de que este último dato es estimado, es el que más comun-
mente se calcula, pues los datos originales, luego de construir la tabla
de frecuencias, generalmente no se vuelven a tomar en cuenta.
d ) Representa el histograma de la variable talla. Considera 5 intervalos.

3.6 Ejercicios 153
Discrimina por sexo, considerando los mismos intervalos. Compara.
Tallas ni hi fi∗
[145, 152) 5 0, 125 0, 0178

[152, 159) 10 0, 25 0, 0357
[159, 166) 12 0, 3 0, 0428
[166, 173) 7 0, 175 0, 025
[173, 180] 6 0, 15 0, 0214
40 1

Tallas de hombres ni hi fi∗
[145, 152) 0 0 0
[152, 159) 1 0, 1 0, 0143
[159, 166) 1 0, 1 0, 0143
[166, 173) 5 0, 5 0, 0714
[173, 180] 3 0, 3 0, 0428
10 1

3.6 Ejercicios 155
Tallas ni hi fi∗
[145, 152) 5 0, 16 0, 0228

[152, 159) 9 0, 3 0, 0428
[159, 166) 11 0, 37 0, 0528
[166, 173) 2 0, 07 0, 01
[173, 180] 3 0, 1 0, 0143
30 1
Comparando los histogramas, se observa lo esperado: que a nivel global

las estaturas se distribuyen en torno a los valores centrales, sin embargo
las alturas masculinas se concentran en valores altos, y las femeninas,
en valores medio-bajos
e) Representa la tabla de frecuencias de la variable BH, diferenciando por

tres grupos de edades: de 20 a 39 años, de 40 a 59 años y de 60 a 90

años. Compara.
B.H 20a39 hi 40a59 hi 60a90 hi

0 16 0, 7 8 0, 8 5 0, 83
1 8 0, 3 2 0, 2 1 0, 17
24 1 10 1 6 1
Comparando, observamos que: el 30 % de los jóvenes de 20 a 39 años, es

bebedor habitual, el 20 % de los adultos entre 40 y 59 años es bebedor
habitual, y el 17 % de los adultos mayores de 60 a 90 años es bebedor
habitual.
Observamos una clara tendencia descendente en la frecuencia de los

bebedores habituales, a medida que avanzamos en los intervalos de
edad.
f ) ¿Qué puedes decir sobre las medidas de tendencia central de la variable

CT en las mujeres de la tabla? ¿Y sobre su dispersión? Considere 5
intervalos.
Colesterol total ci ni hi Fi∗ ci · hi c2i · hi
[158, 198) 178 14 0, 47 0, 47 83, 66 14,891, 48

[198, 238) 218 8 0, 27 0, 74 58, 86 12,831, 48
[238, 278) 258 4 0, 13 0, 87 33, 54 8,653, 32
[278, 318) 298 3 0, 1 0, 97 29, 8 8,880, 4
[318, 358) 338 1 0, 03 1 10, 14 3,427, 32
30 1 216, 0 48,684, 0
El promedio de colesterol total, en las mujeres de esta muestra, es de

216 mg/dl de sangre. (Si lo calculamos a partir de datos originales da
un promedio de 218 mg/dl).

3.6 Ejercicios 157
Calculo la mediana:
(0, 5–0, 47)
Xme = 198 + 0,27 = 202, 44
40
El 50 % de las mujeres de esta muestra, tienen un valor de colesterol

total de hasta 202,44 mg/dl de sangre . Intervalo modal: [158, 198) .
La mayor parte de las mujeres de esta muestra (un 47
OBSERVAR: Que el promedio (216 mg/dl) no se encuentra en el
intervalo modal [158,198), lo que implica que dicho promedio no rep-
resenta bien a esta muestra, la cual contentra muchos datos (un 47 %)
entre 158 mg/dl y 198 mg/dl. Como el promedio es mayor, esto sugiere
que existen unas “relativamente pocas” mujeres que tienen colesteroles
muy altos, que me influyen en la media y me la “tiran hacia arriba”.
Al observar la tabla de frecuencias se constata lo anterior.
Calculo la varianza, el desvı́o standard y el coeficiente de variación:
S 2 = 48,684–(216)2 = 2,028
S = 45, 03
En promedio, los datos de colesterol de las mujeres de esta muestra,

se alejan 45,03 mg/dl del promedio, que es de 216 mg/dl.
45, 03
C.V = = 0, 21
216
Esto implica que el desvı́o standard es un 21 % de la media, lo cual,
empı́ricamente, es un valor muy elevado. Esto nos confirma la mala
representatividad de la media en nuestra muestra, y nos sugiere acom-
pañarla con las otras medidas de tendencia central, a fin de conocer
las caracterı́sticas de nuestra muestra, lo mejor posible.
g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-

terol bueno) más alto que los hombres”, a la luz de esta muestra.

Consultando literatura al respecto, se averiguó cuáles son los valores

deseables de HDL y cuáles los crı́ticos, escontrándose lo siguiente: un
nivel de HDL de menos de 40 mg/dl implica un riesgo de cardiopatı́a
(incluyendo un posible ataque cardı́aco), mientras que un HDL mayor
a 60 ayuda a proteger al individuo contra esta patologı́a del corazón.
Por lo tanto, se sugiere considerar los intervalos para la variable HDL,

que aparecen en la siguiente tabla, y organizar los datos según éstos,
discriminados por sexo:
mujeres hombres
HDL(mg/dl) ni hi ni hi
[30, 40) 4 0, 13 4 0, 4
[40, 60) 16 0, 54 4 0, 4
[60, 80] 10 0, 33 2 0, 2
30 1 10 1
En la tabla anterior se observa que el 40 % de los hombres de esta

muestra, tienen muy bajo el HDL o colesterol bueno, contra un 13 %
de las mujeres. Ası́ como el 33 % de éstas tienen un muy buen nivel
de HDL (mayor a 60 mg/dl, que protege de riesgo cardı́aco) contra un
20 % de los hombres. Con estos dos argumentos la frase “las mujeres
tienden a tener un colesterol HDL( colesterol bueno) más alto que los
hombres”, encuentra su confirmación en esta muestra.
Analizando un poco más profundidad podemos calcular el nivel medio

3.6 Ejercicios 159
de HDL para hombres y mujeres, por separado.
mujeres hombres
HDL(mg/dl) hi ci hi · ci hi ci hi · ci
[30, 40) 0, 13 35 4, 55 0, 4 35 14
[40, 60) 0, 54 50 27 0, 4 50 20
[60, 80] 0, 33 70 23, 1 0, 2 70 14
1 54, 65 1 48
Y obviamente, el promedio de HDL es más alto en las mujeres que en

los hombres (54,65 mg/dl contra 48mg/dl). Esto era esperado ya por
nosotros pues las frecuencias relativas, arriba comentadas, influyen en
el promedio.
[1]
a) x = 2,447
b) x = 2,75
c) x = 1,812
d ) x = 2,947
[1]
Sea A el suceso hablar inglés: P (A) = 0, 5. Sea B el suceso hablar francés:

P (B) = 0, 2. El suceso hablar francés e inglés es A ∩ B : P (A ∩ B) = 0, 05.
Ası:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 5 + 0, 2 − 0, 05 = 0, 65

[2]
Sean los siguientes sucesos V y E:
V : “que el individuo esté vacunado contra una cierta enfermedad”. P (V ) =

0, 6
E: “que el individuo contraiga la enfermedad anterior”. P (E) = 0, 2
P (V ∩ E) = 0, 02
Calculo P (E|V ) y P (V |E)
P (E|V ) = P (V ∩ E) · P (V ) = 0,02 · 0, 6 = 0, 012
P (V |E) = P (V ∩ E) · P (E) = 0,02 · 0, 2 = 0, 004
[3] Tomamos los porcentajes como probabilidades de curar. Sean los sigu-
ientes eventos:
As e =“el tratamiento A surte efecto”
Bs e =“el tratamiento B surte efecto”
análoga notación para el resto de los eventos.
a)

P (“curar en a)”) = P As e ∪ Bs e

= P As e + P Bs e − P As e ∩ Bs e
indep
= 0,2 + 0,3 − 0,2 · 0,3 = 0,44
b)

P (“curar en b)”) = P As e ∪ [Bs e dado queAno s e ]
disjuntos
= P As e + P [Bs e dado queAno s e ]
indep
= 0,2 + 0,3 = 0,5

3.6 Ejercicios 161
Notemos que es más efectivo aplicar primero B y si no da resultado aplicar

A, que aplicar los dos al mismo tiempo. Es importante discutir y plantearse
qué está sucediendo para que suceda esto aparentemente anti intuitivo.
[5] Recordemos que falso positivo es diagnosticar positivamente una

enfermedad dado que el paciente no está enfermo. De forma análoga,
falso negativo es diagnosticar negativamente una enfermedad dado que el
paciente si está enfermo.
Sean los eventos:

A+ =“se diagnostica positivamente con el análisis A”
A− =“se diagnostica negativamente con el análisis A”
análogo para B + y B −
E=“el paciente está enfermo”, E c =“el paciente no está enfermo”
Sabemos que P (E) = 0,1, P (A+ |E c ) = 0,15, P (A− |E) = 0,07, P (B + |E c ) =

0,22 y P (B − |E) = 0,03
Luego, nos interesa P ([A+ ∩ E] ∩ [A− ∩ E c ]) y P ([B + ∩ E] ∩ [B − ∩ E c ]).
disjuntos
P ([A+ ∩ E] ∪ [A− ∩ E c ]) = P (A+ ∩ E) + P (A− ∩ E c )
= P (A+ |E)P (E) + P (A− ∩ E c )P (E c )
= [1 − P (A− |E)]P (E) + [1 − P (A+ |E c )]P (E c )
= [1 − 0,07] · 0,1 + [1 − 0,15] · 0,9 = 0,858

disjuntos
P ([B + ∩ E] ∪ [B − ∩ E c ]) = P (B + ∩ E) + P (B − ∩ E c )
= P (B + |E)P (E) + P (B − ∩ E c )P (E c )
= [1 − P (B − |E)]P (E) + [1 − P (B + |E c )]P (E c )
= [1 − 0,03] · 0,1 + [1 − 0,22] · 0,9 = 0,799
En resumen, La probabilidad de acertar el diagnóstico con el análisis A es

0.858 y con en análisis B es 0.799.
[6]
Recordemos que la sensibilidad es la proporción de diagnosticados positi-

vamente sobre el total de enfermos (el complemento del falso negativo), y
la especificidad es la proporción de diagnosticados negativamente sobre el
total de sanos (el complemento de falsos positivos).
Usando análoga notación para los sucesos que en el ejercicio anterior, ten-
emos que P (E) = 0,2, S = P (T + |E) = 0,91 y E = P (T − |E c ) = 0,98
a)
P (T + |E)P (E)
P (E|T + ) =
P (T + |E)P (E) + P (T + |E c )P (E c )
0,91 · 0,2
= = 0,919
0,91 · 0,2 + (1 − 0,98) · 0,8
b)
P (T − |E c )P (E c )
P (E c |T − ) =
P (T − |E c )P (E c ) + P (T − |E)P (E)
0,98 · 0,8
= = 0,978
0,98 · 0,8 + (1 − 0,91) · 0,2
En resumen, La probabilidad de estar enfermo dado que el test dio positivo

es 0.919 y la probailidad de estar sano dado que el test dio negativo es
0.978.

3.6 Ejercicios 163
[7]
P (F ) = P (F |H)P (H) + P (F |M )P (M ) = 0,7 · 0,4 + 0,2 · 0,6 = 0,4
La probabilidad que un estudiante al azar fume es 0,4.
[8]
Al darnos información de lo que sucede con el tratamiento y deseamos lo

que sucede con el paciente, podemos tratar de usar el Teorema de Bayes:
P (T AC + |E)P (E)
P (E|T AC + ) =
P (T AC + |E)P (E) + P (T AC + |E c )P (E c )
0,8 · 0,2
= = 0,87
0,8 · 0,2 + 0,03 · 0,8
[9]
Al darnos información de lo que sucede con el animal (segunda etapa) y

pedirnos información sobre la primera etapa (de donde proviene el virus)
podemos intentar aplicar el Teorema de Bayes.
Sean los sucesos: E= “el animal se enferma”, A=“el virus aplicado es A”,
análogo para B y C. la probabilidad pedida es:
P (E|C)P (C)
P (C|E) =
P (E|A)P (A) + P (E|B)P (B) + P (E|C)P (C)
1
· 5
7 10
= 1 3 2 2 1 5 = 0,234
·
3 10
+ ·
3 10
+ ·
7 10
[13]
a) Para hallar esta probabilidad tenemos que tipificar:

P (X ≤ 112) = P (X − 106 ≤ 112 − 106)

X − 106 112 − 106
= P ≤
8 }
| {z 8
Z∼N (0,1)
= P (Z ≤ 0,75)
Ahora buscamos en la Tabla Normal, en la primer fila buscamos la

unidad, en este caso 0, y en la primer columna los decimales, en este
caso 0.75 (pues su suma es 0.75 que es lo que deseamos). Donde se
crucen las correspondientes columna y fila es la probabilidad pedida:
P (X ≤ 112) = P (Z ≤ 0,75) = 0,773372
b) Lo que nos piden es P (102 ≤ X ≤ 112) multiplicado por 100 para ser
porcentaje. Luego
P (102 ≤ X ≤ 112) = P (X ≤ 112) − P (X ≤ 102)

tipif icando
= P (Z ≤ 0,75) − P (Z ≤ −0,5)
Para calcular P (Z ≤ −0,5) recordemos la igualdad para v.a. normales

tipificadas P (Z ≤ −x) = 1 − P (Z ≤ x), por lo tanto
P (102 ≤ X ≤ 112) = P (Z ≤ 0,75) − [1 − P (Z ≤ 0,5)]

tabla
= 0,773372 − [1 − 0,691462] = 0,464834
c) Análogo al anterior.
d ) Análogo al primero.
e) Lo que nos están pidiendo es hallar x de modo que P (X ≤ x) = 0,75.

Primero debemos estandarizar:

3.6 Ejercicios 165
 
 x − 106 
P (X ≤ x) = P  Z ≤  = 0,75
 8
| {z }

z0,75
Ahora debemos buscar en la tabla, el valor 0.75, pero ojo, no en fila-

columna pues esl valor que nos dan es de una probabilidad, debemos
buscar 0.75 en el “interior” de la tabla y ver a que fila y columna corre-
sponde. En este caso, 0.75 no se encuentra, pero su valor más próximo
es 0.751747 en la primer columna (0) y en la fila correspondiente a
0.68, por lo tanto z0,75 = 0 + 0,68 = 0,68.
Por último, dbemos hallar x, es decir:
x − 106
= 0,68 ⇒ x = 0,68 · 8 + 106 = 111, 44
8
f ) Es similar al anterior pero ahora recordar que P (Z ≤ z0,25 ) = 1 −

P (Z ≤ −z0,25 ) ya que en la tabla no aparecen valores menores a 0.5 y
en este caso −z0,25 será un valor positivo pues z0,25 es negativo.
[14]
a) Nos piden xs tal que P (Xd ≤ xs ) = 0,02, por lo tanto tipificamos:
xs − 160
P (Xd ≤ xs ) = P (Z ≤ ) = 0,02
31,4
| {z }
z0,02
Luego, como probabilidades menores a 0.5 no las encontramos en la

tabla, usamos que P (Z ≤ z0,02 ) = 1 − P (Z ≤ −z0,02 ) = 0,02, entonces
P (Z ≤ −z0,02 ) = 0,98 y buscando en la tabla obtenemos que −z0,02 =
2,06. Por último
xs − 160
−z0,02 = − = 2,06 ⇒ xs = −2,06 · 31,4 + 160 =
31,4

Por lo tanto, un individuo diabético con valor de glucemia menor a

xs = 95,316 es considerado sano.
b) Ahora, en la distribución de los sanos queremos P (Xs ≥ 95,316), lo

cual es puede calcularse mediante el complemento P (Xs ≥ 95,316) =
1 − P (Xs ≤ 95,316), tipificando

95,316 − 80 tabla
P (Xs ≤ 95,316) = P Z≤ = P (Z ≤ 1,5316) = 0,936
10
Por último, la probabilidad buscada es: P (Xs ≥ 95,316) = 1 −

0,936881 = 0,063119 y sólo el 6,3119 % de los sanos serán clasifica-
dos como diabéticos.
c) Consideremos los siguientes sucesos:
D=“el individuo es Diabético”

S=“el individuo es Sano”
dD=“el individuo es diagnosticado Diabético”
La probabilidad pedida es P (D|dD). Como nos dan información de

lo que sucede con el tratamiento y queremos saber si el paciente es
enfermo o no podemos intentar aplicar Bayes.
P (dD|D)P (D)
P (D|dD) =
P (dD|D)P (D) + P (dD|S)P (S)
0,98 · 0,1
= = 0, 633
0,98 · 0,1 + 0,063119 · 0,9
La probabilidad de que un diagnosticado diabético realmente lo sea es

0,633

3.6 Ejercicios 167
[2] Dada una persona cualquiera (i) de la población, el resultado de su voto

(Xi ) es una variable dicotómica:

 1 si vota a favor
Xi =
 0 si vota en contra
Entonces: Xi se distribuye Ber(p) con p = P (Xi = 1)
El parámetro a estimar, a través de un intervalo de confianza con α =

0, 05, es p, y tenemos, sobre una muestra de tamaño n = 100, la siguiente
estimación puntual de p:
pb = 35/100 = 0, 35
El intervalo de confianza, al 95 %, para p es: [0,2565; 0,4435] El intervalo

de confianza, al 95 %, para 1 − p es: [0,5565; 0,7435]
Afirmamos, con una probabilidad de 0, 95, que los que votarán a favor están
entre un 25, 65 % y un 44, 35 %. Y los que votarán en contra están entre
un 55, 65 % y un 74, 35 %. Observar que no es muy precisa la información
obtenida, pues tenemos con esa muestra un error aproximado de 9, 3 puntos
porcentuales, al nivel de confianza del 95 %.
[3] Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de

confianza hasta el 97 % (α = 003) hemos de tomar una muestra lógicamente
de mayor tamaño; llamémosle m a esta nueva muestra.
Un valor de m que satisface nuestros requerimientos con respecto al error

es:
2
pb(1 − pb)Z1−α/2
m≥
0,012

Si en un principio no tenemos una idea sobre que valores puede tomar p,

debemos considerar el peor caso posible (el que nos da la máxima varianza),
que es en el que se ha de estimar el tamaño muestral cuando pb = 1/2.
Ası́, en este caso, como no se tiene una idea previa del posible resultado
del referéndum, hay que tomar un tamaño de muestra, m , que se calcula
mediante:
1 1
m≥ · · (z1−0,03/2 )2 /(0, 01)2 = 11772, 25
2 2
Es decir, que para conseguir estimar con un 97 % de confianza, el porcenta-

je de personas que votan a favor del referendum con un error de un 1 %
máximo, debemos encuestar a por lo menos 11773 persona Ası́, para tener
un resultado tan fiable, el número de personas a entrevistar es muy elevado,
lo que puede volver excesivamente costoso el procedimiento.
[4] La estimación puntual de la producción diaria media de bilis, en indi-

viduos sanos, es de X̄ = 0,958 litros. Y la varianza muestral es S 2 = 0,019.
Como debo estimar la varianza poblacional, utilizo la tabla t y obtengo
t9 , 0, 975 = 2,262. El error de estiamción es de 0,0987 litros. Por lo tanto,
con un 95 % de confianza decimos que la producción diaria media de bilis
está entre 0,859 litros y 1,057 litros.
[5] Con un 99 % de confianza podemos decir que la cantidad mı́nima re-

querida para que un anestésico surta efecto en una intervención quirúrgica
está entre 46, 5 mg y 53, 5 mg.
[6] En general, cuando no tenemos datos sobre la proporción, a los efectos

de estimar la varianza tomamos pb = 0, 5 para cubrirnos con la mayor vari-
anza posible. Pero, en este caso tenemos como dato que pb es menor a 0, 333.
Y lo usamos para considerar una varianza menor a la máxima y ası́ tomar

3.6 Ejercicios 169
una muestra menor. Haciendo cálculos, se obtiene que se debe tomar una
muestra mayor a 1340, si queremos estimar la proporción de muertes de-
bidas a cáncer de estómago en relación con el número de defunciones por
cualquier tipo de neoplasia, con una confianza del 98 %, y no errarle en esa
proporción en más de un 0, 03.
[7] Como no conocemos el desvı́o poblacional y lo estimamos, usamos la

tabla t. Pero el valor de t49;0,95 no se encuentra en la tabla propuesta en
el teórico correspondiente a este material. Tomamos entonces el valor de
t4 0, 0, 95 = 1, 684 para cubrirnos más, pues cuanto menor es el tamaño
muestral mayor es el error posible. Ası́, obtenemos el intervalo, con un 90 %
de confianza, para la presión sistólica tras un cierto ejercicio fı́sico:[12,29;
13,71].
[8]
[5.861,2; 5.938,8] (usamos t24;0,975 = 2, 064 y la precisión es de 38, 8

gr).
Para bajar la precisión a 15 gr debemos muestrear a 168 bebés varones

de 12 semanas de vida (el cálculo da n = 167, 3 pero se redondea
siempre hacia arriba para cubrirse de cumplir con los requerimientos
pedidos). A los efectos del cálculo de n, como el desvı́o poblacional es
desconocido, se consideró el desvı́o muestral de la anterior muestra de
25 bebés.
[9] Se considera la variable X, con distribución Bernoulli, definida ası́: X =

1, si la visita de lugar a una extracción inmediata y X = 0, en caso contrario.
El parámetro a estimar es p = proporción de visitas al servicio odontológico
que da lugar a una extracción inmediata. De la muestra extraı́da obtengo
pb = 0, 21 . Un intervalo de confianza, al 95 % es [0,194; 0,226] y al 99 % de
confianza es [0,188; 0,232 ].

En conclusión, como 0,22 forma parte de ambos intervalos, tanto con un

95 % como con un 99 % de confianza, puedo decir que es posible que en ese
servicio odontológico el 22 % de las visitas lleven consigo una extracción
dentaria inmediata. Por lo tanto las cifras del año analizado no entran en
contradicción con el porcentaje estabelcido de siempre.
[14] X: concentración de calcio en la sangre de los mamı́feros (en mg por

cada 100 ml de l total de sangre)
H0 ) µ=6
H1 ) µ>6
α = 0, 05
X̄ = 6, 2 . Entonces z0 = 0, 6 < 1, 64 = z1−0,05 . Entonces , no rechazo H0 :

la evidencia muestral no es suficiente como para rechazar que el paciente
tenga un nivel normal de concentración de calcio en la sangre.
[15] X: número de accidentes mortales en una ciudad
H0 ) µ = 12
H1 ) µ < 12
α = 0, 05
X̄ = 9 y S = 1, 29. Entonces t0 = −5, 7 < t5 , z0,05 = −2, 015 . Entonces,

rechazo H0 : la campaña fué efectiva pues disminuyeron los accidentes de
tránsito (µ < 12).
[16] X: puntuación de los alumnos de Bioestadı́stica
H0 ) µ = 7, 5
H1 ) µ 6= 7, 5
α = 0, 05

3.6 Ejercicios 171
X̄ = 8, 25 . Entonces t0 = 5, 3 > t4 9, z0,975 aprox t6 0, z0 , 975 = 2. Entonces,

rechazo H0 : Variaron las calificaciones (µ distinto de 7)
[17] X: peso de mujeres de 20 a 30 años , en kg
H0 ) µ = 53
H1 ) µ 6= 53
α = 0, 05
n = 16
X̄ = 50 y S = 5. Entonces t0 = −2, 4 , cuyo valor absoluto es 2, 4 > t15 ,

z0,975 = 2, 231. Entonces, rechazo H0 : la dieta vegetariana modifica el peso
(pues µ no es 53, en las mujeres vegetarianas).

Bibliografı́a
[1] Hitoshi Kume, Herramientas estadı́sticas básicas para el mejoramiento de

la calidad. Ed. Norma, Bs. As. 2002.
[2] J.S. Milton, J.O. Tsokos, Estadı́stica para Biologı́a y Ciencias de la Salud.
Ed. McGraw-Hill, España 1989.
[3] Francisca Rı́us Dı́az, Francisco Javier Barón Lopez, Elisa Sánchez Font y
Luis Parras Guijosa, Bioestadı́stica: métodos y aplicaciones.
http://www.bioestadistica.uma.es/libro/

Bio Est Ad Is Tic A

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bio Est Ad Is Tic A

Uploaded by

Copyright:

Available Formats

Bioestadı́stica

Profesorado en Ciencias Biológicas

Marcela Ribas Garcı́as

Material realizado para trabajar guiado por el tutor de semipresencial.

Marcela Ribas - Federico De Olivera

El presente curso de Bioestadı́stica estará organizado alrededor de tres bloques

1. El primer bloque está dedicado a desarrollar los principales instrumentos

2. El segundo bloque hace una revisión de algunos aspectos de la teorı́a de

3. El tercer bloque presenta a la Inferencia Estadı́stica, a través de algunos de

Entendemos que se trata de un curso instrumental, el cual tiene como principal

Estimamos conveniente que se le dedique no más allá de las vacaciones de julio

I Implementación del curso 1

0.2.1. Objetivos Generales . . . . . . . . . . . . . . . . . . . . . 4

0.2.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . 5

0.3. Rol del Alumno y el Tutor . . . . . . . . . . . . . . . . . . . . . . 5

0.6. Cronograma del curso . . . . . . . . . . . . . . . . . . . . . . . . 9

0.7.1. La Estadı́stica y el Método Cientı́fico . . . . . . . . . . . . 24

0.7.2. ¿Qué entendemos por Estadı́stica? . . . . . . . . . . . . . 25

Marcela Ribas - Federico De Olivera

0.7.3. Etapas de un estudio estadı́stico . . . . . . . . . . . . . . 27

1.1. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.1.1. Variables categóricas o de atributo o cualitativas . . . . . . 32

1.1.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . 32

1.2. Análisis de las variablebles cuantitativas agrupadas en intervalos . 35

1.2.1. Tabla de la Distribución de Frecuencias . . . . . . . . . . . 35

1.3. Medidad de resumen . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.3.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . 41

1.3.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . 46

1.5. Artı́culos OMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2. La Probabilidad y las Variables Aleatorias 61

2.2. Teorı́a de las probabilidades . . . . . . . . . . . . . . . . . . . . . 62

2.3. Principales reglas de la Probabilidad . . . . . . . . . . . . . . . . 65

2.4. Variables Aleatorias (v.a) . . . . . . . . . . . . . . . . . . . . . . . 70

2.4.1. Variable aleatoria Normal . . . . . . . . . . . . . . . . . . 72

2.4.2. Tabla de la Distribución Normal Estándar . . . . . . . . . 73

Marcela Ribas - Federico De Olivera

2.4.3. Estandarización de variables aleatorias Normales . . . . . . 79

2.6. Anexo: Esperanza matemática y Varianza . . . . . . . . . . . . . 87

2.6.1. Distribución de Probabilidad de la variable aleatoria X . . 87

2.6.2. Esperanza de X: E(X) . . . . . . . . . . . . . . . . . . . 87

2.6.3. Varianza de X: V ar(X) . . . . . . . . . . . . . . . . . . . 88

2.7. Algunas variables aleatorias . . . . . . . . . . . . . . . . . . . . . 90

2.7.1. Variable aleatoria Uniforme Discreta . . . . . . . . . . . . 90

2.7.2. Variable aleatoria Bernoulli . . . . . . . . . . . . . . . . . 91

2.7.3. Variable aleatoria Binomial . . . . . . . . . . . . . . . . . 92

2.7.4. Variablea aleatorias continuas . . . . . . . . . . . . . . . . 95

2.7.5. Teorema de De Moivre – Laplace . . . . . . . . . . . . . . 97

2.7.6. Otras variables aleatorias continuas . . . . . . . . . . . . . 97

2.8. Artı́culo: Pruebas diagnósticas . . . . . . . . . . . . . . . . . . . 98

3. La Inferencia Estadı́stica 105

3.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

3.2. La Inferencia Estadı́stica Paramétrica . . . . . . . . . . . . . . . 106

3.2.1. Parámetro vs Estadı́stico . . . . . . . . . . . . . . . . . . 106

3.2.2. Distribuciones de algunos Estadı́sticos . . . . . . . . . . . 107

3.2.3. Distribución de X̄ . . . . . . . . . . . . . . . . . . . . . . 111

Marcela Ribas - Federico De Olivera

3.3. Estimación puntual e intervalos de confianza . . . . . . . . . . . 116

3.3.1. Estimación puntual e intervalos de confianza para µ cuan-

3.3.2. Intervalo de confianza para µ , cuando no conozco σ 2 . . 120

3.3.3. Intervalo de confianza para una proporción . . . . . . . . 122

3.4. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 125

3.4.1. Sı́ntesis de algunos Test Paramétricos . . . . . . . . . . . 127

3.5. La Inferencia Estadı́stica no Paramétrica . . . . . . . . . . . . . 136