You are on page 1of 181

Bioestadı́stica

Profesorado en Ciencias Biológicas

Marcela Ribas Garcı́as


Federico De Olivera Lamas

Material realizado para trabajar guiado por el tutor de semipresencial.


2

Marcela Ribas - Federico De Olivera


Organización del curso:

El presente curso de Bioestadı́stica estará organizado alrededor de tres bloques


temáticos:

1. El primer bloque está dedicado a desarrollar los principales instrumentos


metodológicos que se utilizan para describir las caracterı́sticas de la muestra
(Estadı́stica Descriptiva).

2. El segundo bloque hace una revisión de algunos aspectos de la teorı́a de


las Probabilidades. Dichos aspectos están seleccionados con el objetivo de
permitir al estudiante comprender el siguiente y último bloque, el cual con-
stituye el núcleo del curso.

3. El tercer bloque presenta a la Inferencia Estadı́stica, a través de algunos de


sus instrumentos, y tiene el objetivo de mostrar el poder que tiene la Es-
tadı́stica, como ciencia que busca crear conocimiento acerca de la realidad.

Entendemos que se trata de un curso instrumental, el cual tiene como principal


objetivo que el estudiante de Profesorado en Ciencias Biólogica se familiarice con
las herramientas estadı́sticas que habitualmente se encuentra en la bibliografı́a
de esta especialidad. Es por este motivo que de ninguna manera puede permitirse
extenderse en deması́a en los bloques temáticos 1 y 2 y ser escueto en el bloque
temático 3, pues es el bloque temático 3 el que realmente tiene los instrumentos
que ayudan al estudiante en su futura formación.

Estimamos conveniente que se le dedique no más allá de las vacaciones de julio


para los bloques temáticos 1 y 2 (primer semestre) y luego dedicar con tiempo y
comodidad al tercer y más importante bloque temático.
Índice general

I Implementación del curso 1

0.1. Fundamentación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

0.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

0.2.1. Objetivos Generales . . . . . . . . . . . . . . . . . . . . . 4

0.2.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . 5

0.3. Rol del Alumno y el Tutor . . . . . . . . . . . . . . . . . . . . . . 5

0.4. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

0.5. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

0.6. Cronograma del curso . . . . . . . . . . . . . . . . . . . . . . . . 9

II Contenido disciplinar 21

0.7. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

0.7.1. La Estadı́stica y el Método Cientı́fico . . . . . . . . . . . . 24

0.7.2. ¿Qué entendemos por Estadı́stica? . . . . . . . . . . . . . 25

Marcela Ribas - Federico De Olivera


iv ÍNDICE GENERAL

0.7.3. Etapas de un estudio estadı́stico . . . . . . . . . . . . . . 27

1. La Estadı́stica Descriptiva 31

1.1. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.1.1. Variables categóricas o de atributo o cualitativas . . . . . . 32

1.1.2. Variables Cuantitativas . . . . . . . . . . . . . . . . . . . . 32

1.2. Análisis de las variablebles cuantitativas agrupadas en intervalos . 35

1.2.1. Tabla de la Distribución de Frecuencias . . . . . . . . . . . 35

1.2.2. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.3. Medidad de resumen . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.3.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . 41

1.3.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . 46

1.4. Ejericicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

1.5. Artı́culos OMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2. La Probabilidad y las Variables Aleatorias 61

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.2. Teorı́a de las probabilidades . . . . . . . . . . . . . . . . . . . . . 62

2.3. Principales reglas de la Probabilidad . . . . . . . . . . . . . . . . 65

2.4. Variables Aleatorias (v.a) . . . . . . . . . . . . . . . . . . . . . . . 70

2.4.1. Variable aleatoria Normal . . . . . . . . . . . . . . . . . . 72

2.4.2. Tabla de la Distribución Normal Estándar . . . . . . . . . 73

Marcela Ribas - Federico De Olivera


ÍNDICE GENERAL v

2.4.3. Estandarización de variables aleatorias Normales . . . . . . 79

2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

2.6. Anexo: Esperanza matemática y Varianza . . . . . . . . . . . . . 87

2.6.1. Distribución de Probabilidad de la variable aleatoria X . . 87

2.6.2. Esperanza de X: E(X) . . . . . . . . . . . . . . . . . . . 87

2.6.3. Varianza de X: V ar(X) . . . . . . . . . . . . . . . . . . . 88

2.7. Algunas variables aleatorias . . . . . . . . . . . . . . . . . . . . . 90

2.7.1. Variable aleatoria Uniforme Discreta . . . . . . . . . . . . 90

2.7.2. Variable aleatoria Bernoulli . . . . . . . . . . . . . . . . . 91

2.7.3. Variable aleatoria Binomial . . . . . . . . . . . . . . . . . 92

2.7.4. Variablea aleatorias continuas . . . . . . . . . . . . . . . . 95

2.7.5. Teorema de De Moivre – Laplace . . . . . . . . . . . . . . 97

2.7.6. Otras variables aleatorias continuas . . . . . . . . . . . . . 97

2.8. Artı́culo: Pruebas diagnósticas . . . . . . . . . . . . . . . . . . . 98

3. La Inferencia Estadı́stica 105

3.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

3.2. La Inferencia Estadı́stica Paramétrica . . . . . . . . . . . . . . . 106

3.2.1. Parámetro vs Estadı́stico . . . . . . . . . . . . . . . . . . 106

3.2.2. Distribuciones de algunos Estadı́sticos . . . . . . . . . . . 107

3.2.3. Distribución de X̄ . . . . . . . . . . . . . . . . . . . . . . 111

Marcela Ribas - Federico De Olivera


vi ÍNDICE GENERAL

n·(X̄−µ)
3.2.4. Distribución de Z = σ
. . . . . . . . . . . . . . . . 112
√ (X̄−µ)
3.2.5. Distribución de T = n· S0.
. . . . . . . . . . . . . . . 114

3.3. Estimación puntual e intervalos de confianza . . . . . . . . . . . 116

3.3.1. Estimación puntual e intervalos de confianza para µ cuan-


do conozco σ 2 . . . . . . . . . . . . . . . . . . . . . . . . 116

3.3.2. Intervalo de confianza para µ , cuando no conozco σ 2 . . 120

3.3.3. Intervalo de confianza para una proporción . . . . . . . . 122

3.4. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 125

3.4.1. Sı́ntesis de algunos Test Paramétricos . . . . . . . . . . . 127

3.5. La Inferencia Estadı́stica no Paramétrica . . . . . . . . . . . . . 136

3.5.1. Test de independencia de dos variables: . . . . . . . . . . . 136

3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Marcela Ribas - Federico De Olivera


Parte I

Implementación del curso

Marcela Ribas - Federico De Olivera


0.1 Fundamentación 3

0.1. Fundamentación

La formación de un futuro Profesor en Ciencias biológicas debe indudablemente


proveerlo de herramientas que permitan su inserción inmediata en la sociedad
para el ejercicio de su profesión.

No obstante, los objetivos de su carrera de grado no deben limitarse a esto, sino


que debe incluir aspectos que favorezcan una formación autónoma más allá de la
carrera de grado, de manera de posibilitar la actualización y formación continua.

Las Ciencias biológicas, con su carácter experimental, requieren formas rigurosas


de procesar datos y sacar conclusiones para la generación de conocimientos, y de
esta manera posibilitar su avance.

El futuro Profesor en Ciencias biológicas debe conocer el origen de los contenidos


temáticos que enseña, para lo que es imprescindible estar familiarizado con la
generación de conocimiento, la metodologı́a cientı́fica y la Bioestadı́stica.

Por otra parte, la Biologı́a tiene caracterı́sticas particulares dentro de las Ciencias
experimentales, a partir de que su objeto de estudio está constituido por los seres
vivos. La variabilidad biológica y la diversidad son algunas de ellas. Esto trae
aparejado el carácter impredecible de los procesos que esta ciencia estudia, los
que están regidos por la aleatoriedad.

La incorporación temprana de las relaciones entre la aleatoriedad y la ocurrencia


de eventos biológicos, predispone favorablemente al estudiante de Profesorado en
Ciencias biológicas a la comprensión rigurosa de los procesos a estudiar, y con-
tribuye a minimizar el planteo de determinismos erróneos, ası́ como a establecer
ligeramente relaciones de causalidad. De esta manera, desde ideas relativamente
simples y concretas como “afinidad bioquı́mica”, hasta conocimientos generales
y complejos como “teorı́as del origen de la vida”, podrán ser interpretados en

Marcela Ribas - Federico De Olivera


4

términos de probabilidad desde el inicio de la carrera.

Por otra parte, tanto durante su carrera de grado como en la formación continua
más allá de esta etapa, es deseable que el Profesor en Ciencias biológicas tenga
como hábito la consulta de artı́culos cientı́ficos que permitan su actualización.
Nociones básicas de muestreo y pruebas estadı́sticas, permitirán al futuro profesor
seleccionar en base a criterios de confiabilidad, su fuente de información.

0.2. Objetivos

0.2.1. Objetivos Generales

Lograr una visión integradora de la realidad que trascienda el pensar sólo


asociado a su campo de formación especı́fica.

Contribuir con el desarrollo de una actitud autónoma y crı́tica en la con-


strucción del propio proceso de aprendizaje.

Construir herramientas conceptuales y metodológicas que permitan sosten-


er la actualización y profundización en el conocimiento, como base para la
formación permanente.

Contextualizar los conocimientos disciplinares en distintos marcos de refer-


encia.

Comprender la necesidad de la rigurosidad, en particular en la toma de


datos, y la necesidad de fijación de criterios claros y precisos para su ob-
tención.

Desarrollar competencias en el uso de herramientas estadı́sticas para el


análisis e interpretación de datos biológicos.

Marcela Ribas - Federico De Olivera


0.3 Rol del Alumno y el Tutor 5

0.2.2. Objetivos Especı́ficos

Relacionar la aleatoriedad con la ocurrencia de eventos biológicos.

Comprender la utilidad en la utilización de distribuciones de probabilidad


para el estudio cientı́fico de procesos biológicos.

Adquirir conocimientos básicos de muestreo y tipos de pruebas estadı́sticas,


que permitan valorar artı́culos cientı́ficos y determinar su confiabilidad.

Adquirir herramientas básicas que permitan realizar tomas de datos, agru-


parlos para su presentación mediante la tabulación, gráficos, y cálculo de
medidas de resumen.

Comprender el carácter indispensable de la utilización de la Estadı́stica in-


ferencial para establecer relaciones entre las variables biológicas estudiadas
y realización de valoraciones.

Comprender las limitaciones de la Estadı́stica Inferencial en la determi-


nación de relaciones de causalidad en las Ciencias biológicas.

0.3. Rol del Alumno y el Tutor

El estudiante de profesorado que realiza un curso semipresencial de Bioestadı́stica,


al ser ésta una asignatura que, en algunos puntos de su programa, presenta un
nivel abstracto, debe desarrollar ciertas capacidades o cualidades que le permitan
el satisfactorio seguimiento del curso tales como:

La capacidad de concentración adecuada para comprender los nuevos con-


ceptos, muchos de ellos con nombres y notaciones un poco alejados de la
realidad cotidiana del estudiante.

Marcela Ribas - Federico De Olivera


6

La responsabilidad como para hacer un seguimiento del cuso acorde a las


exigencias del ritmo que plantea el tutor, pues es una asignatura que ar-
rastra conceptos, en el sentido que si no se comprendió adecuadamente lo
dado en una clase anterior, se acumularán dificultades para la comprensión
de la clase siguiente.

La capacidad de autoconocimiento que lo ayude a darse cuenta cuando debe


conceder más estudio a un tema que no comprendió bien, y cuando debe
recurrir en busca de apoyo del tutor, pues lo que le hace falta es una visión
más integradora del tema, que lo ayude a superar la dificultad presente.

El estudiante debe saber manejar muy bien sus tiempos, a fin de conceder
en cada semana las horas de estudio adecuadas como para mantener la
correcta continuidad del curso.

El docente tiene el rol de orientador en la construcción de conocimiento bioes-


tadı́stico. Ya aludimos al nivel de abstracción que este requiere, y por eso es de
fundamental importancia la trasposición didáctica que realice el tutor, con la fi-
nalidad de contextualizar los conocimientos disciplinares, en distintos marcos de
referencia, a fin de que los estudiantes aprehendan las nociones de esta ciencia
bioestadı́stica, que es instrumental en su carrera.

Con este espı́ritu, se considera importante que el profesor tutor, además de


cumplir con el papel de guı́a al que su nombre alude, incorpore, en la medida
que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de activi-
dades tales como:

resolución de problemas

discusión de artı́culos de divulgación cientı́fica vinculados a problemas bi-


ológicos.

Marcela Ribas - Federico De Olivera


0.4 Metodologı́a 7

0.4. Metodologı́a

Acorde a un curso de nivel terciario, se deberá tener presente que el proceso de


enseñanza y aprendizaje estará centrado en el propio estudiante.

De esta manera, se sugiere la promoción de instancias de trabajo colaborativo y


autónomo, que contribuyan a lograr un perfil de egreso acorde a las dimensiones
personal e institucional previstas en el Plan 2008.

El docente tiene el rol de orientador en la construcción de conocimiento. En


este sentido, la guı́a contiene apuntes completos sobre algunos temas; y en otros,
plantea la lectura directa de ciertos capı́tulos del libro indicado como el principal
dentro de la bibliografı́a. Además, la guı́a indica ejercicios a ser resueltos por el
estudiante, los cuales cuentan con solución dentro del libro de texto antedicho.

No obstante, se considera importante que el profesor tutor incorpore, en la me-


dida que los tiempos y el apoyo de los estudiantes lo permitan, otros tipos de
actividades tales como:

resolución de problemas;

discusión de artı́culos de divulgación cientı́fica vinculados a problemas bi-


ológicos, haciendo énfasis en los aspectos de muestreo, presentación de datos
y pruebas estadı́sticas utilizadas;

0.5. Evaluación

Acorde a lo estipulado en el Plan se realizarán dos pruebas parciales escritas, en


forma individual.

Se realizará también una evaluación continua basada en la corrección de los ejerci-

Marcela Ribas - Federico De Olivera


8

cios que el estudiante enviará regularmente al docente, ası́ como en la discusión de


trabajos y artı́culos de divulgación propuestos en el cronograma y otros sugeridos
por el tutor.

Marcela Ribas - Federico De Olivera


0.6 Cronograma del curso 9

0.6. Cronograma del curso

El plan de estudios del Sistema Único Nacional de Formación Docente 2008, item
X, capı́tulo III: de los cursos, en su Art. 25 indica que la duración de los cursos
será de treinta semanas.

Partiendo de allı́ es que este cronograma incluye la antedicha cantidad de sem-


anas; sin embargo incluye dentro de éstas semanas compensatorias, en las cuales
da lugar a que el docente cubra en ellas temas no desarrollados adecuadamente
en semanas anteriores. El objetivo es cubrir las eventualidades de atraso por dis-
tintos motivos que lo ameriten, ya sea por la imposibilidad de atención del tutor
en alguna semana, porque la exigencia de los estudiantes requiera poner mayor
énfasis en algún tema en particular, o porque el tutor ası́ lo decida.

Todo ello está dirigido a poner los esfuerzos para que todos los temas sean trata-
dos, especialmente los últimos que son aquellos que le dan el cierre al curso y
permiten que los estudiantes observen la real dimensión que tiene la estadı́stica
en el contexto de la disciplina Biológica.

Los ejercicios planteados permiten la autoevaluación del estudiante dado que se


plantea su solución. No obstante se cuenta con otros ejercicios sin solución que
serán utilizados por el tutor para la evaluación continua del estudiante, éstos son
los marcados para entrega obligatoria.

Semana 1

Presentación del curso e introducción a la Bioestadı́stica (sección 0.7):


En esta primera semana, se presenta a la Estadı́stica como una herramienta para
la investigación experimental, para el control de calidad y en general, para el
manejo de información.

Marcela Ribas - Federico De Olivera


10

Estadı́stica Descriptiva, variables estadı́sticas, clasificación en categorı́as (sección


1.1):
Se pretende que el estudiante identifique los distintos tipos de variables estadı́sti-
cas, ası́ como que comprenda la agrupación de los valores que asumen éstas, en
distintas categorı́as.

Ejercicios: realizar el ejercicio 1 y el item 1, del ejercicio 2.

Semana 2

Tabla de frecuencias y gráficos (sección 1.2):


En el contexto de la investigación biológica, el objetivo es ubicar la necesidad
de representar la información obtenida, en forma sencilla y gráfica, utilizando
para esto una serie de herramientas de la Esdı́stica Descriptiva. Dentro de la
sección 1.2, llamado Análisis de las variables cuantitativas agrupadas en intervalos
, correspondiente al bloque 1, se muestra cómo presentar los datos estadı́sticos, a
través de dos instrumentos como son las tablas de frecuencias y distintos gráficos.

Ejercicios: ejercicio 2, items 2, 3, 4 y 5.

Otros instrumentos descriptivos:


A partir de fragmentos de un artı́culo de la OMS (Anexo 1.5), observar la variedad
de presentaciones que pueden tener los datos estadı́sticos.

Semana 3

Medidas de posición (sección 1.3.1):


Continuando con la sección 1.2 del bloque 1, se presentan distintas medidas de
resumen de datos estadı́sticos, las primeras de las cuales son las medidas de posi-
ción. Se pretende que el estudiante las sepa calcular e interpretar adecuadamente.

Marcela Ribas - Federico De Olivera


0.6 Cronograma del curso 11

Ejercicios: ejercicio 2, items 6, y 7.

Semana 4

Foro: E lección de la medida de centralización más adecuada a cada situación:

Se pretende que se entable una discusión acerca de las limitaciones de la media


y la importancia de la mediana, como medida robusta de tendencia central. Los
estudiantes deberán plantear ejemplos, en donde se deba decidir cuál medida de
centralización es más acertada en cada caso.

Semana 5

Medidas de dispersión (sección 1.3.2):


Las medidas de posición siempre deben estar acompañadas de una medida de
dispersión. En esta semana se busca que el estudiante comprenda ésto, a través
del cálculo e interpretación de dichas medidas.

Semana 6

Foro: i mportancia de la variabilidad relativa:

Se busca que los estudiantes discutan acerca de las limitaciones del desvı́o stan-
dard y la importancia del coeficiente de variación, como medidas de resumen de
la variabilidad de los datos, a través de ejemplos.

Marcela Ribas - Federico De Olivera


12

Semana 7

Ejercicios: Aplicación de los conceptos recién aprendidos, a través de la real-


ización de los ejercicios 4 y 5.

Semana 8

Entrega de ejercicios:
El estudiante debe entregar al tutor, el ejercicio 3 resuelto.

Probabilidad (secciones 2.2 y 2.3):


Introducción a los conceptos básicos de la probabilidad y sus principales
propiedades.

Ejercicios: ejercicios 1, 2 y 3.

Semana 9

Foro: T eorema de Bayes. Aplicación: falso positivo y falso negativo.


Por considerar al Teorema de Bayes de particular importancia, se recomienda su
lectura, ya sea en el la enciclopedia virtual wikipedia o en el libro Estadı́stica para
Biologı́a y Ciencias de la Salud de Milton-Tsokos (páginas 97 a 100), incluı́do en
la bibiografı́a.
Lectura y discusión del artı́culo titulado pruebas diagnósticas (Anexo 2.8), en el
cual se presenta la definición de sensibilidad y especificidad de un tratamiento,
en cual involucra conceptos referentes a la idea de falso positivo y falso negativo.

Ejercicios: ejercicios 5, 6, 7, 8, 9 y 10.

Marcela Ribas - Federico De Olivera


0.6 Cronograma del curso 13

Semana 10

Variables aleatorias. Variable aleatoria Normal (sección 2.4).

Se introduce la idea de variable aleatoria genérica y en seguida se presenta la


variable aleatoria Normal, la cual será de vital importancia en este curso, pues se
asume que la mayor parte de las variables biológicas que son continuas, pueden
modelarse con esta distribución Normal.

Ejercicios: ejercicios 13 y 14.

Semana 11

Foro: V ariables biológicas que se distribuyen Normal:


Se pretende que los estudiantes discutan, a partir de su investigación en la web
o en bibliografı́a, el acierto en la aplicación del modelo de distribución Normal
a la mayorı́a de las variables biológicas que son continuas. En especial observar lo
que sucede cuando el recorrido de la variable no incluye todos los valores reales,
lo que implicarı́a aplicar un modelo de distribución Normal truncada.

Semana 12

Variable aleatroria Bernoulli y Binomial:


Se pretende que el estudiante comprenda la definición de la distribución Binomial
(subsecciones 2.7.2 y 2.7.2 o busqueda en la web), a partir de la definición de even-
tos Bernoulli, y vea su importancia en relación a la gran cantidad de fenómenos
o experimentos biológicos de tipo dicotómico, con los que, al repetirse n veces en
determinadas condiciones ese experimento, se construye la distribución Binomial.

Marcela Ribas - Federico De Olivera


14

Semana 13

Esta semana se utilizará para redondear los puntos que no se hayan analizado
convenienteme y se dará apoyo en los ejercicios obligatorios a entregar: 5, 10, 12
y 16.

Semana 14

Entrega de ejercicios y posterior discución: ejercicio 5, 10, 12 y 16.

Actividad de investigación:
Se considera de gran relevancia que el estudiante tenga la experiencia de recolectar
datos en relación a un problema biológico de su interés, como forma útil de
comprender adecuadamente la importancia de cada herramienta aprendida. El
estudiante en esta semana, recabará, presentará y resumirá información de las
variables elegidas, aplicando los conocimientos y destrezas adquiridas. Para este
trabajo el estudiante destinará horas extras en esta semana y será apoyado por
el tutor.

Semana 15

Esta semana será dedicada a contestar preguntas de los estudiantes, referidas a


los dos primeros bloques del curso, todo esto dirigido a apoyar al estudiante en
su preparación del primer parcial de la asignatura, a realizarse en la próxima
semana.

Semana 16

Primer parcial con temas correspondientes a los bloques temáticos 1 y 2. En este


parcial se pretende la aplicación de los conceptos teóricos a partir de la realización

Marcela Ribas - Federico De Olivera


0.6 Cronograma del curso 15

de ejercicios prácticos, en los cuales se permite el uso de material.

Semana 17

Introducción a la Inferencia Estadı́stica (sección 3.2, subsecciones 3.2.1, 3.2.3 y


3.2.4):
Se busca que el estudiante comprenda muy bien la relación que existe entre la
población y la muestra, ası́ como la que existe entre parámetro y estadı́stico
(estimador).

En esta semana también se pretende que el estudiante dé una leı́da a los teoremas
que involucran la distribución de la media muestral ( teoremas 1, 2, 3 y 4 de las
subsección 3.2.3 y 3.2.4 ), extrayendo su utilidad (comprender que X̄ es una
variable aleatoria y conocer su distribución en diversas situaciones), más allá de
los detalles de su demostración, que no son de particular importancia en este
curso introductorio de la inferencia estadı́stica.

Semana 18

Distribución del estadı́stico T (subsección 3.2.5):


En esta semana se define un estimador de la varianza poblacional, la cuasivar-
ianza, y se presenta un nuevo estadı́stico denominado T, el cual involucra el
estimador anterior y tiene una distribución de probabilidades denominada dis-
tribución t con n-1 grados de libertad (teorema 4).

Aquı́ se pretende que el estudiante se familiarice con esta nueva variable t, en


particular, con la lectura de la tabla que contiene sus probabilidades para algunos
grados de libertad, a través de unos sencillos cálculos.

Para que el estudiante se failiarice con algunos cálculos realizar el siguiente ejer-
cicio:

Marcela Ribas - Federico De Olivera


16

Ejercicios: ejercicios 1.

Semana 19

Estimación puntual e intervalo de confianza para µ con σ conocida (subsección


3.3.1):
Comienza en esta semana lo que será de real importancia para comprender la
investigación bioestadı́stica, en cuanto a que se comprenderá los mecanismos a
partir de los cuales esta ciencia busca crear conocimiento acerca de la realidad,
ası́ como las limitaciones intrı́nsecas de tales mecanismos.

Se introduce la estimación puntual y por intervalo de confianza, a través de un


ejemplo (estimación de µ, cuando se conoce la varianza poblacional) y se contruye
paso a paso dicho intervalo. Este proceso, aunque un poco engorroso, es necesario
para que el estudiante, frente a la lectura de un intervalo cualquiera, comprenda
su significado, a partir de que conoce los detalles de la construcción de un intervalo
en particular .

Semana 20

Estimación puntual e intervalo de confianza para µ con σ desconocida (subsección


3.3.2):
Sin entrar en los detalles de la construcción del intervalo de confianza mencionado
(es similar al intervalo de la semana anterior) se busca que el estudiante com-
prenda su aplicación, a través de la realización de los ejercicios 4, 5, 6, 7 y 8.

Ejercicios: ejercicios 4, 5, 6, 7 y 8.

Marcela Ribas - Federico De Olivera


0.6 Cronograma del curso 17

Semana 21

Estimación puntual e intervalo de confianza para p (subsección 3.3.3) De igual


forma que con el intervalo anterior, no se pretende ahondar en los detalles de
construcción del presente intervalo, sino que se busca que el estudiante comprenda
su aplicación a través de la realización de los ejercicios 2, 3 y 9.

Ejercicios: ejercicios 2, 3 y 9.

Semana 22

Prueba de Hipótesis (sección 3.4):


En esta semana se definirán los conceptos generales involucrados en las pruebas
o test de hipótesis: la hipótesis nula y la alternativa, los tipos de error que se
generan al tomar la decisión de rechazar o no la hipótesis nula y sus respectivas
probabilidades, la definición de la región crı́tica.

Semana 23

Foro: S obre la elección de las hipótesis nula y alternativa:

Este foro está pensado para que los estudiantes discutan entre ellos y con el tutor,
como pueden llegar a variar ciertas conclusiones a partir de un test de hipótesis,
si se alteran por ejemplo la probabilidad máxima tolerada para el error de tipo
1, o si se intercambian las hipótesis.

Marcela Ribas - Federico De Olivera


18

Semana 24

Prueba de hipótesis para µ con σ conocido, contraste bilateral (subsección 3.4.1):

A través de la confección de esta prueba de hipótesis en particular, se le presenta


al estudiante cuáles son las etapas que se deben atravesar para obtener cualquier
prueba de hipótesis, en particular aquéllas que involucran parámetros.

Semana 25

Otras pruebas de hipótesis :


De acuerdo a lo presentado en la subsección 3.4.1, se presentan los ejemplos
2 y 3 otras dos prueba de hipótesis: una prueba para para µ con σ conocido,
con contraste unilateral y una prueba para µ con σ desconocido, con contraste
bilateral.

Ejercicios: ejercicios 14, 15 y 16.

Semana 26

En esta semana se pone a prueba la comprensión del estudiante de este importante


punto del curso, a través de la realización y entrega de algunos ejercicios para su
evaluación: 10, 11, 12, 13, 18, 19 y 20.

Entrega de ejercicios y posterior discución:10, 11, 12, 13, 18, 19 y 20.

Semana 27

Inferencia no paramétrica (subsección 3.5):


Tomando como base lo explicado para las pruebas de hipótesis paramétricas, se

Marcela Ribas - Federico De Olivera


0.6 Cronograma del curso 19

presenta un caso la inferencia no paramétrica como son las pruebas de hipótesis


de independencia, muy usadas cuando se intenta saber si dos caracterı́sticas de
interés poblacionales (en particular, caracterı́sticas o variables cualitativas) están
o no relacionadas.

Ejercicios: ejercicios 21, 22 y 23.

Semana 28

Esta semana se utilizará para redondear los puntos del bloque tres, que no se
hayan analizado convenientemente en las semanas anteriores.

Semana 29

Segundo parcial con temas correspondientes al bloques temáticos 3. Al igual que el


parcial anterior, en este parcial se pretende la aplicación de los conceptos teóricos
a partir de la realización de ejercicios prácticos, en los cuales se permite el uso
de material.

Semana 30

Esta última semana se destinará a aprender las nociones generales de los últimos
puntos del programa: el análisis de la Correlación Lineal y el análisis de Regresión
lineal. Dichos temas se encuentran en el libro [2], capı́tulo 11.

Marcela Ribas - Federico De Olivera


Parte II

Contenido disciplinar

Marcela Ribas - Federico De Olivera


Introducción

0.7. Introducción

La forma de pensar llamada “estadı́stica” se ha vuelto importante para todos


los profesionales: no sólo para aquéllos que están dedicados a la ciencia o a los
negocios, sino también le preocupa a personas que quieren ayudar a hacer del
mundo, un mejor lugar.

Pero, ¿qué es Bioestadı́stica? y ¿qué puede ésta hacer?.

Hay definiciones y percepciones populares de los que significan “las estadı́sticas”.


Vemos “estadı́sticas de vida” en el diario: nacimientos, defunciones, matrimonios,
divorcios, etc. El uso público de la palabra “estadı́sticas” es ampliamente variado
y la mayor parte de las veces indica una lista de números o datos.

En este curso no enfatizaremos las estadı́sticas como “cosas” sino que pensaremos
en el concepto de “hacer estadı́stica” en el sentido de pensar acerca de números
(recolectados, analizados y presentados) y su interpretación. Las fórmulas son
sólo una parte de esa forma de pensar, simples herramientas que son necesarias,
pero que no son las únicas cosas que debemos conocer.

Marcela Ribas - Federico De Olivera


24

0.7.1. La Estadı́stica y el Método Cientı́fico

¿Alguna vez te has preguntado cómo se llega a la verdad acerca de los fenómenos
que interesan al ser humano? ¿Cómo se sabe que el cigarrillo causa cáncer o cómo
se sabe que la vitamina C ayuda a prevenir el resfrı́o?.

El ser humano, desde el comienzo de los tiempos ha aceptado varias fuentes de


conocimiento:

La autoridad: algo era cierto sólo porque una cierta autoridad, llámese rey,
iglesia o autoridad cientı́fica, lo afirmaba. Esta fuente de conocimiento se
basa en la fé de las personas o en la incapacidad de verificar, por sı́ mismas
la veracidad del conocimiento que aceptan como válido.

La razón: el racionalismo es un método que utiliza exclusivamente el ra-


zonamiento para llegar al conocimiento. Supone que si las premisas son
válidas y el razonamiento se realiza de manera correcta, de acuerdo con
las reglas de la lógica, entonces las conclusiones llegarán a la verdad. Sin
embargo , existe un gran número de situaciones en que el solo razonamiento
es inadecuado para determinar la verdad. Es el caso, por ejemplo, del caso
en que existen dos explicaciones lógicas razonables para un fenómeno; y por
sı́ sola la razón resulta inadecuada para distinguir entre ellas.

La intuición: a través de ella, muchos cientı́ficos han comenzado a dar


forma a sus teorı́as, o han resuelto intrincados problemas que se negaban a
ser resueltos a través de la razón. Sin embargo, a pesar de que la intuición
ha sido utilizada como fuente de conocimiento durante toda la existencia
de la humanidad, sigue siendo un proceso misterioso acerca del cual sólo
tenemos una comprensión muy rudimentaria.

El método cientı́fico: aunque este método utiliza el razonamiento y la

Marcela Ribas - Federico De Olivera


0.7 Introducción 25

intuición para llegar a la verdad, se fundamenta en una evaluación objeti-


va, que es lo que lo distingue de los otros métodos. El método cientı́fico es
bastante directo: por algún medio, generalmente un razonamiento deducti-
vo a partir de la teorı́a existente o una inducción a partir de hechos reales
o a través de la intuición, el cientı́fico llega a una hipótesis sobre cierta par-
ticularidad de la realidad. Entonces el investigador diseña un experimento
para verificar de manera objetiva dicha hipótesis. Los datos, resultado del
experimento, posteriormente se analizan en forma estadı́stica y la hipótesis
se acepta o se rechaza.

La caracterı́stica más importante de esta metodologı́a es que no importa lo que el


cientı́fico crea que es verdadero con respecto a la hipótesis en cuestión, pues el ex-
perimento proporciona una base para una evaluación objetiva de dicha hipótesis.

Aquı́ es donde la Estadı́stica cobra un papel relevante: uno de sus principales


objetivos es evaluar, en forma cientı́fica, las afirmaciones o hipótesis planteadas
por el investigador.

0.7.2. ¿Qué entendemos por Estadı́stica?

Como disciplina, se la define como la ciencia que estudia ciertos conjuntos de datos
cuantitativos o cualitativos y los interpreta en términos matemáticos, estable-
ciendo métodos para la obtención ciertas medidas que los describen (Estadı́stica
Descriptiva). Ası́ como también los analiza y extrae conclusiones generales o leyes
a partir de dichos datos particulares (Inferencia Estadı́stica o Estadı́stica Induc-
tiva); para esto último se vale de la teorı́a de las probabilidades, considerada
también como ciencia de base matemática. Uno de los objetivos de un trabajo
estadı́stico puede ser la toma de decisiones en presencia de la incertidumbre.

Cuando se aplican los métodos y herramientas de la ciencia Estadı́stica a la

Marcela Ribas - Federico De Olivera


26

Biologı́a, nace la Bioestadı́stica.

Por ejemplo, ciertas investigaciones manejan la hipótesis de que está aumentando


la cantidad de adolescentes con altos niveles de azúcar en sangre, los cuales corren
el riesgo de desarrollar diabetes, en algún momento de su vida. Para comprobar
la veracidad de dicha hipótesis se recogen muestras de sangre en ayunas de un
grupo de 500 adolescentes de una determinada ciudad. Se les mide el nivel de
glucemia (miligramos de glucosa por decilitro de sangre) a todos ellos y ası́ se
cuenta con 500 datos a ser ordenados y analizados por la Estadı́stica Descriptiva,
a partir de las herramientas con que ésta cuenta, las cuales veremos en detalle
más adelante.

Si queremos extraer conclusiones generales, como por ejemplo saber cuál es el


nivel promedio de glucemia entre todos los adolescentes de la cuidad, podemos
hacerlo a partir del promedio obtenido entre los 500 adolescentes estudiados, pero
debemos indicar, por ejemplo, un margen de error que nos permita generalizar
dicho dato particular. Aquı́ utilizaremos las herramientas de la Estadı́stica In-
ductiva y trataremos de conocer, por ejemplo, cuál es la probabilidad de que un
adolescente de dicha ciudad tenga un nivel de glucosa mayor a 126 mg/dl de
sangre lo que lo llevarı́a a tener diabetes.

Por último, a partir de las conclusiones obtenidas de este trabajo de investigación,


si resulta que efectivamente hay altos niveles de glucemia entre los adolescentes,
las autoridades de la ciudad pueden tomar medidas de polı́tica tendientes a re-
vertir dicha situación en el futuro, por ejemplo, fomentar los hábitos saludables
de alimentación en la escuela, prohibiendo la venta de golosinas dentro de los
establecimientos escolares.

Marcela Ribas - Federico De Olivera


0.7 Introducción 27

0.7.3. Etapas de un estudio estadı́stico

1. Planteamineto del Problema:

a) Definir el objetivo de la investigación.

Por ejemplo: diversas Organizaciones internacionales han dirigido su


atención sobre un reciente fenómeno: se observa una disminución de
los umbrales de percepción auditiva en niños, adolescentes y jóvenes,
provocada por exposición a altos niveles sonoros.
En particular, en Argentina es cada vez mayor el porcentaje de jóvenes
aspirantes al ingreso laboral que son rechazados por problemas de au-
dición. El objetivo de una investigación al respecto, puede ser, entre
otros, determinar, comprender y evaluar el conjunto de los diversos
factores que pueden contribuir al desarrollo de las hipoacusias tem-
pranas en adolescentes en dicho paı́s, con el fin de realizar acciones
tendientes a la prevención de esta problemática social.

b) Definir la población o universo: es el conjunto completo de individ-


uos, objetos o datos que el investigador está interesado en estudiar. En
el caso del ejemplo anterior, serı́an todos los adolescentes argentinos.

c) Definir el tipo de información que se desea extraer de los elementos


de la población: podrı́an ser un conjunto de preguntas, observaciones
o mediciones dirigidas hacia dichos elementos. A partir de la infor-
mación anterior, se construirán variables: son cualquier propiedad o
caracterı́stica de los elementos de la población, que puede ser de interés
para el investigador en el sentido de contribuir a lograr el objetivo de
su estudio.
En nuestro ejemplo, podemos considerar ciertas preguntas, mediciones

Marcela Ribas - Federico De Olivera


28

u observaciones, a realizar a los adolescentes, que tengan relación con


su problemática auditiva. Por ejemplo, estas pueden involucrar aspec-
tos tanto auditivos, como acústicos o psicosociales:

1) Se les puede chequear la capacidad de audición, medida en canti-


dad de decibeles mı́nimos que pueden percibir.

2) Preguntar cuántas veces al mes concurren a locales con música


por encima de 100 decibeles.

3) Preguntar si viven cerca de algún aeropuesto, fábrica u otro edifi-


cio que provoque contaminación sonora.

4) Preguntar cuántos minutos al dı́a escuchan música con auriculares.

De lo anterior surgen las siguientes variables:

Variable 1: Capacidad de audición, en decibeles mı́nimos percibidos.

Variable 2: Cantidad de veces al mes que concurren a locales con música por
encima de 100 decibeles.

Variable 3: Se la define como 1: si el estudiante vive cerca de algún edificio


que provoque contaminación sonora; y 0: en caso contrario.

Variable 4: Tiempo, medido en minutos al dı́a, en que el estudiante escucha


música con auriculares.

2. Recogida de la Información Muestral

Por lo general, no se puede disponer del valor de todas las variables para
todos los elementos de la población, por ejemplo por razones económicas.
Entonces se seleccionan algunos de sus elementos: a este subconjunto de la
población se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a
cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y
en el cuestionario que ésta incluye, se plantean las tres preguntas anteriores,
además de realizarles un chequeo auditivo.

Marcela Ribas - Federico De Olivera


0.7 Introducción 29

3. Análisis Descriptivo de los Datos Obtenidos: Estadı́stica


Descriptiva:

Consiste en procedimientos estadı́sticos que sirven para organizar y re-


sumir, de diversas formas de acuerdo a nuestro interés, un conjunto de
datos obtenidos de la realidad. Los conjuntos de datos no organizados re-
sultan de poco valor. Sin embargo se dispone de técnicas estadı́sticas para
organizar este tipo de datos en forma significativa: tablas de frecuencias,
gráfico de barras, histograma, medidas de resumen, entre otros.

Aquı́ se toman los 1000 formularios que resultaron de la encuesta anterior y


con la ayuda de las herramientas de la Estadı́stica Descriptiva se organizan
y analizan todos los datos que éstos contienen. Y se sacan conclusiones
particulares, en relación a esa parte de la población que fue estudiada. Por
ejemplo, se podrá conocer cuántos minutos por dı́a, en promedio, estos 1000
adolescentes, escuchan música con auriculares. Y también se podrá saber
cuál es el porcentaje, entre ellos, que concurren más de una vez por semana
a locales con música a un volúmen por encima de 100 decibeles, lo cual es
nocivo para su salud auditiva.

4. Inferencia Estadı́stica

Una vez organizados, analizados y resumidos los datos de la muestra, pode-


mos tratar de ver más allá de lo que esta muestra nos presenta: podemos
buscar conocer caracterı́sticas generales de la población, a partir de las
caracterı́sticas particulares que nos presenta la muestra. Con este fin exis-
ten distinstas técnicas estadı́sticas como son la estimación o la prueba de
hipótesis.

Este tipo de razonamiento que va de lo particular a lo general es del tipo

Marcela Ribas - Federico De Olivera


30

inductivo, y de allı́ que a la Inferencia Estadı́stica se la conozca también


con el nombre de Estadı́stica Inductiva. Ésta utiliza la Teorı́a de las Prob-
abilidades, que es una rama de la Matemática.

Sabiendo cuántos minutos por dı́a, en promedio, estos 1000 adolescentes,


escuchan música con auriculares (dato aportado por la Estadı́stica Descrip-
tiva), se puede “estimar”, con cierto margen de error prefijado por el in-
vestigador, cuál es dicho promedio pero entre todos los adolescentes
argentinos.

De esta forma nos aproximamos a obtener conocimiento acerca de un aspec-


to de la realidad social de Argentina, información que puede ser de interés
no sólo para dicho paı́s, sino que puede incentivar estudios internacionales
similares y de esta forma vamos construyendo, con la ayuda de la Estadı́sti-
ca, el conocimiento de la realidad global.

Marcela Ribas - Federico De Olivera


Bloque temático 1

La Estadı́stica Descriptiva

Objetivo:

El objetivo de este bloque temático es presentar a la Estadı́stica Descriptiva, rama


de la Estadı́stica que provee procedimientos útiles para organizar y resumir, de
diversas formas de acuerdo a nuestro interés, un conjunto de datos obtenidos de
la realidad.

1.1. Conceptos generales

Recorrido y tipos de Variables:

Es el conjunto de todos los valores que, en teorı́a, puede tomar la variable. De


acuerdo a su recorrido, existen diferentes tipos de variables. Se clasifican
en dos grandes grupos:

1. las variables categóricas o cualitativas o de atributos,

2. y las variables medibles o cuantitativas.

Marcela Ribas - Federico De Olivera


32 1. La Estadı́stica Descriptiva

1.1.1. Variables categóricas o de atributo o cualitativas

Son aquéllas que no son cuantificables, es decir que para su recolección no in-
tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos
categorı́a, puede ser asociado con un número, con la única finalidad de simpli-
ficar el procesamiento de los datos.

Por ejemplo, son variables cualitativas (entre paréntesis está un posible recorrido):

1. el color de ojos(1.negros, 2.castaños, 3.grises, 4.celestes, 5.verdes, 6.otro )

2. sexo de nacimiento: (1.mujer, 2.hombre).

3. el rendimiento académico (1.bajo, 2.promedio, 3.sobre).

4. el estado nutricional (1.bueno, 2.regular, 3.malo).

Los dos primeros ejemplos son de variables cualitativas nominales, que son
aquéllas en las cuales las asignaciones de los números no suponen ningún orden
entre ellas. En otras palabras: cualquier asignación es válida.

Los otros dos ejemplos son de variables cualitativas ordinales, llamadas


ası́ pues existe un orden particular preestablecido entre los diferentes valores
que puede tomar una variable.

Mientras que entre los valores de las variables nominales sólo podemos comparar
si son iguales o distintos, entre los de las variables ordinales podemos establecer
la relación ”mayor que.o “menor que”.

1.1.2. Variables Cuantitativas

Son variables que resultan de contar o medir ciertas caracterı́sticas de los ele-
mentos de la muestra. Se expresan numéricamente, y dichos valores se usarán

Marcela Ribas - Federico De Olivera


1.1 Conceptos generales 33

algebraicamente a fin de realizar cálculos, a diferencia de los números asignados


a las variables cualitativas.

Ejemplos de dichas variables:

1. Cantidad de hijos, que tiene una mujer mayor de 40 años.

2. Cantidad de cigarrillos fumados por dı́a, por los estudiantes de Biologı́a.

3. La estatura de un jugador de basquetball.

4. El tiempo de recuperación de los pacientes operados de apendicitis.

Dentro de este grupo de variables, se distingue entre variables discretas o con-


tinuas. Los dos primeros ejemplos son de variables cuantitativa discretas, lla-
madas ası́ pues entre dos valores de la variable no siempre existe otro: por ejemplo
una mujer puede tener 1 o 2 hijos, pero no 1 hijo y medio. Los otros dos ejemplos
son de variables cuantitativas continuas pues dados dos valores de la variable
siempre puede existir (aunque sea en teorı́a) otro valor: entre una altura de 2
m y otra de 2 m 1 cm, podemos encontrar un jugador que mida 2 metros 1/2
cm, y podemos seguir subdividiendo los intervalos y siempre, en teorı́a, podremos
encontrar un jugador que tenga una altura en dicho intervalo, apesar de que nue-
stros instrumentos de medicion, llegará un momento, que no tendrán la presición
adecuada como para notar diferencias.

Categorı́as:

Son los distintos grupos, entre los cuales podemos clasificar los distintos valores
que toma una variable. Surgen de partir su recorrido. Muchas veces las categorı́as
pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el
caso de las variables continuas, cuyo recorrido está formado por infinitos números

Marcela Ribas - Federico De Olivera


34 1. La Estadı́stica Descriptiva

y entonces debemos particionar su recorrido en intervalos, que serán nuestras


categorı́as.

Sea cual sea el tipo de variable, las categorı́as en las cuales se agrupan los
diferentes valores que toma la variable, deben ser exhaustivas y mutuamente
excluyentes.

Categorı́as exhaustivas: éstas cubren todo el recorrido. Cualquier obser-


vación se debe poder colocar en alguna categorı́a; por ejemplo, si la persona
se niega a contestar, se la coloca en la categorı́a no sabe, no contesta.

Categorı́as mutuamente excluyentes: no se deben superponer.


Cualquier observación se debe colocar sólo en una categorı́a, no debe haber
ambigüedades.

Ejemplos:

1. Variable X: cantidad de dı́as por semana que trabaja una persona.

Recorrido de X: 0, 1, 2, 3, 4, 5, 6, 7 . Puedo considerar como categorı́as


exactamente el recorrido de la variable; o sino podrı́a considerar como cat-
egorı́as: 0, 1, 2, 3,4,5, 6,7 .

2. Variable Y: peso de los bebés en kg, nacidos a término.

Posible recorrido: [2.3, 5] . Puedo tomar como categorı́as los siguientes in-
tervalos: [2.3, 2.5), [2.5, 3.5), [3.5, 3.9), [3.9, 5] , u otros, dependiendo de
los intervalos que sean de interés.

Observación:

Marcela Ribas - Federico De Olivera


1.2 Análisis de las variablebles cuantitativas agrupadas en intervalos 35

1. Los intervalos no tienen por qué tener todos igual amplitud.

2. Los intervalos que son válidos son los del tipo [ , ) o ( , ]. Si los intervalos
son todos ( , ), no cumplen con la caracterı́stica de la exhaustividad, pues
los valores de los extremos no están incluidos en ningún intervalo. Si los
intervalos son todos [ , ], no cumplen con la caracterı́stica de ser mutuamente
excluyentes, pues se superponen.

1.2. Análisis de las variablebles cuantitativas


agrupadas en intervalos

Ya vimos que el objetivo de la Estadı́stica era extraer la información contenida


en un conjunto de observaciones o datos. Para ello cuenta con las siguientes
herramientas:

1.2.1. Tabla de la Distribución de Frecuencias

Continuando con el ejemplo anterior de los adolescentes y su nivel de glucemia,


vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por
lo general de mayor tamaño, pero tomamos sólo 20 para manejar con facilidad
los datos.

Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos


como X = nivel de glucemia en ayunas, medido en miligramos de glucosa por
decilitro de sangre (mg/dl). Estos datos son :

98, 150, 100, 70, 80, 110, 123, 85, 115, 120
130, 110, 105, 98, 140, 81, 125, 120, 130, 126

Marcela Ribas - Federico De Olivera


36 1. La Estadı́stica Descriptiva

En primer lugar, organizamos estos datos muestrales en una tabla de distribución


de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con
el fin de que los podamos interpretar de alguna forma.

Existen ciertos valores lı́mite, para distintas condiciones relacionadas con la can-
tidad de azúcar en sangre en ayunas. Según algunos especialistas se puede afirmar
lo siguiente:

mg de glucosa por dl de sangre Condición

48 a 73 hipoglucemia
74 a 99 glucemia normal
100 a 125 pre-diabetes
126 a 152 diabetes

Adoptaremos la convención de construir intervalos de la forma [ , ): implica que


el valor de la izquierda está en el intervalo pero no el de la derecha. Y recordando
que las categorı́as deben ser exhaustivas, nuestros intervalos serán ligeramente
diferentes a los planteados en la tabla anterior:

Categorı́as: [xi−1 , xi ) ni total

[48, 74) X 1
[74, 100) XXXXX 5
[100, 126) XXXXXXXXX 9
[126, 152) XXXXX 5
n = 20

A la columna ni se la llama columna de frecuencias absolutas, y en ella se colo-


can cuántos datos caen en cada intervalo. Una práctica común para completarla,
es leer uno a uno los datos y colocar una marca (checkmark) al lado del intervalo
donde cada dato se encuentra. Luego contamos la cantidad de X y obtenemos ni .

Marcela Ribas - Federico De Olivera


1.2 Análisis de las variablebles cuantitativas agrupadas en intervalos 37

Al sumar esta columna debemos obtener n: el tamaño de la muestra.

Es importante tener en cuenta que al organizar los datos en intervalos pierdo


la información de los datos originales, pero gano en un mejor ordenamiento
de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in-
tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca
de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o
están distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros
vamos a adoptar esta ultima hipótesis.

La tabla de frecuencias también incluye las siguientes columnas:

ci : marca de clase del intervalo: es el punto medio de dicho intervalo, que se


calcula como la semisuma de sus valores extremos.

Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61.

La marca de clase viene a ser el valor representativo del intervalo.

hi : frecuencia relativa del intervalo: es la proporción de datos que hay en él.


Se calcula como hi = ni /n. La suma de todos las hi es siempre 1.

Si multiplicamos hi · 100, obtenemos el porcentaje de datos en cada intervalo.


Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes
poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de
glucosa por dl de sangre) que los lleva a tener pre-diabetes.

Fi∗ : Función de distribución acumulada empı́rica: es la proporción (o por-


centaje si se multiplica cada valor de Fi∗ por 100) de observaciones que existen
hasta cada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,
los valores de hi de todos los intervalos anteriores a él.

A partir de Fi∗ , podemos decir que el 30 % de los adolescentes tienen hipoglucemia


o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre-

Marcela Ribas - Federico De Olivera


38 1. La Estadı́stica Descriptiva

diabetes o diabetes (pues F · 100 = 0, 3).

fi∗ : función de densidad empı́rica: es la frecuencia relativa por unidad de me-


dida en cada intervalo. Me indica la concentración o “densidad de datos” que hay
en cada intervalo.

Se calcula ası́: fi∗ = hi /amplitud de cada intervalo. La amplitud del intervalo es


la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de
fi∗ es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.

Categorı́as: [xi−1 , xi ) ni hi Fi∗ = F ∗ (xi ) ci f∗

[48, 74) 1 0,05 0,05 61 0,002


[74, 100) 5 0,25 0,3 87 0,01
[100, 126) 9 0,45 0,75 113 0,017
[126, 152) 5 0,25 1 139 0,01
n = 20 1

1.2.2. Gráficos

Histograma

El Histograma es una forma gráfica de presentar la información que nos propor-


cionan los datos, acompañando la tabla de frecuencias. Nos permite, a golpe de
vista, sacar algunas conclusiones más rápidamente que observando la tabla. Ese
es su principal objetivo.

En el eje horizontal se indican los extremos de los intervalos. En el eje vertical


van los valores de fi∗ . Y se levantan “barras” encima de cada intervalo, a la altura
del correspondiente fi∗ .

Observar que el área encima de cada intervalo (base por altura =amplitud del

Marcela Ribas - Federico De Olivera


1.2 Análisis de las variablebles cuantitativas agrupadas en intervalos 39

intervalo por fi∗ = hi ) es su correspondiente frecuencia relativa.

El área total del histograma es 1, por ser la suma de todas las barras, que son
las frecuencias relativas hi .

Figura 1.1: Histograma del nivel de glucemia

Ojiva o gráfico de la función de distribución acumulada empı́rica Fi∗

Para variables cuantitativas agrupadas en intervalos, la gráfica de Fi∗ se repre-


senta como una función continua, pues trabajamos con la hipótesis de que los
valores que caen dentro de cada intervalo, se consideran distribuidos uniforme-
mente dentro del mismo. Por lo tanto :

1. Primero, se marcan en el gráfico las frecuencias acumuladas en los extremos

Marcela Ribas - Federico De Olivera


40 1. La Estadı́stica Descriptiva

superiores de los intervalos, que son los que aparecen en la tabla. Es decir:

F ∗ (74) = 0,05, F ∗ (100) = 0,3, F ∗ (126) = 0,75, F ∗ (152) = 1

2. Y posteriormente, se trazan los segmentos que determinan dos puntos con-


secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo,
en forma coherente con el supuesto antedicho.

Ojiva
1

0.8
Distribucion empirica

0.6

0.4

0.2

0
40 60 80 100 120 140 160
nivel de glucemia

Figura 1.2: Ojiva del nivel de glucemia

Distribuciones Empı́ricas y Teóricas Las distribu-


ciones estudiadas: fi∗ y F ∗ (xi ) son empı́ricas, pues son realizadas a partir de
la observación de una muestra.

Existen otras distribuciones llamadas teóricas ( f (xi ) y F (xi ) ), que resultan de


estudios realizados con modelos probabilı́sticos e involucran los datos de toda la
población.

Marcela Ribas - Federico De Olivera


1.3 Medidad de resumen 41

Se demuestra que, al aumentar el número de observaciones en las muestras, las


distribuciones empı́ricas se aproximan cada vez más a las teóricas.

1.3. Medidad de resumen

Las medidas de resumen muestrales sirven para obtener caracterı́sticas generales


de dicha muestra, con el riesgo que siempre implican los resúmenes, en cuanto al
grado en que reflejan la información del conjunto de datos. Veremos dos grupos
de medidas de resumen:

Medidas de posición: Indican “por dónde” se sitúan los datos de la mues-


tra. Estas medidas pueden ser de tendencia central o medidas no centrales
(los cuartiles y percentiles).

Medidas de dispersión: Se utilizan para medir el grado de concentración


de los datos, en torno a determinados valores. Por ejemplo, deben acom-
pañar a las medidas de tendencia central, para dar una idea de qué tan
confiable es el dato proporcionado por ellas.

1.3.1. Medidas de posición

Medidas de tendencia central

Son tres: la media, la mediana y el modo.

Media (aritmética): Se la puede definir como el “centro de gravedad”


de la distribución de frecuencias. Constituye el valor central por excelen-
cia, pues considera la totalidad de las observaciones, ponderadas por su
frecuencia relativa. Se calcula como la suma de las marcas de clase por la

Marcela Ribas - Federico De Olivera


42 1. La Estadı́stica Descriptiva

correspondiente frecuencia relativa. Observar en la tabla siguiente que la


media surge de sumar la columna indicada como ci · hi .

La media en nuestro caso vale 110,4 lo cual significa que, en promedio, los
adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en
ayunas. Ello sólo no nos dice mucho pues no sabemos si la mayorı́a tienen
ese valor de glucemia, o tienen valores inferiores y superiores que hacen que
sea tal el promedio. Más adelante calcularemos el desvı́o standard y se nos
aclarará un poco el panorama.

Esta media muestral es una aproximación de la verdadera media muestral


(que se calcula como la suma de todos los datos originales dividido 20 o sea
110,8 ), pues dentro de cada intervalo, los diferentes valores han sido todos
sustituidos por un único valor, ci, el punto medio de dicho intervalo.

Mediana (Xme ): Cuando la muestra contiene unos pocos datos sumamente


grandes o muy pequeños, la media puede no ser representativa. El punto
central de tales datos puede describirse mejor utilizando otra medida de
tendencia central como es la M ediana, pues ella no considera dichos valores
extremos. Es el valor de la variable que divide en dos mitades al conjunto de
datos ordenados: es el valor Xme que acumula el 50 % de las observaciones
o sea que cumple que F ∗ (Xme ) = 0, 5.

Dos casos:

1. Si en la tabla se observa que F ∗ (xi ) = 0,5, entonces Xme =


extremo superior del intervalo correspondiente.

2. Si no es ası́, entonces la mediana se debe obtener por interpolación


dentro del intervalo que contiene a Xme . En este caso, se procede ası́:

a) Encontramos el intervalo donde se encuentra Xme : es el primer


intervalo donde F ∗ (xi ) es mayor a 0,5. En nuestro caso es [100,
126).

Marcela Ribas - Federico De Olivera


1.3 Medidad de resumen 43

b) Aplicamos la fórmula siguiente:


(0,5 − F ∗ (xi−1 ))
Xme = xi−1 +
fi∗
donde:

xi−1 : extremo inferior del intervalo donde está la mediana. O sea


xi−1 = 100
F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de la
mediana. O sea F ∗ (xi−1 ) = 0,3
fi∗ : valor de la función de densidad empı́rica, correspondiente al
intervalo donde está la mediana. O sea fi∗ = 0,017

(0,5–0,3)
Xme = 100 + = 111,76
0,017
Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de
glucemia de 111,76 mg/dl o menos. O más significativamente, podemos
decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76
lo que implicarı́a que tienen pre-diabetes o diabetes.

3. Modo ( Xmo ): Es la categorı́a con la mayor cantidad de observaciones.


Puede existir más de una categorı́a que cumpla lo anterior. En ese caso,
el modo no es único. Si existen dos modos se dice que la distribución
es bimodal. En la forma es que estamos trabajando, con datos agru-
pados en intervalos, no hablamos de Modo sino de I ntervalo Modal:
es el intervalo que concentra la mayor frecuencia relativa por unidad
de medida, por lo tanto es aquel intervalo, al cual le corresponde el
máximo valor de la función de densidad empı́rica fi∗ .
En nuestro ejemplo, el intervalo modal es [100, 126), lo cual significa
que la mayor parte de los adolescentes de esta muestra (un 45 %) tienen
niveles de glucemia entre 100 y 126 (no inclusive) mg de glcosa por dl
de sangre en ayunas, lo cual significa que son pre-diabéticos.

Marcela Ribas - Federico De Olivera


44 1. La Estadı́stica Descriptiva

Categorı́as: [xi−1 , xi ) ni hi Fi∗ = F ∗ (xi ) ci f∗ ci · hi c2i · hi

[48, 74) 1 0,05 0,05 61 0,002 3,05 186,05


[74, 100) 5 0,25 0,3 87 0,01 21,75 1892,25
[100, 126) 9 0,45 0,75 113 0,017 50,85 5746,05
[126, 152) 5 0,25 1 139 0,01 34,75 4830,25
total n = 20 1 110,4 12654,6

Medidas de posición no centrales

Además de las medidas de tendencia central , también hay algunas medidas útiles
de posición “no central” que suelen utilizarse al resumir o describir propiedades
de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles.

Los Cuartiles son tres valores: Q1 , Q2 , y Q3 , que me dividen los datos ordenados
de la variable, en cuartos (25 %).

25 % | 25 % | 25 % | 25 %
Q1 Q2 Q3

Q1 es el valor cuya frecuencia acumulada es 25 %.

Q2 es el valor cuya frecuencia acumulada es 50 %. Entonces Q2 = Xme

Q3 es el valor cuya frecuencia acumulada es 75 %.

Percentiles: Hay noventa y nueve percentiles.

Por ejemplo, el percentil 10 (que anotamos P10 ) es el valor cuya frecuencia acu-
mulada es del 10 %. Y el percentil 90 ( P90 ) cumple que Fi∗ (P90 ) = 0, 9

La determinación de estas medidas es análoga a la de la mediana o los cuartiles.

Marcela Ribas - Federico De Olivera


1.3 Medidad de resumen 45

Cálculo de PRIMER CUARTIL:

Es aquel valor que cumple que F ∗ (Q1 ) = 0, 25.

Dos casos:

1. Si en la tabla se observa que F ∗ (xi ) = 0,25, entonces Q1 = xi , extremo


superior del intervalo correspondiente.

2. Si no es ası́, entonces Q1 se debe obtener por interpolación dentro del in-


tervalo que lo contiene. En este caso, se procede de la siguiente forma:

a) Encontrar el intervalo donde se encuentra Q1 : es el primer intervalo


donde F ∗ (xi ) es mayor a 0,25.

b) Aplico la formula siguiente:


(0, 25 − F ∗ (xi−1 ))
Q1 = xi−1 +
fi∗

donde:
xi−1 : extremo inferior del intervalo donde está Q1 .
F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de Q1 .
fi∗ : valor de la función de densidad empı́rica del intervalo donde
está Q1 .
En el ejemplo, el intervalo donde está Q1 es [74 , 100 ). Por lo tanto:

(0, 25–0, 05)


Q1 = 74 + = 94
0,01
Es decir el 25 % de los adolescentes de esta muestra tienen niveles de
glucemia de hasta 94 mg/dl.

Cálculo de TERCER CUARTIL:

Marcela Ribas - Federico De Olivera


46 1. La Estadı́stica Descriptiva

Es aquel valor que cumple que F ∗ (Q3 ) = 0, 75.

Dos casos:

1. Si en la tabla se observa que F ∗ (xi ) = 0,75, entonces Q3 = xi , extremo


superior del intervalo correspondiente.

2. Si no es ası́, entonces Q3 se debe obtener por interpolación dentro del in-


tervalo que lo contiene. En este caso, se procede de la siguiente forma:

a) Encontrar el intervalo donde se encuentra Q3 : es el primer intervalo


donde F ∗ (xi ) es mayor a 0,75.

b) Aplico la formula siguiente:

(0, 75 − F ∗ (xi−1 ))
Q3 = xi−1 +
fi∗

donde:

xi−1 : extremo inferior del intervalo donde está Q3 .

F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de Q3 .

fi∗ : valor de la función de densidad empı́rica del intervalo donde


está Q3 .

En el ejemplo, se observa en la tabla que F ∗ (126) = 0, 75. Por lo


tanto Q3 = 126. Es decir, el 75 % de los adolescentes de esta muestra
tienen niveles de glucemia hasta 126 mg/dl. O más significativamente,
el 25 % de ellos tienen niveles de 126 mg/dl o mayores, es decir que
tienen diabetes.

1.3.2. Medidas de dispersión

Las medidas de dispersión dan idea de cuánto se dispersan o concentran los datos
de nuestra muestra.

Marcela Ribas - Federico De Olivera


1.3 Medidad de resumen 47

Son útiles para medir, de algún modo, la representatividad de las medidas de ten-
dencia central. En otras palabras: los valores centrales pierden significación
cuando la dispersión es alta, y por ello debemos conocer y complementar las
medidas de posición, con las medidas de dispersión.

EJEMPLO: los ingresos mensuales de 4 personas (en $) son los siguientes: 7.800,
8.200, 8.000, 8.400.

La media es 8.100, y a simple vista notamos que los valores están concentrados
en torno a ella, pues se separan poco de la media (la dispersión es baja).

Los ingresos mensuales de otras 4 personas son los siguientes:

800 2 700 1 000 12 900

La media es también 8.100, pero se advierte una dispersión mucho mayor que
en el caso anterior. Por lo tanto la información que brinda la media en este caso
se desvirtúa y para no realizar conclusiones erróneas imaginar que 8.100 es un
sueldo representativo de estas 4 personas, debemos acompañarla de una medida
de dispersión, como es el desvı́o standard.

Rango: R

El rango de un conjunto de datos es la diferencia entre el mayor y el menor de


todos ellos. Da idea de la amplitud del recorrido total de la variable en la muestra.

Para datos agrupados en intervalos, es la diferencia entre el extremo superior del


último intervalo y el extremo inferior del primer intervalo. Es decir: R = 152–48 =
104. Al interpretarlo, decimos que los valores de glicemia de los adolescentes de
mi muestra están entre 48 mg/dl y 152 mg/dl, (es decir recorren 104 valores).

Una limitación que tiene R es que sólo considera los valores extremos, sin aportar

Marcela Ribas - Federico De Olivera


48 1. La Estadı́stica Descriptiva

información sobre los valores interiores.

Rango Intercuartı́lico: RI o desviación respecto a Xme :

RI = Q3 –Q1

Es una medida complementaria de la mediana, la cual se encuentra en el intervalo


que corresponde al rango intercuartı́lico.

En nuestro ejemplo,

RI = 126–94 = 32 . Se interpreta diciendo que el 50 % de los adolescentes de la


muestra tienen niveles de glicemia de entre 94 mg/dl y 126 mg/dl (recorren 32
valores).

Varianza : S 2

Da idea de la dispersión promedio de los datos, respecto a la media aritmética. Se


calcula como el promedio del cuadrado de las desviaciones de los valores respecto
de la media.

(ci –(media)2 ).ni


P
2
S =
n

o más fácil para los cálculos S 2 = (c2i · hi ) − (media)2


P

Entonces la varianza muestral se puede calcular fácilmente a partir de la tabla,


agregando la columna c2i · hi y siendo
P 2
ci · hi la suma de dicha columna. Por lo
tanto S 2 = 12654, 6 − (110,4)2 = 466, 44

Observación 1: Las desviaciones de cada xi con respecto a la media, se elevan


al cuadrado pues de lo contrario la suma de todas ellas serı́a siempre cero.

Observación 2: La varianza es una de las más importantes medidas de disper-


sión, pero su resultado implica una magnitud que no tiene una interpretación útil

Marcela Ribas - Federico De Olivera


1.3 Medidad de resumen 49

en sı́ misma, pues al elevar al cuadrado, tenemos unidades de medida al cuadrado.

Su significado cobra relevancia al comparar la varianza de dos muestras: a may-


or varianza, mayor dispersión y menor concentración de datos. Como tiene el
inconveniente de medir la dispersión, en términos del cuadrado de las unidades,
se calcula su raı́z cuadrada: la desviación standard

Desvı́o tı́pico o desciación standard: S

Se calcula tomando la raı́z cuadrada de la varianza.

Entonces S = 21, 6

Al contrario de la varianza, donde los desvı́os se elevan al cuadrado y entonces los


valores quedan expresados en unidades al cuadrado, en la desviación standard, al
aplicarles la raı́z cuadrada, los llevamos nuevamente a su unidad original, y por lo
tanto S tiene interpretación en sı́ misma: En promedio, los niveles de glicemia de
los adolescentes de la muestra se desvı́an 21,6 mg/dl, con respecto a la media que
es 110,4 mg/dl. Pero dicha dispersión, ¿ es grande o pequeña ?. Esto lo contesta
el coeficiente de variación.

Coeficiente de variación : C.V. relaciona la desviación standard con la me-


dia, brindando una medida sobre la dispersión relativa del conjunto de observa-
ciones. Se calcula sólo cuando los datos son positivos:

S
C.V. =
media

Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando

Al C.V. generalmente se lo interpreta como un porcentaje. Como es una medi-


da que no tiene unidades, resulta muy útil para comparar muestras que tengan
unidades diferentes.

Marcela Ribas - Federico De Olivera


50 1. La Estadı́stica Descriptiva

Se interpreta diciendo que el desvı́o standard de los niveles de glucemia, representa


un 20 % de la media, lo cual es una baja dispesión. Y por lo tanto podemos
concluir que la media de 110,4 mg/dl representa bien a mi muestra.

Marcela Ribas - Federico De Olivera


1.4 Ejericicos 51

1.4. Ejericicos

Atención es muy importante que interpretes los resultados de casa ejercicio. Uno
de los objetivos de la Estadı́stica es resumir y presentar información cuantitativa
de forma clara, por lo que es especialmente relevante que, en la resolución de los
ejercicios, se exprese de forma evidente el planteamiento del problema, el método
seguido para su resolución, los resultados y las conclusiones que se obtengan.

1. A continuación se presenta una lista de variables, las cuales el estudiante


debe poder identificar de acuerdo a la clasificación señalada el punto ante-
rior:

a) Número de micciones en 24 horas.

b) Presión arterial sistólica (mm de Hg).

c) Color de ojos (agrupados en tres categorı́as: 1) celestes, azules o verdes;


2) pardos o negros; 3) otros).

d ) Apetito sexual: fuerte, moderado, leve o nulo.

e) Número de deposiciones por dı́a en un bebé de tres meses.

f ) Número de cromosomas.

g) Cantidad de glóbulos rojos.

2. Los items de este primer ejercicio, tienen como fuente de datos la tabla
que se presenta a continuación, la cual surge de una encuesta realizada
a usuarios de un servicio de salud. El significado de las variables, que se
encuentran en la primera fila de la tabla, se explican a continuación de la
misma.

Edad Sexo BH Talla Peso GLU CT HDL

Marcela Ribas - Federico De Olivera


52 1. La Estadı́stica Descriptiva

78 0 0 145 67.00 106 188 35


37 0 0 156 97.50 90 212 37
43 0 0 158 60.00 98 202 39
46 0 0 158 81.00 101 275 43
20 0 0 155 55.50 80 358 43
36 0 0 164 67.40 113 189 43
42 0 0 159 64.20 91 191 45
41 0 0 156 77.00 106 223 46
90 0 0 145 54.50 119 302 50
39 0 0 159 68.10 92 184 51
39 0 0 149 53.10 109 183 54
43 0 0 161 70.00 98 280 55
35 0 0 173 77.50 89 207 56
36 0 0 159 60.50 110 219 57
61 0 0 155 80.00 117 196 58
75 0 0 150 43.50 85 196 59
24 0 0 165 66.20 84 182 60
53 0 0 169 66.80 96 218 64
37 0 0 160 65.20 100 193 69
57 0 0 152 85.50 137 260 69
24 0 0 174 64.00 73 196 70
22 0 0 159 54.90 78 158 70
28 0 0 161 57.80 86 239 75
28 0 0 164 75.50 85 283 80
21 0 1 164 64.00 87 193 39
36 0 1 160 55.00 88 217 42
34 0 1 151 57.00 105 163 52

Marcela Ribas - Federico De Olivera


1.4 Ejericicos 53

35 0 1 158 66.00 93 242 54


26 0 1 167 47.70 82 179 61
21 0 1 157 57.40 72 232 77
71 1 0 154 61.60 96 233 34
35 1 0 173 97.50 138 211 36
29 1 0 169 81.00 101 229 39
50 1 0 167 67.50 103 221 41
39 1 0 174 88.00 102 214 42
39 1 1 167 82.00 97 273 45
47 1 1 164 70.00 240 264 49
39 1 1 180 81.00 80 238 67
69 1 1 168 71.40 109 235 77
41 1 1 166 82.00 125 255 30

EDAD: En años
SEXO: 0 (Mujeres) 1 (Varones)
BH: Bebedor/a habitual: 1 (Sı́) 0 (No)
TALLA: en cm.
PESO: En Kg.
GLU: Glucemia (mg/dl)
CT : Colesterol Total (mg/dl)
HDL: Fracción de colesterol unido a lipoproteı́nas de alta densidad: High
Density Lipoproteins (mg/dl).

a) Clasifica todas las variables de la tabla, según sean cuantitativas, cual-


itativas, discretas o continuas.

b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,

Marcela Ribas - Federico De Olivera


54 1. La Estadı́stica Descriptiva

a partir de los datos de la variable edad, de la tabla anterior. Con-


sidera 5 intervalos de igual longitud. Interpreta los valores de la tabla
construida.

c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas,


a partir de los datos de glucemia de los varones de la tabla anterior.
Considera 4 intervalos de igual longitud. ¿ Qué porcentaje de hombres
tienen un nivel normal de glucemia ? Contesta de dos formas: a partir
de la tabla de frecuencias y a partir de los datos originales. Explica las
diferencias que surjan.

d ) Representa el histograma de la variable talla.Considera 5 interval-


os.Haz lo mismo, discriminando por sexo, considerando los mismos
intervalos. Compara.

e) Representa la tabla de frecuencias de la variable BH, diferenciando por


tres grupos de edades: de 20 a 39 años, de 40 a 59 años y de 60 a 90
años. Compara.

f ) ¿Qué puedes decir sobre las medidas de tendencia central de la variable


CT en las mujeres de la tabla? ¿Y sobre su dispersión?. Considere 5
intervalos.

g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-


terol bueno) más alto que los hombres”, a la luz de esta muestra.

3. Con el fin de observar la relación entre la inteligencia y el nivel socioe-


conómico (medido por el salario mensual familiar, en miles de pesos) se
tomaron dos grupos: uno formado con personas de cociente intelectual infe-
rior a 95 y otro formado por los demás. De cada persona se anotó el salario
mensual familiar. Teniendo en cuenta los resultados que se indican en la
tabla:

Marcela Ribas - Federico De Olivera


1.4 Ejericicos 55

Nivel socioeconómico Personas con CI < 95 Personas con CI ≥ 95


Intervalos Frecuencia Frecuencia

[4, 10) 75 19
[10, 16) 35 26
[16, 22) 20 25
[22, 28) 30 30
[28, 34) 25 54
[34, 40] 15 46

a) Dibuje un gráfico que permita comparar ambos grupos.

b) Calcule las medidas de tendencia central para cada uno de los dos
grupos de personas.

c) Calcular las medidas de dispersión para cada uno de los grupos.

d ) ¿Qué conclusiones se pueden sacar a raı́z de la información obtenida


en los items anteriores?

4. Un estudio consistió en anotar el número de palabras leı́das en 15 segundos


por un grupo de 120 sujetos disléxicos y 120 individuos normales. Teniendo
en cuenta los resultados de la tabla

N ro de palabras leı́das Disléxicos Normales

25 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 2 32

calcule:

a) Las medias aritméticas de ambos grupos.

Marcela Ribas - Federico De Olivera


56 1. La Estadı́stica Descriptiva

b) Las medianas de ambos grupos.

c) El porcentaje de sujetos disléxicos que superaron la mediana de los


normales.

d ) Compare la variabilidad relativa de ambos grupos.

5. En una epidemia de escarlatina, se recogieron el número de fallecidos, en


40 ciudades de un paı́s, obteniéndose la siguiente tabla:

N ro de fallecidos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1

a) Representar gráficamente estos datos.

b) Obtener la distribución acumulada y representarla.

c) Calcular media, mediana y moda. Interpretarlas

d ) Calcular la varianza y la desviación standard.

e) Calcular el porcentaje de ciudades con al menos 2 muertos.

f ) Calcular el porcentaje de ciudades con más de 3 muertos.

g) Calcular el porcentaje de ciudades con, a lo sumo, 5 muertos.

1.5. Artı́culos OMS

A continuación se presentan algunos extractos del artı́culo: “Informe sobre la


salud en el mundo 2008. La atención primaria de la salud: Más necesaria que
nunca”.

Marcela Ribas - Federico De Olivera


Informe sobre la salud en el mundo 2008

La atención primaria de salud

REFORMAS DE
LA PRESTACIÓN
DE SERVICIOS

Más
REFORMAS
REFORMAS EN PRO DE LAS POLÍTICAS
DE LA COBERTURA PÚBLICAS
UNIVERSAL

necesaria
REFORMAS DEL
LIDERAZGO

que
nunca
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca

Recuadro 1.3 Conforme mejora la información se hacen más patentes las múltiples
dimensiones de las crecientes desigualdades sanitarias

En los últimos años se ha descrito de forma mucho más detallada el alcance de las diferencias existentes en cada país en cuanto a
vulnerabilidad, acceso a la atención y resultados sanitarios (figura 1.9)59 . El hecho de disponer de mejor información ha permitido observar
que las desigualdades en materia de salud tienden a aumentar, lo que resalta los fallos y la desigualdad de las medidas adoptadas por
los sistemas de salud para responder a las necesidades sanitarias de la población. Pese a la importancia concedida últimamente a la
reducción de la pobreza, los sistemas de salud siguen teniendo dificultades para llegar a los pobres tanto en las zonas rurales cuanto
en las urbanas, así como para afrontar las muy diversas causas y consecuencias de la desigualdad en materia de salud.

Figura 1.9 Desigualdades en materia de salud y en la prestación de atención en los países


Gasto de los hogares en salud por habitante Tiempo medio (minutos) para desplazarse
como porcentaje del gasto total de los a un ambulatorio, por grupo de ingresos
hogares, por grupo de ingresos
6 50

5
40

4
30
3
20
2

1 10

0 0
Côte d’Ivoire Ghana Madagascar Bosnia y Herzegovina Comoras Ecuador
1988 1992 1993–4 2003–4 2003–4 2003–4
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior

Mujeres sometidas a profilaxis Cobertura vacunal básica completa (%),


contra la malaria (%), por grupo de ingresos por grupo de ingresos
100 100

80 80

60 60

40 40

20 20

0 0
Guinea Malawi Níger Tanzanía Bangladesh Colombia Indonesia Mozambique
2005 2004 2006 2004 2004 2005 2002–3 2003
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior

Tasa de mortalidad neonatal, Partos atendidos por profesionales sanitarios (%),


por nivel de estudios de la madre por nivel de estudios de la madre
100 100

80 80

60 60

40 40

20 20

0 0
Bolivia Colombia Lesotho Nepal Filipinas Benin Bolivia Botswana Camboya Perú
2003 2005 2003 2006 2003 2001 2003 1998 2005 2000
Fuentes: (60, 61, 62, 63).
Sin estudios Estudios primarios Educación secundaria o superior

10
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca

de uno de los artífices de la estrategia de APS Entre los factores que limitan ese despliegue
de ese país: «Dado que era imposible poner en progresivo de redes de atención primaria cabe
marcha el proyecto en todas las provincias al destacar la falta de una categoría de personal de
mismo tiempo, decidimos centrarnos cada año nivel intermedio con dotes de liderazgo que orga-
en una sola provincia» (recuadro 2.3). nice los distritos sanitarios y tenga la capacidad
de mantener, año tras año, el esfuerzo constante
requerido para lograr resultados sostenibles para
Recuadro 2.3 Reducción de la brecha toda la población. Cuando la puesta en marcha se
urbano-rural mediante la expansión progresiva ha llevado a cabo como una actividad meramente
administrativa, los resultados han sido decep-
de la cobertura de APS en las zonas rurales cionantes: muchos distritos sanitarios existen
de la República Islámica del Irán31 sólo teóricamente. Sin embargo, allí donde la
impaciencia y la presión para lograr la visibili-
En los años setenta las políticas del Gobierno iraní hicieron hincapié dad a corto plazo se han gestionado de manera
en la prevención como forma de inversión a largo plazo, la asignación adecuada, la combinación de la respuesta a las
de recursos a las zonas rurales y desfavorecidas, y la primacía de la necesidades y la demanda y la participación
atención ambulatoria respecto a la hospitalización. Se estableció una de la población y las instancias principales ha
red de equipos distritales encargados de supervisar y administrar casi
2500 centros rurales sanitarios en aldeas. La plantilla de esos centros es
permitido construir redes sólidas de atención
un equipo formado por un médico, una partera, una enfermera y varios primaria, incluso en situaciones de conflicto y
técnicos sanitarios. Cada centro supervisa de uno a cinco pequeños posconflicto muy difíciles y faltas de recursos
puntos de atención conocidos como «casas de salud». Gracias a esas (recuadro 2.4).
17 000 casas de salud, más del 90% de la población rural tiene acceso a En la práctica la distinción entre el despliegue
atención sanitaria. En las zonas rurales remotas, el personal de las casas
de salud está formado por behvarz (trabajadores de salud multifuncio-
rápido de intervenciones prioritarias y el des-
nales) que, tras ser seleccionados por la comunidad, reciben entre 12 y pliegue progresivo de redes de atención prima-
18 meses de formación y luego son contratados por la Administración. ria no suele ser tan sencilla como se acaba de
Los equipos distritales imparten formación basada en la solución de describir. Sin embargo, pese a esa convergencia,
problemas, así como supervisión y apoyo permanentes. la búsqueda de un compromiso entre rapidez y
El Gobierno aplicó esta estrategia progresivamente, ampliando la cober- sostenibilidad es un verdadero dilema político30.
tura de provincia en provincia. Con los años, la red de APS ha crecido
En Malí, por poner un ejemplo, se ha demostrado
y está ahora en condiciones de prestar servicios a más de 24 millones
de personas en aldeas rurales y localidades pequeñas, aproximando que, si se le permite elegir, la gente opta volun-
los consultorios a los lugares donde las personas viven y trabajan, e tariamente por la puesta en marcha progresiva
impartiendo formación al personal sanitario auxiliar necesario para que mediante la transformación de los centros de
proporcione servicios de planificación familiar, atención preventiva y salud comunitarios – cuya infraestructura es
atención curativa esencial para la mayoría de los problemas sanitarios.
propiedad de la comunidad local, que también
En la actualidad las tasas de utilización de los servicios rurales de salud
son similares a las de las zonas urbanas. La puesta en marcha progresiva se hace cargo de contratar al personal – en la
de este sistema ha contribuido a reducir las diferencias de mortalidad base de distritos sanitarios funcionales.
infantil entre las zonas urbanas y las rurales (figura 2.5). Lo realmente importante es que la preocupa-
Figura 2.5 Mortalidad de menores de cinco años en zonas rurales y urbanas,
ción por la equidad no se traduzca en la búsqueda
República Islámica del Irán, 1980–200032 del «mínimo común denominador»: la igualdad de
Mortalidad por 1000 menores de cinco años acceso a un conjunto de servicios en gran medida
80
Rural
insatisfactorios. La calidad y la sostenibilidad
son importantes, de ahí la gran necesidad de
60 armonización entre los numerosos proveedores
públicos y privados sin fines de lucro y comercia-
40
Urbana les, dinámicos y de diversos tipos. El despliegue
gradual de servicios de salud brinda la oportuni-
dad de imprimir una coherencia beneficiosa a la
20
dirección de la prestación de atención sanitaria a
nivel de distrito. Ejemplos típicos y en gran escala
0
1980 1985 1990 1995 2000 de este enfoque en los países en desarrollo son la
subcontratación de servicios distritales de salud

32
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca

misma oferta. Los sistemas de salud son también mejores, de que haya menos inequidades en salud
reflejo de una cultura de consumo que se está y de poder participar en las decisiones que afec-
generalizando. Sin embargo, por otra parte hay tan a la salud es más común e intenso que hace
indicios de que la población es consciente de que 30 años. En consecuencia, actualmente se espera
esos sistemas de salud no aportan una respuesta mucho más de las autoridades sanitarias.
adecuada a las necesidades y la demanda, y de
que se mueven por intereses y objetivos no rela- Equidad sanitaria
cionados con las expectativas de las personas. A Rara vez, si no nunca, se logra una situación de
medida que las sociedades se modernizan y se equidad en cuanto a la salud, la riqueza o el poder.
vuelven más prósperas e informadas, va cam- Algunas sociedades son más igualitarias que otras,
biando la vida que la gente desea llevar como
personas y como miembros de la sociedad, es
decir, cambian sus valores112. Hoy día se tiende Recuadro 1.5 La salud, una de las
a considerar los servicios de salud más como un principales prioridades personales
producto, pero también son cada vez mayores las
expectativas con respecto a la salud y la atención
Cuando se pregunta a las personas por los problemas más
sanitaria. La gente se interesa más de que lo se
importantes con que se enfrentan ellas y sus familias, casi
piensa por la salud como factor que influye en siempre se citan en primer lugar los apuros económicos,
su vida cotidiana y la de sus familias (recuadro seguidos de cerca por la salud118 . En uno de cada dos países,
1.5)113, y espera que sus familias y comunida- las enfermedades propias, los costos de la atención sanitaria,
des estén protegidas de los riesgos y los peligros la mala calidad de la atención y otros temas de salud son
las principales preocupaciones personales de más de una
para la salud. Desea una atención sanitaria que
tercera parte de la población encuestada (figura 1.11). Así
la trate como personas con derechos y no como pues, no resulta sorprendente que el desmoronamiento del
meros objetivos de programas o beneficiarios de sistema de atención sanitaria – incluso los meros indicios de
obras de caridad. Está dispuesta a respetar a los un posible desmoronamiento – pueda provocar una situación
profesionales sanitarios, pero desea ser respe- de descontento popular que amenace las ambiciones de los
políticos considerados responsables119 .
tada a su vez, y que exista un clima de confianza
mutua114. Figura 1.11 Porcentaje de la población que cita la salud como su principal
preocupación, por delante de otras cuestiones como los problemas
Las personas también tienen expectativas económicos, la vivienda y la delincuencia118
sobre la manera en que la sociedad se debe ocu- Polonia
Ucrania
par de la salud y la atención sanitaria. Aspiran Federación de Rusia
Bulgaria
Alemania
a una mayor equidad y solidaridad sanitarias Italia
Suecia
y cada vez toleran menos la exclusión social, Israel
Turquía
España
aunque a título individual se resistan a veces a República Checa
Francia
actuar conforme a esos valores115. Esperan que Reino Unido
Eslovaquia

las autoridades sanitarias, ya sean de la Adminis- México


Chile
tración o de otros organismos, hagan un mayor Canadá
Perú
esfuerzo para proteger su derecho a la salud. Las Argentina
Brasil
Estados Unidos
encuestas sobre valores sociales realizadas desde Venezuela
Bolivia
la década de los ochenta muestran cada vez más República de Corea
China
puntos en común a este respecto entre los valores Japón
Malasia
de los países en desarrollo y los de las sociedades Bangladesh
India
más prósperas, donde la protección de la salud y Indonesia
el acceso a la atención a menudo se dan por des- Marruecos
Pakistán
contados112,115,116. La mayor prosperidad, el acceso Egipto
Líbano
Kuwait
a conocimientos y la conectividad social están Jordania
Territorio palestino ocupado
asociados a un aumento de las expectativas. La Uganda
Malí
población quiere poder intervenir más en lo que República Unida de Tanzanía
Côte d’Ivoire
ocurre en su lugar de trabajo, en la comunidad Senegal
Nigeria
Ghana
en que vive y en las decisiones gubernamentales Sudáfrica
Kenya
importantes que afectan a su vida117. El deseo de Etiopía
0 10 20 30 40 50 60 70
que la atención y la protección de la salud sean
16
Bloque temático 2

La Probabilidad y las Variables


Aleatorias

Objetivo:

A lo largo del primer bloque aprendimos lo que es la Estadı́stica Descriptiva y


estudiamos en detalle algunas de sus principales herramientas. Este conocimiento
es fundamental para estudiar el área fascinante de la Estadı́stica Inferencial, tema
del siguiente y último bloque, el cual constituye el núcleo del curso. Pero aún
nos falta comprender un concepto que sirve de nexo entre las dos ramas de la
Estadı́stica: la Probabilidad

El objetivo de este segundo bloque temático, es presentar la Teorı́a de las Proba-


bilidades, rama de la Matemática y hacer una revisión de algunos de sus aspectos,
seleccionados con el fin de permitir al estudiante comprender la Inferencia Es-
tadı́stica.

Marcela Ribas - Federico De Olivera


62 2. La Probabilidad y las Variables Aleatorias

2.1. Introducción

Con la Estadı́stica Descriptiva nuestra preocupación principal era la presentación


y descripción de los conjuntos de datos, que llamamos muestra, de la manera más
significativa y eficaz. En la Estadı́stica Inferencial, vamos más allá: buscamos
basarnos en la información particular anterior para hacer una afirmación general
acerca de la población. Y este proceso inductivo sólo es posible gracias al apoyo
que nos da la teorı́a de las probabilidades.

Para poder aplicar las reglas de la probabilidad (que pronto veremos) es necesario
que la muestra sea aleatoria lo cual, básicamente significa que cada muestra de
tamaño dado n tiene igual probabilidad de ser elegida y que cada elemento de
la población tiene igual probabilidad de estar en la muestra. Lo anterior permite
generalizar una caracterı́stica que presenta una muestra, a toda la población, es
decir, permite hacer inferencia.

2.2. Teorı́a de las probabilidades

En la realidad objetiva, los fenómenos son de dos tipos:

1. ciertos: seguros o imposibles. Por ejemplo es seguro que mañana la Tierra


seguirá girando en torno al Sol. Y es imposible que, si tiro un dado común,
salga el 10.

2. o posibles. Por ejemplo es posible que mañana llueva.

La probabilidad intentará dar una medida a los fenómenos que se mueven en


el ámbito de “lo posible”, denominados también eventos o sucesos inciertos o
aleatorios. Dicha medida será una medida de confianza, que le daremos a la
incertidumbre de nuestras previsiones, sobre sucesos pasados o futuros.

Marcela Ribas - Federico De Olivera


2.2 Teorı́a de las probabilidades 63

Definiciones de probabilidad

La probabilidad se puede estudiar desde dos puntos de vista:

1. A priori o definición clásica: la probabilidad se deduce usando la razón, no


la experiencia. Pero para aplicar dicha definición se requiere que se cumplan
determinadas condiciones:

a) Número finito de alternativas posibles.

b) Éstas deben ser igualmente probables.

La “probabilidad de ocurrencia un evento A”, se escribe como P (A) y se


la define como la relación o cociente entre el número de casos favorables al
evento A y el número de casos posibles:

Sea N : la cantidad de casos posibles y N (A): la cantidad de casos favorables


al evento A, entonces:

cantidad de casos favorables N (A)


P (A) = =
cantidad de casos posibles N

Supongamos que tenemos un dado no cargado y deseamos saber cuál es la


probabilidad de obtener un número mayor que 4 en una tirada.

Definimos A = “ obtener 5 o 6 en una tirada”. Ası́ P (A) = 26 .

Observemos que para este cálculo no tuvimos que recurrir a ninguna colec-
ción de datos observados. Sólo utilizamos nuestra razón.

2. A posteriori o definición empı́rica o frecuencista: la probabilidad se deduce


utilizando la experiencia observada después del hecho, es decir, después de
reunir algunos datos. Las condiciones requeridas son:

a) realizar determinadas pruebas un número grande de veces

Marcela Ribas - Federico De Olivera


64 2. La Probabilidad y las Variables Aleatorias

b) todas en las mismas condiciones (experimentos repetibles).

La “probabilidad de ocurrencia un evento A” ( P (A)) se la define como la


relación o cociente entre el número de pruebas en las cuales el evento A se
verifica y el número total de pruebas realizadas, cuando éste último tiende
a ser cada vez más grande:

Sea n: cantidad de pruebas realizadas y n(A): cantidad de pruebas, en las


cuales el evento A se verifica. Entonces:

n(A)
P (A) = lı́m = lı́m h(A)
n→+∞ n n→+∞

proporción (frecuencia relativa) de pruebas en las cuales el evento A se


verifica, cuando el número de pruebas tiende a ser cada vez más grande.

En la práctica, no calculamos ningún lı́mite. Simplemento realizamos la


suficiente cantidad de pruebas o experimentos a fin de tener un n confiable
(ello depende de cada caso, lo veremos después), contamos la cantidad de
pruebas en las cuales se cumple el evento A y realizamos el cociente, es
decir obtenemos h(A) = n(A)/n. Esta frecuencia relativa la tomamos como
una estimación o aproximación del verdadero valor de P (A), desconocido
generalmente.

Supongamos que tenemos un dado que sospechamos que está cargado a


favor del 6, es decir que este número tiene más probabilidad de salir que
el resto. Entonces calcularemos esta probabilidad, de forma empı́rica. Lan-
zamos el dado por ejemplo 100 veces y observamos cuántas veces sale el
6. Si fuera un dado honesto deberı́a salir aproximadamente 16 o 17 veces
(100/6 = 16, 67). Si el 6 sale 17 veces, entonces h(6) = 17/100 = 0, 17 que
es aproximadamente 1/6 , la probabilidad a priori.

Si el 6 sale muchas más veces, sospecharı́amos que está cargado. Pero,


¿qué significa muchas más veces? ¿Con 20 veces alcanza ? ¿O deben ser al

Marcela Ribas - Federico De Olivera


2.3 Principales reglas de la Probabilidad 65

menos 25 veces que sale el 6, para afirmar que el dado está cargado a favor
del 6? Lo resolveremos más adelante, al estudiar la Inferencia Estadı́stica.

2.3. Principales reglas de la Probabilidad

1. Como la probabilidad es, por definición una proporción, su valor fluctúa


entre 0 y 1.

Ejemplo: como es seguro el que E: “una persona tenga el grupo sanguı́neo


A, B, AB u O” se cumple entonces P (E) = 1. Y como es imposible que D:
“una persona tenga el grupo sanguı́neo A y O a la vez”, entonces P (D) = 0.
Ası́ como P (“una persona tenga grupo sanguı́neo O”) es un valor entre 0 y
1.

2. Probabilidad de la unión

a) Para dos sucesos cualesquiera:

Sean A y B dos sucesos. La probabilidad de ocurrencia de A o B se


puede expresar como P (A ∪ B) y vale

P [A ∪ B] = P [A] + P [B] − P [A ∩ B]

b) Para tres sucesos cualesquiera:

Sean A, B y C tres sucesos. La probabilidad de ocurrencia de A o B o


C se puede expresar como :

P [A∪B∪C] = P [A]+P [B]+P [C]–P [A∩B]–P [A∩C]–P [C∩B]+P [A∩B∩C]

Marcela Ribas - Federico De Olivera


66 2. La Probabilidad y las Variables Aleatorias

c) Para sucesos mutuamente excluyentes:

Sean A y B mutuamente excluyentes, es decir que son sucesos que


no pueden ocurrir al mismo tiempo, de forma que A ∩ B = ∅. Entonces
la probabilidad de que se cumpla el suceso A o B es:

P [A ∪ B] = P [A] + P [B]

Esta regla se cumple también para más de dos sucesos mutuamente


excluyentes.

3. Probabilidad de la intersección:

a) Para sucesos dependientes:

Primero daremos una noción de probabilidad condicionada.

NOTACIÓN: Anotaremos como P [A|B] a la probabilidad de que ocur-


ra el suceso A, condicionada al hecho de que el suceso B ya ha ocurrido.
Usualmente se denomina probabilidad de A dado B, a P [A|B].

Análoga definición para P [B|A]: probabilidad de B, dado A.

Por ejemplo, si lanzamos un dado honesto y consideramos los siguientes


eventos:

A = “sale un 4”

B = “sale un número par”

P (A) = 1/6, un caso favorable entre 6 posibles. Pero P (A|B) = 1/3,


pues hay un caso favorable entre 3 posibles: puede ser el 2, 4 o 6
solamente pues ya sabemos que sale un número par.

Marcela Ribas - Federico De Olivera


2.3 Principales reglas de la Probabilidad 67

¿Cuánto es P (B|A) ?. P (“sale par”| “sale el 4”) = 1, pues como ya


sabemos que sale el 4, es seguro que salga un número par.

La probabilidad de ocurrencia de A y B se expresa como P [A ∩ B] y


vale

P [A ∩ B] = P [A]. · P [B|A]

P [A ∩ B] = P [B] · P [A|B]

Se usa una u otra fórmula, dependiendo de los datos que se tengan.

b) Para sucesos independientes:

Si A y B son sucesos independientes, la probablidad de ocurrencia


de A y B es:

P [A ∩ B] = P [A] · P [B]

Pues P [A|B] = P [A] y P [B|A] = P [B], ya que los eventos A y B no


se influyen o condicionan mutuamente, al ser independientes.

c) Para sucesos mutuamente excluyentes:

Si A y B son mutuamente excluyentes, al cumplirse A ∩ B = ∅,


entonces

P [A ∩ B] = P [∅] = 0

3. Pues el ∅ simboliza un suceso imposible.

4. Probabilidad del suceso contrario

Marcela Ribas - Federico De Olivera


68 2. La Probabilidad y las Variables Aleatorias

Sea Ac el suceso opuesto o contrario al suceso A. Se le llama también el


suceso complementario de A. Su probabilidad puede calcularse en base a la
P [A], ası́:

P [Ac ] = 1 − P [A]

Ejemplo: El cuadro siguiente muestra la distribución de la predisposición


al alcoholismo, según cada grupo sanguı́neo, en un grupo de 200 personas:

Grupo Sanguı́neo Alcohólico No alcohólico Total

A 35 35 70
B 9 9 18
AB 1 5 6
O 70 36 106

Total 115 85 200

Se escoge al azar una persona del grupo anterior:

a) ¿ Cuál es la probabilidad de que tenga el grupo sanguı́neo A o AB?

b) ¿ Cuál es la probabilidad de que tenga el grupo A o sea alcohólico ?

c) ¿ Cuál es la probabilidad de que sea del grupo B o AB o no sea


alcohólico ?

d ) ¿ Cuál es la probabilidad de que sea alcohólico y del grupo O ?

e) ¿ Cuál es la probabilidad de que sea del grupo A y AB ?

f ) ¿ Cuál es la probabilidad de que no sea del grupo O ?

g) Los eventos “ser alcohólico” y “ser del grupo AB”, ¿ son independientes
?

Notaciones:

Marcela Ribas - Federico De Olivera


2.3 Principales reglas de la Probabilidad 69

A: “la persona es del grupo A”


B: “la persona es del grupo B”
AB: “la persona es del grupo AB”
O: “la persona es del grupo O”
AL: “la persona es alcohólica”

a) P [A ∪ AB] = P [A] + P [AB] = 70/200 + 6/200 = 0, 38

b) P [A∪AL] = P [A]+P [AL]−P [A∩AL] = 70/200+115/200–35/200 =


0, 75

c)

P [B ∪ AB ∪ ALc ] = P [B] + P [AB] + P [ALc ]

−P [B ∩ AB] − P [B ∩ ALc ] − P [ALc ∩ AB]

+P [B ∩ AB ∩ ALc ]
18 6 85 9 5 95
= + + −0− − +0=
200 200 200 200 200 200
= 0, 475

d ) P [O ∩ AL] = P [O] · P [AL|O] = 106/200,70/106 = 0, 35

Otra forma: P [O ∩ AL] = P [AL] · P [O|AL] = 115/200,70/115 = 0, 35

e) P [A ∩ AB] = P [∅] = 0

f ) P [Oc ] = 1–P [O] = 1–106/200 = 0, 47

g) Si P [AL] = P [AL|AB], entonces el evento AL es independiente del


evento AB.

Pero P [AL] = 115/200 = 0, 575 y P [AL|AB] = 1/6 = 0, 167.

Marcela Ribas - Federico De Olivera


70 2. La Probabilidad y las Variables Aleatorias

De igual manera son distintas P [AB] = 0, 03 y P [AB|AL] = 0, 0087.


Por lo tanto, no podemos afirmar que “ser alcohólico” y “ser del grupo
AB” sean eventos independientes. Quizás guarden cierta relación, a
pesar de que no podamos establecer, con certeza, cuál es esta relación.

2.4. Variables Aleatorias (v.a)

Hasta ahora vimos probabilidades de sucesos o sea probabilidades de conjuntos.

A través de ejemplos, vamos a acercarnos ahora al concepto de variable aleatoria,


cuyo principal objetivo es trabajar con los números reales. En concreto, dicha
variable aleatoria permite asociar, a cada suceso, con un subconjunto de los reales.

Asumimos la siguiente clasificación, entre los pacientes de un hospital: entre 0 y


2 años es un bebé; entre 2 y 9 años es un niño; entre 9 y 15 años un adolescente;
entre 15 y 21 años, un joven; entre 21 y 60, un adulto y más de 60, un adulto
mayor.

Por ejemplo, considerando la variable aleatoria X= edad del paciente, la


P [“que el paciente sea un adolescente”], lo podemos escibir como P [9 < X ≤ 15]
, o la P [“que el paciente sea un adulto mayor”] = P [X > 60] , y ası́ con las
demás categorı́as:

P [“que el paciente sea un bebé”] = P [0 < X ≤ 2]


P [“que el paciente sea un niño”] = P [2 < X ≤ 9]
P [“que el paciente sea un joven”] = P [15 < X ≤ 21]
P [ “que el paciente sea un adulto”] = P [21 < X ≤ 60]

Todas las variables aleatorias tienen valores que las caracterizan, llamados
parámetros. Dos de ellos muy importantes son la media poblacional o es-
peranza (que se simboliza µ ) y la varianza poblacional (que se simboliza σ 2

Marcela Ribas - Federico De Olivera


2.4 Variables Aleatorias (v.a) 71

).

La esperanza es el promedio de todos los valores que toma la variable en la


población y la varianza poblacional, es un parámetro que nos da idea de cómo
están dispersos los valores de la variabla aleatoria, alrededor de su esperanza: a
mayor varianza, más alejados están los valores, de la esperanza.

Observar la similitud de dichos parámetros, con respecto a la media y varianza


muestrales: se diferencian en que, mientras que la media y la varianza pobla-
cionales son valores fijos (parámetros), pues son únicos para cada población, la
media y la varianza muestrales varı́an en cada muestra, y por lo tanto son “vari-
ables”.

Otros parámetros son la mediana y moda poblacionales, cuyo cálculo es similar


a sus homónimos muestrales. No nos concentraremos en estos parámetros en este
curso.

El cálculo exacto de la esperanza y varianza poblacionales para una variable


aleatoria genérica, exceden el nivel de este curso introductorio de probabilidad.
Este análisis, ası́ como la presentación de algunas variables aleatorias discretas y
continuas, se presentan en un anexo, al final de este segundo bloque.

El estudio de las variables aleatorias cuantitativas discretas y continuas, es fun-


damental en ciencias de la salud. La mayor parte de ellas se comportan como
cuantitativas continuas y, cumpliendo ciertas condiciones, las variables biológicas
puede decirse que, en lı́neas generales, siguen una distribución llamada Normal.
En seguida veremos que significa esto.

Marcela Ribas - Federico De Olivera


72 2. La Probabilidad y las Variables Aleatorias

2.4.1. Variable aleatoria Normal

En Estadı́stica y Probabilidad se llama distribución Normal, distribución de


Gauss o distribución gaussiana, a una de las distribuciones de probabilidad
de variable continua que con más frecuencia aparece en fenómenos reales.

La gráfica que muestra cómo se distribuyen las probabilidades de esta vari-


able aleatoria (llamada función de densidad), tiene una forma acampanada y
es simétrica respecto de su esperanza. Esta curva se conoce como campana de
Gauss. La importancia de esta distribución radica en que permite modelizar nu-
merosos fenómenos naturales, sociales y psicológicos.

Figura 2.1: Gráfico de la densidad de la v.a. Normal

Esta gráfica asigna probabilidades a la variable Z , la cual tiene una distribución


Normal con media 0 y varianza 1, ( se anota ∼ N (0, 1)), denominada usualmente
como variable Normal Standard.

El área de la zona sombreada indica p = la probabilidad de que la variable Z


tome valores menores que el valor a (o menores o iguales a a). Por este motivo al
valor a a veces se lo anota como a = zp . O sea

P [Z ≤ zp ] = p

Para calcular probabilidades con esta variable, basta saber leer adecuadamente
la siguiente tabla, y efectuar unos sencillos cálculos. En esta tabla se muestran

Marcela Ribas - Federico De Olivera


2.4 Variables Aleatorias (v.a) 73

las probabilidades de que la variable aleatoria Normal Z, con esperanza 0 y


varianza 1, tome valores por debajo de un cierto número zp : la parte entera de zp
está en las columnas y sus decimales en las filas. En su encuentro o intersección
está p = P [z ≤ zp ]

2.4.2. Tabla de la Distribución Normal Estándar

Zp 0 1 2 3 4
0 0, 500 000 0, 841 344 0, 977 249 0, 998 650 0, 999 968
0,01 0, 503 989 0, 843 752 0, 977 784 0, 998 693 0, 999 969
0,02 0, 507 978 0, 846 135 0, 978 308 0, 998 736 0, 999 970
0,03 0, 511 966 0, 848 494 0, 978 821 0, 998 777 0, 999 972
0,04 0, 515 953 0, 850 830 0, 979 324 0, 998 817 0, 999 973
0,05 0, 519 938 0, 853 140 0, 979 817 0, 998 855 0, 999 974
0,06 0, 523 922 0, 855 427 0, 980 300 0, 998 893 0, 999 975
0,07 0, 527 903 0, 857 690 0, 980 773 0, 998 929 0, 999 976
0,08 0, 531 881 0, 859 928 0, 981 237 0, 998 964 0, 999 977
0,09 0, 535 856 0, 862 143 0, 981 691 0, 998 999 0, 999 978
0,1 0, 539 827 0, 864 333 0, 982 135 0, 999 032 0, 999 979
0,11 0, 543 795 0, 866 500 0, 982 570 0, 999 064 0, 999 980
0,12 0, 547 758 0, 868 643 0, 982 997 0, 999 095 0, 999 981
0,13 0, 551 716 0, 870 761 0, 983 414 0, 999 125 0, 999 981
0,14 0, 555 670 0, 872 856 0, 983 822 0, 999 155 0, 999 982
0,15 0, 559 617 0, 874 928 0, 984 222 0, 999 183 0, 999 983
0,16 0, 563 559 0, 876 975 0, 984 613 0, 999 211 0, 999 984
0,17 0, 567 494 0, 878 999 0, 984 996 0, 999 237 0, 999 984
0,18 0, 571 423 0, 880 999 0, 985 371 0, 999 263 0, 999 985
0,19 0, 575 345 0, 882 976 0, 985 737 0, 999 288 0, 999 986

Marcela Ribas - Federico De Olivera


74 2. La Probabilidad y las Variables Aleatorias

0,2 0, 579 259 0, 884 930 0, 986 096 0, 999 312 0, 999 986
0,21 0, 583 166 0, 886 860 0, 986 447 0, 999 336 0, 999 987
0,22 0, 587 064 0, 888 767 0, 986 790 0, 999 358 0, 999 987
0,23 0, 590 954 0, 890 651 0, 987 126 0, 999 380 0, 999 988
0,24 0, 594 834 0, 892 512 0, 987 454 0, 999 402 0, 999 988
0,25 0, 598 706 0, 894 350 0, 987 775 0, 999 422 0, 999 989
0,26 0, 602 568 0, 896 165 0, 988 089 0, 999 442 0, 999 989
0,27 0, 606 419 0, 897 957 0, 988 396 0, 999 462 0, 999 990
0,28 0, 610 261 0, 899 727 0, 988 696 0, 999 480 0, 999 990
0,29 0, 614 091 0, 901 474 0, 988 989 0, 999 499 0, 999 991
0,3 0, 617 911 0, 903 199 0, 989 275 0, 999 516 0, 999 991
0,31 0, 621 719 0, 904 902 0, 989 555 0, 999 533 0, 999 991
0,32 0, 625 515 0, 906 582 0, 989 829 0, 999 549 0, 999 992
0,33 0, 629 299 0, 908 240 0, 990 096 0, 999 565 0, 999 992
0,34 0, 633 071 0, 909 877 0, 990 358 0, 999 581 0, 999 992
0,35 0, 636 830 0, 911 491 0, 990 613 0, 999 595 0, 999 993
0,36 0, 640 576 0, 913 084 0, 990 862 0, 999 610 0, 999 993
0,37 0, 644 308 0, 914 656 0, 991 105 0, 999 624 0, 999 993
0,38 0, 648 027 0, 916 206 0, 991 343 0, 999 637 0, 999 994
0,39 0, 651 731 0, 917 735 0, 991 575 0, 999 650 0, 999 994
0,4 0, 655 421 0, 919 243 0, 991 802 0, 999 663 0, 999 994
0,41 0, 659 096 0, 920 730 0, 992 023 0, 999 675 0, 999 994
0,42 0, 662 757 0, 922 196 0, 992 239 0, 999 686 0, 999 995
0,43 0, 666 402 0, 923 641 0, 992 450 0, 999 698 0, 999 995
0,44 0, 670 031 0, 925 066 0, 992 656 0, 999 709 0, 999 995
0,45 0, 673 644 0, 926 470 0, 992 857 0, 999 719 0, 999 995
0,46 0, 677 241 0, 927 854 0, 993 053 0, 999 729 0, 999 995

Marcela Ribas - Federico De Olivera


2.4 Variables Aleatorias (v.a) 75

0,47 0, 680 822 0, 929 219 0, 993 244 0, 999 739 0, 999 996
0,48 0, 684 386 0, 930 563 0, 993 430 0, 999 749 0, 999 996
0,49 0, 687 933 0, 931 887 0, 993 612 0, 999 758 0, 999 996
0,5 0, 691 462 0, 933 192 0, 993 790 0, 999 767 0, 999 996
0,51 0, 694 974 0, 934 478 0, 993 963 0, 999 775 0, 999 996
0,52 0, 698 468 0, 935 744 0, 994 132 0, 999 784 0, 999 996
0,53 0, 701 944 0, 936 991 0, 994 296 0, 999 792 0, 999 997
0,54 0, 705 401 0, 938 219 0, 994 457 0, 999 799 0, 999 997
0,55 0, 708 840 0, 939 429 0, 994 613 0, 999 807 0, 999 997
0,56 0, 712 260 0, 940 620 0, 994 766 0, 999 814 0, 999 997
0,57 0, 715 661 0, 941 792 0, 994 915 0, 999 821 0, 999 997
0,58 0, 719 042 0, 942 946 0, 995 059 0, 999 828 0, 999 997
0,59 0, 722 404 0, 944 082 0, 995 201 0, 999 834 0, 999 997
0,6 0, 725 746 0, 945 200 0, 995 338 0, 999 840 0, 999 997
0,61 0, 729 069 0, 946 301 0, 995 472 0, 999 846 0, 999 997
0,62 0, 732 371 0, 947 383 0, 995 603 0, 999 852 0, 999 998
0,63 0, 735 652 0, 948 449 0, 995 730 0, 999 858 0, 999 998
0,64 0, 738 913 0, 949 497 0, 995 854 0, 999 863 0, 999 998
0,65 0, 742 153 0, 950 528 0, 995 975 0, 999 868 0, 999 998
0,66 0, 745 373 0, 951 542 0, 996 092 0, 999 873 0, 999 998
0,67 0, 748 571 0, 952 540 0, 996 207 0, 999 878 0, 999 998
0,68 0, 751 747 0, 953 521 0, 996 318 0, 999 883 0, 999 998
0,69 0, 754 902 0, 954 486 0, 996 427 0, 999 887 0, 999 998
0,7 0, 758 036 0, 955 434 0, 996 532 0, 999 892 0, 999 998
0,71 0, 761 148 0, 956 367 0, 996 635 0, 999 896 0, 999 998
0,72 0, 764 237 0, 957 283 0, 996 735 0, 999 900 0, 999 998
0,73 0, 767 304 0, 958 184 0, 996 833 0, 999 904 0, 999 998

Marcela Ribas - Federico De Olivera


76 2. La Probabilidad y las Variables Aleatorias

0,74 0, 770 350 0, 959 070 0, 996 927 0, 999 907 0, 999 998
0,75 0, 773 372 0, 959 940 0, 997 020 0, 999 911 0, 999 998
0,76 0, 776 372 0, 960 796 0, 997 109 0, 999 915 0, 999 999
0,77 0, 779 350 0, 961 636 0, 997 197 0, 999 918 0, 999 999
0,78 0, 782 304 0, 962 462 0, 997 281 0, 999 921 0, 999 999
0,79 0, 785 236 0, 963 273 0, 997 364 0, 999 924 0, 999 999
0,8 0, 788 144 0, 964 069 0, 997 444 0, 999 927 0, 999 999
0,81 0, 791 029 0, 964 852 0, 997 522 0, 999 930 0, 999 999
0,82 0, 793 892 0, 965 620 0, 997 598 0, 999 933 0, 999 999
0,83 0, 796 730 0, 966 375 0, 997 672 0, 999 935 0, 999 999
0,84 0, 799 545 0, 967 115 0, 997 744 0, 999 938 0, 999 999
0,85 0, 802 337 0, 967 843 0, 997 813 0, 999 940 0, 999 999
0,86 0, 805 105 0, 968 557 0, 997 881 0, 999 943 0, 999 999
0,87 0, 807 849 0, 969 258 0, 997 947 0, 999 945 0, 999 999
0,88 0, 810 570 0, 969 946 0, 998 011 0, 999 947 0, 999 999
0,89 0, 813 267 0, 970 621 0, 998 073 0, 999 949 0, 999 999
0,9 0, 815 939 0, 971 283 0, 998 134 0, 999 951 0, 999 999
0,91 0, 818 588 0, 971 933 0, 998 192 0, 999 953 0, 999 999
0,92 0, 821 213 0, 972 571 0, 998 249 0, 999 955 0, 999 999
0,93 0, 823 814 0, 973 196 0, 998 305 0, 999 957 0, 999 999
0,94 0, 826 391 0, 973 810 0, 998 358 0, 999 959 0, 999 999
0,95 0, 828 943 0, 974 412 0, 998 411 0, 999 960 0, 999 999
0,96 0, 831 472 0, 975 002 0, 998 461 0, 999 962 0, 999 999
0,97 0, 833 976 0, 975 580 0, 998 510 0, 999 964 0, 999 999
0,98 0, 836 456 0, 976 148 0, 998 558 0, 999 965 0, 999 999
0,99 0, 838 912 0, 976 704 0, 998 605 0, 999 966 0, 999 999

Marcela Ribas - Federico De Olivera


2.4 Variables Aleatorias (v.a) 77

A continuación explicaremos como proceder si, en lugar de tener una variable Z,


N (0, 1), tenemos una variable X: Normal con media µ y varianza σ (N (µ, σ) , y
queremos hallar p = P [X ≤ b] .

Previamente, presentaremos algunas propiedades.

Distribución de probabilidades alrededor de la media en una variable aleatoria X


, con distribución N (µ, σ).

Notación: X ∼ N (µ, σ)

Figura 2.2: Gráfico de la densidad de la v.a. Normal de parámetros µ y σ

Algunas propiedades de la distribución Normal, X ∼ N (µ, σ) son:

1. Es simétrica respecto de su media, µ ;

2. La moda y la mediana son ambas iguales a la media, µ;

3. Los puntos de inflexión de la curva se dan para x = µ − σ y x = µ + σ.

4. Distribución de probabilidad en un entorno de la media:

a) en el intervalo [µ − σ, µ + σ] se encuentra comprendida, aproximada-


mente, el 68,26 % de la distribución;

Marcela Ribas - Federico De Olivera


78 2. La Probabilidad y las Variables Aleatorias

b) en el intervalo [µ − 2σ, µ + 2σ] se encuentra, aproximadamente, el


95,44 % de la distribución;

c) por su parte, en el intervalo [µ − 3σ, µ + 3σ] se encuentra comprendida,


aproximadamente, el 99,74 % de la distribución. Estas propiedades son
de gran utilidad para el establecimiento de intervalos de confianza. Por
otra parte, el hecho de que prácticamente la totalidad de la distribución
se encuentre a tres desviaciones tı́picas de la media justifica los lı́mites
de las tablas empleadas habitualmente en la normal estándar.

5. Si X ∼ N (µ, σ) , a y b son números reales, entonces (aX + b) ∼ N (aµ +


b, aσ).

6. Si X ∼ N (µx , σx ) e Y ∼ N (µy , σy ) son variables aleatorias normales inde-


pendientes , entonces:

a) Su suma está normalmente distribuida con


q
S = X + Y ∼ N (µx + µy , σx2 + σy2 )

b) Su diferencia está normalmente distribuida con


q
D = X − Y ∼ N (µx − µy , σx2 + σy2 )

c) Si las varianzas de X e Y son iguales, entonces S y D son independi-


entes entre sı́.

7. Si X1 , . . . , Xn son variables normales estándar independientes, entonces


X12 + · · · Xn2 sigue una distribución χ2 con n grados de libertad. Esta vari-
able aleatoria será de gran utilidad a la hora de realizar algunas pruebas de
hipótesis estadı́sticas, que se basen en medir diferencias. El cálculo de prob-
abilidades asociado a la variable χ2 se encuentra tabulado y será explicado
en el bloque temático 3.

Marcela Ribas - Federico De Olivera


2.4 Variables Aleatorias (v.a) 79

8. Si X1 , . . . , Xn son variables normales estándar independientes, entonces la


media muestral
X 1 + · · · + Xn
X̄ =
n
y la varianza muestral

[(X1 − X)2 + · · · (Xn − X)2 ]


S2 =
n−1

son independientes. Esta propiedad caracteriza a las distribuciones Nor-


males.

2.4.3. Estandarización de variables aleatorias Normales

Como consecuencia de la Propiedad 5, es posible relacionar todas las vari-


ables aleatorias normales con la distribución Normal estándar. En efecto: Si
X−µ
X ∼ N (µ, σ), entonces Z = σ
es una variable aleatoria Normal estándar:
Z ∼ N (0, 1).

La transformación de una distribución X ∼ N (µ, σ) en una v.a. Con distribución


N (0, 1) se llama normalización, estandarización o tipificación de la variable
X.

Y a la inversa: si Z es una distribución Normal estándar Z ∼ N (0, 1), entonces

X = σZ + µ

es una variable aleatoria Normal tipificada de media µ y varianza σ 2 .

Como la distribución Normal estándar está tabulada y las otras distribuciones


Normales pueden obtenerse como transformaciones simples de la distribución
estándar, como se describe más arriba, se pueden usar los valores tabulados de
la función de distribución normal estándar para encontrar valores de la función
de distribución de cualquier otra distribución Normal.

Marcela Ribas - Federico De Olivera


80 2. La Probabilidad y las Variables Aleatorias

Ejemplo: Si X ∼ N (1, 2), y deseo calcular la P [X < 2], entonces planteo

X −1 2−1 1 tabla
P [X ≤ 2] = P [ ≤ ] = P [Z ≤ ] = 0,691462
2 2 2

Otros ejemplos se presentarán en el práctico.

Marcela Ribas - Federico De Olivera


2.5 Ejercicios 81

2.5. Ejercicios

1. En una universidad de Argentina, el 50 % de los alumnos habla inglés, el


20 % francés y el 5 % los dos idiomas. ¿Cuál es la probabilidad de encontrar
alumnos que hablen alguna lengua extranjera?

2. El 60 % de los individuos de una población están vacunados contra una


cierta enfermedad. Durante una epidemia se sabe que el 20 % la ha contraı́do
y que 2 de cada 100 individuos están vacunados y son enfermos. Calcular el
porcentaje de vacunados que enferma y el de vacunados entre los que están
enfermos.

3. Dos tratamientos A y B curan una determinada enfermedad en el 20 % y


30 % de los casos, respectivamente. Suponiendo que ambos actúan de modo
independiente, cuál de las dos siguientes estrategias utilizar para curar a
un individuo con tal enfermedad:

a) Aplicar ambos tratamientos a la vez.

b) Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.

4. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar


un control antidopaje; Se sabe que 2 de los jugadores del equipo han tomado
sustancias prohibidas. ¿Cuál es la probabilidad de elegir para el análisis a
alguno de los infractores?

5. Estamos interesados en saber cuál de dos análisis A y B es mejor para


el diagnóstico de una determinada enfermedad, de la cual sabemos que la
presentan un 10 % de individuos de la población. El porcentaje de resultados
falsos positivos del análisis A es del 15 % y el de B es del 22 %. El porcentaje
de falsos negativos de A es del 7 % y de B es del 3 %.

¿Cuál es la probabilidad de acertar en el diagnóstico con cada método?

Marcela Ribas - Federico De Olivera


82 2. La Probabilidad y las Variables Aleatorias

6. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal técnica


tiene una sensibilidad del 91 % y una especificidad del 98 %. En la población
que nos ocupa la probabilidad de colelitiasis es del 20 %.

a) Si a un individuo de tal población se le aplican los ultrasonidos y dan


positivos, ¿cuál es la probabilidad de que sufra la colelitiasis?

b) Si el resultado fuese negativo, ¿cuál es la probabilidad de que no tenga


la enfermedad?

Sugerencia: Siendo T + el evento “el diagóstico es positivo” y E el evento


“el paciente está enfermo”, el teorema de Bayes nos dice que:

P (T + |E)P (E)
P (E|T + ) =
P (T + |E)P (E) + P (T + |E c )P (E c )
De ahora en más tenerlo presente.

7. Entre los estudiantes de una Facultad se dan las siguientes proporciones:


el 40 % son hombres. El 70 % de los varones fuman, mientras que entre
las mujeres sólo fuman el 20 %. Escogido un estudiante al azar, calcular la
probabilidad de que fume.

Sugerencia: Siendo H el suceso “el estudiante es Hombre”, F “el estudiante


fuma”, análogo para mujer (M) y no fuma (F c ), el Teorema de probabili-
dades Totales nos dice:

P (F ) = P (F |H)P (H) + P (F |M )P (M )

De ahora en más tenerlo presente.

8. Los estudios epidemiológicos indican que el 20 % de los ancianos sufren un


deterioro neuropsicológico. Sabemos que la tomografı́a axial computerizada
(TAC) es capaz de detectar este trastorno en el 80 % de los que lo sufren,
pero que también da un 3 % de falsos positivos entre personas sanas. Si

Marcela Ribas - Federico De Olivera


2.5 Ejercicios 83

tomamos un anciano al azar y da positivo en el TAC, ¿cuál es la probabil-


idad de que esté realmente enfermo?

9. Una enfermedad puede estar producida por tres virus: A, B, o C. En el


laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B
y 5 tubos con el virus C. La probabilidad de que el virus A produzca la
enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el
virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad.
¿Cuál es la probabilidad de que el virus que se inocule sea el C?

10. El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba


otra asignatura B. Sabemos, además, que un 35 % del total aprueba ambas.

Elegido un estudiante al azar, calcular las probabilidades de las siguientes


situaciones:

a) Haya aprobado la asignatura B, sabiendo que ha aprobado la A.

b) Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A.

c) No haya aprobado la asignatura B, sabiendo que ha aprobado la A.

d ) No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.

11. En un campus universitario existen 3 carreras sanitarias. Se sabe que el


50 % cursan estudios de Enfermerı́a el 30 % Medicina y el 20 % Veterinaria.
Los que finalizaron sus estudios son el 20, 10 y 5 % respectivamente. Elegido
un estudiante al azar, hallar la probabilidad de que haya acabado la carrera.

12. En una mutualista, sucede que muchas veces un individuo enfermo es di-
agnosticado como sano y a veces uno sano es diagnosticado como enfermo.
Las estadı́sticas de datos se resumen en el siguiente cuadro:

Enfermo Sano

Diagnosticado enfermo 89 12
Diagnosticado sano 11 388

Marcela Ribas - Federico De Olivera


84 2. La Probabilidad y las Variables Aleatorias

Calcular las siguientes probabilidades:

a) Que un individuo esté enfermo.

b) Que un individuo esté sano.

c) Que un individuo sano sea diagnosticado como enfermo.

d ) Que un individuo enfermo sea diagnosticado como sano.

e) Que a un individuo le den un diagnóstico errado.

f ) Que un individuo, diagnosticado como sano, esté enfermo.

g) Que un individuo, diagnosticado como enfermo, esté sano.

13. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede


suponerse de distribución aproximadamente normal, con media 106 mg/100
ml y desviación tı́pica 8 mg/100 ml.

a) Hallar P [X ≤ 112].

b) ¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 102


y 112 mg/100 ml.

c) Hallar P [106 ≤ X ≤ 110].

d ) Hallar P [X ≤ 115].

e) Hallar el punto x caracterizado por la propiedad de que el 75 % de


todos los diabéticos tiene un nivel de glucosa en ayunas inferior o
igual a x.

f ) Hallar el punto x caracterizado por la propiedad de que el 25 % de


todos los diabéticos tiene un nivel de glucosa en ayunas inferior o
igual a x.

14. Se supone que la glucemia basal en individuos sanos, Xs , sigue una dis-
tribución Normal con µs = 80 y σs = 10, mientras que en los diabéticos,

Marcela Ribas - Federico De Olivera


2.5 Ejercicios 85

Xd , sigue una distribución Normal con media µd = 160 y σd = 31, 4. Si se


conviene en clasificar como sanos al 2 % de los diabéticos (con valores más
bajos):

a) ¿Por debajo de qué valor xs se considera sano a un individuo


diabético?.

b) Si un individuo sano tiene un valor de glucemia mayor a xs es con-


siderado diabético. ¿Qué porcentaje de sanos serán clasificados como
diabéticos?.

c) Se sabe que en la población en general el 10 % de los individuos son


diabéticos ¿cuál es la probabilidad de que un individuo elegido al azar
y diagnosticado como diabético, realmente lo sea?

15. Se supone que en una cierta población humana el ı́ndice cefálico I, (co-
ciente entre el diámetro transversal y el longitudinal expresado en tanto
por ciento), se distribuye según una Normal. El 58 % de los habitantes son
dolicocéfalos (I ≤ 75), el 38 % son mesocéfalos (75 < I ≤ 80) y el 4 %
son braquicéfalos (i > 80). Hallar la media y la desviación tı́pica del ı́ndice
cefálico en esa población.

16. Se está llevando a cabo un estudio que pretende descubrir cuál es el nivel
del tabaquismo en la Universidad.

Analizando datos, se descubre que la cantidad promedio de cigarrillos fuma-


dos diariamente por los estudiantes es de 15,2 cigarrillos con una desviación
standard de 9,5 cigarrillos. Asimismo se encuentra que tiene distribución
Normal.

Suponga que una caja chica (una cajilla) tiene 10 cigarrillos.

a) ¿ Cuál es la probabilidad de que una persona no termine una cajilla a


diario?.

Marcela Ribas - Federico De Olivera


86 2. La Probabilidad y las Variables Aleatorias

b) ¿ Cuál es la probabilidad de que fume más de media cajilla diaria ?.

c) Al 30 % las personas que consumen más cigarrillos se les realiza un


estudio posterior, para analizar el origen de su tabaquismo. Por lo
tanto serán analizadas aquellas personas que fuman.............................
cigarrillos por dı́a.

Marcela Ribas - Federico De Olivera


2.6. Anexo: Esperanza matemática y Varianza

2.6.1. Distribución de Probabilidad de la variable aleato-


ria X

Para las v. a. discretas, se define la función de cuantı́a PX (x).

Es una función tal que, a cada valor que toma la v.a. X, le asigna su
probabilidad.
PX (x) = P (X = x)

Para las v. a. continuas, se define la función de densidad fX (x).

En este curso no nos ocuparemos de esta función, por requerir cálculos


matemáticos avanzados.

Propiedades que cumplen PX (x) y fX (x)

1. 0 ≤ PX (x) ≤ 1 ∀x ∈ Rec(X)

fX (x) ≥ 0 ∀x ∈ R
P
2. x∈Rec(X) PX (x) = 1
R +∞
−∞
fX (x)dx = 1

2.6.2. Esperanza de X: E(X)

Esperanza ( o valor medio, o media poblacional, o valor esperado ) de una v. a.


X es el “promedio ponderado” de los valores que toma la v. a. X.
88 2. La Probabilidad y las Variables Aleatorias

En las v. a. discretas, los valores x son ponderados por sus probabilidades.


X
E(X) = PX (x)
x∈Rec(X)

En las v. a. continuas, los valores x son ponderados por la función de den-


sidad. Z ∞
E(X) = x · fx (x)dx
−∞

2.6.3. Varianza de X: V ar(X)

Varianza de una v. a. X: es el promedio ponderado de las


desviaciones al cuadrado, de todos los valores que toma la v. a. X, respecto a
su esperanza.

cuentas
V ar(X) = E[(X–E(X))2 ] = E(X 2 ) − E(X)2

En las v. a. discretas, los valores x son ponderados por sus probabilidades.

X h X i h i2
2 2
V ar(X) = (x−E(X)) ·P (X = x) = x ·P (X = x) − E(X)
x∈Rec(X) x∈Rec(X)

¿ Cómo calculo E(X 2 ) ? . Para v. a. discretas:


X
E(X 2 ) = x2 · P (X = x)
x∈Rec(X)

En las v. a. continuas, los valores x son ponderados por la función de den-


sidad. Z +∞
V ar(X) = (x − E(X))2 · fx (x)dx
−∞

Dado el grado de difultad matemático la definición para v.a. continuas es


sólo a los efectos ilustrativos.

Marcela Ribas - Federico De Olivera


2.6 Anexo: Esperanza matemática y Varianza 89

Propiedades de la Varianza de X

1. V ar(a) = 0 , para toda constante a

2. V ar(a · X) = a2 · V ar(X)

3. Si X e Y son v. a. independientes V ar(X + Y ) = V ar(X) + V ar(Y ) .

No podemos interpretar el valor de la varianza de X, pues no tiene interpretación


en sı́ misma , por ser una magnitud expresada en unidades al cuadrado (recordar
Estadı́stica Descriptiva). Para poder interpretar, debemos tomar la raı́z cuadrada-
da de la varianza, es decir: la desviación standard (o desviación tı́pica ).

Propiedades de la esperanza de X

1. E(a) = a , para toda constante1 a.

2. E(a · X) = a · E(X), para toda constante a y toda variable aleatoria X.

3. E(X + Y ) = E(X) + E(Y ), para todo par de variables aleatorias X e Y .

p
Desvı́o standard de X: V ar(X)

Es un “tipo de promedio ponderado” de las desviaciones, de todos los valores que


toma la v. a. X, respecto a su esperanza (E(X) ).

De acuerdo con esta definición, el desvı́o standard se calcula tomando la raı́z


cuadrada de la varianza.
1
Una constante es pensada como una variable aleatoria que con probabilidad 1 tomo siempre
el mismo valor

Marcela Ribas - Federico De Olivera


90 2. La Probabilidad y las Variables Aleatorias

2.7. Algunas variables aleatorias

2.7.1. Variable aleatoria Uniforme Discreta

Es una variable discreta cuyo recorrido es un conjunto finito de puntos, y cumple,


además, que cada punto de su recorrido tiene igual probabilidad.

Si X es una variable uniforme discreta toma valores en el conjuto {x1 , x2 , . . . , xn },


o sea está compuesto por n puntos, entonces cumplirá que:

1
P (X = x1 ) =
n
1
P (X = x2 ) =
n
..
.
1
P (X = xn ) =
n
P (X = x) = 0 si x 6∈ {x1 , x2 , . . . , xn }

Ejemplos:

1. X1 = número que sale en la cara superior al tirar un dado.

Rec(X1 ) = {1, 2, . . . , 6}.

P (X1 = 1) = 1/6, . . . , P (X1 = 6) = 1/6

2. X2 = número que sale al sacar una carta de una baraja española (sin
comodines).

Marcela Ribas - Federico De Olivera


2.7 Algunas variables aleatorias 91

Rec(X2 ) = 1, 2, . . . , 12.

P (X2 = 1) = 4/48 = 1/12, . . . , P (X2 = 12) = 1/12

2.7.2. Variable aleatoria Bernoulli

La variable aleatoria Bernoulli surge a partir de un determinado experimento


aleatorio, del cual pueden resultar sólo dos situaciones:

1. un éxito E, con probabilidad p

2. o un fracaso F = E C , con probabilidad 1–p.

A partir de lo anterior, se define la variable aleatoria de Bernoulli ( X ) como:


 1 si sucede éxito (E)
X=
 0 si sucede fracaso (F )

La función de probabilidad de esta variable es, entonces:

P (X = 1) = P (E) = p

P (X = 0) = P (F ) = 1 − p

Esperanza y varianza de una v.a. Bernoulli

P
E(X) = x∈Rec(X) x · P (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = p

P   2
V ar(X) = x∈Rec(X) x2 · P (X = x) − E(X) = p − p2 = p(1 − p)

En resumen, si X ∼ Bernoulli(p), entonces E(X) = p y V ar(X) = p(1 − p).

Marcela Ribas - Federico De Olivera


92 2. La Probabilidad y las Variables Aleatorias

2.7.3. Variable aleatoria Binomial

El esquema de la variable aleatoria Binomial consta de los siguientes elementos:

1. Un experimento aleatorio, del cual pueden resultar:

a) un éxito E, con probabilidad p

b) o un fracaso F = E C , con probabilidad (1–p)

2. Un número n de repeticiones del experimento anterior, realizadas:

a) de forma independiente

b) y siempre en las mismas condiciones.

La v. a. Binomial X se define como

X =“ cantidad de éxitos (E) en los n experimentos realizados”.

Observación: ¿ Qué tipo de v. a. es ?.


Analicemos su recorrido: Rec(X) = 0, 1, 2, ..., n. Por lo tanto, como es un conjunto
finito, la v. a. Binomial es una v. a. discreta.

¿Cuál es la distribución de probabilidad para la v.a. Binomial X?

Al ser X una v. a. discreta, tiene función de cuantı́a PX (i) = P (X = i), la cual


puede calcularse por medio de cálculos combinatorios de conteo:

PX (i) = P (X = i) = Cin · pi (1 − p)n−i

n! n·(n−1)·(n−2)···3·2·1
donde i ∈ Rec(X) y Cin = (n−i)!i!
= [(n−i)·(n−i−1)·(n−i−2)···3·2·1][i·(i−1)·(i−2)···3·2·1]

Ejemplo:

Marcela Ribas - Federico De Olivera


2.7 Algunas variables aleatorias 93

Tiro un dado tres veces ¿ Cuál es la probabilidad de que me salga sólo un seis en
las tres tiradas ?

Vamos a analizarlo, sin usar la fórmula de la v. A. Binomial (en forma explı́cita):

1. El seis puede salir en cualquiera de las tres tiradas; entonces los eventos que
me sirven son:

A : 6, 6= 6, 6= 6

B : 6= 6, 6, 6= 6

C : 6= 6, 6= 6, 6

2. Como las tiradas son independientes, entonces:

P (A) = P (“6 en la 1ra tirada” y “no 6 en la 2da tirada” y “ no 6 en la 3ra tirada”)


indep
= P (“6 en la 1ra tirada”) · P (“no 6 en la 2da tirada”) · P (“ no 6 en la 3ra tirada”)
 1  2
1 5 5 1 5
= · · = ·
6 6 6 6 6

De la misma forma se obtiene:

 1  2
5 1 5 1 5
P (B) = · · = ·
6 6 6 6 6
 1  2
5 5 1 1 5
P (C) = · · = ·
6 6 6 6 6

3. Por lo tanto, la probabilidad de que me salga sólo un seis en las tres tiradas es :
 1  2
mutuamente 1 5
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) = 3 · ·
excluyentes 6 6

Otra forma: usando la v.a. Binomial.

Antes que nada , analizo si estoy en presencia de un experimento Binomial:

Marcela Ribas - Federico De Olivera


94 2. La Probabilidad y las Variables Aleatorias

1. Existe un experimento aleatorio, que consiste en tirar una vez el dado, en


el cual hay dos resultados posibles:

un éxito E: si sale un seis, con probabilidad p = 1/6

o un fracaso F = E C = “si no sale un seis” , con probabilidad (1−p) =


5/6

2. Un número n = 3 de repeticiones del experimento anterior, realizadas :

de forma independiente, pues el resultado de una tirada no condiciona


los resultados de las tiradas siguientes.

y siempre en las mismas condiciones, pues supongo que el dado no se


carga con las sucesivas tiradas; es decir, la probabilidad de que salga
un seis, es siempre 1/6 .

Entonces, la probabilidad de que me salga sólo un seis en las tres tiradas ,


es

 1  3−1  1  2
1 1 1 5
PX (1) = P (X = 1) = C1n ·p1 (1−p)n−1 = C13 · · 1− = 3· ·
6 6 6 6

igual a lo calculado antes.

Esperanza y varianza de una v.a. Binomial

Sea X una v. a. Binomial con parámetros p = probabilidad de Éxito, y n =


cantidad de repeticiones. Se demuestra que X puede ser representada por una
suma de n variables Bernoulli de parámetro p todas independientes, es decir:

X = X1 + X2 + · · · + Xn

Marcela Ribas - Federico De Olivera


2.7 Algunas variables aleatorias 95

donde X ∼ Binomial(n, p), y X1 , X2 , . . . , Xn son Bernoulli(p) todas independi-


entes.

Ahora, usando las propiedades de la esperanza y la varianza tenemos:

1.

E(X) = E(X1 + X2 + · · · + Xn )

= E(X1 ) + E(X2 ) + · · · + E(Xn ))

= p + p + ··· + p

= n·p

2.

V ar(X) = V ar(X1 + X2 + · · · + Xn )
indep
= V ar(X1 ) + V ar(X2 ) + · · · + V ar(Xn ))

= p(1 − p) + p(1 − p) + · · · + p(1 − p)

= n · p(1 − p)

En resumen, si X ∼ Binomial(n, p), entonces E(X) = n·p y V ar(X) = n·p(1−p).

2.7.4. Variablea aleatorias continuas

Variable aleatoria Normal

Una v. a. X se distribuye Normal, con esperanza E(X) = µ, µ ∈ R y varianza


V ar(X) = σ 2 , σ ∈ R+ , si su función de densidad es: fX : R → R tal que

1
fX (x) = √ −1 (x−µ)2
·
2πσ · e 2 σ2

Marcela Ribas - Federico De Olivera


96 2. La Probabilidad y las Variables Aleatorias
p
Notación: Siendo σ = V ar(X) el desvı́o standard de X, anotamos X ∼
N (µ, σ) para indicar que X es una v.a. Con distribución normal y cuya esperanza
es µ y su desvı́o standard es σ.

Vale aclarar que algunos autores prefieren poner en el segundo parámetro la


varianza en lugar del desvı́o standard, en todo caso hay que estar atento a la
bibliografı́a a leer.

NOTA: µ es el parámetro de posición y puede ser un número real cualquiera, σ


es el parámetro de dispersión y debe ser un número real positivo.

Distribución Normal Standard o Tipificada

Una v. a. Z se distribuye Normal Standard, o sea si sus parámetros son cero y


uno respectivamente, es decir: Z ∼ N (0, 1).

Es inmediato deducir que E(Z) = 0 y V ar(Z) = 1.

La función de densidad de la v.a. Normal estándard es φ : R → R tal que

1 1 2
φ(x) = · e− 2 ·x

Observación: ¿ Cómo calculo probabilidades con la v.a. Z, con Z ∼ N (0, 1) ?

Teóricamente, deberı́amos efectuar el cálculo:


Z a Z a
1 1 2
P (Z ≤ a) = φ(x)dx = · e− 2 ·x dx
−∞ −∞ 2π

Pero ello es imposible incluso con cálculo avanzado, en lugar de ello, buscamos el
resultado en la tabla de la variable Normal Standard, de la forma explicada en el
bloque temático 2.

Marcela Ribas - Federico De Olivera


2.7 Algunas variables aleatorias 97

2.7.5. Teorema de De Moivre – Laplace

Aproximación de la distribución Binomial, por la distribución Nor-


mal

Sea X una v.a. Con X ∼ Binomial(n, p), por lo tanto E(X) = np y V ar(X) =
np(1 − p)

Entonces, la v. a.
X − np
Y =p
np(1 − p)
tiende a la Normal standard (Z ∼ N (0, 1)), conforme el número de ensayos
independientes n tiende al infinito.

Esquemáticamente: Si X ∼ Binomial(n, p), entonces

X − np n→∞
p → Z ∼ N (0, 1)
np(1 − p)

Este teorema es útil, pues cuando el n es grande, puede ser engorroso hacer los
cálculos con la fórmula de la cuantı́a Binomial.

2.7.6. Otras variables aleatorias continuas

Otras variables aleatorias continuas, muy útiles en Inferencia Estadı́stica son:

variable aleatoria t de Student: se utiliza en el test de hipótesis sobre


la media, cuando la varianza es desconocida.

variable aleatoria chi2 : se utiliza en el test de hipótesis sobre la varianza,


en la comparación de medias entre dos poblaciones Normales y en el test
de independencia, entre otros.

Marcela Ribas - Federico De Olivera


98 2. La Probabilidad y las Variables Aleatorias

variable aleatoria F: se utiliza en el análisis de varianzas entre dos pobla-


ciones Normales.

Su análisis práctico será tratado al presentarse cada test estadı́stico, en el bloque


temático 3. Su análisis teórico no se presenta, pues su desarrollo matemático es
muy complejo.

2.8. Artı́culo: Pruebas diagnósticas

A continuación se presenta el artı́culo sobre pruebas diagnósticas, escrito por Pita


Fernández y Pértegas Dı́az, de la Unidad de Epidemiologı́a Clı́nica y Bioestadı́sti-
ca del Complexo Hospitalario-Universitario Juan Canalejo, La Coruña (España).

Marcela Ribas - Federico De Olivera


Investigación: Pruebas diagnósticas 1/6

Pruebas diagnósticas
Pita Fernández, S. spita@canalejo.org, Pértegas Díaz, S. spertega@canalejo.org
Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo.
A Coruña (España)
Cad Aten Primaria 2003; 10: 120-124.
Actualización 14/07/2003.
__________________________________

La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre


se extiende no sólo a las actividades preventivas, terapéuticas y pronósticas sino también a las
diagnósticas. En las fases del proceso diagnóstico intervienen la historia clínica, la exploración física y la
realización de pruebas complementarias1-2. Cuando existen varias hipótesis diagnósticas, se realizará el
diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si
solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. La
realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en
paralelo y la realización de pruebas complementarias según los resultados de otras previas, se denomina
pruebas complementarias en serie. Al realizar pruebas en paralelo aumenta la probabilidad de
diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano.
El riesgo de la realización de pruebas en serie es no diagnosticar a algunos enfermos. En cambio, pocos
sanos serán considerados como enfermos.

Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y
negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son3:

• Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia
el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos?
La sensibilidad y la especificidad de un test son medidas de su validez.
• Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite
su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la
introducida por el propio observador y la derivada del propio test, determinan su
reproductividad.
• Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o
negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un
resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de
la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la
prevalencia de la patología.

A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población
general, que tenga los mínimos efectos adversos y que económicamente sea soportable.

En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez de un test
(sensibilidad y especificidad) y su seguridad (valores predictivos positivos y negativos).

La validez de una prueba diagnóstica. Sensibilidad y especificidad.

El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada
paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En
casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un
resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos
obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra
en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los
pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que
vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo)
o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los
valores de sensibilidad y especificidad4:

www.fisterra.com Atención Primaria en la Red


Investigación: Pruebas diagnósticas 2/6

Sensibilidad

Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que


para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la
capacidad del test para detectar la enfermedad.

Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se
muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes
enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir:

VP
Sensibilid ad =
VP + FN

De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”.

Especificidad

Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para


un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como
la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría
como:

VN
Especifici dad =
VN + FP

De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”.

Ejemplo:

Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se incluyó a 2.641
pacientes con sospecha de cáncer prostático que acudieron a una consulta de Urología durante un periodo
de tiempo determinado. Durante su exploración, se recogió el resultado del tacto rectal realizado a cada
uno de estos pacientes, según fuese éste normal o anormal, y se contrastó con el posterior diagnóstico
obtenido de la biopsia prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla
2. Se encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos
estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56% (634/1121) y la
especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un 56,56% de los casos de cáncer
prostático y normal en un 82,3% de los casos que presentaron finalmente otras patologías. Esto significa
que un 100-56,56=43,44% de los pacientes que efectivamente tenían cáncer presentaban tactos normales.
Claramente ello indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus
derivados, para poder establecer el diagnóstico de forma más precisa.

Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad,
pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para
poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos
casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con
enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que
un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo,
la realización de mamografía en el cáncer de mama).

Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto
sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de
alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en
enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por
conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no
padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en
el caso del SIDA).

www.fisterra.com Atención Primaria en la Red


Investigación: Pruebas diagnósticas 3/6

La seguridad de una prueba diagnóstica. Valores predictivos.

Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba
diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la
especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto
(positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin
embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori
acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un
resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente
enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una
dirección. Por medio de los valores predictivos completaremos esta información5:

Valor predictivo positivo:

Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor


predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado
positivo en la prueba que finalmente resultaron estar enfermos:

VP
VPP =
VP + FP

Valor predictivo negativo:

Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima
dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la
prueba:

VN
VPN =
FN + VN

Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en este caso del
70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738). Ello significa que en un
70,21% de los pacientes con un tacto anormal finalmente se confirmó la presencia de cáncer, mientras
que de los que no se detectaron anomalías en el tacto un 71,98% estaban efectivamente sanos.

La influencia de la prevalencia.

Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez
de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora
de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja
adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez
independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica.

Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar
decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de
que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto
de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la
enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un
resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo.

Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han
confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%.
Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000
habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una
prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos,
obteniéndose un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos con
un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los

www.fisterra.com Atención Primaria en la Red


Investigación: Pruebas diagnósticas 4/6

mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la
utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría.

Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de
enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un
800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a
un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la
prevalencia es alta, un resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que
si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia.

Razones de probabilidad

Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por
lo tanto, éstos , no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos
diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello,
resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no
dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de
sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de
verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto más probable
es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad:

• Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula


dividiendo la probabilidad de un resultado positivo en los pacientes enfermos entre la
probabilidad de un resultado positivo entre los sanos. Es, en definitiva, el cociente entre la
fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad):

Sensibilidad
RV + =
1 - Especificidad

• Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula


dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la
probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el
cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos
negativos (especificidad):

1 - Sensibilidad
RV − =
Especificidad

Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer prostático a partir
del tacto rectal. En este caso, se obtiene un cociente de probabilidades positivo de 3,20. Ello viene a
indicarnos que un tacto anormal es, por lo tanto, 3 veces más probable en un paciente con cáncer
prostático que en otro sujeto sin cáncer.
La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una
prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una
nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal
o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la
especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre
diferentes pruebas para un mismo diagnóstico.

Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo),
pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro
numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a
estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una
clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La
diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de
sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares
correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en

www.fisterra.com Atención Primaria en la Red


Investigación: Pruebas diagnósticas 5/6

representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los
posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha
curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la
prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer
comparaciones entre diferentes pruebas diagnósticas7-10.

En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas
diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad
y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva
de un test11,12. Los estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener
esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este
tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una
vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices
calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la
forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la
presencia de sesgos11,13,14.

Bibliografía

1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la
medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary test.
Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University
Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity. BMJ
1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994; 309:
102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios: a
real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. [Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación de las
pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental
evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic
plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5(4):
229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed
Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed. Baltimore:
Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en
cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline] [Texto completo]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997;
315: 540-543. [Medline] [Texto completo]

Tabla 1. Relación entre el resultado de una prueba diagnóstica y la


presencia o ausencia de una enfermedad.
Verdadero diagnóstico
Resultado de la prueba
Enfermo Sano
Verdaderos Positivos Falsos Positivos
Positivo
(VP) (FP)
Falsos Negativos Verdaderos Negativos
Negativo
(FN) (VN)

www.fisterra.com Atención Primaria en la Red


Investigación: Pruebas diagnósticas 6/6

Tabla 2. Resultados de la exploración y biopsia prostática de una muestra


de pacientes con sospecha de cáncer de próstata.
Resultado del Resultado de la biopsia prostática
tacto rectal Cáncer Patología benigna Total
Anormal 634 269 903
Normal 487 1251 1738
Total 1121 1520 2641

Tabla 3. Resultados de la aplicación del test de VIH en una población de


baja prevalencia.
Verdadero diagnóstico
Resultado del test
VIH+ VIH- Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000

Tabla 4. Resultados de la aplicación del test de VIH en una población de


alta prevalencia.
Verdadero diagnóstico
Resultado del test
VIH+ VIH- Total
Positivo 796.000 10.000 806.000
Negativo 4.000 1.990.000 1.994.000
Total 800.000 2.000.000 2.800.000

www.fisterra.com Atención Primaria en la Red


Bloque temático 3

La Inferencia Estadı́stica

Objetivo:

El tercer bloque presenta a la Inferencia Estadı́stica, a través de algunos de sus


instrumentos, y tiene el objetivo de mostrar el poder que tiene la Estadı́stica
como ciencia que busca crear conocimiento acerca de la realidad.

3.1. Introducción:

La Inferencia Estadı́stica se basa en la información particular que brinda la


muestra; información que es resumida por la Estadı́stica Descriptiva y, con la
ayuda de la teorı́a de las Probabilidades, busca hacer una afirmación general
acerca de la población. Si esta afirmación involucra un valor fijo caracterı́stico
de la población (parámetro), estamos en el ámbito de la Inferencia Estadı́stica
Paramétrica. Cuando no sea ası́, trataremos con las herramientas de la Inferencia
Estadı́stica no Paramétrica, por ejemplo cuando buscamos saber si dos variables
están relacionadas o en cambio, son independientes.

Marcela Ribas - Federico De Olivera


106 3. La Inferencia Estadı́stica

Cada una de estas Inferencias presenta diversos test o pruebas de hipótesis, cuyos
complejos mecanismos serán sintetizados y presentados a través de ejemplos, a
fin de facilitar la comprensión del estudiante.

3.2. La Inferencia Estadı́stica Paramétrica

Lo primero es acercarnos informalmente al concepto de estimación: para nosotros


estimar será “calcular aproximadamente siguiendo las reglas de la Inferencia
Estadı́stica”.

Un ejemplo de Estadı́stica Paramétrica lo tenemos cuando queremos “estimar”


la media de una población: lo primero que hacemos es tomar un conjunto de n
observaciones de esa población y calculamos la media de esas observaciones. Un
valor calculado a partir de una muestra, tal como la media de la muestra, se llama
estadı́stico. En otras palabras un estadı́stico es una función de observaciones de
la muestra.

3.2.1. Parámetro vs Estadı́stico

Debemos diferenciar entre un estadı́stico y un parámetro de población. Para


hacerlo, usamos con frecuencia los términos media de la muestra (X̄) y media
de la población (µ), en lugar de usar simplemente media. Un parámetro de la
población tiene un cierto valor constante, pero no se conoce en realidad.

Por otra parte, podemos calcular un estadı́stico a partir de la muestra, pero el es-
tadı́stico variará de muestra a muestra. Aunque quisiéramos conocer el parámetro
de la población, observamos solamente muestras obtenidas de la población. Por

Marcela Ribas - Federico De Olivera


3.2 La Inferencia Estadı́stica Paramétrica 107

lo tanto , tenemos que estimar el parámetro de la población, a partir de un


estadı́stico.

¿ Cómo podrı́amos hacer para tener una idea aproximada del valor de µ, la media
poblacional de la variable X ? Considerando una muestra de tamaño n, evaluando
Xi en cada uno de ellos y calculando el valor de X̄

¿ Por qué X̄?. Porque es un “buen estimador” del valor desconocido µ, pues
tiene buenas propiedades, entre ellas que “los valores de X̄ (correspondientes a
las distintas muestras) no se alejan, en promedio demasiado” del verdadero valor
de µ.

Ahora, ¿qué podemos decir del valor de µ, conociendo el valor de X̄?. No podemos
decir tan rápidamente que coinciden, pues en una muestra la información es
parcial. Nos acercaremos a la respuesta, conociendo la distribución de X̄ como
variable aleatoria. En la Figura siguiente se muestra el camino a seguir para
estimar la media de la población.

3.2.2. Distribuciones de algunos Estadı́sticos

En la Inferencia Estadistica debemos conocer la distribución de probabilidades de


varios estadı́sticos. Para acercarnos a la idea de estas distribuciones, realizamos
un experimento de muestreo: por ejemplo, usando una computadora generamos
un conjunto de n = 5 observaciones de una variable aleatoria X, con distribución
Normal, con esperanza 50 y varianza 22 ; y calculamos X̄ , Z y T donde

Marcela Ribas - Federico De Olivera


108 3. La Inferencia Estadı́stica

Figura 3.1: Esquema de estimación

√ (X̄ − µ)
Z = n
σ

√ (X̄ − µ)
T = n
S0

siendo S 0 , la raı́z cuadrada de S 02 , la cuasivarianza muestral, estadı́stico que


definiremos pronto.

Repetimos los anteriores cálculos 10.000 veces. De esta manera tendremos 10.000
observaciones de los estadı́sticos X̄, Z y T . La siguiente tabla muestra los
primeros 10 casos y a continuación está el gráfico de los histogramas de las 10.000
observaciones de los estadı́sticos mencionados: allı́ podremos observar el contorno
de la distribución de cada uno de ellos.

Marcela Ribas - Federico De Olivera


3.2 La Inferencia Estadı́stica Paramétrica 109

N ro X1 X2 X3 X4 X5 X̄ Z T

1 51,211 49,354 50,188 54,322 45,428 50,101 0,112413 0,069844


2 50,973 50,214 50,019 48,069 47,735 49,402 −0,668633 −0,941755
3 49,686 49,305 49,690 50,055 48,630 49,473 −0,588893 −2,177293
4 47,132 51,674 54,448 50,065 53,702 51,404 1,569804 1,066539
5 48,283 48,706 53,621 51,713 52,172 50,899 1,004885 0,870111
6 49,627 50,567 51,059 49,848 52,029 50,626 0,700043 1,443663
7 53,001 45,007 51,038 52,913 50,581 50,508 0,568062 0,348364
8 47,056 47,349 50,346 50,156 49,707 48,923 −1,204446 −1,514269
9 52,669 45,245 50,407 49,501 53,309 50,226 0,252742 0,158192
10 50,646 51,328 53,196 49,756 49,672 50,920 1,028452 1,424934
.. .. .. .. .. .. .. .. ..
. . . . . . . . .

Figura 3.2: Histograma del estadı́stico X̄

Marcela Ribas - Federico De Olivera


110 3. La Inferencia Estadı́stica

Figura 3.3: Histograma del estadı́stico Z

Figura 3.4: Histograma del estadı́stico T

Marcela Ribas - Federico De Olivera


3.2 La Inferencia Estadı́stica Paramétrica 111

3.2.3. Distribución de X̄

De la figura 3.2 podemos ver que:

a) X̄ se distribuye simétricamente alrededor de su media, dando la apariencia


de una distribución Normal.

b) La media de X̄ (igual a 50,0023) se acerca mucho a la media de la población


( µ = 50).

c) La desviación standard de X̄ (igual a 0,9011) se acerca √1 “veces” por la


n

desviación standard de la población (2/ 5 = 0, 8944).

Todas estas observaciones nos lleva a presentar los siguientes teoremas que gen-
eralizan los resultados.

Estos teoremas, por lo general, se cumplen: depende fundamentalmente de la


forma en que extraigamos nuestra muestra. Pero, como los distintos tipos de
muestreos no es un tema que abordaremos con detalle en este curso, sólo di-
remos que estos resultados se verifican cuando los muestreos se realizan sobre
poblaciones muy grandes, como es el caso de las investigaciones biológicas.

Teorema 1
Supongamos que X1 , X2 , . . . , Xn es una muestra de n observaciones de la variable
X en una población con una media µ y una varianza σ 2 , y que X̄ es la media de
la muestra. Entonces el valor esperado, la varianza y la desviación standard de
X̄, son respectivamente:

E(X̄) = µ
σ2
V ar(X̄) =
n
σ
q
V ar(X̄) = √
n

Marcela Ribas - Federico De Olivera


112 3. La Inferencia Estadı́stica

Teorema 2
Supongamos que X1 , X2 , ..., Xn es una muestra de n observaciones de la variable
X que tiene, en la población, una distribución de probabilidades Normal (µ, σ 2 )
y X̄ es la media de la muestra.
Entonces, X̄ se distribuye Normal de parámetros (µ, σ 2 /n), es decir,

σ2
 
X̄ ∼ N µ,
n

Teorema 3 (Teorema del Lı́mite Central)


La distribución de la media muestral X̄, de una una variable que en la población
tiene varianza finita, tiende a seguir una distribución Normal, a medida que el
tamaño de la muestra tiende hacia el infinito.

Según el teorema 2, la media muestral de una variable que en la población se


distribuye Normalmente, se distribuye exactamente en forma de una distribu-
ción Normal. Y el teorema 3 dice que, aún si la distribución de una población
no es Normal, la media muestral se aproxima a la distribución Normal. Esta
aproximación se cumple mejor para n (tamaño muestral) de valor grande, pero
es adecuada, según algunos investigadores, para un valor de n tan bajo como
n = 20.


n·(X̄−µ)
3.2.4. Distribución de Z = σ

De la figura 3.2, podemos ver que:

a) Z se distribuye simétricamente alrededor de su media, dando la apariencia


de una distribución Normal.

b) La media de Z (igual a 0, 0026) se acerca mucho a cero.

Marcela Ribas - Federico De Olivera


3.2 La Inferencia Estadı́stica Paramétrica 113

c) La desviación standard de Z (igual a 1, 0075) se acerca a uno.

Todas estas observaciones nos lleva a presentar el siguiente teorema:

Teorema 4
Sea X̄ la media de una muestra X1 , X2 , . . . , Xn de variables Normales con media

µ y varianza σ 2 . Entonces el estadı́stico Z = n (X̄−µ)
σ
se distribuye Normal con
media cero y varianza uno.

Ahora vamos a definir un nuevo estadı́stico, o sea una variable que depende de
los valores de la muestra.

Definición 1
S 02 Llamamos cuasivarianza muestral al estadı́stico S 02 determinado por:

n
02 1 X
S = (xi − X̄)
n − 1 i=1

Observación: La cuasivarianza muestral se puede definir a partir de la varianza


muestral S 2 , ası́:
n
02 1 X n
S = (xi − X̄) = S 2
n − 1 i=1 n−1

Recordar que " #


n n
2
X 1X
S = (xi − X̄)2 = (xi )2 − (X̄)2
i=1
n i=1
Como vemos, el cálculo de S 2 es más fácil a nivel manual, lo que lo hace preferible
en un primer momento, para calcular las medidas descriptivas de la muestra
(recordar Estadı́stica Descriptiva).

Sin embargo, S 02 tiene mejores propiedades que S 2 , como estimador de la varianza


poblacional, pues se cumple que la Esperanza de S 02 es σ 2 . Por eso, para la

Marcela Ribas - Federico De Olivera


114 3. La Inferencia Estadı́stica

Inferencia Estadı́stica, el estadı́stico de relevancia es S 02 .

√ (X̄−µ)
3.2.5. Distribución de T = n· S0.

Nuevamente en la figura 3.2 vemos que la distribución del estadı́stico T es acam-


panada y similar a la distribución de Z, pero tiene una variación ligeramente
mayor. Ello se debe a que en el denominador de T está el estadı́stico S 0 que,
como todo estadı́stico, varı́a con cada muestra distinta, mientras que en el de-
nominador de Z está σ, parámetro poblacional, y, por lo tanto, fijo. Se dice que
la distribución de T “tiene colas más pesadas”, pues T acumula más probabili-
dad que Z, en valores alejados de la media. La distribución de T se explica en el
siguiente teorema.

Teorema 5
Sea X̄ y S 0 , la media y la raı́z cuadrada de la cuasivarianza, respectivamente, y
sea una muestra X1 , X2 , . . . , Xn de variables Normales con media µ y varianza σ 2 .

√ (X̄−µ)
Entonces el estadı́stico T = n S 0 sigue una distribución denominada t con
n − 1 grados de libertad; lo cual se anota: T ∼ tn−1 .

El gráfico y la tabla siguiente, muestran las probabilidades acumuladas, para


distintos valores de t, las cuales se leen en el interior de la tabla.

Marcela Ribas - Federico De Olivera


3.2 La Inferencia Estadı́stica Paramétrica 115

Tabla de probabilidades de la distribución t con n grados de


libertad

n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995


1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

Marcela Ribas - Federico De Olivera


116 3. La Inferencia Estadı́stica

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831


22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
∞ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576

3.3. Estimación puntual e intervalos de confian-


za

3.3.1. Estimación puntual e intervalos de confianza para


µ cuando conozco σ 2

Un investigador está interesado en estudiar la presión diastólica (mı́nima) de


la sangre de varones, en edades comprendidas entre 20 y 30 años, sometidos a
tensión nerviosa. Pretende responder la pregunta ¿ cuál es la presión diastólica
media, bajo tensión nerviosa para este grupo ?

Marcela Ribas - Federico De Olivera


3.3 Estimación puntual e intervalos de confianza 117

Lo primero que debe realizar es tomar una muestra aleatoria de un determinado


tamaño n, dentro de la población en estudio (todos los varones de entre 20 y
30 años, sometidos a tensión nerviosa). Con respecto al valor de n, veremos más
adelante cómo se determina, para que se cumpla ciertos requisitos que buscamos
en nuestra investigación.

La presión diastólica es la variable de interés a observar y medir para cada uno


de los integrantes de la muestra extraı́da. Para contestar la pregunta anterior
(¿ cuál es la presión diastóloca media, bajo tensión nerviosa para este grupo ?)
deberı́amos conocer la media de la variable antedicha, en la población referida,
valor que llamaremos µ. Pero µ es un parámetro desconocido que deberemos
estimar a partir de la media muestral X̄ , calculada a partir de la muestra. Ya
conocemos la distribución de la media muestral X̄. Ello nos va a ser de utilidad
para realizar la siguiente Inferencia Estadı́stica.

NOTA: se dice que X̄ es un estimador de µ, y se escribe

µ
b = X̄

Ahora, ¿qué podemos decir del valor de µ, conociendo el valor de X̄ ?.

Para contestar, podemos utilizar dos procedimientos:

1) Se estima el verdadero valor de µ, a partir del valor particular de X̄ ,


que proviene de la muestra. Este procedimiento se denomina Estimación
Puntual .

En la práctica, se calcula X̄ a partir de una muestra, y se toma ese valor


como estimador (valor aproximado) de la media poblacional, µ .

Por ejemplo, luego que se midió la presión diastólica para cada uno varones
de entre 20 y 30 años, sometidos a tensión nerviosa, de mi muestra, con esos
datos calculo X̄ (supongo que X̄ = 10). Sé que µ es distinto a X̄, pero por

Marcela Ribas - Federico De Olivera


118 3. La Inferencia Estadı́stica

la propiedad de E(X̄) = µ (esta propiedad dice que si hago un promedio de


todos los posibles valores de X̄, obtengo µ) confı́o en que X̄ es útil, como
aproximación del valor desconocido µ, y escribo

µ
b = 10

2) Otra opción es no quedarnos simplemente con el valor de X̄, sino que con-
struı́mos un intervalo con centro en X̄, de radio ε.

NOTA: ε es el máximo error que nos permitimos cometer, al aproximar el valor


de µ, por X̄. Decimos entonces que el intervalo de la forma:

[X̄ − ε, X̄ + ε]

contiene a µ, con una cierta probabilidad (1−α) o nivel de confianza (1−α)·100 %

Este procedimiento se denomina Estimación por Intervalo de Confianza.

¿ Cómo se determina el intervalo [X̄ − ε, X̄ + ε]?. Es decir ¿Cómo se determina


ε?

Se debe cumplir que en el (1 − α) · 100 % de las muestras que se extraigan, los


intervalos [X̄−ε, X̄+ε], deben incluir el verdadero valor del parámetro poblacional
µ.

En otras palabras, la probabilidad de que el intervalo aleatorio [X̄ − ε, X̄ + ε]


contenga la media poblacional µ, debe ser igual a 1 − α.

Definición 2
Al valor epsilon se lo denomina precisión. Y el valor 1 − α es una probabilidad y
se llama nivel de confianza.

Se debe cumplir, por lo tanto, que:

P (X̄ − ε ≤ µ ≤ X̄ + ε) = 1 − α

Marcela Ribas - Federico De Olivera


3.3 Estimación puntual e intervalos de confianza 119

√ (X̄−µ)
De ahı́, buscamos dejar la variable aleatoria n σ en el “ medio de la de-
sigualdad”, para utilizar lo que conocemos sobre su distribución: por el Teorema
del Lı́mite Central (teorema 3) y por el teorema 4 se cumple que :
√ X̄ − µ n→+∞
n −→ Z donde Z ∼ N (0, 1)
σ

Entonces realizamos las siguientes operaciones:

P (X̄ − ε ≤ µ ≤ X̄ + ε) = 1 − α ⇔ P (−ε ≤ µ − X̄ ≤ ε) = 1 − α

⇔ P (ε ≥ X̄ − µ ≥ −ε) = 1 − α

⇔ P (−ε ≤ X̄ − µ ≤ ε) = 1 − α

 √
n·ε √ X̄−µ

n

⇔ P − σ
≤ n· σ
≤ σ
·ε =1−α

√ ∼
Entonces, siendo n · (X̄−µ)
σ = Z ∼ N (0, 1), se cumple que, cuando n es grande :

 √ √ 
n·ε n·ε
P − ≤Z≤ =1−α donde Z ∼ N (0, 1)
σ σ

n·ε
Ahora buscamos obtener el valor de σ
:

A partir de la afirmación anterior, se deduce que:

 √ 
n·ε α
P Z≤ =1− ver que la Normal es simétrica
σ 2

α n·ε
Por lo tanto: el número z que acumula 1 − 2
de probabilidad, es z1− α2 = σ

n·ε
Busco despejar ε , para construir el intervalo de confianza: z1− α2 = σ
⇒ε=
z1− α ·σ
√2
n

Marcela Ribas - Federico De Olivera


120 3. La Inferencia Estadı́stica

Aquı́ ε es llamdo error de muestreo.

Ası́ tengo, entonces, determinado el intervalo de confianza para la media


poblacional µ:

(z1−α/2 ) · σ (z1−α/2 ) · σ
 
X̄ − √ , X̄ + √
n n

INTERPRETACIÓN: La probabilidad de que el intervalo anterior incluya el


verdadero valor de µ, es (1 − α).

¿Qué relación existe entre ε y n ?


(z1− α )·σ (z1− α )2 ·σ 2
Ya vimos que ε = √2
n
, por lo tanto, se deduce que: n = 2
ε2

Vemos que la relación entre ε y n es inversa: cuanto más grande es el tamaño de


la muestra n, menor es ε, el error que se comete, al aproximar el valor de µ, por
X̄ .

3.3.2. Intervalo de confianza para µ , cuando no conozco


σ2

Observación: Por lo general no conozco σ. Lo que conozco es S 0 , estadı́stico


calculado a partir de los valores de la muestra, y que es un buen estimador de σ.

Se dice que S 02 es un estimador de σ 2 , y se escribe:

b2 = S 02
σ

También se cumple que S 0 es un estimador de σ , y se escribe:

b = S0
σ

Al sustituir σ por el estimador S 0 , el estadı́stico usado en el intervalo de confianza


para µ, cambia: en lugar de Z es T, y su distribución también cambia:

Marcela Ribas - Federico De Olivera


3.3 Estimación puntual e intervalos de confianza 121

vimos, por el teorema 5 que, si la muestra proviene de una variable, que se


distribuye Normal en la población, el estadı́stico T tiene una distribución t con
n − 1 grados de libertad.
n→+∞
Observación: Se cumple que la distribución tn−1 −→ Z ∼ N (0, 1)

Por lo tanto si n es grande ( n > 30 ) y la muestra proviene de una Población


Normal, utilizo el siguiente intervalo de confianza aproximado para µ:

(z1−α/2 ) · S 0 (z1−α/2 ) · S 0
 
X̄ − √ , X̄ + √
n n

Intervalo aproximado para µ si n > 30 y la población es Normal.

Siendo tn−1,1−α/2 el valor de la tabla t que acumula 1 − α/2 de probabilidad a su


izquierda, para n − 1 grados de libertad.

Pero si la muestra es pequeña, y proviene de una población Normal, el intervalo


de confianza para µ es
"   #
tn−1,1−α/2 · S tn−1,1−α/2 · S
X̄ − √ , X̄ + √
n n

Ejemplo: Supongamos que mi muestra está compuesta por 100 varones de entre
20 y 30 años, sometidos a tensión nerviosa, cuya presión diastólica media es X̄ =
10 y cuya varianza es S 2 = 0, 81. Supongamos también que la variable presión
diastólica se distribuye Normal en la población. Si busco obtener un intervalo
aproximado para µ, que tenga un 95 % de confianza, entonces 1–α = 0, 95 de
donde 1 − α/2 = 0, 975 y si voy a la tabla con valores Normales (0, 1), veo que
el valor z que acumula 0, 975 de probabilidad, es 1, 96 , y anoto z1−α/2 = 1, 96 .
Con todos estos datos, calculo ε:

z1−α/2 S 0
ε= √
n

Marcela Ribas - Federico De Olivera


122 3. La Inferencia Estadı́stica

para el intervalo de confianza aproximado para µ:


0, 81
ε = (1, 96) · = 0, 1764
10

Y construyo en intervalo de confianza aproximado al 95 % para µ, que es:

[10–0, 1764; 10 + 0, 1764]

o sea [9, 8236; 10, 1764].

Con este resultado, afirmo que la probabilidad, de que la presión diastólica media
entre todos los varones de entre 20 y 30 años que están sometidos a tensión
nerviosa , esté entre 9, 8 mmHg y 10, 2 mmHg, es de 0, 95.

Si deseo calcular el intervalo de confianza exacto para µ, debo ir a la tabla de


la distribución t, y observar cuánto es t99 para una probabilidad acumulada de
0, 975: es t99;0,975 = 1, 9842.

Entonces, ε = (1, 9842),0, 91/10 = 0, 1806 y el intervalo de confianza al 95 % para


µ que es [10–0, 1806; 10 + 0, 1846] o sea [9, 8194; 10, 1806].

3.3.3. Intervalo de confianza para una proporción

Para comprender, en términos estadı́sticos , qué es una proporción definamos una


nueva variable aleatoria: Una variable aleatoria X se denomina de Bernouilli con
parámetro p, si toma sólo dos valores


 1 si ocurre el éxito
X=
 0 si ocurre el fracaso

Donde el parámetro p es:

p = P (X = 1) = “probabilidad de que ocurra el éxito”

Marcela Ribas - Federico De Olivera


3.3 Estimación puntual e intervalos de confianza 123

Se cumple que E(X) = µX = p, es la proporción de éxitos en la población

Por lo tanto el parámetro p es una media poblacional, y podemos encontrar


un intervalo de confianza para él: si el valor de p: proporción de éxitos en la
población, es desconocido, podemos calcular el valor de X̄ : proporción de éxitos
en la muestra, y realizar la inferencia correspondiente.

Ası́ como se dijo que X̄ (media muestral) es un buen estimador de µ(media


poblacional) , y se escribe:
µ
b = X̄

También se dice que X̄ : proporción de éxitos en la muestra es un buen estimador


de p (proporción poblacional), y se escribe por ello:

pb = X̄

proporción de éxitos en la muestra

Al igual que antes, podemos estimar de dos formas, el verdadero valor de p, a


partir de pb, la proporción muestral:

Estimación Puntual de p: Se estima el verdadero valor de p = µX , a partir


del valor particular de pb = X̄ , proporción muestral.

E stimación de p por intervalo de confianza: En este caso, para la distribu-


ción de pb = X̄ , se aplicará el Teorema de De-Moivre Laplace (ver anexo al
bloque 2), donde surge que la variable

X − np n→∞
Z=p −→ N (0, 1)
np(1 − p)

Marcela Ribas - Federico De Olivera


124 3. La Inferencia Estadı́stica

donde X es la cantidad de éxitos en la población.

Y el intervalo de confianza para la proporción poblacional p es :


p p
h z1−α/2 · pb(1 − pb) z1−α/2 · pb(1 − pb) i
pb − √ ; pb + √
n n

Ejemplo: Queremos estimar en Uruguay, la proporción de personas de más de 60


años, que tienen problemas cardı́acos (éxito). Con ese fin, extraemos una muestra
aleatoria de tamaño 500, dentro de la población de interés. Encontramos que
la cantidad de personas de la muestra que tienen problemas cardı́acos son 6,
con lo cual la proporción de personas con problemas cardı́acos en la muestra es
pb = 6/500 = 0, 012, estimación puntual de p. Y el intervalo de confianza al 99 %
de confianza es

p p
h z1−0,01/2 · 0, 012(1 − 0, 012) z1−0,01/2 · 0, 012(1 − 0, 012) i
0, 012 − √ ; 0, 012 + √
500 500

donde z1−0,01/2 = z0,995 = 2, 58

Y entonces el intervalo de confianza al 99 %, para p, queda [−0, 00056; 0, 02456]

Se interpreta diciendo que 0, 99 es la probabilidad de que la proporción de per-


sonas de más de 60 años con problemas cardı́acos, esté entre 0 % y 2, 456 %.

Marcela Ribas - Federico De Olivera


3.4. Prueba de Hipótesis

Hasta ahora hemos estudiado cómo, a partir de una muestra de una variable
extraı́da de una cierta población, podemos obtener una estimación puntual o
bien establecer un intervalo más o menos aproximado, para acercarnos a conocer
los parámetros que caracterizan dicha variable aleatoria en esa población.

Pueden presentarse en la práctica, situaciones en las que exista una teorı́a pre-
concebida, relativa a la caracterı́stica de la población sometida a estudio. Tal
serı́a el caso, por ejemplo si pensamos que un nuevo tratamiento médico puede
tener un porcentaje de mejorı́a mayor que otro tratamiento estándar, o cuando
nos planteamos si los niños de los distintos departamentos del Uruguay tienen el
mismo desempeño escolar.

Este tipo de circunstancias son las que nos llevan al estudio de la parte de la
Estadı́stica Inferencial que recibe el nombre de Contraste o Prueba de Hipótesis.
Ésta implica ciertas pasos:

1. Planteamiento de dos teorı́as o hipótesis, que denominaremos


hipótesis nula (H0 ) e hipótesis alternativa (H1 ) que, de alguna manera,
reflejarán esa idea a priori que tenemos y que pretendemos contrastar con
la “realidad”, observada a través de la muestra extraı́da.

La Hipótesis nula reflejará la idea conservadora, que reflejará la “perma-


nencia” el “no cambio”, aquella idea que el investigador está dispuesto a
creer a priori; mientras que en la hipótesis alternativa, como lo dice su nom-
bre, plantearemos que “las cosas pueden ser diferentes” a lo que pensamos
habitualmente. A veces, H1 es la negación de H0 , pero no necesariamente
debe ser ası́.

La lógica implı́cita en la prueba de hipótesis es una lógica conser-


126 3. La Inferencia Estadı́stica

vadora: mientras no tengamos suficientes elementos (a partir de la


evidencia que brinda la muestra) para afirmar que Ho no se cumple,
“no la rechazaremos”. Es decir, las conclusiones que saquemos serán que:
Rechazamos H0 o No rechazamos H0 .

Durante el procedimiento anterior, implı́citamente, se dan diferentes tipos


de errores que podemos cometer, debido a que, habitualmente, el estu-
dio y las conclusiones que obtengamos para una población cualquiera, se
habrá apoyado exclusivamente en el análisis de sólo una parte de ésta.

La realidad puede ser que H0 sea cierta o que H0 no sea cierta. Si intersec-
tamos estos dos sucesos con las dos decisiones posibles, arriba mencionadas,
tendremos los dos errores posibles en el cuadro siguiente:

a) Rechazar H0 cuando esta es cierta, al cual llamaremos error de tipo 1


(el más grave) y cuya probabilidad de ocurrencia designaremos con la
letra alfa.
P (“Rechazar H0 dado H0 cierta”) = α

b) No rechazar H0 , cuando esta es falsa, al cual llamaremos error de tipo


2, y cuya probabilidad de ocurrencia designaremos con la letra beta.

P (“No rechazar H0 dado H0 falsa”) = β

De la probabilidad con la que estemos dispuestos a asumir estos errores,


dependerá, por ejemplo, el tamaño de la muestra requerida.

no rechazar H0 rechazar H0

H0 es cierta Correcto (Probabilidad: 1 − α) Error tipo 1 (Probabilidad: α)


H0 es falsa Error tipo 2 (Probabilidad: 1 − β) Correcto (Probabilidad: β)

Marcela Ribas - Federico De Olivera


3.4 Prueba de Hipótesis 127

2. Decisión acerca de cuál será el estadı́stico que resuma adecuada-


mente la información muestral, en relación al parámetro o caracterı́stica
poblacional, acerca del cual se va a llevar a cabo el contraste.

3. División del espacio muestral en dos regiones no solapadas: región


crı́tica (donde se rechaza H0 ) y región de aceptación (donde no se rechaza
H0 ). La región crı́tica se establece, fijando de antemano el error de
tipo 1 en un pequeño valor α, llamado nivel de significación, de forma
que la probabilidad de que el estadı́stico tome un valor en ella, cuando la
hipótesis nula es cierta, sea alfa. De esta forma, sólo nos equivocaremos en
nuestra decisión, al cometer el error más grave, un alfa.100 % de las veces.

4. Obtención de la muestra de un determinado tamaño, la cual nos dará in-


formación acerca de la caracterı́stica poblacional de interés.

5. Cálculo del estadı́stico en la muestra recogida.

6. Resolución de la prueba de hipótesis o decisión: Si el valor muestral


del estadı́stico cae en la región crı́tica, se rechaza H0 . Si cae en la región de
aceptación, entonces no se rechaza H0 .

Los contrastes desarrollados en este capı́tulo se apoyan en el supuesto de que los


datos de la población de partida siguen una distribución Normal.

La verificación de este supuesto implica una prueba de hipótesis previa (test de


Kolmogorof-Smirnoff), que por su complejidad, no explicaremos en este curso.

3.4.1. Sı́ntesis de algunos Test Paramétricos

Serán presentados a través de ejemplos:

Marcela Ribas - Federico De Olivera


128 3. La Inferencia Estadı́stica

Ejemplo 1
Por fistulización se obtuvo el PH de 6 muestras de bilis hepática con los siguientes
resultados:
7, 83; 8, 52; 7, 32; 7, 79; 7, 57; 6, 58

Se desea saber al nivel de significación del 0, 05 si la bilis hepática puede con-


siderarse neutra (P H = 7). Si se conociera σ = 0, 5, ¿qué decisión tomarı́amos
?

Solución:

El PH de la bilis hepática es considerada una variable aleatoria Normal X, con


media µ, desconocida, y desvı́o standard σ = 0, 5 conocido.

1. Planteo de la prueba de hipótesis:

H0 ) µ = 7
H1 ) µ 6= 7

A esta prueba se la llama prueba de hipótesis o contraste de dos


colas.
α = 0, 05 = probabilidad del error de tipo 1

2. Estadı́stico: X̄ pues es el mejor estimador de µ. Lo calculamos : X̄ = 7, 60

Este valor es distinto a 7, pero no podemos asegurar que la media pobla-


cional no sea 7, pues la media muestral tiene variación y no siempre es igual
a la media de la población.

La variación de X̄ se debe a que es una variable aleatoria que, como vimos


anteriormente tiene una cierta distribución: X̄ se distribuye Normal con
parámetros (µ, σ 2 /n).

3. Región crı́tica implica los valores de X̄ que me llevan a rechazar H0 .

Marcela Ribas - Federico De Olivera


3.4 Prueba de Hipótesis 129

Se debe cumplir que:

P (“ Rechazar H0 dado H0 cierta”) = 0, 05 = α

pues establecimos como dato, que queremos esa probabilidad de error de


tipo 1. Rechazamos H0 , es decir rechazamos que µ sea 7, si X̄ está alejada
de 7. Y por el contrario No rechazamos H0 si X̄ está cerca de 7, a menos
de  de distancia, es decir si se cumple, matemáticamente que

X̄ ∈ (7 − ε, 7 + ε) ⇔ 7 − ε < X̄ < 7 + ε

Busco encontrar el valor de ε y ası́ calcular los valores crı́ticos 7 − ε y 7 + ε


para obtener la Región de Aceptación (7 − ε, 7 + ε) (e implı́citamente la
Región Crı́tica, que es el complemento, en R).

P (“Rechazar H0 dado H0 cierta ”) = 0,05 entonces


P (“No rechazar H0 dado H0 cierta ”) = 0,95 entonces
P (“X̄ pertenezca a la región de aceptación, dado H0 cierta ”) = 0,95 entonces
P (7 − ε < X̄ < 7 + ε), dado H0 cierta ) = 0,95

Entonces, busco dejar en el medio de la desigualdad, una variable con dis-


tribución tabulada que me permita encontrar los extremos del intervalo.

(X̄−µ) n
Sé que σ
∼ N (0, 1). Recordando que µ = 7 si H0 es cierta, tenemos

P (−ε < X̄ − 7 < ε) = 0,95

 √ √ √ 
−ε n (X̄−µ) n ε n
P σ
< σ
< σ
= 0,95

Por lo tanto √
ε n
= z1−0,05/2 = z0,975 = 1,96
σ

Marcela Ribas - Federico De Olivera


130 3. La Inferencia Estadı́stica

de donde obtenemos que ε = 0,4. Por lo tanto la Región de Aceptación son


las muestras que cumplen que X̄ ∈ (6,6; 7,4).

Simplificando el procedimiento para encontrar la Región Crı́tica podemos


decir que la Región Crı́tica está formada por aquellas muestras tales que:


(X̄ − µ0 ) n
|z0 | =
≥ z1−α/2
σ

siendo z0 un estadı́stico cuando H0 se cumple.

En el caso de mi muestra se cumple que:

 √ √
(X̄−µ0 ) n (7,6−7) 6


 X̄ = 7,6 ⇒ σ
= 0,5
= 2,94









 α = 0,05 ⇒ z

1−α/2 = z0,975 = 1,96

Como 2,94 > 1,96 estamos en la Región Crı́tica, entonces Rechazo H0 .

Conclusión: Con un 95 % de confianza, puede afirmarse que el PH (prome-


dio) de la bilis hepática no es 7.

Marcela Ribas - Federico De Olivera


3.4 Prueba de Hipótesis 131

Prueba de Hipótesis para µ con σ conocido


Contraste de dos colas o bilateral

1) Planteo de Hipótesis 1) Planteo del Hipótesis


y nivel de significación y nivel de significación

H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significación α α = 0,05

2) Estadı́sticos 2) Estadı́sticos

Pn
Xi
X̄ = i=1
n
X̄ = 7,6
√ √
(X̄−µ) n (7,6−7) 6
Z0 = σ
z0 = 0,5
= 2,94
Estadı́stico, si se cumple H0

3) Región Crı́tica y Decisión 3) Región Crı́tica y Decisión

Si |z0 | ≥ z1−α/2 rechazo H0 z0 = 2,94, z1−α/2 = z0,975 = 1,96


Si |z0 | < z1−α/2 no rechazo H0 como |z0 | = 2,94 > 1,96 rechazo H0

4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática no es 7

Marcela Ribas - Federico De Olivera


132 3. La Inferencia Estadı́stica

Ejemplo 2
En el ejemplo anterior, ¿ podemos considerar que la bilis hepática es alcalina (con
PH mayor a 7) ?

Solución:

Ahora la prueba de hipótesis implica la misma hipótesis nula (µ = 7) pero otra


hipótesis alternativa (µ > 7). A esta prueba se la llama prueba de hipótesis o
contraste de una cola. Por lo tanto, con respecto al ejemplo anterior, tendremos
otra región crı́tica (y por lo tanto otra región de aceptación).

Se resume el procedimiento en el siguiente cuadro:

Marcela Ribas - Federico De Olivera


3.4 Prueba de Hipótesis 133

Prueba de Hipótesis para µ con σ conocido


Contraste de una cola o unilateral

1) Planteo de Hipótesis 1) Planteo del Hipótesis


y nivel de significación y nivel de significación

H0 : µ = µ0 H0 : µ = 7
H1 : µ > µ0 H1 : µ > 7
nivel de significación α α = 0,05

2) Estadı́sticos 2) Estadı́sticos

Pn
Xi
X̄ = i=1
n
X̄ = 7,6
√ √
(X̄−µ) n (7,6−7) 6
Z0 = σ
z0 = 0,5
= 2,94
Estadı́stico, si se cumple H0

3) Región Crı́tica y Decisión 3) Región Crı́tica y Decisión

Si z0 ≥ z1−α rechazo H0 z0 = 2,94, z1−α = z0,95 = 1,64


Si z0 < z1−α no rechazo H0 como z0 = 2,94 > 1,64 rechazo H0

4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática es alcalina

Marcela Ribas - Federico De Olivera


134 3. La Inferencia Estadı́stica

Ejemplo 3
Supongamos ahora que no conocemos la desviación standard del grado de PH de
la bilis hepática, y lo debemos estimar a partir de la muestra obtenida. ¿ Podemos
considerar ahora que la bilis hepática es neutra ?.

Solución:

La prueba de hipótesis es similar a la del ejemplo 1, excepto en el estadı́stico pues


al tener que estimar σ, éste cambia: ya no tenemos una distribución Normal (0,1),
sino que ahora tendremos la distribución t con n-1 grados de libertad (recordar
intervalo de confianza para µ con σ desconocida)

Estimamos σ a partir de la raı́z cuadrada de la cuasivarianza muestral.

n·S 2
b2 =
σ n−1
= S 02

348,77
donde S 2 = Xi2 /n − X̄ 2 = − (7, 6)2 = 0, 368
P
6

b2 =
σ 6·0,368
5
= 0,442 = S 0 2

b = 0,66 = S 0
⇒σ

Se resume el procedimiento en el siguiente cuadro:

Marcela Ribas - Federico De Olivera


3.4 Prueba de Hipótesis 135

Prueba de Hipótesis para µ con σ desconocido


Contraste de dos colas o bilateral

1) Planteo de Hipótesis 1) Planteo del Hipótesis


y nivel de significación y nivel de significación

H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significación α α = 0,05

2) Estadı́sticos 2) Estadı́sticos

Pn
Xi
X̄ = i=1
n
X̄ = 7,6
q
nS 2
S0 = con S 2 = Xi2 /n − X̄ 2 S 0 = 0,66
P
n−1
√ √
(X̄−µ0 ) n (7,6−7) 6
T0 = S0
T0 = 0,66
= 2,23
Estadı́stico, si se cumple H0
con distribución tn−1

3) Región Crı́tica y Decisión 3) Región Crı́tica y Decisión

Si |t0 | ≥ tn−1,1−α/2 rechazo H0 tn−1,1−α/2 = t5,0,95 = 2,015


Si |t0 | < tn−1,1−α/2 no rechazo H0 como |t0 | = 2,23 > 2,015 rechazo H0

4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática no es 7

Marcela Ribas - Federico De Olivera


136 3. La Inferencia Estadı́stica

3.5. La Inferencia Estadı́stica no Paramétrica

Hasta ahora presentamos ejemplos de pruebas de hipótesis que involucran afir-


maciones acerca de parámetros poblacionales desconocidos, lo cual entra dentro
de lo que se denomina Inferencia Estadı́stica Paramétrica.

Ahora, en la Inferencia Estadı́stica No Paramétrica, las hipótesis no tendrán


parámetros sino que involucrarán afirmaciones acerca de alguna caracterı́stica
estadı́stica de la población, como por ejemplo serán del tipo: las observaciones son
independientes, la distribución de la variable en estudio es normal, la distribución
es simétrica, etc.

En este curso presentaremos un test no paramétrico que es útil para decidir si


dos variables son o no independientes.

3.5.1. Test de independencia de dos variables:

Explicaremos el mecanismo de esta prueba de hipótesis a la luz de un ejemplo.

Ejemplo 4
Se encuesta a 400 ciudadanos uruguayos y se les hizo dos preguntas:

1) ¿ De que afiliación polı́tica es? Para simplificar el estudio de esta variable


se les pidió que se definieran por izquierda o derecha.

2) ¿ Está de acuerdo con la aprobación de la ley ZZZ ? Los valores de esta


variable se clasifican en tres categorı́as: a favor, indeciso o en contra

Una vez obtenidas las respuestas (suponiendo que todos ellos contestan ambas
preguntas), se armó la tabla siguiente, y se completó con los datos conseguidos a
través de la encuesta:

Marcela Ribas - Federico De Olivera


3.5 La Inferencia Estadı́stica no Paramétrica 137

A favor Indecisión En contra

Derecha 68 22 110
Izquierda 92 18 90

Nuestro objetivo es averiguar si hay independencia o, por el contrario, hay


relación, entre la opinión sobre una determinada ley (una variable) y la tendencia
polı́tica (la otra variable). Para ello se deben seguir los siguientes pasos:

1. Plantear la Prueba de Hipótesis:

H0 ) No hay asociación entre las dos variables (son independientes)

H1 ) Existe cierto grado de asociación o dependencia entre ellas.

2. Computar las frecuencias observadas ( n0 ) y completar el cuadro


descriptivo con los totales.

A favor Indecisión En contra Total


Derecha 68 22 110 200(50 %)

Izquierda 92 18 90 200(50 %)
Total 160 40 200 400(100 %)

Observación: Se observa que existe: un 50 % de afiliados a la derecha y


un 50 % de afiliados a la izquierda.

Si las opiniones no dependieran del perfil polı́tico (H0 ), entonces


dichos porcentajes se deberı́an mantener dentro de cada opinión (a favor,
en contra o indecisión).

3. Calcular las frecuencias esperadas: ne ( frecuencias esperadas, si se


cumple H0 : variables independientes):

Marcela Ribas - Federico De Olivera


138 3. La Inferencia Estadı́stica

Por ejemplo:

si hay indep 160 200


P (Derecha y A favor) = P (Derecha)·P (Af avor) = · = 0, 2
400 400

Entonces la frecuencia esperada correspondiente a la categorı́a Derecha-A


favor es: 0, 2 · 400 = 80

si hay indep 200 40


P (Izquierda e indeciso) = P (Izquierda)·P (indeciso) = · = 0, 05
400 400

Entonces la frecuencia esperada correspondiente a la categorı́a Izquierda-A


favor es: 0, 05 · 400 = 20

Y ası́ se calculan análogamente todas las frecuencias esperadas y se completa


el cuadro de frecuencias esperadas:

A favor Indecisión En contra

Derecha 80 20 10
Izquierda 80 20 100

4. Calcular el estadı́stico χ-cuadrado o Estadı́stico de Pearson ob-


servado, que se define de la siguiente forma:

X (n0 − ne )2
χ2 observado =
ne

Cuadro de ayuda para el cálculo del estadı́stico de Pearson observado:

Marcela Ribas - Federico De Olivera


3.5 La Inferencia Estadı́stica no Paramétrica 139

no ne no –ne (no –ne )2 (no − ne )2 /ne


68 80 −12 144 1,8
92 80 12 144 1,8
22 20 2 4 0,2
18 20 −2 4 0,2
110 100 10 100 1
90 100 −10 100 1
Total: 6

P (no −ne )2
χ2 obs = ne
(68−80)2 (92−80)2 (22−20)2 (18−20)2 (110−100)2 (90−100)2
= 80
+ 80
+ 20
+ 20
+ 100
+ 100
=6

Por lo tanto: el estadı́stico de Pearson observado vale 6

5. Buscar el estadı́stico chi cuadrado crı́tico o sea aquél que permite


construir la región crı́tica y decidir. Primero hay que calcular los grados de
libertad, que se definen de la siguiente forma.

Grados de libertad: (no de categorı́as en las filas –1) · (no categorı́as en las columnas –1 )

O sea : (2–1) · (3–1) = 2 grados de libertad.

Busco el valor de la distribución χ2 correspondiente a dos grados de libertad,


con una confianza 1 − α (α es la probabilidad del error de tipo 1: decir que
existe relación entre las variables, cuando son independientes).

Si busco tener un nivel de confianza del 95 %, entonces hallo x tal que


P (χ2 < x) = 0, 95.

Buscando en la tabla de la distribución χ2 (se presenta a continuación), se


obtiene que x = 5, 99 (estadı́stico crı́tico con 2 grados de libertad y
que acumula 0,95 de probabilidad).

Marcela Ribas - Federico De Olivera


140 3. La Inferencia Estadı́stica

6. Regla de decisión:

Si el estadı́stico observado es mayor que el crı́tico, entonces rec-


hazo H0 Si es menor o igual al crı́tico, entonces no rechazo H0 .

7. Decisión:

95 % de confianza: (en cinco de cada 100 muestras me puedo equivocar en


mi decisión)

Como 6 > 5, 99, entonces Rechazamos H0 (rechazo la independencia entre


las variables).

Con un 95 % de confianza puedo pensar que existe cierto grado de depen-


dencia entre las variables.

Observación:

Si deseo elevar mi nivel de confianza al 97 % y con ello disminuir la proba-


bilidad del error de tipo 1 (α) a un 3 %, mi decisión va a cambiar, en este
caso.

Si busco tener un nivel de confianza del 97 %, entonces hallo el valor x tal


que P (χ2 < x) = 0, 97.

Buscando en la tabla de la distribución χ2 (se presenta a continuación), se


obtiene que x = 7, 38. (estadı́stico crı́tico con 2 grados de libertad
y que acumula 0,97 de probabilidad).

97 % de confianza: (en tres de cada 100 muestras me puedo equivocar en


mi decisión).

Como 6 < 7, 38, entonces No rechazo H0 (no rechazo que haya independen-
cia).

Con un 97 % de confianza no rechazo que haya independencia. O sea, la


evidencia observada no me permite negar la posibilidad de que las variables

Marcela Ribas - Federico De Olivera


3.5 La Inferencia Estadı́stica no Paramétrica 141

puedan ser independientes.

Marcela Ribas - Federico De Olivera


142 3. La Inferencia Estadı́stica

Tabla de la distribución χ2:

P (χ2n ≥ x)=α

Grados de libertad\ α 0,1 0,05 0,03 0,01 0,01


1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,6
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,3
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25 27,49 30,58 32,8
16 23,54 26,3 28,85 32 34,27
17 24,77 27,59 30,19 33,41 35,72

Marcela Ribas - Federico De Olivera


3.5 La Inferencia Estadı́stica no Paramétrica 143

18 25,99 28,87 31,53 34,81 37,16


19 27,2 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40
21 29,62 32,67 35,48 38,93 41,4
22 30,81 33,92 36,78 40,29 42,8
23 32,01 35,17 38,08 41,64 44,18
24 33,2 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,5 71,42 76,15 79,49
60 74,4 79,08 83,3 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,3
100 118,5 124,34 129,56 135,81 140,17

Marcela Ribas - Federico De Olivera


144 3. La Inferencia Estadı́stica

3.6. Ejercicios

1. Hallar los valores x tales que se cumplan las condiciones impuestas:

a) T se distribuye t con 6 grados de libertad y P (T < x) = 0, 975

b) T se distribuye t con 30 grados de libertad y P (T < x) = 0, 995

c) T se distribuye t con 10 grados de libertad y P (T > x) = 0, 05

d ) T se distribuye t con 15 grados de libertad y P (T > x) = 0, 005

2. Se quiere estimar el resultado de un referéndum mediante un sondeo. Para


ello se realiza un muestreo aleatorio simple con n = 100 personas y se ob-
tienen que 35 de ellos votarán a favor y 65 votarán en contra (suponemos
que no hay indecisos para simplificar el problema, a una variable dicotómi-
ca). Con un nivel de significación del 5 %, calcule un intervalo de confianza
para el verdadero resultado de las elecciones.

3. Los analistas de la empresa que realiza el sondeo no están conformes con los
resultados de la encuesta anterior. En particular les parece que el margen de
error es muy grande. Deciden fijar este error en 1 punto porcentual, como
máximo y buscan también tener un nivel de confianza de 97 % ¿ Cómo
pueden conseguir estos objetivos ?

4. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos


sanos, obteniéndose

0, 98; 0, 85; 0, 77; 0, 92; 1, 12; 1, 06; 0, 89; 1, 01; 1, 21; 0, 77

¿Cuanto vale la producción diaria media de bilis en individuos sanos,


suponiendo que la muestra ha sido obtenida por muestreo aleatorio sim-
ple sobre una población Normal? Considerar una confianza del 95 %.

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 145

5. La cantidad mı́nima requerida para que un anestésico surta efecto en una


intervención quirúrgica fue por término medio de 50 mg, con una desviación
tı́pica de 10, 2 mg, en una muestra de 60 pacientes. Obtener un intervalo de
confianza para la media, al 99 %, suponiendo que la muestra fue extraı́da
mediante muestreo aleatorio simple sobre una población Normal.

6. Un investigador está interesado en estimar la proporción de muertes debidas


a cáncer de estómago en relación con el número de defunciones por cualquier
tipo de neoplasia. Su experiencia le indica que serı́a sorprendente que tal
proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar
para estimar la anterior proporción, con una confianza del 98 %, para que
el valor estimado no difiera del valor real en más de 0, 03?.

7. Un cardiólogo se encuentra interesado en encontrar lı́mites de confianza al


90 %, para la presión sistólica tras un cierto ejercicio fı́sico. Obtenerlos, si en
50 individuos se obtuvo x̄ = 13, S = 3 y suponemos que el comportamiento
de la variable sistólica es Normal.

8. En una muestra de 25 bebés varones de 12 semanas de vida se obtuvo un


peso medio de 5,900 gr y una desviación tı́pica de 94 gr.

a) Obtener un intervalo de confianza (al 95 %) para el peso medio pobla-


cional.

b) ¿Cuántos niños habrá que tomar para estimar dicha media con una
precisión de 15 gr?

9. En un determinado servicio odontológico se sabe que el 22 % de las visitas


llevan consigo una extracción dentaria inmediata. En cierto año, de 2.366
visitas, 498 dieron lugar a una extracción inmediata. ¿ Entran en contradic-
ción las cifras de ese año con el porcentaje establecido de siempre?

Marcela Ribas - Federico De Olivera


146 3. La Inferencia Estadı́stica

10. Sólo una parte de los pacientes que sufren un determinado sı́ndrome neu-
rológico consiguen una curación completa. Si de 64 pacientes observados,
se han curado 41, dar una estimaciones puntual y un intervalo, de la pro-
porción de los que sanan. ¿Qué número de enfermos habrá que observar
para estimar la proporción de curados con un error inferior a 0,05 y una
confianza del 95 %?

11. En una determinada región se tomó una muestra aleatoria de 125 individ-
uos, de los cuales 12 padecı́an afecciones pulmonares.

a) Estı́mese la proporción de afecciones pulmonares en dicha región.

b) Si queremos estimar dicha proporción con un error máximo del 4 %,


para una confianza del 95 %, ¿qué tamaño de muestra debemos tomar?

12. En una muestra de tabletas de aspirinas, de las cuales observamos su peso


expresado en gramos, obtenemos:

1, 19; 1, 23; 1, 18; 1, 21; 1, 27; 1, 17; 1, 15; 1, 14; 1, 19; 1, 2

Suponiendo la Normalidad para esta distribución de pesos, determinar un


intervalo al 80 % de confianza para el peso promedio de las aspirinas.

13. Se quiere estimar la incidencia de la hipertensión arterial en el embarazo.


¿Cuántas embarazadas tenemos que observar para, con una confianza del
95 %, estimar dicha incidencia con un error del 2 % en los siguientes casos:

a) Sabiendo que un sondeo previo se ha observado un 9

b) Sin ninguna información previa.

Ejercicios de Prueba de Hipótesis:

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 147

En todos los problemas que siguen a continuación, se supone que las mues-
tras han sido elegidas de forma independiente, y que las cantidades cuanti-
tativas que se miden, se distribuyen según una distribución Normal.

14. El calcio se presenta normalmente en la sangre de los mamı́feros en con-


centraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La
desviación tı́pica normal de ésta variable es 1 mg de calcio por cada 100 ml
del volumen total de sangre. Una variabilidad mayor a ésta puede ocasionar
graves trastornos en la coagulación de la sangre. Una serie de nueve pruebas
sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100
ml del volumen total de sangre, y una desviación tı́pica muestral de 2 mg
de calcio por cada 100 ml de sangre. ¿Hay alguna evidencia, para un nivel
α = 0, 05, de que el nivel medio de calcio para este paciente sea más alto
del normal?

15. El número de accidentes mortales en una ciudad es, en promedio, de 12


mensuales. Tras una campaña de señalización y mejoramiento de las vı́as
urbanas se contabilizaron en 6 meses sucesivos: 8, 11, 9, 7, 10, 9 accidentes
mortales. ¿Fue efectiva la campaña ?

16. El promedio de las puntuaciones de un número elevado de alumnos de


Bioestadı́stica es de 7,50. Un determinado año se examinaron 50 alumnos
con resultados promedio de 8,25 y desviación tı́pica de 1. ¿Variaron las
calificaciones?.

17. El peso medio de mujeres de 20 a 30 años es de 53 kg. Un estudio realizado


en 16 mujeres de tales edades que siguen una dieta vegetariana da x̄ = 50
y S = 5. ¿Modifica la dieta el peso medio?

18. Una población infantil se dice que es susceptible de recibir una campaña
educación e higiene si su porcentaje de niños con dientes cariados es superior

Marcela Ribas - Federico De Olivera


148 3. La Inferencia Estadı́stica

al 15 %. Una población con 12.637 niños, ¿debe hacerse la campaña si de


387 de ellos 70 tenı́an algún diente cariado?

19. Un 8 % de los individuos que acuden a un servicio sanitario son hiperuti-


lizadores del mismo (más de 11 visitas al año) y, de entre ellos, un 70 %
son mujeres. De entre los no hiperutilizadores, son mujeres el 51 %. ¿Puede
afirmarse que han variado los hábitos de estas si, tras una campaña de in-
formación y control de visitas, de 90 mujeres elegidas al azar 6 resultaron
hiperutilizadoras?

20. Se conoce que un 20 % de los individuos tratados crónicamente con digoxina


sufren una reacción adversa por causa de ella. A 10 pacientes se les admin-
istró durante largo tiempo digoxina mas otros medicamentos, y de ellos 5
desarrollaron la reacción adversa. ¿Puede afirmarse que la asociación entre
la digoxina y los otros medicamentos hace variar el número de reacciones
adversas?

21. Con el propósito de determinar como influye la dinámica familiar sobre el


control metabólico de la glicemia en pacientes diabéticos tratados con hi-
poglicemiantes orales, se procedió a seleccionar una muestra de 80 pacientes
diabéticos a los cuales se les aplicó el test del apgar familiar encontrándose
30 pacientes con alteraciones de la dinámica familiar, 40 pacientes no pre-
sentaron alteraciones ni en la dinámica familiar ni en el control metabólico
de la glicemia y solo 30 pacientes presentaron mal control metabólico de la
glicemia.

22. Un grupo de investigadores inicia un estudio de epidemia de hepatitis para la


cual se plantean como hipótesis que las malas condiciones sanitarias favore-
cen la propagación de los casos, observándose que de 240 sujetos estudiados
27 tenı́an hepatitis de los cuales 7 tenı́an altas condiciones sanitarias y 80
que no presentaron hepatitis tenı́an bajas condiciones sanitarias.

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 149

23. Un investigador plantea un diseño epidemiológico para poner en evidencia


como influye el estrato social sobre el peso al nacer, para lo cual controla
la edad materna y conforma dos grupos uno de 40 con bajo peso y otro de
720 recién nacidos con peso normal observando: que los niños con bajo peso
30 pertenecı́an al estrato social bajo, mientras que de los niños con peso
normal 700 pertenecı́an al estrato social alto.

Marcela Ribas - Federico De Olivera


Solución de algunos ejercicios:
Correspondientes al Bloque temático 1:

[2]

a) Clasifica todas las variables de la tabla, según sean cualitativas: nom-


inales u ordinales; o cuantitativas: discretas o continuas.

EDAD: Variable cuantitativa continua, pues existen innumerables val-


ores posibles de edades, entre dos edades distintas cualesquiera.

Nota: El hecho que la variable se mida en años, no impide que sea


continua. Entre una persona que tiene 30 años y otra que tiene 31
años, puede existir otra que tenga 31 años y 6 meses, y ası́ el tiempo,
que es continuo, se puede seguir subdiviviendo indefinidadmente.

SEXO: Variable cualitativa nominal, a pesar de los números 0 y 1,


pues sólo se utilizan para codificar: la adjudicación de los números es
arbitraria.

BH: Bebedor/a habitual: Variable cualitativa nominal, por el mismo


motivo anterior.

TALLA: Variable cuantitativa continua, pues existen innumerables


valores posibles, entre dos alturas o tallas distintas cualesquiera.

PESO: Variable cuantitativa continua.

GLU: Variable cuantitativa continua.

CT : Variable cuantitativa continua.

HDL: Variable cuantitativa continua.

Observación: es normal que las variables continuas, al medirlas y regis-


trarlas, se redondeen a valores enteros, lo que no impide que pudieran
registrarse con valores decimales, lo que harı́a más evidente su carácter
de continuas.
3.6 Ejercicios 151

b) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a


partir de los datos de la variable edad, de la tabla anterior. Considera
5 intervalos de igual longitud.

Como el mı́nimo valor de edad, en mi muestra de 40 usuarios del


servicio de salud, es 20 y la máxima edad es 90, la longitud de cada
intervalo será: ( 90 - 20 ) / 5 = 14

Edades ni hi Porcentaje Fi∗

[20, 34) 10 10/40 = 0, 25 25 0, 25


[34, 48) 21 21/40 = 0, 525 52, 5 0, 775
[48, 62) 4 4/40 = 0, 1 10 0, 875
[62, 76) 3 3/40 = 0, 075 7, 5 0, 95
[76, 90) 2 2/40 = 0, 05 5 1
40 1 100

Interpretación de algunos valores de la tabla anterior :

En la columna ni , el 21: Entre los usuarios del servicio de salud de la


muestra, hay 21 de ellos que tienen entre 34 y 47 años de edad.

En la columna hi , el 0,25: Entre los usuarios del servicio de salud de la


muestra, hay un 25 % de ellos que tienen entre 20 y 33 años de edad.

En la columna Porcentaje, el 10: Entre los usuarios del servicio de


salud de la muestra, hay un 10 % de ellos que tienen entre 48 y 61
años de edad.

En la columna Fi∗ , el 0,775: Entre los usuarios del servicio de salud de


la muestra, hay un 77,5 % de ellos que tienen menos de 48 años.

c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a

Marcela Ribas - Federico De Olivera


152 3. La Inferencia Estadı́stica

partir de los datos de glucemia de los varones de la tabla anterior.

Glucemia ni hi Fi∗

[80, 120) 7 0, 7 0, 7
[120, 160) 2 0, 2 0, 9
[160, 200) 0 0 0, 9
[200, 240) 1 0, 1 1
10 1

Un nivel normal de glucemia es aquél que se encuentra en el intervalo


[75, 100).

A partir de la tabla anterior, calcularemos el porcentaje de hombres


que se encuentran en el intervalo [80, 100), pues no hay nadie en el
intervalo [75, 80).

Para hacerlo utilizaremos una regla de tres simple:

[80, 120) longitud 40 70 %


[80, 100) longitud 20 x = 20 · 70/40 = 35 %

Por lo tanto, a partir de la tabla de frecuencias, vemos que existe


un 35 % de hombres en mi muestra que tienen un nivel normal de
glucemia. A partir de los datos originales, vemos que hay tres hom-
bres con un nivel normal de glucemia, lo cual corresponde a un 30 %.
La diferencia se debe a que el 30 % es real, mientras que el 35 % es
estimado, siguiendo la hipótesis de distribución uniforme de los datos
en el intervalo correspondiente, lo cual no siempre se cumple. Pero,
a pesar de que este último dato es estimado, es el que más comun-
mente se calcula, pues los datos originales, luego de construir la tabla
de frecuencias, generalmente no se vuelven a tomar en cuenta.

d ) Representa el histograma de la variable talla. Considera 5 intervalos.

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 153

Discrimina por sexo, considerando los mismos intervalos. Compara.

Tallas ni hi fi∗

[145, 152) 5 0, 125 0, 0178


[152, 159) 10 0, 25 0, 0357
[159, 166) 12 0, 3 0, 0428
[166, 173) 7 0, 175 0, 025
[173, 180] 6 0, 15 0, 0214
40 1

Marcela Ribas - Federico De Olivera


154 3. La Inferencia Estadı́stica

Tallas de hombres ni hi fi∗

[145, 152) 0 0 0
[152, 159) 1 0, 1 0, 0143
[159, 166) 1 0, 1 0, 0143
[166, 173) 5 0, 5 0, 0714
[173, 180] 3 0, 3 0, 0428
10 1

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 155

Tallas ni hi fi∗

[145, 152) 5 0, 16 0, 0228


[152, 159) 9 0, 3 0, 0428
[159, 166) 11 0, 37 0, 0528
[166, 173) 2 0, 07 0, 01
[173, 180] 3 0, 1 0, 0143
30 1

Comparando los histogramas, se observa lo esperado: que a nivel global


las estaturas se distribuyen en torno a los valores centrales, sin embargo
las alturas masculinas se concentran en valores altos, y las femeninas,
en valores medio-bajos

e) Representa la tabla de frecuencias de la variable BH, diferenciando por

Marcela Ribas - Federico De Olivera


156 3. La Inferencia Estadı́stica

tres grupos de edades: de 20 a 39 años, de 40 a 59 años y de 60 a 90


años. Compara.

B.H 20a39 hi 40a59 hi 60a90 hi


0 16 0, 7 8 0, 8 5 0, 83
1 8 0, 3 2 0, 2 1 0, 17
24 1 10 1 6 1

Comparando, observamos que: el 30 % de los jóvenes de 20 a 39 años, es


bebedor habitual, el 20 % de los adultos entre 40 y 59 años es bebedor
habitual, y el 17 % de los adultos mayores de 60 a 90 años es bebedor
habitual.

Observamos una clara tendencia descendente en la frecuencia de los


bebedores habituales, a medida que avanzamos en los intervalos de
edad.

f ) ¿Qué puedes decir sobre las medidas de tendencia central de la variable


CT en las mujeres de la tabla? ¿Y sobre su dispersión? Considere 5
intervalos.

Colesterol total ci ni hi Fi∗ ci · hi c2i · hi

[158, 198) 178 14 0, 47 0, 47 83, 66 14,891, 48


[198, 238) 218 8 0, 27 0, 74 58, 86 12,831, 48
[238, 278) 258 4 0, 13 0, 87 33, 54 8,653, 32
[278, 318) 298 3 0, 1 0, 97 29, 8 8,880, 4
[318, 358) 338 1 0, 03 1 10, 14 3,427, 32
30 1 216, 0 48,684, 0

El promedio de colesterol total, en las mujeres de esta muestra, es de


216 mg/dl de sangre. (Si lo calculamos a partir de datos originales da
un promedio de 218 mg/dl).

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 157

Calculo la mediana:
(0, 5–0, 47)
Xme = 198 + 0,27 = 202, 44
40

El 50 % de las mujeres de esta muestra, tienen un valor de colesterol


total de hasta 202,44 mg/dl de sangre . Intervalo modal: [158, 198) .
La mayor parte de las mujeres de esta muestra (un 47
OBSERVAR: Que el promedio (216 mg/dl) no se encuentra en el
intervalo modal [158,198), lo que implica que dicho promedio no rep-
resenta bien a esta muestra, la cual contentra muchos datos (un 47 %)
entre 158 mg/dl y 198 mg/dl. Como el promedio es mayor, esto sugiere
que existen unas “relativamente pocas” mujeres que tienen colesteroles
muy altos, que me influyen en la media y me la “tiran hacia arriba”.
Al observar la tabla de frecuencias se constata lo anterior.
Calculo la varianza, el desvı́o standard y el coeficiente de variación:

S 2 = 48,684–(216)2 = 2,028

S = 45, 03

En promedio, los datos de colesterol de las mujeres de esta muestra,


se alejan 45,03 mg/dl del promedio, que es de 216 mg/dl.

45, 03
C.V = = 0, 21
216
Esto implica que el desvı́o standard es un 21 % de la media, lo cual,
empı́ricamente, es un valor muy elevado. Esto nos confirma la mala
representatividad de la media en nuestra muestra, y nos sugiere acom-
pañarla con las otras medidas de tendencia central, a fin de conocer
las caracterı́sticas de nuestra muestra, lo mejor posible.

g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( coles-


terol bueno) más alto que los hombres”, a la luz de esta muestra.

Marcela Ribas - Federico De Olivera


158 3. La Inferencia Estadı́stica

Consultando literatura al respecto, se averiguó cuáles son los valores


deseables de HDL y cuáles los crı́ticos, escontrándose lo siguiente: un
nivel de HDL de menos de 40 mg/dl implica un riesgo de cardiopatı́a
(incluyendo un posible ataque cardı́aco), mientras que un HDL mayor
a 60 ayuda a proteger al individuo contra esta patologı́a del corazón.

Por lo tanto, se sugiere considerar los intervalos para la variable HDL,


que aparecen en la siguiente tabla, y organizar los datos según éstos,
discriminados por sexo:

mujeres hombres

HDL(mg/dl) ni hi ni hi
[30, 40) 4 0, 13 4 0, 4
[40, 60) 16 0, 54 4 0, 4
[60, 80] 10 0, 33 2 0, 2
30 1 10 1

En la tabla anterior se observa que el 40 % de los hombres de esta


muestra, tienen muy bajo el HDL o colesterol bueno, contra un 13 %
de las mujeres. Ası́ como el 33 % de éstas tienen un muy buen nivel
de HDL (mayor a 60 mg/dl, que protege de riesgo cardı́aco) contra un
20 % de los hombres. Con estos dos argumentos la frase “las mujeres
tienden a tener un colesterol HDL( colesterol bueno) más alto que los
hombres”, encuentra su confirmación en esta muestra.

Analizando un poco más profundidad podemos calcular el nivel medio

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 159

de HDL para hombres y mujeres, por separado.

mujeres hombres

HDL(mg/dl) hi ci hi · ci hi ci hi · ci
[30, 40) 0, 13 35 4, 55 0, 4 35 14
[40, 60) 0, 54 50 27 0, 4 50 20
[60, 80] 0, 33 70 23, 1 0, 2 70 14
1 54, 65 1 48

Y obviamente, el promedio de HDL es más alto en las mujeres que en


los hombres (54,65 mg/dl contra 48mg/dl). Esto era esperado ya por
nosotros pues las frecuencias relativas, arriba comentadas, influyen en
el promedio.

Correspondientes al Bloque temático 2:

[1]

a) x = 2,447

b) x = 2,75

c) x = 1,812

d ) x = 2,947

[1]

Sea A el suceso hablar inglés: P (A) = 0, 5. Sea B el suceso hablar francés:


P (B) = 0, 2. El suceso hablar francés e inglés es A ∩ B : P (A ∩ B) = 0, 05.

Ası:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 5 + 0, 2 − 0, 05 = 0, 65

Marcela Ribas - Federico De Olivera


160 3. La Inferencia Estadı́stica

[2]

Sean los siguientes sucesos V y E:

V : “que el individuo esté vacunado contra una cierta enfermedad”. P (V ) =


0, 6
E: “que el individuo contraiga la enfermedad anterior”. P (E) = 0, 2

P (V ∩ E) = 0, 02

Calculo P (E|V ) y P (V |E)

P (E|V ) = P (V ∩ E) · P (V ) = 0,02 · 0, 6 = 0, 012

P (V |E) = P (V ∩ E) · P (E) = 0,02 · 0, 2 = 0, 004

[3] Tomamos los porcentajes como probabilidades de curar. Sean los sigu-
ientes eventos:
As e =“el tratamiento A surte efecto”
Bs e =“el tratamiento B surte efecto”
análoga notación para el resto de los eventos.

a)

P (“curar en a)”) = P As e ∪ Bs e
  
= P As e + P Bs e − P As e ∩ Bs e
indep
= 0,2 + 0,3 − 0,2 · 0,3 = 0,44

b)

P (“curar en b)”) = P As e ∪ [Bs e dado queAno s e ]
disjuntos  
= P As e + P [Bs e dado queAno s e ]
indep
= 0,2 + 0,3 = 0,5

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 161

Notemos que es más efectivo aplicar primero B y si no da resultado aplicar


A, que aplicar los dos al mismo tiempo. Es importante discutir y plantearse
qué está sucediendo para que suceda esto aparentemente anti intuitivo.

[5] Recordemos que falso positivo es diagnosticar positivamente una


enfermedad dado que el paciente no está enfermo. De forma análoga,
falso negativo es diagnosticar negativamente una enfermedad dado que el
paciente si está enfermo.

Sean los eventos:


A+ =“se diagnostica positivamente con el análisis A”
A− =“se diagnostica negativamente con el análisis A”
análogo para B + y B −
E=“el paciente está enfermo”, E c =“el paciente no está enfermo”

Sabemos que P (E) = 0,1, P (A+ |E c ) = 0,15, P (A− |E) = 0,07, P (B + |E c ) =


0,22 y P (B − |E) = 0,03

Luego, nos interesa P ([A+ ∩ E] ∩ [A− ∩ E c ]) y P ([B + ∩ E] ∩ [B − ∩ E c ]).

disjuntos
P ([A+ ∩ E] ∪ [A− ∩ E c ]) = P (A+ ∩ E) + P (A− ∩ E c )

= P (A+ |E)P (E) + P (A− ∩ E c )P (E c )

= [1 − P (A− |E)]P (E) + [1 − P (A+ |E c )]P (E c )

= [1 − 0,07] · 0,1 + [1 − 0,15] · 0,9 = 0,858

Marcela Ribas - Federico De Olivera


162 3. La Inferencia Estadı́stica

disjuntos
P ([B + ∩ E] ∪ [B − ∩ E c ]) = P (B + ∩ E) + P (B − ∩ E c )

= P (B + |E)P (E) + P (B − ∩ E c )P (E c )

= [1 − P (B − |E)]P (E) + [1 − P (B + |E c )]P (E c )

= [1 − 0,03] · 0,1 + [1 − 0,22] · 0,9 = 0,799

En resumen, La probabilidad de acertar el diagnóstico con el análisis A es


0.858 y con en análisis B es 0.799.

[6]

Recordemos que la sensibilidad es la proporción de diagnosticados positi-


vamente sobre el total de enfermos (el complemento del falso negativo), y
la especificidad es la proporción de diagnosticados negativamente sobre el
total de sanos (el complemento de falsos positivos).

Usando análoga notación para los sucesos que en el ejercicio anterior, ten-
emos que P (E) = 0,2, S = P (T + |E) = 0,91 y E = P (T − |E c ) = 0,98

a)

P (T + |E)P (E)
P (E|T + ) =
P (T + |E)P (E) + P (T + |E c )P (E c )
0,91 · 0,2
= = 0,919
0,91 · 0,2 + (1 − 0,98) · 0,8

b)

P (T − |E c )P (E c )
P (E c |T − ) =
P (T − |E c )P (E c ) + P (T − |E)P (E)
0,98 · 0,8
= = 0,978
0,98 · 0,8 + (1 − 0,91) · 0,2

En resumen, La probabilidad de estar enfermo dado que el test dio positivo


es 0.919 y la probailidad de estar sano dado que el test dio negativo es
0.978.

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 163

[7]

P (F ) = P (F |H)P (H) + P (F |M )P (M ) = 0,7 · 0,4 + 0,2 · 0,6 = 0,4

La probabilidad que un estudiante al azar fume es 0,4.

[8]

Al darnos información de lo que sucede con el tratamiento y deseamos lo


que sucede con el paciente, podemos tratar de usar el Teorema de Bayes:

P (T AC + |E)P (E)
P (E|T AC + ) =
P (T AC + |E)P (E) + P (T AC + |E c )P (E c )
0,8 · 0,2
= = 0,87
0,8 · 0,2 + 0,03 · 0,8

[9]

Al darnos información de lo que sucede con el animal (segunda etapa) y


pedirnos información sobre la primera etapa (de donde proviene el virus)
podemos intentar aplicar el Teorema de Bayes.

Sean los sucesos: E= “el animal se enferma”, A=“el virus aplicado es A”,
análogo para B y C. la probabilidad pedida es:

P (E|C)P (C)
P (C|E) =
P (E|A)P (A) + P (E|B)P (B) + P (E|C)P (C)
1
· 5
7 10
= 1 3 2 2 1 5 = 0,234
·
3 10
+ ·
3 10
+ ·
7 10

[13]

a) Para hallar esta probabilidad tenemos que tipificar:

Marcela Ribas - Federico De Olivera


164 3. La Inferencia Estadı́stica

P (X ≤ 112) = P (X − 106 ≤ 112 − 106)


 X − 106 112 − 106 
= P ≤
8 }
| {z 8
Z∼N (0,1)

= P (Z ≤ 0,75)

Ahora buscamos en la Tabla Normal, en la primer fila buscamos la


unidad, en este caso 0, y en la primer columna los decimales, en este
caso 0.75 (pues su suma es 0.75 que es lo que deseamos). Donde se
crucen las correspondientes columna y fila es la probabilidad pedida:

P (X ≤ 112) = P (Z ≤ 0,75) = 0,773372

b) Lo que nos piden es P (102 ≤ X ≤ 112) multiplicado por 100 para ser
porcentaje. Luego

P (102 ≤ X ≤ 112) = P (X ≤ 112) − P (X ≤ 102)


tipif icando
= P (Z ≤ 0,75) − P (Z ≤ −0,5)

Para calcular P (Z ≤ −0,5) recordemos la igualdad para v.a. normales


tipificadas P (Z ≤ −x) = 1 − P (Z ≤ x), por lo tanto

P (102 ≤ X ≤ 112) = P (Z ≤ 0,75) − [1 − P (Z ≤ 0,5)]


tabla
= 0,773372 − [1 − 0,691462] = 0,464834

c) Análogo al anterior.

d ) Análogo al primero.

e) Lo que nos están pidiendo es hallar x de modo que P (X ≤ x) = 0,75.


Primero debemos estandarizar:

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 165

 
 x − 106 
P (X ≤ x) = P  Z ≤  = 0,75
 8
| {z }

z0,75

Ahora debemos buscar en la tabla, el valor 0.75, pero ojo, no en fila-


columna pues esl valor que nos dan es de una probabilidad, debemos
buscar 0.75 en el “interior” de la tabla y ver a que fila y columna corre-
sponde. En este caso, 0.75 no se encuentra, pero su valor más próximo
es 0.751747 en la primer columna (0) y en la fila correspondiente a
0.68, por lo tanto z0,75 = 0 + 0,68 = 0,68.

Por último, dbemos hallar x, es decir:

x − 106
= 0,68 ⇒ x = 0,68 · 8 + 106 = 111, 44
8

f ) Es similar al anterior pero ahora recordar que P (Z ≤ z0,25 ) = 1 −


P (Z ≤ −z0,25 ) ya que en la tabla no aparecen valores menores a 0.5 y
en este caso −z0,25 será un valor positivo pues z0,25 es negativo.

[14]

a) Nos piden xs tal que P (Xd ≤ xs ) = 0,02, por lo tanto tipificamos:

xs − 160
P (Xd ≤ xs ) = P (Z ≤ ) = 0,02
31,4
| {z }
z0,02

Luego, como probabilidades menores a 0.5 no las encontramos en la


tabla, usamos que P (Z ≤ z0,02 ) = 1 − P (Z ≤ −z0,02 ) = 0,02, entonces
P (Z ≤ −z0,02 ) = 0,98 y buscando en la tabla obtenemos que −z0,02 =
2,06. Por último

xs − 160
−z0,02 = − = 2,06 ⇒ xs = −2,06 · 31,4 + 160 =
31,4

Marcela Ribas - Federico De Olivera


166 3. La Inferencia Estadı́stica

Por lo tanto, un individuo diabético con valor de glucemia menor a


xs = 95,316 es considerado sano.

b) Ahora, en la distribución de los sanos queremos P (Xs ≥ 95,316), lo


cual es puede calcularse mediante el complemento P (Xs ≥ 95,316) =
1 − P (Xs ≤ 95,316), tipificando

 
95,316 − 80 tabla
P (Xs ≤ 95,316) = P Z≤ = P (Z ≤ 1,5316) = 0,936
10

Por último, la probabilidad buscada es: P (Xs ≥ 95,316) = 1 −


0,936881 = 0,063119 y sólo el 6,3119 % de los sanos serán clasifica-
dos como diabéticos.

c) Consideremos los siguientes sucesos:

D=“el individuo es Diabético”


S=“el individuo es Sano”
dD=“el individuo es diagnosticado Diabético”

La probabilidad pedida es P (D|dD). Como nos dan información de


lo que sucede con el tratamiento y queremos saber si el paciente es
enfermo o no podemos intentar aplicar Bayes.

P (dD|D)P (D)
P (D|dD) =
P (dD|D)P (D) + P (dD|S)P (S)
0,98 · 0,1
= = 0, 633
0,98 · 0,1 + 0,063119 · 0,9

La probabilidad de que un diagnosticado diabético realmente lo sea es


0,633

Correspondientes al Bloque temático 3:

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 167

[2] Dada una persona cualquiera (i) de la población, el resultado de su voto


(Xi ) es una variable dicotómica:


 1 si vota a favor
Xi =
 0 si vota en contra

Entonces: Xi se distribuye Ber(p) con p = P (Xi = 1)

El parámetro a estimar, a través de un intervalo de confianza con α =


0, 05, es p, y tenemos, sobre una muestra de tamaño n = 100, la siguiente
estimación puntual de p:

pb = 35/100 = 0, 35

El intervalo de confianza, al 95 %, para p es: [0,2565; 0,4435] El intervalo


de confianza, al 95 %, para 1 − p es: [0,5565; 0,7435]

Afirmamos, con una probabilidad de 0, 95, que los que votarán a favor están
entre un 25, 65 % y un 44, 35 %. Y los que votarán en contra están entre
un 55, 65 % y un 74, 35 %. Observar que no es muy precisa la información
obtenida, pues tenemos con esa muestra un error aproximado de 9, 3 puntos
porcentuales, al nivel de confianza del 95 %.

[3] Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de


confianza hasta el 97 % (α = 003) hemos de tomar una muestra lógicamente
de mayor tamaño; llamémosle m a esta nueva muestra.

Un valor de m que satisface nuestros requerimientos con respecto al error


es:

2
pb(1 − pb)Z1−α/2
m≥
0,012

Marcela Ribas - Federico De Olivera


168 3. La Inferencia Estadı́stica

Si en un principio no tenemos una idea sobre que valores puede tomar p,


debemos considerar el peor caso posible (el que nos da la máxima varianza),
que es en el que se ha de estimar el tamaño muestral cuando pb = 1/2.

Ası́, en este caso, como no se tiene una idea previa del posible resultado
del referéndum, hay que tomar un tamaño de muestra, m , que se calcula
mediante:

1 1
m≥ · · (z1−0,03/2 )2 /(0, 01)2 = 11772, 25
2 2

Es decir, que para conseguir estimar con un 97 % de confianza, el porcenta-


je de personas que votan a favor del referendum con un error de un 1 %
máximo, debemos encuestar a por lo menos 11773 persona Ası́, para tener
un resultado tan fiable, el número de personas a entrevistar es muy elevado,
lo que puede volver excesivamente costoso el procedimiento.

[4] La estimación puntual de la producción diaria media de bilis, en indi-


viduos sanos, es de X̄ = 0,958 litros. Y la varianza muestral es S 2 = 0,019.
Como debo estimar la varianza poblacional, utilizo la tabla t y obtengo
t9 , 0, 975 = 2,262. El error de estiamción es de 0,0987 litros. Por lo tanto,
con un 95 % de confianza decimos que la producción diaria media de bilis
está entre 0,859 litros y 1,057 litros.

[5] Con un 99 % de confianza podemos decir que la cantidad mı́nima re-


querida para que un anestésico surta efecto en una intervención quirúrgica
está entre 46, 5 mg y 53, 5 mg.

[6] En general, cuando no tenemos datos sobre la proporción, a los efectos


de estimar la varianza tomamos pb = 0, 5 para cubrirnos con la mayor vari-
anza posible. Pero, en este caso tenemos como dato que pb es menor a 0, 333.
Y lo usamos para considerar una varianza menor a la máxima y ası́ tomar

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 169

una muestra menor. Haciendo cálculos, se obtiene que se debe tomar una
muestra mayor a 1340, si queremos estimar la proporción de muertes de-
bidas a cáncer de estómago en relación con el número de defunciones por
cualquier tipo de neoplasia, con una confianza del 98 %, y no errarle en esa
proporción en más de un 0, 03.

[7] Como no conocemos el desvı́o poblacional y lo estimamos, usamos la


tabla t. Pero el valor de t49;0,95 no se encuentra en la tabla propuesta en
el teórico correspondiente a este material. Tomamos entonces el valor de
t4 0, 0, 95 = 1, 684 para cubrirnos más, pues cuanto menor es el tamaño
muestral mayor es el error posible. Ası́, obtenemos el intervalo, con un 90 %
de confianza, para la presión sistólica tras un cierto ejercicio fı́sico:[12,29;
13,71].

[8]

[5.861,2; 5.938,8] (usamos t24;0,975 = 2, 064 y la precisión es de 38, 8


gr).

Para bajar la precisión a 15 gr debemos muestrear a 168 bebés varones


de 12 semanas de vida (el cálculo da n = 167, 3 pero se redondea
siempre hacia arriba para cubrirse de cumplir con los requerimientos
pedidos). A los efectos del cálculo de n, como el desvı́o poblacional es
desconocido, se consideró el desvı́o muestral de la anterior muestra de
25 bebés.

[9] Se considera la variable X, con distribución Bernoulli, definida ası́: X =


1, si la visita de lugar a una extracción inmediata y X = 0, en caso contrario.
El parámetro a estimar es p = proporción de visitas al servicio odontológico
que da lugar a una extracción inmediata. De la muestra extraı́da obtengo
pb = 0, 21 . Un intervalo de confianza, al 95 % es [0,194; 0,226] y al 99 % de
confianza es [0,188; 0,232 ].

Marcela Ribas - Federico De Olivera


170 3. La Inferencia Estadı́stica

En conclusión, como 0,22 forma parte de ambos intervalos, tanto con un


95 % como con un 99 % de confianza, puedo decir que es posible que en ese
servicio odontológico el 22 % de las visitas lleven consigo una extracción
dentaria inmediata. Por lo tanto las cifras del año analizado no entran en
contradicción con el porcentaje estabelcido de siempre.

[14] X: concentración de calcio en la sangre de los mamı́feros (en mg por


cada 100 ml de l total de sangre)

H0 ) µ=6
H1 ) µ>6
α = 0, 05

X̄ = 6, 2 . Entonces z0 = 0, 6 < 1, 64 = z1−0,05 . Entonces , no rechazo H0 :


la evidencia muestral no es suficiente como para rechazar que el paciente
tenga un nivel normal de concentración de calcio en la sangre.

[15] X: número de accidentes mortales en una ciudad

H0 ) µ = 12
H1 ) µ < 12
α = 0, 05

X̄ = 9 y S = 1, 29. Entonces t0 = −5, 7 < t5 , z0,05 = −2, 015 . Entonces,


rechazo H0 : la campaña fué efectiva pues disminuyeron los accidentes de
tránsito (µ < 12).

[16] X: puntuación de los alumnos de Bioestadı́stica

H0 ) µ = 7, 5
H1 ) µ 6= 7, 5
α = 0, 05

Marcela Ribas - Federico De Olivera


3.6 Ejercicios 171

X̄ = 8, 25 . Entonces t0 = 5, 3 > t4 9, z0,975 aprox t6 0, z0 , 975 = 2. Entonces,


rechazo H0 : Variaron las calificaciones (µ distinto de 7)

[17] X: peso de mujeres de 20 a 30 años , en kg

H0 ) µ = 53
H1 ) µ 6= 53
α = 0, 05
n = 16

X̄ = 50 y S = 5. Entonces t0 = −2, 4 , cuyo valor absoluto es 2, 4 > t15 ,


z0,975 = 2, 231. Entonces, rechazo H0 : la dieta vegetariana modifica el peso
(pues µ no es 53, en las mujeres vegetarianas).

Marcela Ribas - Federico De Olivera


Bibliografı́a

[1] Hitoshi Kume, Herramientas estadı́sticas básicas para el mejoramiento de


la calidad. Ed. Norma, Bs. As. 2002.

[2] J.S. Milton, J.O. Tsokos, Estadı́stica para Biologı́a y Ciencias de la Salud.
Ed. McGraw-Hill, España 1989.

[3] Francisca Rı́us Dı́az, Francisco Javier Barón Lopez, Elisa Sánchez Font y
Luis Parras Guijosa, Bioestadı́stica: métodos y aplicaciones.
http://www.bioestadistica.uma.es/libro/

You might also like