Professional Documents
Culture Documents
0.1. Fundamentación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.4. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.5. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
II Contenido disciplinar 21
0.7. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1. La Estadı́stica Descriptiva 31
1.2.2. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.4. Ejericicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
0.1. Fundamentación
Por otra parte, la Biologı́a tiene caracterı́sticas particulares dentro de las Ciencias
experimentales, a partir de que su objeto de estudio está constituido por los seres
vivos. La variabilidad biológica y la diversidad son algunas de ellas. Esto trae
aparejado el carácter impredecible de los procesos que esta ciencia estudia, los
que están regidos por la aleatoriedad.
Por otra parte, tanto durante su carrera de grado como en la formación continua
más allá de esta etapa, es deseable que el Profesor en Ciencias biológicas tenga
como hábito la consulta de artı́culos cientı́ficos que permitan su actualización.
Nociones básicas de muestreo y pruebas estadı́sticas, permitirán al futuro profesor
seleccionar en base a criterios de confiabilidad, su fuente de información.
0.2. Objetivos
El estudiante debe saber manejar muy bien sus tiempos, a fin de conceder
en cada semana las horas de estudio adecuadas como para mantener la
correcta continuidad del curso.
resolución de problemas
0.4. Metodologı́a
resolución de problemas;
0.5. Evaluación
El plan de estudios del Sistema Único Nacional de Formación Docente 2008, item
X, capı́tulo III: de los cursos, en su Art. 25 indica que la duración de los cursos
será de treinta semanas.
Todo ello está dirigido a poner los esfuerzos para que todos los temas sean trata-
dos, especialmente los últimos que son aquellos que le dan el cierre al curso y
permiten que los estudiantes observen la real dimensión que tiene la estadı́stica
en el contexto de la disciplina Biológica.
Semana 1
Semana 2
Semana 3
Semana 4
Semana 5
Semana 6
Se busca que los estudiantes discutan acerca de las limitaciones del desvı́o stan-
dard y la importancia del coeficiente de variación, como medidas de resumen de
la variabilidad de los datos, a través de ejemplos.
Semana 7
Semana 8
Entrega de ejercicios:
El estudiante debe entregar al tutor, el ejercicio 3 resuelto.
Ejercicios: ejercicios 1, 2 y 3.
Semana 9
Semana 10
Semana 11
Semana 12
Semana 13
Esta semana se utilizará para redondear los puntos que no se hayan analizado
convenienteme y se dará apoyo en los ejercicios obligatorios a entregar: 5, 10, 12
y 16.
Semana 14
Actividad de investigación:
Se considera de gran relevancia que el estudiante tenga la experiencia de recolectar
datos en relación a un problema biológico de su interés, como forma útil de
comprender adecuadamente la importancia de cada herramienta aprendida. El
estudiante en esta semana, recabará, presentará y resumirá información de las
variables elegidas, aplicando los conocimientos y destrezas adquiridas. Para este
trabajo el estudiante destinará horas extras en esta semana y será apoyado por
el tutor.
Semana 15
Semana 16
Semana 17
En esta semana también se pretende que el estudiante dé una leı́da a los teoremas
que involucran la distribución de la media muestral ( teoremas 1, 2, 3 y 4 de las
subsección 3.2.3 y 3.2.4 ), extrayendo su utilidad (comprender que X̄ es una
variable aleatoria y conocer su distribución en diversas situaciones), más allá de
los detalles de su demostración, que no son de particular importancia en este
curso introductorio de la inferencia estadı́stica.
Semana 18
Para que el estudiante se failiarice con algunos cálculos realizar el siguiente ejer-
cicio:
Ejercicios: ejercicios 1.
Semana 19
Semana 20
Ejercicios: ejercicios 4, 5, 6, 7 y 8.
Semana 21
Ejercicios: ejercicios 2, 3 y 9.
Semana 22
Semana 23
Este foro está pensado para que los estudiantes discutan entre ellos y con el tutor,
como pueden llegar a variar ciertas conclusiones a partir de un test de hipótesis,
si se alteran por ejemplo la probabilidad máxima tolerada para el error de tipo
1, o si se intercambian las hipótesis.
Semana 24
Semana 25
Semana 26
Semana 27
Semana 28
Esta semana se utilizará para redondear los puntos del bloque tres, que no se
hayan analizado convenientemente en las semanas anteriores.
Semana 29
Semana 30
Esta última semana se destinará a aprender las nociones generales de los últimos
puntos del programa: el análisis de la Correlación Lineal y el análisis de Regresión
lineal. Dichos temas se encuentran en el libro [2], capı́tulo 11.
Contenido disciplinar
0.7. Introducción
En este curso no enfatizaremos las estadı́sticas como “cosas” sino que pensaremos
en el concepto de “hacer estadı́stica” en el sentido de pensar acerca de números
(recolectados, analizados y presentados) y su interpretación. Las fórmulas son
sólo una parte de esa forma de pensar, simples herramientas que son necesarias,
pero que no son las únicas cosas que debemos conocer.
¿Alguna vez te has preguntado cómo se llega a la verdad acerca de los fenómenos
que interesan al ser humano? ¿Cómo se sabe que el cigarrillo causa cáncer o cómo
se sabe que la vitamina C ayuda a prevenir el resfrı́o?.
La autoridad: algo era cierto sólo porque una cierta autoridad, llámese rey,
iglesia o autoridad cientı́fica, lo afirmaba. Esta fuente de conocimiento se
basa en la fé de las personas o en la incapacidad de verificar, por sı́ mismas
la veracidad del conocimiento que aceptan como válido.
Como disciplina, se la define como la ciencia que estudia ciertos conjuntos de datos
cuantitativos o cualitativos y los interpreta en términos matemáticos, estable-
ciendo métodos para la obtención ciertas medidas que los describen (Estadı́stica
Descriptiva). Ası́ como también los analiza y extrae conclusiones generales o leyes
a partir de dichos datos particulares (Inferencia Estadı́stica o Estadı́stica Induc-
tiva); para esto último se vale de la teorı́a de las probabilidades, considerada
también como ciencia de base matemática. Uno de los objetivos de un trabajo
estadı́stico puede ser la toma de decisiones en presencia de la incertidumbre.
Variable 2: Cantidad de veces al mes que concurren a locales con música por
encima de 100 decibeles.
Por lo general, no se puede disponer del valor de todas las variables para
todos los elementos de la población, por ejemplo por razones económicas.
Entonces se seleccionan algunos de sus elementos: a este subconjunto de la
población se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a
cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y
en el cuestionario que ésta incluye, se plantean las tres preguntas anteriores,
además de realizarles un chequeo auditivo.
4. Inferencia Estadı́stica
La Estadı́stica Descriptiva
Objetivo:
Son aquéllas que no son cuantificables, es decir que para su recolección no in-
tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos
categorı́a, puede ser asociado con un número, con la única finalidad de simpli-
ficar el procesamiento de los datos.
Por ejemplo, son variables cualitativas (entre paréntesis está un posible recorrido):
Los dos primeros ejemplos son de variables cualitativas nominales, que son
aquéllas en las cuales las asignaciones de los números no suponen ningún orden
entre ellas. En otras palabras: cualquier asignación es válida.
Mientras que entre los valores de las variables nominales sólo podemos comparar
si son iguales o distintos, entre los de las variables ordinales podemos establecer
la relación ”mayor que.o “menor que”.
Son variables que resultan de contar o medir ciertas caracterı́sticas de los ele-
mentos de la muestra. Se expresan numéricamente, y dichos valores se usarán
Categorı́as:
Son los distintos grupos, entre los cuales podemos clasificar los distintos valores
que toma una variable. Surgen de partir su recorrido. Muchas veces las categorı́as
pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el
caso de las variables continuas, cuyo recorrido está formado por infinitos números
Sea cual sea el tipo de variable, las categorı́as en las cuales se agrupan los
diferentes valores que toma la variable, deben ser exhaustivas y mutuamente
excluyentes.
Ejemplos:
Posible recorrido: [2.3, 5] . Puedo tomar como categorı́as los siguientes in-
tervalos: [2.3, 2.5), [2.5, 3.5), [3.5, 3.9), [3.9, 5] , u otros, dependiendo de
los intervalos que sean de interés.
Observación:
2. Los intervalos que son válidos son los del tipo [ , ) o ( , ]. Si los intervalos
son todos ( , ), no cumplen con la caracterı́stica de la exhaustividad, pues
los valores de los extremos no están incluidos en ningún intervalo. Si los
intervalos son todos [ , ], no cumplen con la caracterı́stica de ser mutuamente
excluyentes, pues se superponen.
98, 150, 100, 70, 80, 110, 123, 85, 115, 120
130, 110, 105, 98, 140, 81, 125, 120, 130, 126
Existen ciertos valores lı́mite, para distintas condiciones relacionadas con la can-
tidad de azúcar en sangre en ayunas. Según algunos especialistas se puede afirmar
lo siguiente:
48 a 73 hipoglucemia
74 a 99 glucemia normal
100 a 125 pre-diabetes
126 a 152 diabetes
[48, 74) X 1
[74, 100) XXXXX 5
[100, 126) XXXXXXXXX 9
[126, 152) XXXXX 5
n = 20
Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61.
1.2.2. Gráficos
Histograma
Observar que el área encima de cada intervalo (base por altura =amplitud del
El área total del histograma es 1, por ser la suma de todas las barras, que son
las frecuencias relativas hi .
superiores de los intervalos, que son los que aparecen en la tabla. Es decir:
Ojiva
1
0.8
Distribucion empirica
0.6
0.4
0.2
0
40 60 80 100 120 140 160
nivel de glucemia
La media en nuestro caso vale 110,4 lo cual significa que, en promedio, los
adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en
ayunas. Ello sólo no nos dice mucho pues no sabemos si la mayorı́a tienen
ese valor de glucemia, o tienen valores inferiores y superiores que hacen que
sea tal el promedio. Más adelante calcularemos el desvı́o standard y se nos
aclarará un poco el panorama.
Dos casos:
(0,5–0,3)
Xme = 100 + = 111,76
0,017
Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de
glucemia de 111,76 mg/dl o menos. O más significativamente, podemos
decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76
lo que implicarı́a que tienen pre-diabetes o diabetes.
Además de las medidas de tendencia central , también hay algunas medidas útiles
de posición “no central” que suelen utilizarse al resumir o describir propiedades
de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles.
Los Cuartiles son tres valores: Q1 , Q2 , y Q3 , que me dividen los datos ordenados
de la variable, en cuartos (25 %).
25 % | 25 % | 25 % | 25 %
Q1 Q2 Q3
Por ejemplo, el percentil 10 (que anotamos P10 ) es el valor cuya frecuencia acu-
mulada es del 10 %. Y el percentil 90 ( P90 ) cumple que Fi∗ (P90 ) = 0, 9
Dos casos:
donde:
xi−1 : extremo inferior del intervalo donde está Q1 .
F ∗ (xi−1 ) : frecuencia acumulada del intervalo anterior al de Q1 .
fi∗ : valor de la función de densidad empı́rica del intervalo donde
está Q1 .
En el ejemplo, el intervalo donde está Q1 es [74 , 100 ). Por lo tanto:
Dos casos:
(0, 75 − F ∗ (xi−1 ))
Q3 = xi−1 +
fi∗
donde:
Las medidas de dispersión dan idea de cuánto se dispersan o concentran los datos
de nuestra muestra.
Son útiles para medir, de algún modo, la representatividad de las medidas de ten-
dencia central. En otras palabras: los valores centrales pierden significación
cuando la dispersión es alta, y por ello debemos conocer y complementar las
medidas de posición, con las medidas de dispersión.
EJEMPLO: los ingresos mensuales de 4 personas (en $) son los siguientes: 7.800,
8.200, 8.000, 8.400.
La media es 8.100, y a simple vista notamos que los valores están concentrados
en torno a ella, pues se separan poco de la media (la dispersión es baja).
La media es también 8.100, pero se advierte una dispersión mucho mayor que
en el caso anterior. Por lo tanto la información que brinda la media en este caso
se desvirtúa y para no realizar conclusiones erróneas imaginar que 8.100 es un
sueldo representativo de estas 4 personas, debemos acompañarla de una medida
de dispersión, como es el desvı́o standard.
Rango: R
Una limitación que tiene R es que sólo considera los valores extremos, sin aportar
RI = Q3 –Q1
En nuestro ejemplo,
Varianza : S 2
Entonces S = 21, 6
S
C.V. =
media
Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando
1.4. Ejericicos
Atención es muy importante que interpretes los resultados de casa ejercicio. Uno
de los objetivos de la Estadı́stica es resumir y presentar información cuantitativa
de forma clara, por lo que es especialmente relevante que, en la resolución de los
ejercicios, se exprese de forma evidente el planteamiento del problema, el método
seguido para su resolución, los resultados y las conclusiones que se obtengan.
f ) Número de cromosomas.
2. Los items de este primer ejercicio, tienen como fuente de datos la tabla
que se presenta a continuación, la cual surge de una encuesta realizada
a usuarios de un servicio de salud. El significado de las variables, que se
encuentran en la primera fila de la tabla, se explican a continuación de la
misma.
EDAD: En años
SEXO: 0 (Mujeres) 1 (Varones)
BH: Bebedor/a habitual: 1 (Sı́) 0 (No)
TALLA: en cm.
PESO: En Kg.
GLU: Glucemia (mg/dl)
CT : Colesterol Total (mg/dl)
HDL: Fracción de colesterol unido a lipoproteı́nas de alta densidad: High
Density Lipoproteins (mg/dl).
[4, 10) 75 19
[10, 16) 35 26
[16, 22) 20 25
[22, 28) 30 30
[28, 34) 25 54
[34, 40] 15 46
b) Calcule las medidas de tendencia central para cada uno de los dos
grupos de personas.
25 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 2 32
calcule:
N ro de fallecidos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
REFORMAS DE
LA PRESTACIÓN
DE SERVICIOS
Más
REFORMAS
REFORMAS EN PRO DE LAS POLÍTICAS
DE LA COBERTURA PÚBLICAS
UNIVERSAL
necesaria
REFORMAS DEL
LIDERAZGO
que
nunca
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
Recuadro 1.3 Conforme mejora la información se hacen más patentes las múltiples
dimensiones de las crecientes desigualdades sanitarias
En los últimos años se ha descrito de forma mucho más detallada el alcance de las diferencias existentes en cada país en cuanto a
vulnerabilidad, acceso a la atención y resultados sanitarios (figura 1.9)59 . El hecho de disponer de mejor información ha permitido observar
que las desigualdades en materia de salud tienden a aumentar, lo que resalta los fallos y la desigualdad de las medidas adoptadas por
los sistemas de salud para responder a las necesidades sanitarias de la población. Pese a la importancia concedida últimamente a la
reducción de la pobreza, los sistemas de salud siguen teniendo dificultades para llegar a los pobres tanto en las zonas rurales cuanto
en las urbanas, así como para afrontar las muy diversas causas y consecuencias de la desigualdad en materia de salud.
5
40
4
30
3
20
2
1 10
0 0
Côte d’Ivoire Ghana Madagascar Bosnia y Herzegovina Comoras Ecuador
1988 1992 1993–4 2003–4 2003–4 2003–4
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior
80 80
60 60
40 40
20 20
0 0
Guinea Malawi Níger Tanzanía Bangladesh Colombia Indonesia Mozambique
2005 2004 2006 2004 2004 2005 2002–3 2003
Quintil inferior Quintil 2 Quintil 3 Quintil 4 Quintil superior
80 80
60 60
40 40
20 20
0 0
Bolivia Colombia Lesotho Nepal Filipinas Benin Bolivia Botswana Camboya Perú
2003 2005 2003 2006 2003 2001 2003 1998 2005 2000
Fuentes: (60, 61, 62, 63).
Sin estudios Estudios primarios Educación secundaria o superior
10
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
de uno de los artífices de la estrategia de APS Entre los factores que limitan ese despliegue
de ese país: «Dado que era imposible poner en progresivo de redes de atención primaria cabe
marcha el proyecto en todas las provincias al destacar la falta de una categoría de personal de
mismo tiempo, decidimos centrarnos cada año nivel intermedio con dotes de liderazgo que orga-
en una sola provincia» (recuadro 2.3). nice los distritos sanitarios y tenga la capacidad
de mantener, año tras año, el esfuerzo constante
requerido para lograr resultados sostenibles para
Recuadro 2.3 Reducción de la brecha toda la población. Cuando la puesta en marcha se
urbano-rural mediante la expansión progresiva ha llevado a cabo como una actividad meramente
administrativa, los resultados han sido decep-
de la cobertura de APS en las zonas rurales cionantes: muchos distritos sanitarios existen
de la República Islámica del Irán31 sólo teóricamente. Sin embargo, allí donde la
impaciencia y la presión para lograr la visibili-
En los años setenta las políticas del Gobierno iraní hicieron hincapié dad a corto plazo se han gestionado de manera
en la prevención como forma de inversión a largo plazo, la asignación adecuada, la combinación de la respuesta a las
de recursos a las zonas rurales y desfavorecidas, y la primacía de la necesidades y la demanda y la participación
atención ambulatoria respecto a la hospitalización. Se estableció una de la población y las instancias principales ha
red de equipos distritales encargados de supervisar y administrar casi
2500 centros rurales sanitarios en aldeas. La plantilla de esos centros es
permitido construir redes sólidas de atención
un equipo formado por un médico, una partera, una enfermera y varios primaria, incluso en situaciones de conflicto y
técnicos sanitarios. Cada centro supervisa de uno a cinco pequeños posconflicto muy difíciles y faltas de recursos
puntos de atención conocidos como «casas de salud». Gracias a esas (recuadro 2.4).
17 000 casas de salud, más del 90% de la población rural tiene acceso a En la práctica la distinción entre el despliegue
atención sanitaria. En las zonas rurales remotas, el personal de las casas
de salud está formado por behvarz (trabajadores de salud multifuncio-
rápido de intervenciones prioritarias y el des-
nales) que, tras ser seleccionados por la comunidad, reciben entre 12 y pliegue progresivo de redes de atención prima-
18 meses de formación y luego son contratados por la Administración. ria no suele ser tan sencilla como se acaba de
Los equipos distritales imparten formación basada en la solución de describir. Sin embargo, pese a esa convergencia,
problemas, así como supervisión y apoyo permanentes. la búsqueda de un compromiso entre rapidez y
El Gobierno aplicó esta estrategia progresivamente, ampliando la cober- sostenibilidad es un verdadero dilema político30.
tura de provincia en provincia. Con los años, la red de APS ha crecido
En Malí, por poner un ejemplo, se ha demostrado
y está ahora en condiciones de prestar servicios a más de 24 millones
de personas en aldeas rurales y localidades pequeñas, aproximando que, si se le permite elegir, la gente opta volun-
los consultorios a los lugares donde las personas viven y trabajan, e tariamente por la puesta en marcha progresiva
impartiendo formación al personal sanitario auxiliar necesario para que mediante la transformación de los centros de
proporcione servicios de planificación familiar, atención preventiva y salud comunitarios – cuya infraestructura es
atención curativa esencial para la mayoría de los problemas sanitarios.
propiedad de la comunidad local, que también
En la actualidad las tasas de utilización de los servicios rurales de salud
son similares a las de las zonas urbanas. La puesta en marcha progresiva se hace cargo de contratar al personal – en la
de este sistema ha contribuido a reducir las diferencias de mortalidad base de distritos sanitarios funcionales.
infantil entre las zonas urbanas y las rurales (figura 2.5). Lo realmente importante es que la preocupa-
Figura 2.5 Mortalidad de menores de cinco años en zonas rurales y urbanas,
ción por la equidad no se traduzca en la búsqueda
República Islámica del Irán, 1980–200032 del «mínimo común denominador»: la igualdad de
Mortalidad por 1000 menores de cinco años acceso a un conjunto de servicios en gran medida
80
Rural
insatisfactorios. La calidad y la sostenibilidad
son importantes, de ahí la gran necesidad de
60 armonización entre los numerosos proveedores
públicos y privados sin fines de lucro y comercia-
40
Urbana les, dinámicos y de diversos tipos. El despliegue
gradual de servicios de salud brinda la oportuni-
dad de imprimir una coherencia beneficiosa a la
20
dirección de la prestación de atención sanitaria a
nivel de distrito. Ejemplos típicos y en gran escala
0
1980 1985 1990 1995 2000 de este enfoque en los países en desarrollo son la
subcontratación de servicios distritales de salud
32
Informe sobre la salud en el mundo 2008 La atención primaria de salud, más necesaria que nunca
misma oferta. Los sistemas de salud son también mejores, de que haya menos inequidades en salud
reflejo de una cultura de consumo que se está y de poder participar en las decisiones que afec-
generalizando. Sin embargo, por otra parte hay tan a la salud es más común e intenso que hace
indicios de que la población es consciente de que 30 años. En consecuencia, actualmente se espera
esos sistemas de salud no aportan una respuesta mucho más de las autoridades sanitarias.
adecuada a las necesidades y la demanda, y de
que se mueven por intereses y objetivos no rela- Equidad sanitaria
cionados con las expectativas de las personas. A Rara vez, si no nunca, se logra una situación de
medida que las sociedades se modernizan y se equidad en cuanto a la salud, la riqueza o el poder.
vuelven más prósperas e informadas, va cam- Algunas sociedades son más igualitarias que otras,
biando la vida que la gente desea llevar como
personas y como miembros de la sociedad, es
decir, cambian sus valores112. Hoy día se tiende Recuadro 1.5 La salud, una de las
a considerar los servicios de salud más como un principales prioridades personales
producto, pero también son cada vez mayores las
expectativas con respecto a la salud y la atención
Cuando se pregunta a las personas por los problemas más
sanitaria. La gente se interesa más de que lo se
importantes con que se enfrentan ellas y sus familias, casi
piensa por la salud como factor que influye en siempre se citan en primer lugar los apuros económicos,
su vida cotidiana y la de sus familias (recuadro seguidos de cerca por la salud118 . En uno de cada dos países,
1.5)113, y espera que sus familias y comunida- las enfermedades propias, los costos de la atención sanitaria,
des estén protegidas de los riesgos y los peligros la mala calidad de la atención y otros temas de salud son
las principales preocupaciones personales de más de una
para la salud. Desea una atención sanitaria que
tercera parte de la población encuestada (figura 1.11). Así
la trate como personas con derechos y no como pues, no resulta sorprendente que el desmoronamiento del
meros objetivos de programas o beneficiarios de sistema de atención sanitaria – incluso los meros indicios de
obras de caridad. Está dispuesta a respetar a los un posible desmoronamiento – pueda provocar una situación
profesionales sanitarios, pero desea ser respe- de descontento popular que amenace las ambiciones de los
políticos considerados responsables119 .
tada a su vez, y que exista un clima de confianza
mutua114. Figura 1.11 Porcentaje de la población que cita la salud como su principal
preocupación, por delante de otras cuestiones como los problemas
Las personas también tienen expectativas económicos, la vivienda y la delincuencia118
sobre la manera en que la sociedad se debe ocu- Polonia
Ucrania
par de la salud y la atención sanitaria. Aspiran Federación de Rusia
Bulgaria
Alemania
a una mayor equidad y solidaridad sanitarias Italia
Suecia
y cada vez toleran menos la exclusión social, Israel
Turquía
España
aunque a título individual se resistan a veces a República Checa
Francia
actuar conforme a esos valores115. Esperan que Reino Unido
Eslovaquia
Objetivo:
2.1. Introducción
Para poder aplicar las reglas de la probabilidad (que pronto veremos) es necesario
que la muestra sea aleatoria lo cual, básicamente significa que cada muestra de
tamaño dado n tiene igual probabilidad de ser elegida y que cada elemento de
la población tiene igual probabilidad de estar en la muestra. Lo anterior permite
generalizar una caracterı́stica que presenta una muestra, a toda la población, es
decir, permite hacer inferencia.
Definiciones de probabilidad
Observemos que para este cálculo no tuvimos que recurrir a ninguna colec-
ción de datos observados. Sólo utilizamos nuestra razón.
n(A)
P (A) = lı́m = lı́m h(A)
n→+∞ n n→+∞
menos 25 veces que sale el 6, para afirmar que el dado está cargado a favor
del 6? Lo resolveremos más adelante, al estudiar la Inferencia Estadı́stica.
2. Probabilidad de la unión
P [A ∪ B] = P [A] + P [B] − P [A ∩ B]
P [A ∪ B] = P [A] + P [B]
3. Probabilidad de la intersección:
A = “sale un 4”
P [A ∩ B] = P [A]. · P [B|A]
P [A ∩ B] = P [B] · P [A|B]
P [A ∩ B] = P [A] · P [B]
P [A ∩ B] = P [∅] = 0
P [Ac ] = 1 − P [A]
A 35 35 70
B 9 9 18
AB 1 5 6
O 70 36 106
g) Los eventos “ser alcohólico” y “ser del grupo AB”, ¿ son independientes
?
Notaciones:
c)
+P [B ∩ AB ∩ ALc ]
18 6 85 9 5 95
= + + −0− − +0=
200 200 200 200 200 200
= 0, 475
e) P [A ∩ AB] = P [∅] = 0
Todas las variables aleatorias tienen valores que las caracterizan, llamados
parámetros. Dos de ellos muy importantes son la media poblacional o es-
peranza (que se simboliza µ ) y la varianza poblacional (que se simboliza σ 2
).
P [Z ≤ zp ] = p
Para calcular probabilidades con esta variable, basta saber leer adecuadamente
la siguiente tabla, y efectuar unos sencillos cálculos. En esta tabla se muestran
Zp 0 1 2 3 4
0 0, 500 000 0, 841 344 0, 977 249 0, 998 650 0, 999 968
0,01 0, 503 989 0, 843 752 0, 977 784 0, 998 693 0, 999 969
0,02 0, 507 978 0, 846 135 0, 978 308 0, 998 736 0, 999 970
0,03 0, 511 966 0, 848 494 0, 978 821 0, 998 777 0, 999 972
0,04 0, 515 953 0, 850 830 0, 979 324 0, 998 817 0, 999 973
0,05 0, 519 938 0, 853 140 0, 979 817 0, 998 855 0, 999 974
0,06 0, 523 922 0, 855 427 0, 980 300 0, 998 893 0, 999 975
0,07 0, 527 903 0, 857 690 0, 980 773 0, 998 929 0, 999 976
0,08 0, 531 881 0, 859 928 0, 981 237 0, 998 964 0, 999 977
0,09 0, 535 856 0, 862 143 0, 981 691 0, 998 999 0, 999 978
0,1 0, 539 827 0, 864 333 0, 982 135 0, 999 032 0, 999 979
0,11 0, 543 795 0, 866 500 0, 982 570 0, 999 064 0, 999 980
0,12 0, 547 758 0, 868 643 0, 982 997 0, 999 095 0, 999 981
0,13 0, 551 716 0, 870 761 0, 983 414 0, 999 125 0, 999 981
0,14 0, 555 670 0, 872 856 0, 983 822 0, 999 155 0, 999 982
0,15 0, 559 617 0, 874 928 0, 984 222 0, 999 183 0, 999 983
0,16 0, 563 559 0, 876 975 0, 984 613 0, 999 211 0, 999 984
0,17 0, 567 494 0, 878 999 0, 984 996 0, 999 237 0, 999 984
0,18 0, 571 423 0, 880 999 0, 985 371 0, 999 263 0, 999 985
0,19 0, 575 345 0, 882 976 0, 985 737 0, 999 288 0, 999 986
0,2 0, 579 259 0, 884 930 0, 986 096 0, 999 312 0, 999 986
0,21 0, 583 166 0, 886 860 0, 986 447 0, 999 336 0, 999 987
0,22 0, 587 064 0, 888 767 0, 986 790 0, 999 358 0, 999 987
0,23 0, 590 954 0, 890 651 0, 987 126 0, 999 380 0, 999 988
0,24 0, 594 834 0, 892 512 0, 987 454 0, 999 402 0, 999 988
0,25 0, 598 706 0, 894 350 0, 987 775 0, 999 422 0, 999 989
0,26 0, 602 568 0, 896 165 0, 988 089 0, 999 442 0, 999 989
0,27 0, 606 419 0, 897 957 0, 988 396 0, 999 462 0, 999 990
0,28 0, 610 261 0, 899 727 0, 988 696 0, 999 480 0, 999 990
0,29 0, 614 091 0, 901 474 0, 988 989 0, 999 499 0, 999 991
0,3 0, 617 911 0, 903 199 0, 989 275 0, 999 516 0, 999 991
0,31 0, 621 719 0, 904 902 0, 989 555 0, 999 533 0, 999 991
0,32 0, 625 515 0, 906 582 0, 989 829 0, 999 549 0, 999 992
0,33 0, 629 299 0, 908 240 0, 990 096 0, 999 565 0, 999 992
0,34 0, 633 071 0, 909 877 0, 990 358 0, 999 581 0, 999 992
0,35 0, 636 830 0, 911 491 0, 990 613 0, 999 595 0, 999 993
0,36 0, 640 576 0, 913 084 0, 990 862 0, 999 610 0, 999 993
0,37 0, 644 308 0, 914 656 0, 991 105 0, 999 624 0, 999 993
0,38 0, 648 027 0, 916 206 0, 991 343 0, 999 637 0, 999 994
0,39 0, 651 731 0, 917 735 0, 991 575 0, 999 650 0, 999 994
0,4 0, 655 421 0, 919 243 0, 991 802 0, 999 663 0, 999 994
0,41 0, 659 096 0, 920 730 0, 992 023 0, 999 675 0, 999 994
0,42 0, 662 757 0, 922 196 0, 992 239 0, 999 686 0, 999 995
0,43 0, 666 402 0, 923 641 0, 992 450 0, 999 698 0, 999 995
0,44 0, 670 031 0, 925 066 0, 992 656 0, 999 709 0, 999 995
0,45 0, 673 644 0, 926 470 0, 992 857 0, 999 719 0, 999 995
0,46 0, 677 241 0, 927 854 0, 993 053 0, 999 729 0, 999 995
0,47 0, 680 822 0, 929 219 0, 993 244 0, 999 739 0, 999 996
0,48 0, 684 386 0, 930 563 0, 993 430 0, 999 749 0, 999 996
0,49 0, 687 933 0, 931 887 0, 993 612 0, 999 758 0, 999 996
0,5 0, 691 462 0, 933 192 0, 993 790 0, 999 767 0, 999 996
0,51 0, 694 974 0, 934 478 0, 993 963 0, 999 775 0, 999 996
0,52 0, 698 468 0, 935 744 0, 994 132 0, 999 784 0, 999 996
0,53 0, 701 944 0, 936 991 0, 994 296 0, 999 792 0, 999 997
0,54 0, 705 401 0, 938 219 0, 994 457 0, 999 799 0, 999 997
0,55 0, 708 840 0, 939 429 0, 994 613 0, 999 807 0, 999 997
0,56 0, 712 260 0, 940 620 0, 994 766 0, 999 814 0, 999 997
0,57 0, 715 661 0, 941 792 0, 994 915 0, 999 821 0, 999 997
0,58 0, 719 042 0, 942 946 0, 995 059 0, 999 828 0, 999 997
0,59 0, 722 404 0, 944 082 0, 995 201 0, 999 834 0, 999 997
0,6 0, 725 746 0, 945 200 0, 995 338 0, 999 840 0, 999 997
0,61 0, 729 069 0, 946 301 0, 995 472 0, 999 846 0, 999 997
0,62 0, 732 371 0, 947 383 0, 995 603 0, 999 852 0, 999 998
0,63 0, 735 652 0, 948 449 0, 995 730 0, 999 858 0, 999 998
0,64 0, 738 913 0, 949 497 0, 995 854 0, 999 863 0, 999 998
0,65 0, 742 153 0, 950 528 0, 995 975 0, 999 868 0, 999 998
0,66 0, 745 373 0, 951 542 0, 996 092 0, 999 873 0, 999 998
0,67 0, 748 571 0, 952 540 0, 996 207 0, 999 878 0, 999 998
0,68 0, 751 747 0, 953 521 0, 996 318 0, 999 883 0, 999 998
0,69 0, 754 902 0, 954 486 0, 996 427 0, 999 887 0, 999 998
0,7 0, 758 036 0, 955 434 0, 996 532 0, 999 892 0, 999 998
0,71 0, 761 148 0, 956 367 0, 996 635 0, 999 896 0, 999 998
0,72 0, 764 237 0, 957 283 0, 996 735 0, 999 900 0, 999 998
0,73 0, 767 304 0, 958 184 0, 996 833 0, 999 904 0, 999 998
0,74 0, 770 350 0, 959 070 0, 996 927 0, 999 907 0, 999 998
0,75 0, 773 372 0, 959 940 0, 997 020 0, 999 911 0, 999 998
0,76 0, 776 372 0, 960 796 0, 997 109 0, 999 915 0, 999 999
0,77 0, 779 350 0, 961 636 0, 997 197 0, 999 918 0, 999 999
0,78 0, 782 304 0, 962 462 0, 997 281 0, 999 921 0, 999 999
0,79 0, 785 236 0, 963 273 0, 997 364 0, 999 924 0, 999 999
0,8 0, 788 144 0, 964 069 0, 997 444 0, 999 927 0, 999 999
0,81 0, 791 029 0, 964 852 0, 997 522 0, 999 930 0, 999 999
0,82 0, 793 892 0, 965 620 0, 997 598 0, 999 933 0, 999 999
0,83 0, 796 730 0, 966 375 0, 997 672 0, 999 935 0, 999 999
0,84 0, 799 545 0, 967 115 0, 997 744 0, 999 938 0, 999 999
0,85 0, 802 337 0, 967 843 0, 997 813 0, 999 940 0, 999 999
0,86 0, 805 105 0, 968 557 0, 997 881 0, 999 943 0, 999 999
0,87 0, 807 849 0, 969 258 0, 997 947 0, 999 945 0, 999 999
0,88 0, 810 570 0, 969 946 0, 998 011 0, 999 947 0, 999 999
0,89 0, 813 267 0, 970 621 0, 998 073 0, 999 949 0, 999 999
0,9 0, 815 939 0, 971 283 0, 998 134 0, 999 951 0, 999 999
0,91 0, 818 588 0, 971 933 0, 998 192 0, 999 953 0, 999 999
0,92 0, 821 213 0, 972 571 0, 998 249 0, 999 955 0, 999 999
0,93 0, 823 814 0, 973 196 0, 998 305 0, 999 957 0, 999 999
0,94 0, 826 391 0, 973 810 0, 998 358 0, 999 959 0, 999 999
0,95 0, 828 943 0, 974 412 0, 998 411 0, 999 960 0, 999 999
0,96 0, 831 472 0, 975 002 0, 998 461 0, 999 962 0, 999 999
0,97 0, 833 976 0, 975 580 0, 998 510 0, 999 964 0, 999 999
0,98 0, 836 456 0, 976 148 0, 998 558 0, 999 965 0, 999 999
0,99 0, 838 912 0, 976 704 0, 998 605 0, 999 966 0, 999 999
Notación: X ∼ N (µ, σ)
X = σZ + µ
X −1 2−1 1 tabla
P [X ≤ 2] = P [ ≤ ] = P [Z ≤ ] = 0,691462
2 2 2
2.5. Ejercicios
P (T + |E)P (E)
P (E|T + ) =
P (T + |E)P (E) + P (T + |E c )P (E c )
De ahora en más tenerlo presente.
P (F ) = P (F |H)P (H) + P (F |M )P (M )
12. En una mutualista, sucede que muchas veces un individuo enfermo es di-
agnosticado como sano y a veces uno sano es diagnosticado como enfermo.
Las estadı́sticas de datos se resumen en el siguiente cuadro:
Enfermo Sano
Diagnosticado enfermo 89 12
Diagnosticado sano 11 388
a) Hallar P [X ≤ 112].
d ) Hallar P [X ≤ 115].
14. Se supone que la glucemia basal en individuos sanos, Xs , sigue una dis-
tribución Normal con µs = 80 y σs = 10, mientras que en los diabéticos,
15. Se supone que en una cierta población humana el ı́ndice cefálico I, (co-
ciente entre el diámetro transversal y el longitudinal expresado en tanto
por ciento), se distribuye según una Normal. El 58 % de los habitantes son
dolicocéfalos (I ≤ 75), el 38 % son mesocéfalos (75 < I ≤ 80) y el 4 %
son braquicéfalos (i > 80). Hallar la media y la desviación tı́pica del ı́ndice
cefálico en esa población.
16. Se está llevando a cabo un estudio que pretende descubrir cuál es el nivel
del tabaquismo en la Universidad.
Es una función tal que, a cada valor que toma la v.a. X, le asigna su
probabilidad.
PX (x) = P (X = x)
1. 0 ≤ PX (x) ≤ 1 ∀x ∈ Rec(X)
fX (x) ≥ 0 ∀x ∈ R
P
2. x∈Rec(X) PX (x) = 1
R +∞
−∞
fX (x)dx = 1
cuentas
V ar(X) = E[(X–E(X))2 ] = E(X 2 ) − E(X)2
X h X i h i2
2 2
V ar(X) = (x−E(X)) ·P (X = x) = x ·P (X = x) − E(X)
x∈Rec(X) x∈Rec(X)
Propiedades de la Varianza de X
2. V ar(a · X) = a2 · V ar(X)
Propiedades de la esperanza de X
p
Desvı́o standard de X: V ar(X)
1
P (X = x1 ) =
n
1
P (X = x2 ) =
n
..
.
1
P (X = xn ) =
n
P (X = x) = 0 si x 6∈ {x1 , x2 , . . . , xn }
Ejemplos:
2. X2 = número que sale al sacar una carta de una baraja española (sin
comodines).
Rec(X2 ) = 1, 2, . . . , 12.
1 si sucede éxito (E)
X=
0 si sucede fracaso (F )
P (X = 1) = P (E) = p
P (X = 0) = P (F ) = 1 − p
P
E(X) = x∈Rec(X) x · P (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = p
P 2
V ar(X) = x∈Rec(X) x2 · P (X = x) − E(X) = p − p2 = p(1 − p)
a) de forma independiente
n! n·(n−1)·(n−2)···3·2·1
donde i ∈ Rec(X) y Cin = (n−i)!i!
= [(n−i)·(n−i−1)·(n−i−2)···3·2·1][i·(i−1)·(i−2)···3·2·1]
Ejemplo:
Tiro un dado tres veces ¿ Cuál es la probabilidad de que me salga sólo un seis en
las tres tiradas ?
1. El seis puede salir en cualquiera de las tres tiradas; entonces los eventos que
me sirven son:
A : 6, 6= 6, 6= 6
B : 6= 6, 6, 6= 6
C : 6= 6, 6= 6, 6
1 2
5 1 5 1 5
P (B) = · · = ·
6 6 6 6 6
1 2
5 5 1 1 5
P (C) = · · = ·
6 6 6 6 6
3. Por lo tanto, la probabilidad de que me salga sólo un seis en las tres tiradas es :
1 2
mutuamente 1 5
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) = 3 · ·
excluyentes 6 6
1 3−1 1 2
1 1 1 5
PX (1) = P (X = 1) = C1n ·p1 (1−p)n−1 = C13 · · 1− = 3· ·
6 6 6 6
X = X1 + X2 + · · · + Xn
1.
E(X) = E(X1 + X2 + · · · + Xn )
= p + p + ··· + p
= n·p
2.
V ar(X) = V ar(X1 + X2 + · · · + Xn )
indep
= V ar(X1 ) + V ar(X2 ) + · · · + V ar(Xn ))
= n · p(1 − p)
1
fX (x) = √ −1 (x−µ)2
·
2πσ · e 2 σ2
1 1 2
φ(x) = · e− 2 ·x
2π
Pero ello es imposible incluso con cálculo avanzado, en lugar de ello, buscamos el
resultado en la tabla de la variable Normal Standard, de la forma explicada en el
bloque temático 2.
Sea X una v.a. Con X ∼ Binomial(n, p), por lo tanto E(X) = np y V ar(X) =
np(1 − p)
Entonces, la v. a.
X − np
Y =p
np(1 − p)
tiende a la Normal standard (Z ∼ N (0, 1)), conforme el número de ensayos
independientes n tiende al infinito.
X − np n→∞
p → Z ∼ N (0, 1)
np(1 − p)
Este teorema es útil, pues cuando el n es grande, puede ser engorroso hacer los
cálculos con la fórmula de la cuantı́a Binomial.
Pruebas diagnósticas
Pita Fernández, S. spita@canalejo.org, Pértegas Díaz, S. spertega@canalejo.org
Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo.
A Coruña (España)
Cad Aten Primaria 2003; 10: 120-124.
Actualización 14/07/2003.
__________________________________
Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y
negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son3:
• Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia
el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos?
La sensibilidad y la especificidad de un test son medidas de su validez.
• Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite
su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la
introducida por el propio observador y la derivada del propio test, determinan su
reproductividad.
• Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o
negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un
resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de
la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la
prevalencia de la patología.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población
general, que tenga los mínimos efectos adversos y que económicamente sea soportable.
En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez de un test
(sensibilidad y especificidad) y su seguridad (valores predictivos positivos y negativos).
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada
paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En
casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un
resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos
obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra
en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los
pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que
vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo)
o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los
valores de sensibilidad y especificidad4:
Sensibilidad
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se
muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes
enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir:
VP
Sensibilid ad =
VP + FN
De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”.
Especificidad
VN
Especifici dad =
VN + FP
Ejemplo:
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se incluyó a 2.641
pacientes con sospecha de cáncer prostático que acudieron a una consulta de Urología durante un periodo
de tiempo determinado. Durante su exploración, se recogió el resultado del tacto rectal realizado a cada
uno de estos pacientes, según fuese éste normal o anormal, y se contrastó con el posterior diagnóstico
obtenido de la biopsia prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla
2. Se encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos
estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56% (634/1121) y la
especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un 56,56% de los casos de cáncer
prostático y normal en un 82,3% de los casos que presentaron finalmente otras patologías. Esto significa
que un 100-56,56=43,44% de los pacientes que efectivamente tenían cáncer presentaban tactos normales.
Claramente ello indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus
derivados, para poder establecer el diagnóstico de forma más precisa.
Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad,
pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para
poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos
casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con
enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que
un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo,
la realización de mamografía en el cáncer de mama).
Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto
sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de
alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en
enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por
conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no
padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en
el caso del SIDA).
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba
diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la
especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto
(positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin
embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori
acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un
resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente
enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una
dirección. Por medio de los valores predictivos completaremos esta información5:
VP
VPP =
VP + FP
Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima
dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la
prueba:
VN
VPN =
FN + VN
Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en este caso del
70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738). Ello significa que en un
70,21% de los pacientes con un tacto anormal finalmente se confirmó la presencia de cáncer, mientras
que de los que no se detectaron anomalías en el tacto un 71,98% estaban efectivamente sanos.
La influencia de la prevalencia.
Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez
de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora
de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja
adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez
independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica.
Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar
decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de
que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto
de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la
enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un
resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo.
Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han
confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%.
Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000
habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una
prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos,
obteniéndose un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos con
un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los
mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la
utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría.
Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de
enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un
800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a
un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la
prevalencia es alta, un resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que
si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia.
Razones de probabilidad
Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por
lo tanto, éstos , no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos
diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello,
resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no
dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de
sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de
verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto más probable
es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad:
Sensibilidad
RV + =
1 - Especificidad
1 - Sensibilidad
RV − =
Especificidad
Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer prostático a partir
del tacto rectal. En este caso, se obtiene un cociente de probabilidades positivo de 3,20. Ello viene a
indicarnos que un tacto anormal es, por lo tanto, 3 veces más probable en un paciente con cáncer
prostático que en otro sujeto sin cáncer.
La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una
prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una
nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal
o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la
especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre
diferentes pruebas para un mismo diagnóstico.
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo),
pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro
numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a
estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una
clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La
diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de
sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares
correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en
representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los
posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha
curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la
prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer
comparaciones entre diferentes pruebas diagnósticas7-10.
En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas
diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad
y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva
de un test11,12. Los estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener
esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este
tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una
vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices
calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la
forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la
presencia de sesgos11,13,14.
Bibliografía
1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la
medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994.
2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary test.
Am Heart J 1980; 100: 928. [Medline]
3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University
Press; 1992.
4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity. BMJ
1994; 308: 1552. [Medline]
5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994; 309:
102. [Medline]
6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios: a
real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. [Medline]
7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación de las
pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline]
8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental
evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline]
9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic
plots. BMJ 1994; 309: 188. [Medline]
10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5(4):
229-235.
11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed
Barcelona: Harcourt; 2000.
12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed. Baltimore:
Williams and Wilkins; 1996.
13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en
cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline] [Texto completo]
14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997;
315: 540-543. [Medline] [Texto completo]
La Inferencia Estadı́stica
Objetivo:
3.1. Introducción:
Cada una de estas Inferencias presenta diversos test o pruebas de hipótesis, cuyos
complejos mecanismos serán sintetizados y presentados a través de ejemplos, a
fin de facilitar la comprensión del estudiante.
Por otra parte, podemos calcular un estadı́stico a partir de la muestra, pero el es-
tadı́stico variará de muestra a muestra. Aunque quisiéramos conocer el parámetro
de la población, observamos solamente muestras obtenidas de la población. Por
¿ Cómo podrı́amos hacer para tener una idea aproximada del valor de µ, la media
poblacional de la variable X ? Considerando una muestra de tamaño n, evaluando
Xi en cada uno de ellos y calculando el valor de X̄
¿ Por qué X̄?. Porque es un “buen estimador” del valor desconocido µ, pues
tiene buenas propiedades, entre ellas que “los valores de X̄ (correspondientes a
las distintas muestras) no se alejan, en promedio demasiado” del verdadero valor
de µ.
Ahora, ¿qué podemos decir del valor de µ, conociendo el valor de X̄?. No podemos
decir tan rápidamente que coinciden, pues en una muestra la información es
parcial. Nos acercaremos a la respuesta, conociendo la distribución de X̄ como
variable aleatoria. En la Figura siguiente se muestra el camino a seguir para
estimar la media de la población.
√ (X̄ − µ)
Z = n
σ
√ (X̄ − µ)
T = n
S0
Repetimos los anteriores cálculos 10.000 veces. De esta manera tendremos 10.000
observaciones de los estadı́sticos X̄, Z y T . La siguiente tabla muestra los
primeros 10 casos y a continuación está el gráfico de los histogramas de las 10.000
observaciones de los estadı́sticos mencionados: allı́ podremos observar el contorno
de la distribución de cada uno de ellos.
N ro X1 X2 X3 X4 X5 X̄ Z T
3.2.3. Distribución de X̄
Todas estas observaciones nos lleva a presentar los siguientes teoremas que gen-
eralizan los resultados.
Teorema 1
Supongamos que X1 , X2 , . . . , Xn es una muestra de n observaciones de la variable
X en una población con una media µ y una varianza σ 2 , y que X̄ es la media de
la muestra. Entonces el valor esperado, la varianza y la desviación standard de
X̄, son respectivamente:
E(X̄) = µ
σ2
V ar(X̄) =
n
σ
q
V ar(X̄) = √
n
Teorema 2
Supongamos que X1 , X2 , ..., Xn es una muestra de n observaciones de la variable
X que tiene, en la población, una distribución de probabilidades Normal (µ, σ 2 )
y X̄ es la media de la muestra.
Entonces, X̄ se distribuye Normal de parámetros (µ, σ 2 /n), es decir,
σ2
X̄ ∼ N µ,
n
√
n·(X̄−µ)
3.2.4. Distribución de Z = σ
Teorema 4
Sea X̄ la media de una muestra X1 , X2 , . . . , Xn de variables Normales con media
√
µ y varianza σ 2 . Entonces el estadı́stico Z = n (X̄−µ)
σ
se distribuye Normal con
media cero y varianza uno.
Ahora vamos a definir un nuevo estadı́stico, o sea una variable que depende de
los valores de la muestra.
Definición 1
S 02 Llamamos cuasivarianza muestral al estadı́stico S 02 determinado por:
n
02 1 X
S = (xi − X̄)
n − 1 i=1
√ (X̄−µ)
3.2.5. Distribución de T = n· S0.
Teorema 5
Sea X̄ y S 0 , la media y la raı́z cuadrada de la cuasivarianza, respectivamente, y
sea una muestra X1 , X2 , . . . , Xn de variables Normales con media µ y varianza σ 2 .
√ (X̄−µ)
Entonces el estadı́stico T = n S 0 sigue una distribución denominada t con
n − 1 grados de libertad; lo cual se anota: T ∼ tn−1 .
µ
b = X̄
Por ejemplo, luego que se midió la presión diastólica para cada uno varones
de entre 20 y 30 años, sometidos a tensión nerviosa, de mi muestra, con esos
datos calculo X̄ (supongo que X̄ = 10). Sé que µ es distinto a X̄, pero por
µ
b = 10
2) Otra opción es no quedarnos simplemente con el valor de X̄, sino que con-
struı́mos un intervalo con centro en X̄, de radio ε.
[X̄ − ε, X̄ + ε]
Definición 2
Al valor epsilon se lo denomina precisión. Y el valor 1 − α es una probabilidad y
se llama nivel de confianza.
P (X̄ − ε ≤ µ ≤ X̄ + ε) = 1 − α
√ (X̄−µ)
De ahı́, buscamos dejar la variable aleatoria n σ en el “ medio de la de-
sigualdad”, para utilizar lo que conocemos sobre su distribución: por el Teorema
del Lı́mite Central (teorema 3) y por el teorema 4 se cumple que :
√ X̄ − µ n→+∞
n −→ Z donde Z ∼ N (0, 1)
σ
P (X̄ − ε ≤ µ ≤ X̄ + ε) = 1 − α ⇔ P (−ε ≤ µ − X̄ ≤ ε) = 1 − α
⇔ P (ε ≥ X̄ − µ ≥ −ε) = 1 − α
⇔ P (−ε ≤ X̄ − µ ≤ ε) = 1 − α
√
n·ε √ X̄−µ
√
n
⇔ P − σ
≤ n· σ
≤ σ
·ε =1−α
√ ∼
Entonces, siendo n · (X̄−µ)
σ = Z ∼ N (0, 1), se cumple que, cuando n es grande :
√ √
n·ε n·ε
P − ≤Z≤ =1−α donde Z ∼ N (0, 1)
σ σ
√
n·ε
Ahora buscamos obtener el valor de σ
:
√
n·ε α
P Z≤ =1− ver que la Normal es simétrica
σ 2
√
α n·ε
Por lo tanto: el número z que acumula 1 − 2
de probabilidad, es z1− α2 = σ
√
n·ε
Busco despejar ε , para construir el intervalo de confianza: z1− α2 = σ
⇒ε=
z1− α ·σ
√2
n
(z1−α/2 ) · σ (z1−α/2 ) · σ
X̄ − √ , X̄ + √
n n
b2 = S 02
σ
b = S0
σ
(z1−α/2 ) · S 0 (z1−α/2 ) · S 0
X̄ − √ , X̄ + √
n n
Ejemplo: Supongamos que mi muestra está compuesta por 100 varones de entre
20 y 30 años, sometidos a tensión nerviosa, cuya presión diastólica media es X̄ =
10 y cuya varianza es S 2 = 0, 81. Supongamos también que la variable presión
diastólica se distribuye Normal en la población. Si busco obtener un intervalo
aproximado para µ, que tenga un 95 % de confianza, entonces 1–α = 0, 95 de
donde 1 − α/2 = 0, 975 y si voy a la tabla con valores Normales (0, 1), veo que
el valor z que acumula 0, 975 de probabilidad, es 1, 96 , y anoto z1−α/2 = 1, 96 .
Con todos estos datos, calculo ε:
z1−α/2 S 0
ε= √
n
√
0, 81
ε = (1, 96) · = 0, 1764
10
Con este resultado, afirmo que la probabilidad, de que la presión diastólica media
entre todos los varones de entre 20 y 30 años que están sometidos a tensión
nerviosa , esté entre 9, 8 mmHg y 10, 2 mmHg, es de 0, 95.
1 si ocurre el éxito
X=
0 si ocurre el fracaso
pb = X̄
X − np n→∞
Z=p −→ N (0, 1)
np(1 − p)
p p
h z1−0,01/2 · 0, 012(1 − 0, 012) z1−0,01/2 · 0, 012(1 − 0, 012) i
0, 012 − √ ; 0, 012 + √
500 500
Hasta ahora hemos estudiado cómo, a partir de una muestra de una variable
extraı́da de una cierta población, podemos obtener una estimación puntual o
bien establecer un intervalo más o menos aproximado, para acercarnos a conocer
los parámetros que caracterizan dicha variable aleatoria en esa población.
Pueden presentarse en la práctica, situaciones en las que exista una teorı́a pre-
concebida, relativa a la caracterı́stica de la población sometida a estudio. Tal
serı́a el caso, por ejemplo si pensamos que un nuevo tratamiento médico puede
tener un porcentaje de mejorı́a mayor que otro tratamiento estándar, o cuando
nos planteamos si los niños de los distintos departamentos del Uruguay tienen el
mismo desempeño escolar.
Este tipo de circunstancias son las que nos llevan al estudio de la parte de la
Estadı́stica Inferencial que recibe el nombre de Contraste o Prueba de Hipótesis.
Ésta implica ciertas pasos:
La realidad puede ser que H0 sea cierta o que H0 no sea cierta. Si intersec-
tamos estos dos sucesos con las dos decisiones posibles, arriba mencionadas,
tendremos los dos errores posibles en el cuadro siguiente:
no rechazar H0 rechazar H0
Ejemplo 1
Por fistulización se obtuvo el PH de 6 muestras de bilis hepática con los siguientes
resultados:
7, 83; 8, 52; 7, 32; 7, 79; 7, 57; 6, 58
Solución:
H0 ) µ = 7
H1 ) µ 6= 7
X̄ ∈ (7 − ε, 7 + ε) ⇔ 7 − ε < X̄ < 7 + ε
√ √ √
−ε n (X̄−µ) n ε n
P σ
< σ
< σ
= 0,95
Por lo tanto √
ε n
= z1−0,05/2 = z0,975 = 1,96
σ
√
(X̄ − µ0 ) n
|z0 | =
≥ z1−α/2
σ
√ √
(X̄−µ0 ) n (7,6−7) 6
X̄ = 7,6 ⇒ σ
= 0,5
= 2,94
α = 0,05 ⇒ z
1−α/2 = z0,975 = 1,96
H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significación α α = 0,05
2) Estadı́sticos 2) Estadı́sticos
Pn
Xi
X̄ = i=1
n
X̄ = 7,6
√ √
(X̄−µ) n (7,6−7) 6
Z0 = σ
z0 = 0,5
= 2,94
Estadı́stico, si se cumple H0
4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática no es 7
Ejemplo 2
En el ejemplo anterior, ¿ podemos considerar que la bilis hepática es alcalina (con
PH mayor a 7) ?
Solución:
H0 : µ = µ0 H0 : µ = 7
H1 : µ > µ0 H1 : µ > 7
nivel de significación α α = 0,05
2) Estadı́sticos 2) Estadı́sticos
Pn
Xi
X̄ = i=1
n
X̄ = 7,6
√ √
(X̄−µ) n (7,6−7) 6
Z0 = σ
z0 = 0,5
= 2,94
Estadı́stico, si se cumple H0
4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática es alcalina
Ejemplo 3
Supongamos ahora que no conocemos la desviación standard del grado de PH de
la bilis hepática, y lo debemos estimar a partir de la muestra obtenida. ¿ Podemos
considerar ahora que la bilis hepática es neutra ?.
Solución:
n·S 2
b2 =
σ n−1
= S 02
348,77
donde S 2 = Xi2 /n − X̄ 2 = − (7, 6)2 = 0, 368
P
6
b2 =
σ 6·0,368
5
= 0,442 = S 0 2
b = 0,66 = S 0
⇒σ
H0 : µ = µ0 H0 : µ = 7
H1 : µ 6= µ0 H1 : µ 6= 7
nivel de significación α α = 0,05
2) Estadı́sticos 2) Estadı́sticos
Pn
Xi
X̄ = i=1
n
X̄ = 7,6
q
nS 2
S0 = con S 2 = Xi2 /n − X̄ 2 S 0 = 0,66
P
n−1
√ √
(X̄−µ0 ) n (7,6−7) 6
T0 = S0
T0 = 0,66
= 2,23
Estadı́stico, si se cumple H0
con distribución tn−1
4) Conclusión 4) Conclusión
Con un 95 % de confianza puede afirmarse
que el PH (promedio) de la bilis
hepática no es 7
Ejemplo 4
Se encuesta a 400 ciudadanos uruguayos y se les hizo dos preguntas:
Una vez obtenidas las respuestas (suponiendo que todos ellos contestan ambas
preguntas), se armó la tabla siguiente, y se completó con los datos conseguidos a
través de la encuesta:
Derecha 68 22 110
Izquierda 92 18 90
Izquierda 92 18 90 200(50 %)
Total 160 40 200 400(100 %)
Por ejemplo:
Derecha 80 20 10
Izquierda 80 20 100
X (n0 − ne )2
χ2 observado =
ne
P (no −ne )2
χ2 obs = ne
(68−80)2 (92−80)2 (22−20)2 (18−20)2 (110−100)2 (90−100)2
= 80
+ 80
+ 20
+ 20
+ 100
+ 100
=6
Grados de libertad: (no de categorı́as en las filas –1) · (no categorı́as en las columnas –1 )
6. Regla de decisión:
7. Decisión:
Observación:
Como 6 < 7, 38, entonces No rechazo H0 (no rechazo que haya independen-
cia).
P (χ2n ≥ x)=α
3.6. Ejercicios
3. Los analistas de la empresa que realiza el sondeo no están conformes con los
resultados de la encuesta anterior. En particular les parece que el margen de
error es muy grande. Deciden fijar este error en 1 punto porcentual, como
máximo y buscan también tener un nivel de confianza de 97 % ¿ Cómo
pueden conseguir estos objetivos ?
b) ¿Cuántos niños habrá que tomar para estimar dicha media con una
precisión de 15 gr?
10. Sólo una parte de los pacientes que sufren un determinado sı́ndrome neu-
rológico consiguen una curación completa. Si de 64 pacientes observados,
se han curado 41, dar una estimaciones puntual y un intervalo, de la pro-
porción de los que sanan. ¿Qué número de enfermos habrá que observar
para estimar la proporción de curados con un error inferior a 0,05 y una
confianza del 95 %?
11. En una determinada región se tomó una muestra aleatoria de 125 individ-
uos, de los cuales 12 padecı́an afecciones pulmonares.
En todos los problemas que siguen a continuación, se supone que las mues-
tras han sido elegidas de forma independiente, y que las cantidades cuanti-
tativas que se miden, se distribuyen según una distribución Normal.
18. Una población infantil se dice que es susceptible de recibir una campaña
educación e higiene si su porcentaje de niños con dientes cariados es superior
[2]
Glucemia ni hi Fi∗
[80, 120) 7 0, 7 0, 7
[120, 160) 2 0, 2 0, 9
[160, 200) 0 0 0, 9
[200, 240) 1 0, 1 1
10 1
Tallas ni hi fi∗
[145, 152) 0 0 0
[152, 159) 1 0, 1 0, 0143
[159, 166) 1 0, 1 0, 0143
[166, 173) 5 0, 5 0, 0714
[173, 180] 3 0, 3 0, 0428
10 1
Tallas ni hi fi∗
Calculo la mediana:
(0, 5–0, 47)
Xme = 198 + 0,27 = 202, 44
40
S 2 = 48,684–(216)2 = 2,028
S = 45, 03
45, 03
C.V = = 0, 21
216
Esto implica que el desvı́o standard es un 21 % de la media, lo cual,
empı́ricamente, es un valor muy elevado. Esto nos confirma la mala
representatividad de la media en nuestra muestra, y nos sugiere acom-
pañarla con las otras medidas de tendencia central, a fin de conocer
las caracterı́sticas de nuestra muestra, lo mejor posible.
mujeres hombres
HDL(mg/dl) ni hi ni hi
[30, 40) 4 0, 13 4 0, 4
[40, 60) 16 0, 54 4 0, 4
[60, 80] 10 0, 33 2 0, 2
30 1 10 1
mujeres hombres
HDL(mg/dl) hi ci hi · ci hi ci hi · ci
[30, 40) 0, 13 35 4, 55 0, 4 35 14
[40, 60) 0, 54 50 27 0, 4 50 20
[60, 80] 0, 33 70 23, 1 0, 2 70 14
1 54, 65 1 48
[1]
a) x = 2,447
b) x = 2,75
c) x = 1,812
d ) x = 2,947
[1]
Ası:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 5 + 0, 2 − 0, 05 = 0, 65
[2]
P (V ∩ E) = 0, 02
[3] Tomamos los porcentajes como probabilidades de curar. Sean los sigu-
ientes eventos:
As e =“el tratamiento A surte efecto”
Bs e =“el tratamiento B surte efecto”
análoga notación para el resto de los eventos.
a)
P (“curar en a)”) = P As e ∪ Bs e
= P As e + P Bs e − P As e ∩ Bs e
indep
= 0,2 + 0,3 − 0,2 · 0,3 = 0,44
b)
P (“curar en b)”) = P As e ∪ [Bs e dado queAno s e ]
disjuntos
= P As e + P [Bs e dado queAno s e ]
indep
= 0,2 + 0,3 = 0,5
disjuntos
P ([A+ ∩ E] ∪ [A− ∩ E c ]) = P (A+ ∩ E) + P (A− ∩ E c )
disjuntos
P ([B + ∩ E] ∪ [B − ∩ E c ]) = P (B + ∩ E) + P (B − ∩ E c )
= P (B + |E)P (E) + P (B − ∩ E c )P (E c )
[6]
Usando análoga notación para los sucesos que en el ejercicio anterior, ten-
emos que P (E) = 0,2, S = P (T + |E) = 0,91 y E = P (T − |E c ) = 0,98
a)
P (T + |E)P (E)
P (E|T + ) =
P (T + |E)P (E) + P (T + |E c )P (E c )
0,91 · 0,2
= = 0,919
0,91 · 0,2 + (1 − 0,98) · 0,8
b)
P (T − |E c )P (E c )
P (E c |T − ) =
P (T − |E c )P (E c ) + P (T − |E)P (E)
0,98 · 0,8
= = 0,978
0,98 · 0,8 + (1 − 0,91) · 0,2
[7]
[8]
P (T AC + |E)P (E)
P (E|T AC + ) =
P (T AC + |E)P (E) + P (T AC + |E c )P (E c )
0,8 · 0,2
= = 0,87
0,8 · 0,2 + 0,03 · 0,8
[9]
Sean los sucesos: E= “el animal se enferma”, A=“el virus aplicado es A”,
análogo para B y C. la probabilidad pedida es:
P (E|C)P (C)
P (C|E) =
P (E|A)P (A) + P (E|B)P (B) + P (E|C)P (C)
1
· 5
7 10
= 1 3 2 2 1 5 = 0,234
·
3 10
+ ·
3 10
+ ·
7 10
[13]
= P (Z ≤ 0,75)
b) Lo que nos piden es P (102 ≤ X ≤ 112) multiplicado por 100 para ser
porcentaje. Luego
c) Análogo al anterior.
d ) Análogo al primero.
x − 106
P (X ≤ x) = P Z ≤ = 0,75
8
| {z }
z0,75
x − 106
= 0,68 ⇒ x = 0,68 · 8 + 106 = 111, 44
8
[14]
xs − 160
P (Xd ≤ xs ) = P (Z ≤ ) = 0,02
31,4
| {z }
z0,02
xs − 160
−z0,02 = − = 2,06 ⇒ xs = −2,06 · 31,4 + 160 =
31,4
95,316 − 80 tabla
P (Xs ≤ 95,316) = P Z≤ = P (Z ≤ 1,5316) = 0,936
10
P (dD|D)P (D)
P (D|dD) =
P (dD|D)P (D) + P (dD|S)P (S)
0,98 · 0,1
= = 0, 633
0,98 · 0,1 + 0,063119 · 0,9
1 si vota a favor
Xi =
0 si vota en contra
pb = 35/100 = 0, 35
Afirmamos, con una probabilidad de 0, 95, que los que votarán a favor están
entre un 25, 65 % y un 44, 35 %. Y los que votarán en contra están entre
un 55, 65 % y un 74, 35 %. Observar que no es muy precisa la información
obtenida, pues tenemos con esa muestra un error aproximado de 9, 3 puntos
porcentuales, al nivel de confianza del 95 %.
2
pb(1 − pb)Z1−α/2
m≥
0,012
Ası́, en este caso, como no se tiene una idea previa del posible resultado
del referéndum, hay que tomar un tamaño de muestra, m , que se calcula
mediante:
1 1
m≥ · · (z1−0,03/2 )2 /(0, 01)2 = 11772, 25
2 2
una muestra menor. Haciendo cálculos, se obtiene que se debe tomar una
muestra mayor a 1340, si queremos estimar la proporción de muertes de-
bidas a cáncer de estómago en relación con el número de defunciones por
cualquier tipo de neoplasia, con una confianza del 98 %, y no errarle en esa
proporción en más de un 0, 03.
[8]
H0 ) µ=6
H1 ) µ>6
α = 0, 05
H0 ) µ = 12
H1 ) µ < 12
α = 0, 05
H0 ) µ = 7, 5
H1 ) µ 6= 7, 5
α = 0, 05
H0 ) µ = 53
H1 ) µ 6= 53
α = 0, 05
n = 16
[2] J.S. Milton, J.O. Tsokos, Estadı́stica para Biologı́a y Ciencias de la Salud.
Ed. McGraw-Hill, España 1989.
[3] Francisca Rı́us Dı́az, Francisco Javier Barón Lopez, Elisa Sánchez Font y
Luis Parras Guijosa, Bioestadı́stica: métodos y aplicaciones.
http://www.bioestadistica.uma.es/libro/