You are on page 1of 32

BLOQUE-I.

pdf

Anónimo

Bioestadística y Epidemiologia

2º Grado en Veterinaria

Facultad de Veterinaria
Universidad de León

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Bioestadística y Epidemiología.

BIOESTADSITICA Y EPIDEMILOGIA.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Temas del Bloque I – Estadística descriptiva.

Tema 1.- Introducción a la Bioestadística. La Bioestadística en las ciencias veterinarias.


Estadística descriptiva e inductiva. Conceptos básicos: población, muestra,

Reservados todos los derechos.


individuo, variable, parámetros y estadísticos. Tipos de estudios en la
investigación biológica. El software en el análisis estadístico.
Tema 2. La organización de los datos. Tipos de variables: variables cualitativas y
cuantitativas. Distribución de frecuencias. Definición de una distribución de
datos en variables cuantitativas. Medidas de centralización. Medidas de
dispersión. Medidas de posición. Representación gráfica de los datos.
Tema 3. Cálculo de Probabilidades: Conceptos básicos. Probabilidad y propiedades.
Sucesos compatibles y excluyentes. Probabilidad condicionada. Sucesos
dependientes e independientes. Teorema de Bayes. Dependencia e
independencia.
Tema 4. Variables aleatorias, distribución en la población. Distribuciones modelo. La
distribuciones binomial y de Poisson. La distribución normal. Tipificaciones.
Desviaciones de la normalidad.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Me han encerrado aquí ¿alguien puede leer esto?
Reservados todos los derechos.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Bioestadística y Epidemiología _____________________________________ Tema 1. Introducción a la Bioestadística.

Tema 1.- Introducción a la Bioestadística. La Bioestadística en las ciencias veterinarias.


Estadística descriptiva e inductiva. Conceptos básicos: población, muestra,
individuo, variable, parámetros y estadísticos. Tipos de estudios en la
investigación biológica. El software en el análisis estadístico.

1. Introducción a la Bioestadística.
La Bioestadística o Biometría es la ciencia que estudia los métodos y

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
procedimientos para recoger, resumir, y analizar datos, así como hacer inferencias
científicas partiendo de tales datos.
La peculiaridad de la Bio-metría es que pretende medir las variables biológicas
(no fijas) con medidas fijas (matemáticas). Si deseo medir una característica biológica en
un individuo, por ejemplo la presión arterial, será muy difícil dar un resultado, pues tantas
veces como la mida obtendré valores diferentes, según la hora del día, el estado del
cuerpo, etc., esta característica me obliga a medir el carácter varias veces, y hace
necesario una ciencia que me permita medir y expresar con rigor esas características tan
“variables”, como son los caracteres que exhiben las poblaciones animales.
Por el contrario, en las ciencias exactas, Física, Química, etc, se trabajan con
Leyes universales (un solo experimento vale) para conocer una característica cualquiera,

Reservados todos los derechos.


por ejemplo, si deseo conocer la superficie del aula, con una sola vez que la mida es
suficiente. En las Ciencias Biológicas se trabaja con Leyes experimentales, que son fruto
de la experiencia, es decir, necesito repetir un experimento para acercarme al
conocimiento (no son leyes fijas), aparece así un nuevo concepto “la probabilidad”.
La Bioestadística son métodos y procedimientos matemáticos, permite abordar
con el rigor de la ciencia matemática aquellos fenómenos de la vida donde la variabilidad
es la esencia. Sin embargo, aunque las características de las poblaciones y de los
individuos son variables, esta variabilidad no es infinita y por lo tanto tenemos
procedimientos para poder describir estas características a través de parámetros, por
ejemplo, la media aritmética y otros muchos.

2. La Bioestadística en las ciencias Veterinarias.


El interés de la Bioestadística en los estudios de Veterinaria o de las ciencias de la
vida en general, está basado en que necesitamos describir las características que definen a
los individuos y a las poblaciones objeto de nuestro trabajo. Esta necesidad es evidente en
todas las disciplinas, Genética, Sanidad, Radiología, Epidemiología, etc., si bien en unas
materias son más necesarios dichos métodos estadísticos que en otras.
En el ámbito de la investigación es fundamental el conocimiento de los métodos
estadísticos, el diseño de los experimentos, análisis de los resultados e incluso en la
publicación de los resultados.
En el desarrollo de la profesión no solo hemos de saber expresar los resultados de
nuestra actividad, donde la bioestadística es necesaria, sino también para interpretar la
información que nos proporcionan las distintas fuentes de información.
Por ejemplo, ¿ Sabrías interpretar la siguiente frase de una publicación ?: El peso
de las ovejas de raza Assaf en España es en 74,74 ± 11,23 y los machos 110,47 ± 12,51
kg. En principio esta frase parece que da poca información, pero sabiendo que en las

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _____________________________________ Tema 1. Introducción a la Bioestadística.

poblaciones naturales las variables tienden a tener una distribución normal, si conozco los
procedimientos bioestadísticas con solo dos parámetros de la población (media aritmética
y desviación típica) puedo conocer la distribución total de la población. Es decir podré
saber cuantas ovejas pesan mas de 85 kilos o cuantas entre 70 y 80, etc.

3. Estadística descriptiva e inductiva.


En Bioestadística se diferencian dos grandes apartados, Estadística descriptiva e
inductiva.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
La estadística descriptiva comprende:
Organización y Presentación de los datos con la finalidad de describir las
características de una situación. Así se ocupa de reunir datos de la mejor manera posible
en base a Formularios, Diseño de experimentos, Optimizar el muestreo, etc. La
descripción de las características de una situación concreta se aborda a través de técnicas
de Reducción de datos y Presentación de parámetros de interés, tablas, gráficos, etc.
La estadística inductiva, Inferencia estadística o estadística analítica a comprende:
El Análisis los datos y generaliza conclusiones de tales datos, a través de los
métodos de Estimación de parámetros los métodos de Contraste de hipótesis, que
proporcionan la técnicas matemáticas para generalizar dichas conclusiones. Dichos

Reservados todos los derechos.


métodos están basados en el cálculo de probabilidades.
Ejemplo: La eficacia del tratamiento tipo actual de una enfermedad X se admite un 50 % de
curaciones. Se está probando un nuevo tratamiento (TR34) en un grupo experimental de 18 individuos, se
observan 12 curaciones lo que representa un 66 % de curaciones. ¿ Es mejor el nuevo tratamiento TR34 al
tratamiento tipo o estos resultados son debidos al azar ?, Si aplicásemos este nuevo tratamiento a toda la
población obtendríamos el mismo resultado que en la prueba ?
El analizar la superioridad del nuevo tratamiento es objeto de los métodos de
inferencia estadística que nos proporciona métodos para demostrar si los resultados
observados son o no atribuidos al azar.

4. Conceptos básicos: población, muestra, individuo, variable, parámetro y


estadístico.
Población: Conjunto o grupo de entidades de cualquier índole que tiene una
característica cuantificable común.
Muestra: Número finito de unidades procedente de una población de individuos.
Individuo o elemento: Cada una de las unidades (personas, animales, objetos, etc.)
que pertenece a una población.
Parámetro: Característica descriptiva global y medible de la una población.
Estadístico: Característica descriptiva global y medible de la una muestra.
Caracteres: Propiedades o cualidades de los elementos de la población.
La mayoría de las veces el investigador, médico, veterinario, etc., está interesado
en conocer las características de las poblaciones con las que trabaja, esto es los
parámetros de la citada población, por ejemplo si estoy interesado en conocer la altura de
los españoles un parámetro interesante que describe esta característica es la media
aritmética. Sin embargo si se mide esta característica en una muestra no se denomina

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _____________________________________ Tema 1. Introducción a la Bioestadística.

parámetro sino estadístico. Los parámetros se denotan con letras griegas (μ-media

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
aritmética, σ-desviación típica), en tanto que los estadísticos con letras latinas (s-
desviación típica).
Los parámetros y estadísticos describen las poblaciones/muestras caracterizando
dichas poblaciones, las diferencias son que los estadísticos suelen ser conocidos, se miden
en las muestra, y los parámetros suelen ser desconocidos, pues el acceso a toda la
población generalmente no es posible.

El acceso estadístico de la población a través de la muestra. Generalmente se


desea conocer la población pero no se tiene acceso a medir a todos los individuos, por ser
de gran tamaño o por no disponer de tiempo y recursos para acceder a toda la población,
la alternativa es obviamente realizar el estudio o medición de la característica de interés
en una muestra de dicha población.

Reservados todos los derechos.


Acceso estadístico de la Población a través de la muestra

Población
(32±5)
(p<0,05)

Seguridad Muestra Investigador

(32±5)
Estimación Experimento

Resultados
Población
(F=32)

Ejemplo, Porcentaje de fumadores, 32 ± 5 (p<0,05)

Figura 1. Esquema del acceso estadístico de la población a través de la muestra.


El objetivo de acceso es tomar una muestra fiel de la población y realizar sobre
ella las mediciones a través de encuestas, experimentos que nos permitan conocer las
características en la muestra (estadísticos) y luego poder estimar el parámetro en la
población. Obviamente al pasar de la muestra a la población podemos equivocarnos, pero
la Estadística proporciona métodos para conocer el grado de acierto o la probabilidad de
error. Necesitamos entonces incorporar mas conceptos, Error sistemático o sesgo y Error
aleatorio o muestral.
La secuencia del proceso tiene tres etapas y el resultado se expresa con tres
números:
1. Calcular el resultado en la muestra (estimación puntual),
2. Extrapolar el resultado a la población a través de un intervalo de confianza,
(estimación por intervalos)

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _____________________________________ Tema 1. Introducción a la Bioestadística.

3. Fijar la probabilidad de equivocarme (estimar el error).


En la figura 1 se presenta el esquema de esta secuencia,
Ejemplo, Se desea conocer el porcentaje de personas fumadoras en la provincia de
León, como no puedo encuestar a toda la población, tomo una muestra de 1000
individuos obteniendo un resultado de 320 que si fuman. Al extrapolar el resultado a la
población objetivo o diana (población de León) estimo que el porcentaje será en torno a
32 %, con un intervalo de confianza entre 27 y 37 %. Al fijar este intervalo obviamente
puedo equivocarme y doy dicha probabilidad.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Esta secuencia es la forma habitual de acceder a las poblaciones, no obstante, para
completar con rigor el procedimiento es necesario conocer los métodos de muestreo y los
métodos de estimación de parámetros objeto del programa de la asignatura.

5. Tipos de estudios en la investigación.


En la investigación para describir los estudios se clasifican desde dos puntos de
vista diferentes:
- a) Según la actividad del investigador.
Experimentales. El experimentador es activo, diseña la experiencia, controla al
menos una variable. Ejemplo, Para conocer el efecto de una ración sobre la producción de leche del

Reservados todos los derechos.


ganado vacuno se diseña un experimento donde se suministra esta nueva ración a experimentar a un grupo
de vacas (lote experimental), frente a otra ración control que de suministra a otro grupo de vacas, (lote
control).
Observaciones. El experimentador es pasivo, no controla las variables de interés,
se limita a observar los resultados que suceden sin intervenir en su devenir. Ejemplo, Para
conocer el efecto del efecto de la edad de la vaca sobre la producción de leche se compara la producción
láctea de distintos grupos de vacas dependiendo cada grupo de la edad de la vaca en años.

-b) Según el momento en que se realiza el estudio.


Prospectivos. Se observan características “futuras” en la población de estudio. Se
diseña el estudio y se desarrolla en el futuro.
Retrospectivos. Se estudian características “pasadas” en la población de estudio.
Se diseña el estudio en base a hechos ya sucedidos.
Transversales. Se observan características “presentes”.

En la investigación médica los estudios mas frecuentes son:


- Estudios experimentales para la comparación de tratamientos.
- Estudios observacionales para asociar factores de riesgo frente a una enfermedad
concreta, según dos modelos:
CASOS-CONTROLES, Observaciones retrospectivos, se muestrea en base al
estado de de enfermedad, se elige un grupo de enfermos y otro de sanos y se recoge
información sobre caracteres de interés.
COHORT, Observaciones prospectivos, Se muestrea en base a la exposición al
factor de riesgo, se elige un grupo de individuos con y otro sin factor de riesgo y se
observa cuantos desarrollan la enfermedad.

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _____________________________________ Tema 1. Introducción a la Bioestadística.

6. El software en el análisis estadístico.


Para el análisis de la información (datos) en la resolución de los trabajos en
Bioestadística donde a veces se manejan gran cantidad de datos existen variedad de
programas adaptados a los diversos sistemas operativos de los computadores. Estos
programas son de gran ayuda, casi imprescindibles, para la resolución de los cálculos
necesarios en el tratamiento estadístico.
Tradicionalmente estos programas han software registrado, donde es necesario

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
comprar y pagar una licencia de uso, sin embargo actualmente hay a disposición del
usuario muchas opciones de software libre.
El software libre más divulgado para el análisis estadístico y gráfico es el “R”, es
un lenguaje y entorno de programación muy utilizado por los investigadores a nivel
internacional.
Se trata de un proyecto de software libre, resultado de la implementación GNU del
premiado lenguaje S. R y S son, probablemente, los dos lenguajes más utilizados en
investigación por la comunidad estadística, siendo además muy populares en el campo de
la investigación biomédica, la bioinformática y las matemáticas financieras. A esto
contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades
específicas de cálculo o gráfico.

Reservados todos los derechos.


Existen también otros paquetes registrados para el análisis estadísticos, están muy
divulgados el “SAS” Statistical analysis system y el “SPSS” Statistical Package for the
Social Sciences, así como otros muchos.

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Me han encerrado aquí ¿alguien puede leer esto?
Reservados todos los derechos.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Tema 2.- La organización de los datos. Tipos de variables: cualitativas y cuantitativas.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Distribución de frecuencias. Definición de una distribución de datos en variables
cuantitativas. Medidas de centralización. Medidas de dispersión. Medidas de posición.
Representación gráfica de los datos.

1. Tipos de variables: cuantitativas vs cualitativas.


La organización de los datos es el inicio de la estadística descriptiva. Los datos es
el conjunto de información o características que estudiamos en los individuos de la
población. Cada una de las características observables se clasifican en constantes (se
repiten en todos los individuos de la población) o variables (varían en cada observación
realizada).
Constante se define como una característica que se manifiesta bajo una sola
modalidad, igual en todos los individuos de la muestra.

Reservados todos los derechos.


Variable es una característica que se manifiesta en 2 o mas modalidades.

Organización de los datos en Biología

Constantes

Características
de los datos CUALITATIVAS

Variables
Discretas
CUANTITATIVAS

Continuas

Figura 2-1. Clasificación de los datos en Estadística descriptiva.

El objetivo de este tema es definir como se distribuyen las variables, como se


presenta la información de los datos, se presentarán métodos de reducción y
simplificación de resultados, que resulten eficaces sin perder información. Sin embargo
dichos métodos depende del tipo de variable.
Las diferentes características descriptivas que resultan variables, se clasifican en
cualitativas o cuantitativas.
Las variables cualitativas son aquellas características o atributos que no se
cuantifican, no lleva una magnitud asociada, se miden en una escala nominal, donde cada
individuo pertenece o no pertenece a alguna de las modalidades en las que puede
presentarse dicha variable. Ejemplo, La variable género en humana tiene dos modalidades, hombre vs
mujer, el estado sanitario para una enfermedad concreta tiene también dos modalidades, enfermo vs sano.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Las variables cuantitativas son aquellas características que pueden medirse o


cuantificarse, hay una magnitud asociada, según una escala numérica. Por ejemplo el
carácter producción de leche diaria.
Tabla 2-1. Ejemplo de base de datos.
NOMBRE ESPECIE SEXO EDAD PESO Nº de partos
Gallarda Bovina Hembra 7 455,23 3
Katum Felina Macho 2 1,52 -
Paul Canina Macho 5 12,13 -

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Katy Canina Hembra 3 5,24 1
Canela Felina Hembra 6 2,10 0
Poncho Canina Macho 3 4,50 -

A su vez las variables cuantitativas se clasifican en Cuantitativas discretas, son


variables discontinuas que no admiten modalidades intermedias entre dos datos y se
miden en la escala de los números enteros, o Cuantitativas continuas, que si presentan
variación continua, entre dos datos hay siempre una modalidad intermedia, se miden en la
escala de los números reales.
Ejemplo de variable discreta, Tamaño de la camada en ganado ovino (modalidades 1, 2, 3, 4 o mas
crías), Especie (modalidades Bovino, felino, canino, etc.), sexo (macho, hembra). Ejemplo de variable
continua es la alzada a la cruz en ganado vacuno, la producción láctea diaria, la edad, el peso corporal, la

Reservados todos los derechos.


velocidad de crecimiento, etc..

Distribución del nº de crías por Distribucion de la alzada a la cruz


parto en ganado ovino en ganado vacuno
60 30
50 25
20
40
15
%

30 10
20 5
0
10
0

5
13

13

14

14

15

15

0
1 2 3 4 Alzada en cm
Nº de crías

Figura 2-2. Distribuciones de dos tipos de caracteres con variación discreta y continua

2. Distribución de frecuencias.
La distribución de frecuencias es el método para definir como se distribuye una
variable cualitativa, es decir para presentar los resultados de una variable cualitativa,
donde tenemos distintas categorías o modalidades. Así la Distribución de frecuencias se
define como Conjunto de clases de la variable y la frecuencia de cada una de ellas.
Frecuencia absoluta. Número de observaciones en cada categoría.
Frecuencia relativa. Proporción de observaciones en cada categoría.
Ejemplo. ¿ Que tipo de animales llegan a la consulta ? La especie animal que llega a una consulta
veterinaria es una variable cualitativa, donde vamos considerar cinco categorías (perros, gatos, aves, reptiles
y otros).

10

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Respuesta:
Opción A. El año pasado se recibieron 1450 consultas y paso un listado con todas las consultas donde se
puede leer la especie animal de cada una de ellas. (Esta opción es poco eficiente).
Opción B. Presento la tabla 2.2. La distribución de frecuencias permite su interpretación con solo leer la
tabla, sin necesidad de leer las 1450 consultas.
Tabla 2-2. Distribución de frecuencias del tipo de animales en la consulta el año pasado.
Frecuencia Frecuencia relativa
Tipo animal (clase)
absoluta
Perros 755 0,52
Gatos 455 0,31

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Aves 136 0,09
Reptiles 36 0,02
Otros 68 0,05
Total 1450 1,00

Distribución de frecuencias en variables cuantitativas. En las variables


cuantitativas, aunque no hay modalidades, se pueden presentar los resultados como
distribución de frecuencias transformando la variable cuantitativa en categórica a través
de un conjunto de clases.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados
clases, a la que se le asigna su frecuencia correspondiente. Es necesario tener en

Reservados todos los derechos.


consideración otros conceptos como:
Limites de clases: Limite superior y limite inferior de la clase.
Amplitud de clase: Diferencia entre el límite superior e inferior.
Marca de clases: Punto medio de cada intervalo.
Ejemplo. ¿ Que altura tienen las alumnos de la clase ? Para responder a esta pregunta hemos de
hacer la medición de los 200 alumnos de clase y presentar esta información, sin necesidad de dar el listado
de las 200 medidas u observaciones. Aunque hay otras formas de presentar la información, la distribución
de frecuencias se presenta en la tabla 2-2.
Tabla 2-3. Distribución de frecuencia de la altura (cm) de los alumnos de clase.
Clases Frecuencia absoluta Frecuencia Fre. Rel.
relativa acumulada
150-159 16 0,08 0,08
160-169 72 0,36 0,44
170-179 78 0,39 0,83
180-189 20 0,10 0,93
190-199 12 0,06 0,99
200-210 2 0,01 1,00
Total
200 1,00 1,00

3. Definición de una distribución de datos en variables cuantitativas.


En los apartados anteriores hemos visto como se puede resumir los datos
obtenidos de un estudio, a través de la tabla de la distribución de frecuencias. Sin
embargo, para las variables cuantitativas resulta más eficaz condensar dicha información
en algunos números (parámetros) que la expresen de forma clara y concisa.

11

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Los caracteres en biología son variables pero no son indiscriminados, se suelen


agrupar alrededor de un valor central; este valor central junto con una medida que refleje
la variabilidad son los parámetros utilizados para definir la distribución de los datos.
Las características más comunes son:
- Medidas de tendencia central,
- Medidas de dispersión o variación,
- Medidas de posición.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejemplo: Para responder a la pregunta de ejemplo anterior ¿ Que altura tienen las alumnos de la clase ? , es
decir para definir su distribución se presentan tres opciones:
A. Presentar el listado de las 200 observaciones y que el lector estudie los datos.
B. Presentar la distribución de frecuencias, ver tabla 2-2, se puede apreciar los resultados con
solo ver la tabla.
C. Presentar la distribución de la variable con solo tres números. Así la altura de los alumnos de
clase del ejemplo anterior podríamos haberla expresado como, Se midieron 200 alumnos con
una media de 175 ± 15 cm. Estos tres valores 200, 175 y 15, si los sabemos interpretar nos
indican con gran concisión la distribución de dicha variable. 175 es la media aritmética y 15
es la desviación típica.

Reservados todos los derechos.


4. Medidas de centralización.
Las medidas de centralización son un parámetro/estadístico que tiene como
objetivo indicar el valor central o intermedio de dicha una distribución de datos para una
variable cuantitativa. Las medidas de centralización más usuales son: Media, Mediana y
Moda. En algunas ocasiones estos tres estadísticos pueden coincidir.

Media aritmética: (μ) Es la suma de todos los valores de la variable dividido por
el número de observaciones.
La formulación de la media aritmética es la siguiente, son formulas equivalentes
en función si los datos estén o no agrupados.

X=
x1 + ..... + xn
X=
∑x i
X=
∑x f i i

n n ni f i
Las observaciones o características de la media aritmética es que:
- Son muy sensibles a los valores extremos, así la media podría desplazarse en la
dirección de los valores extremos, si los hubiera.
- Si consideramos una variable discreta el valor de la media puede no pertenecer al
conjunto de valores la variable, por ejemplo nº de crías por parto en ganado
ovino, x = 1,55.
Ejemplo A, en la serie X ( 20, 24, 31, 35, 45, 49); Media=34; Med = 33.

12

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Media geométrica: (μg) Es la media de los logaritmos de los valores de la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
variable.
La formulación de la media aritmética es la siguiente fórmula:

X g = n x1 x2 ... xn log x1 + ..... + log xn


log X g =
n
La característica de la media geométrica es muy utilizada para trabajar con
aquellas variables que siguen una función exponencial como el crecimiento bacteriano.
Por ejemplo la variable recuento de células somáticas en leche, como indicador de la calidad sanitaria.

Mediana: (Med) Es el valor de la variable que deja por debajo de sí el 50% de las
observaciones.
Las propiedades de la mediana son:
- No está afectada por las observaciones extremas, pues dependen del orden no de

Reservados todos los derechos.


los valores.
- Es de cálculo rápido y sencilla de interpretar.
Ejemplo A, en la serie X ( 20, 24, 31, 35, 45, 49); Media=34; Med = 33.
Ejemplo B, en la serie X ( 20, 24, 31, 35, 45, 49, 426); Media=90; Med = 35
En el ejemplo B la mediana es mejor indicador de tendencia central que la media, que se ha visto
afectada por una observación extrema.
Moda: El valor (o los valores) máximo de la serie. Cualquier valor de la serie que
posea una frecuencia mayor que su anterior y posterior.
Las características de la moda son: que es muy fácil de calcular y que puede no ser
única.
Respecto a la relación entre media, mediana y moda, en las variables que siguen
una distribución normal coinciden. En los estudios estadísticos y de inferencia suele ser
más apta la media, como medida de centralidad, por sus propiedades matemáticas.
Cuando la distribución está lejos de la normalidad suele ser más apta la mediana.

5. Medidas de dispersión.
Las medidas de dispersión son los parámetros o estadísticos que tiene como
objetivo indicar el grado de variabilidad o dispersión de la variable cuantitativa. Nos
indican si los valores están próximos a la media si o están dispersos.
Las medidas de dispersión son: Rango, Desviación media, Varianza, Covarianza,
Desviación típica y Mediana.
Rango. Amplitud o rango es la diferencia entre el valor más alto y mas bajo de las
observaciones.
Propiedades:
- Es fácil de calcular y de interpretar,
- Solo utiliza dos observaciones (máximo y mínimo).

13

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Desviación media. Media de las desviaciones con respecto a la media aritmética.

DM x =
∑ X −X
n
Es un parámetro muy poco utilizado en el tratamiento estadístico.
Varianza: (S2) (V) (σ2)
Media de las desviaciones cuadráticas con respecto a su media aritmética.

Σ 2

(Σxi )2
∑ (X − X ) = i

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
2 x
Vx = n
n n
Propiedades:
- Es siempre positiva, pues son medias cuadráticas.
- Grandes propiedades para la inferencia estadística.
- El problema es que se mide en unidades cuadráticas, de difícil interpretación.
- Propiedades matemáticas de la varianza:
V(x) > 0
V(X+Y) = VX +VY + 2cov XY
V(X-Y) = VX+ VY - 2cov XY
V(K+X) = VX

Reservados todos los derechos.


Ejemplo en la serie X en cm (20, 24, 24, 24, 45, 49); Vx = 130,40 cm2

Desviación típica o estándar: (S) (σ)


Se define como la raíz cuadrada de la varianza. Se utiliza la raíz cuadrada de la
varianza para que se exprese la variabilidad en las mismas unidades que la
variable.
S x = S x2

Propiedades:
- Es la medida de la dispersión o variabilidad por excelencia en las variables con
distribución normal, pues la función de normalidad es dependiente de la desviación típica.
(Estos conceptos se abordarán en el tema 4)
- No es recomendable como media de dispersión si la distribución no es normal, ni
lo es en este caso la media como medida de centralidad.

Ejemplo en la serie X en cm (20, 24, 24, 24, 45, 49); Sx = 11,42 cm

Coeficiente de variación: (CV)


Se define como la relación entre la desviación típica y la media.
Es una medida de la variabilidad adimensional, lo que permite comparar la
dispersión entre variables medias en distintas unidades o entre distintas variables.
Sx
CV =
Propiedades: x
- Es invariable a los cambios de escala.
- Es un estadístico muy útil para comparar la variabilidad entre caracteres.
Ejemplo en la serie X en cm (20, 24, 24, 24, 45, 49); CVx = 0,33 o 33 %

14

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Covarianza (Cov, σxy )


Medida de covariación entre dos variables x e y,
es equivalente a la varianza. cov( x, y ) =
∑ (x − x )(y − y )
n

Propiedades matemáticas:
COV(X,X) = VX
COV(X,Y) = COV(Y,X)
COV(X,a) = 0

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
COV(X+a,Y+b) = COV(X,Y)

Ejemplo en la serie X e Y, Covxy = 205,83

X 20 24 31 35 45 49
Y 134 123 150 167 134 210

6. Medidas de posición.
Las medidas de posición son los parámetros o estadísticos que tiene como objetivo
indicar el posicionamiento de un valor concreto en la distribución de la variable. Son
valores de la variable caracterizados por superar a cierto porcentaje de observaciones de

Reservados todos los derechos.


la población o de la muestra.
Los estadísticos de posición más importantes son la mediana, percentiles, quartiles
y deciles.
Percentiles. Son los 99 valores que dividen a la población o muestra en 100 partes
iguales. A cada uno de los percentiles se define percentil de orden k, Pk, como la
observación que deja por debajo de si el k% de la población.
Como consecuencia de la definición el percentil de orden 50 es la mediana.
Quartiles. Son los tres valores que dividen a la población en 4 partes iguales. Los
quartiles (Q1, Q2, Q3) son un caso particular de los percentiles, P25, P50 y P75.
Deciles. Se definen como los 9 valores de la variable que dividen a las
observaciones en 10 partes iguales. Son también un caso particular de los percentiles.
Así, P50 = Q2 = D5 =Med.

Ejemplo de estimación de medidas de posición con datos agrupados.

xi 0 1 2 3 4 5 6 7

ni 4 12 16 21 11 18 10 8

Ni 4 16 32 53 64 82 92 100

Q1=P25, = 2;
Q3=P75 =5,
D1=P10 = 1;
D5 = Q2=P50=Med =3;
P80=5

15

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

7. Representaciones gráficas de los datos.


Las representaciones gráficas o gráficos (histogramas, líneas, sectores, etc.), son
estrategias para trasmitir con una imagen la distribución de la variable, siguiendo el dicho
de Vale más una imagen que mil palabras.

A. Gráficos en variables cualitativas:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Los gráficos en las variables cualitativas más frecuentes son: diagrama de barras,
gráfico de sectores y pictogramas.
.

Distribución del tipo de animales en la Distribución del tipo de animales en


Clínica A el año pasado en las clinicas A y B
%
800
700 60
600
50 Clinica A

500
40 Clínica B
30

Reservados todos los derechos.


400
300
20
200
10
100
0
es

os
os
os

0
ve

ti l
at

tr
rr

O
ep
G
Pe

Perros Gatos Aves Reptiles Otros


R

Tipo de animal Tipo de animal

Figura 2.1. Diagramas de barras de la variable tipo de animales en la consulta.


Gráfico de sectores: Se divide el circulo en tantas porciones como clases existan,
así a cada sector le corresponde un arco proporcional a su frecuencia. También se
denominan tartas. El arco de cada sección es el resultado de la frecuencia relativa por
360.

36 68
136

Perros
Gatos
755 Aves
Reptiles
455
Otros

Figura 2.2. Gráfico de sectores de la variable tipo de animales en la consulta.

16

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Pictogramas: Expresan con dibujos alusivo al tema las frecuencias de las

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
modalidades de la variable. Es un mismo dibujo en diferente escala de tal forma que el
área de la figura sea proporcional a la frecuencia de la clase que representa.

España Francia Portugal


Figura 2.3. Censo de ganado ovino en España. Francia y Portugal.

Reservados todos los derechos.


B. Gráficos en variables cuantitativas.
Los gráficos mas frecuentes para variables cuantitativos son: Histogramas,
Polígono de frecuencias y Polígono acumulativo.
Histograma. Se representa un rectángulo para cada intervalo que tiene dicho
intervalo como base y la frecuencia relativa o absoluta como altura.

90
80
70
60
Frecuencia
50
40
30
20
10
0
145 155 165 175 185 190 205
Altura (cm)

Polígono de frecuencias. Consiste en unir mediante líneas rectas los puntos en el


eje de coordenadas que se corresponden con cada marca de clase y su frecuencia.

100
80
Frecuencia absoluta

60
40

20
0
145 155 165 175 185 190 205
Altura (cm)

17

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 2. Organización de los datos.

Polígono acumulativo. Se corresponde con un polígono de frecuencias, pero en


este caso se representa la frecuencia acumulada.

200
180
160

Frecuencia acumulada
140
120
100

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
80
60
40
20
0
145 155 165 175 185 190 205
Altura (cm)

C. Indicaciones generales en la construcción de tablas y gráficas.


- Las tablas/gráficos se explicarán por sí mismas.
- Para las variables numéricas indicar unidades.
- No incluir demasiada información por tabla o gráfico.

Reservados todos los derechos.


- Las variables numéricas han de tener el mismo nº de decimales.
- Evitar gráficos engañosos.

18

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 3. Cálculo de probabilidades.

Tema 3.- Cálculo de Probabilidades: Conceptos básicos. Probabilidad y propiedades.


Sucesos compatibles vs excluyentes. Probabilidad condicionada. Sucesos
dependientes e independientes. Teorema de Bayes.

1. Introducción.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
La probabilidad nos provee de herramientas para estudiar la incertidumbre, pues nos mide
la incertidumbre en la ocurrencia de un determinado suceso, estudia los fenómenos
aletorios. Además el estudio de las probabilidades nos será muy útil en desarrollo de la
inferencia estadística.
Ejemplo: Ante la decisión de hacer un tratamiento frente a una enfermedad es muy útil conocer de todos los
tratamientos posibles la probabilidad de curación en cada uno de ellos. También es interesante conocer si la
probabilidad de curación de cada tratamiento está condicionada por algún factor del individuo como sexo,
edad, etc., que permitirá elegir el tratamiento más interesante.

2. Definiciones y Conceptos básicos.


Se definen dos tipos de experimentos, los aleatorios y los deterministas. Los

Reservados todos los derechos.


deterministas son aquellos que realizados de la misma forma y con las mismas
condiciones iniciales, ofrecen siempre el mismo resultado. Por el contrario, aquellos
experimentos en los cuales no se pude predecir el resultado final se denominan aleatorios.
Experimento aleatorio: Cualquier proceso cuyos resultados no se conocen de antemano,
pero si los posibles resultados llamados sucesos. Las repeticiones sucesivas de un
experimento, aun realizándose en idénticas condiciones son impredecibles, varían de
forma aleatoria. Ejemplo: Lanzamiento de una moneda, Sexo de una futura cría, etc.
Los experimentos aleatorios cumplen tres condiciones: 1. Repetición indefinida,
bajo las mismas condiciones, 2. Imposibilidad de predicción, es la condición de azar. 3.
Regularidad estadística; Aunque el resultado es impredecible existe una tendencia de las
frecuencias relativas a alcanzar la proximidad a un valor fijo o estable (probabilidad), es
la regularidad estadística.
Espacio muestral o universo: Conjunto de posibles resultados o sucesos de un
experimento. Por ejemplo si el experimento consiste en el lanzamiento de un dado para
observar el número de puntos que se obtiene en su cara superior el universo o espacio
muestral sería [ 1, 2, 3, 4, 5, 6 ].
Suceso: Cualquier subconjunto del espacio muestral. Ejemplo [1], [2,4,6].
Suceso simple o elemental: Resultado de un experimento que no puedo expresar como
unión de otros sucesos. Ejemplo [1], [4].
Suceso compuesto: Resultado de un experimento que puedo expresar como unión de otros
sucesos simples. Ejemplo [2,4,6].
Modelo probabilístico: Conjunto del espacio muestral y una familia de probabilidades.

19

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 3. Cálculo de probabilidades.

3. Probabilidad y propiedades.
Probabilidad: Respecto al concepto de probabilidad tenemos varios puntos de vista o
definiciones.
Probabilidad clásica (según Laplace). Cociente entre el número de casos favorables y
casos posibles, cuando todos los sucesos elementales son igualmente probables.
CF
P( S ) =

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
CP
Ejemplo, Sacar un número par al lanzar el dado P (nº par) = 3/6 = 0,5.
Probabilidad frecuencial (según Mises). La probabilidad de un suceso es el límite de su
frecuencia relativa cuando el número de pruebas tiende a infinito.
f
p ( S ) = lim n −>∞
n
Ejemplo, Lanzar una moneda al aire, probabilidad de cara, ½ .

Probabilidad subjetiva. Grado de creencia del investigador, basada en la experiencia o


información previa.

Reservados todos los derechos.


El concepto de probabilidad se define también a través de tres axiomas:
1. 0 < p(A1)< 1
2. p (Ω)=1, (Ω = Universo)
3. p(∑Ai) = ∑ p(Ai) (Ai, sucesos mutuamente excluyentes).

Propiedades de la probabilidad.
Las propiedades de la probabilidad se deducen a partir de estos axiomas.
♦ La probabilidad de un suceso vacío o imposible es cero, p (Ø) = 0.
♦ La probabilidad de un suceso seguro es uno, p (Ω)=1.
♦ La ley de la adicción: p (A U B) = p(A) + p(B) - p (A ∩ B)
Para sucesos compatibles. p (A+B) = p(A) + p(B) – p (A.B).
Para sucesos excluyentes: p (A+B) = p(A) + p(B), p (A.B)=0
♦ La ley de la multiplicación: p (A ∩ B) = p(A) . p (B/A)
Probabilidad condicionada, P(B/A), es la probabilidad de B condicionado a que suceda A.
Para sucesos independientes, p (A y B) = p(A) . p(B), p(B/A)=P(B)
Para sucesos dependientes, p (A y B) = p(A) . p(B/A),
♦ Suceso contrario, p ( A ) = 1 − p ( A)
♦ Suceso complementario, p ( A) = p ( A ∪ B) + p ( A ∩ B )
Cuando el especio muestral es discreto se puede estimar la probabilidad de todos los
subconjuntos y de los sucesos elementales.

20

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 3. Cálculo de probabilidades.

Cuando el espacio muestral es continuo (R) se mide una característica continua asociado

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a un experimento y no es posible estimar la probabilidad de un punto concreto ni los
subconjuntos de R, si la probabilidad en un intervalo y de todos los subconjuntos de
intervalos.
4. Sucesos compatibles vs sucesos excluyentes.
Sucesos incompatibles o excluyentes son aquellos que no se pueden verificar
simultáneamente. Cuando pueden verificarse ambos a la vez se llaman compatibles.
Si A y B son incompatibles, entonces A B= Ø.
Si A y B son compatibles, entonces A B≠Ø
Ejemplo: Sea el experimento aleatorio lanzamiento del dado. Definimos los sucesos:
A = "salir un número par"
B = “salir un nº impar”
C = "salir un múltiplo de tres"

Reservados todos los derechos.


Los sucesos A y B son incompatibles pues para ningún nº par puede ser a la vez impar. En cambio los
sucesos A y C son compatibles pues si sale 6, será par y múltiplo de tres.

5. Probabilidad condicionada.
Cuando a las condiciones del experimento se la añade una condición supletoria (que
se ha cumplido) el universo queda restringido a los resultados que cumplen esa condición,
es los que se denomina probabilidad condicionada, P(A/B), se define como probabilidad
de que suceda A, habiéndose cumplido B.
Ejemplo: En el experimento del lanzamiento del dado.
suceso A- salgan un 2 (p(A)= 1/6)
suceso B, salga un nº par (p(B)=1/2).
La probabilidad de que salga un 2, sabiendo que ha salido nº par, se puede formular en términos de
probabilidad condicionada, p(A/B), siguiendo la ley de la multiplicación podemos formular p(A/B)
= p(A y B)/p(B) = (1/6)/(1/2)= 1/3.
La probabilidad condicionada es muy utilizada en la diagnosis médica, se calcula
la probabilidad de que tenga una enfermedad condicionada a que tenga un complejo
particular de síntomas. Para diagnosticar una enfermedad se valoran muchos síntomas y
cada uno de ellos nos va precisando más probabilidad de tener o no tener dicha
enfermedad.

6. Sucesos dependientes e independientes.


Dos sucesos A y B son independientes si se cumple que la probabilidad de A es igual
a la probabilidad condicionada de A habiéndose cumplido B, se cumple que P(A) =
P(A/B), es decir, el conocimiento de la ocurrencia de uno no modifica la probabilidad de
aparición del otro.
Cuando A y B son independientes se cumple que
p(A/B) = p(A)
p(B/A) = p(B)
p (A ∩ B) = p(A) . p (B)

21

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 3. Cálculo de probabilidades.

Ejemplo. Se realiza una encuesta en una muestra de la población donde se recogen dos sucesos (A es
fumador, SI/NO; B, género Hombre/Mujer), los resultados son los siguientes:
Tabla 3-1. Tabla de contingencia de frecuencias absolutas.
Fuma \ Genero Varón Mujer Global
SI fuma 25 15 40
No fuma 85 75 160

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Global genero 110 90 200

Tabla 3-2. Tabla de probabilidades conjunta.


Fuma \ Genero Varón Mujer Global
SI fuma 0,13 0,08 0,20
No fuma 0,43 0,38 0,80
Global genero 0,55 0,45 1,00
En la tabla 3.2 se presentan los resultados de probabilidades conjuntas para conocer la ocurrencia de las
combinaciones de ambos sucesos conjuntamente.
También podemos construir las tablas de probabilidades condicionadas para cada uno de los sucesos.

Reservados todos los derechos.


Tabla 3-3. Tabla de probabilidades condicionadas.
Condicionada al suceso género Condicionada al suceso fumar
Fuma \ Genero Varón Mujer Fuma \ Genero Varón Mujer
SI fuma 0,23 0,17 SI fuma 0,63 0,38
No fuma 0,77 0,83 No fuma 0,53 0,47

7. Teorema de Bayes.
El teorema de Bayes es una propiedad de la probabilidad condicionada, es una
generalización de la probabilidad condicionada a un experimento con varios sucesos.
La probabilidad condicionada y el teorema de Bayes son muy utilizados en la teoría
probabilística del diagnostico médico, en la aplicación de los estudios de factores de
riesgo, en la medida de la asociación entre factores de riesgo y enfermedad, etc.
Sea B1,B2,…Bn sucesos de una partición de Ω y A un suceso con probabilidad
positiva, el teorema de Bayes se define como
p( A / B) p( B) p ( A / Bi ) p ( Bi )
p ( B / A) = --------- p ( B1 / A) = n
p ( A)
∑ p( A / B ) p( B )
J =1
j j

Ejemplo: Un una determinada población se sabe que de cada 100 pacientes con dolor crónico de estómago
70 presentan gastritis, 20 úlcera y 10 cáncer. En el análisis de la sintomatología se ha comprobado que las
probabilidades de presentar vómitos son: en la úlcera 0,6, en la gastritis 0,3 y en el cáncer 0,9.

22

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología ___________________________________________ Tema 3. Cálculo de probabilidades.

Si estamos ante un paciente con dolor de estómago que presenta vómitos: ¿ Que probabilidad tiene de tener
un cáncer gástrico ?.
Solución: Experimento A, Tener/ no tener vómitos.
Experimento B, Tener dolor de estómago.
Conocemos las frecuencias de los tres sucesos del experimento B,
B1, dolor de estomago y gastritis, p(B1) = 0,70
B2 dolor de estomago y úlcera, p(B2) = 0,20
B3, dolor de estomago y cáncer, p(B3) = 0,10
También conocemos las probabilidades condicionadas del suceso B con cada uno de los sucesos de A.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
p(A/B1), p (vómitos/ sabiendo que tiene gastritis), 0,30
p(A/B2), p (vómitos/ sabiendo que tiene úlcera), 0,60
p(A/B3), p (vómitos/ sabiendo que tiene cáncer), 0,90

Formulación
0,01x0,9 0,09
p ( B3 / A) = = = 0,21
(0,7 x0,3) + (0,2 x0,6) + (0,1x0,9) 0,42

Aplicación de la probabilidad condicionada a la diagnosis médica.


Para diagnosticar la enfermedad el veterinario debe de conocer la probabilidad
particular de los síntomas y signos producidos por una enfermedad; sin embargo lo que

Reservados todos los derechos.


necesitamos saber la probabilidad de la enfermedad cuando se observa el complejo de
síntomas en un paciente.
Si conocemos la tabla de probabilidades condicionadas, p(Enfermdad/sintoma)
padecer la enfermedad condicionado a tener el síntoma, tenemos la información para
realizar el diagnóstico más probable.
Respecto a los test para el diagnóstico de enfermedades se utilizan conceptos
como Sensitividad, Especificidad, Falso positivo, falso negativo, etc, que son
probabilidades condicionadas. Cuanto mayor sea la Sensitividad y la Especificidad mayor
es la fiabilidad del test.
También se aplica al estudio de factores de riesgo para medir la asociación entre
factor de riesgo y enfermedad, como son: Riesgo relativo (RR), Odds Ratio (OR), curvas
ROC, etc., conceptos que se estudian en Epidemiología.

23

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Me han encerrado aquí ¿alguien puede leer esto?
Reservados todos los derechos.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Bioestadística y Epidemiología _________________________________________________ Tema 4. Variables aleatorias.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Tema 4. Variables aleatorias, distribución en la población. Distribuciones de
variables discretas: binomial, de Poisson. Distribuciones variables continuas: D. normal.
Tipificaciones. Desviaciones de la normalidad.

1. Variables aleatorias.
Siguiendo el concepto de experimento aleatorio (tema I.3), se define una variable
aleatoria como aquella que toma distintos valores según el azar. En función de los
valores que tome la variable se clasifica en variable aleatoria discreta o contínua.
Ejemplos:
1. Se cruzan dos individuos heterozigóticos, Bb x Bb, los genotipos de los
descendientes forman el siguiente universo Ω = {BB, Bb,bB,bb}
La variable aleatoria puede definirse en este caso como X = nº de alelos tipo B,

Reservados todos los derechos.


X={0,1,2}. En este caso es una variable discreta.
2. Se mide la altura de un individuo y el peso corporal, surgen dos variables
aleatorias continuas, son: X= altura, Y=peso.
3. El número de puntos que obtengo en la cara superior al lanzar un dado, en este
caso el Ω = {1, 2,3,4,5,6}.
4. El género en el nacimiento de un bebe, (Hombre, Mujer).

2. Distribuciones de una variable aleatoria.


Se llama distribución de una variable aleatoria a una tabla, gráfico expresión
matemática que nos da las probabilidades con que una variable toma distintos valores.
Ejemplos:
1. El nº de puntos en la cara superior al lanzar un dado.
X 1 2 3 4 5 6
P(x) 1/6 1/6 1/6 1/6 1/6 1/6

2. Nº de caras en el lanzamiento dos monedas. Ω = {0,1, 2}

0,6 0,5
0,4 0,25 0,25
P(x)

0,2
0
0 1 2
Nº de caras

Hay dos tipos de funciones que determinan la distribución de las variables


aleatorias, las funciones de densidad y las funciones de distribución.
La función de densidad, f(x)= probabilidad de que la variable tome el valor de x.

25

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _________________________________________________ Tema 4. Variables aleatorias.

La función de distribución, F(x) =p[X=<x]

El interés en estudiar las distribuciones está en que nos preguntamos ¿ Que leyes
matemáticas siguen las distribuciones de los datos biológicos ? Si encontramos una
formula teórica (función) que sigua la misma distribución que los datos y se ajusta bien,
estaríamos modelizando dicho fenómeno biológico.
Muchas variables o caracteres biológicos se ajustan a funciones muy conocidas,
por ejemplo la función distribución normal o de Gaus es muy estudiada por que la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
mayoría de las variables cuantitativas en biología siguen esa distribución.
Las distribuciones teóricas de variables discretas más conocidas son: Binomial,
multinomial y de Poisson. Las continuas son Normal, T-student, Ch-cuadrado, F de
Fisher.

3. Distribución binomial.
Premisa: Experimentos donde hay dos sucesos posibles, Si-No, Enfermo-Sano, +/-,
favorable-contrario, etc.
Ejemplo, lanzamiento de una moneda (cara /cruz), resultado del tratamiento de

Reservados todos los derechos.


una enfermedad (cura/no cura).
Si el experimento se realiza una vez la probabilidad de suceso favorable/principal
se denomina p, y la del suceso contrario, q=(1-p). Pero si el experimento se repite muchas
veces, el nº de veces del suceso favorable es una variable aleatoria discreta.
Ejemplo 1, si lanzo 10 veces una moneda, X=nº de veces que sale cara.
Ejemplo 2, Si lanzo un dado X=nº de veces que sale par.
Ejemplo 3, Un hombre una mujer heterocigóticos para el gen del color de los ojos
azul (recesivo) y marrón (dominante). Si tienen tres hijos X=nº de hijos con ojos azules

Definición: (En un experimento aleatorio con dos sucesos posibles, uno principal
y otro contrario), la variable aleatoria binomial se define como Nº de elementos
principales x contenidos en una muestra de n elementos al azar de la población.
En una sucesión de n elementos: x son favorables/principales
n-x son desfavorables/contrarios
p probabilidad del suceso favorable
q=1-p probabilidad del suceso contrario

P( I ) = B( X ) =  nx  p x q n − x
La probabilidad de una sucesión I(x) es:
 

Donde  nx  = n!
son la permutaciones posibles y p x q n − x es el producto
  x!(n − x)!

de n probabilidades

26

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _________________________________________________ Tema 4. Variables aleatorias.

Ejemplo, Un matrimonio con 5 hijos, suponiendo que la probabilidad de nacer un


niño o niña es del 50 % ¿Cuál es la probabilidad de que tengan 3 niños y 2 niñas.

5
5.4.3.2.1  1  10
B( 5, 3, 0 , 5 ) =  53 0,530,52 =   = = 0,3125
  3.2.1.2.1  2  32

Tablas de distribución binomial.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Probabilidad binomial individual B (x,n,p), que sean exactamente x favorables.
Probabilidad binomial acumulada B (r,n,p), que sean r o mas que r favorables,
(al menos r).

4. La distribución de Poisson.
La distribución de los sucesos raros. Es el caso límite de la distribución binomial
cuando n tiende infinito y p tiende a cero, n . p tiende a λ (media), es decir λ =n.p
Ejemplos: Nº de glóbulos blancos en 0.0001 mm3 de sangre.

Reservados todos los derechos.


Nº de muertos por fiebre tifoidea en un año.
Nº de muertos por aplicación de una vacuna

La función de probabilidad de Poisson: λx e − λ


P( λ , x ) =
x!
En la práctica se consideran distribuciones de Piosson aquellas en las que n>30 y p<0,1.

Ejemplo:
Enfermedad con p = 1/100000, en una ciudad con 500.000 habitantes.
¿Probabilidad de que la padezcan 3 personas ?
53 e −5
P( 5, 3) = = 0,1404
3!
En la distribución de Piosson también está tabulada su función de densidad, que
utilizaremos en la resolución de ejercicios.

5. La distribución normal de Gauss.


Importancia de la distribución normal o gaussiana.
Numerosas variables que se miden en las ciencias biológicas, de la clínica, de
mundo agropecuario, de la medicina, en ciencias sociales, etc. están aproximadamente
distribuidas de forma Normal. Por ejemplo, nivel de colesterol en sangre, producción
láctea, velocidad de crecimiento, etc. Por otra parte unas pocas variables que no siguen la

27

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _________________________________________________ Tema 4. Variables aleatorias.

normal, por ejemplo el CCS (Concentración de células somáticas en leche), para que sea
normal es necesario hacer la transformación logarítmica.
Otra característica que le da gran importancia a la distribución normal es que tiene
grandes propiedades matemáticas y está tabulada, así muchos métodos de inferencia
estadística se basan en la distribución normal y sirve de referencia para describir otras
distribuciones.
Definición: Se dice que una variable es normal de Gaus, aquella variable aleatoria
continua x cuyo rango es todo el eje real (-∞,+∞), cuya media es μ y su varianza es σ2 si

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
su función de densidad viene dada por la expresión
( x − µ )2
1 −
f ( x) = e 2σ 2
2πσ

donde π = 3,1416 y e=2,7182, se anota X es N(μ, σ ) o también N(μ, σ2)

Propiedades:
Variable x es N (µ, σ)
Función de densidad es una curva con forma de campana se le llama campana de

Reservados todos los derechos.


Gauss.
Unimodal y simétrica respecto a la media
µ y σ determinan la forma de la curva.
Si X e Y son dos variables normales e independientes las suma (X+Y) es también
normal.

A continuación se representan las gráficas de las funciones de densidad y distribución


de probabilidad de la normal, según la media y la varianza de cada variable las posibles
distribuciones son infinitas.

Función de densidad de probabilidad Función de distribución de probabilidad


La línea verde se corresponde a la distribución
normal estándar.

28

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _________________________________________________ Tema 4. Variables aleatorias.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
6. La distribución normal Tipificada.
Existen muchos tipos de campanas de Gaus, dependiendo de la media y de la
desviación típica, pero se puede generalizar a un que denominamos distribución normal
tipo.
Se denomina distribución normal tipo aquella distribución de la variable z cuando
N(0,1).

Reservados todos los derechos.


Distribuciones gaussianas, a la izquierda con la misma varianza y diferentes medias, a
la derecha con la misma media y distinta varianza.

Propiedades de la distribución normal tipo.

 Z es la variable tipificada

 Z es N(0,1)
 Permite tabular función de distribución.

En la figura la distribución normal tipo.

29

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686
Bioestadística y Epidemiología _________________________________________________ Tema 4. Variables aleatorias.

7. Desviaciones de distribución normal.


Obviamente no todas las variables tienen distribución normal, así disponemos de
varias test estadísticos, como la prueba de Kolmogorov-Smirnov para determinar si las
variables siguen o no la distribución normal.
Los dos parámetros o características que nos miden la desviación de la normalidad
son: Asimetría y la Curtosis.
Asimetría. El concepto de asimetría se refiere a si la curva que forman los valores
de la serie presenta la misma forma a izquierda y derecha de un valor central o media

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
aritmética.
Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría g1.
g1= 0 es distribución simétrica; existe la misma concentración de valores a la
derecha y a la izquierda de la media; g1 > 0, distribución asimétrica positiva; existe
mayor concentración de valores a la derecha de la media que a su izquierda y g1< 0,
distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de
la media que a su derecha.

Curtosis. Un coeficiente de apuntamiento o de curtosis es el basado en el cuarto

Reservados todos los derechos.


momento con respecto a la media. Se expresa con g2. Una mayor curtosis implica una
mayor concentración de datos muy cerca de la media de la distribución
Tomando, pues, la distribución normal como referencia, una distribución puede
ser: la distribución normal (mesocúrtica), más apuntada y con colas más anchas que la
normal (leptocúrtica), menos apuntada y con colas menos anchas que la normal
(platicúrtica).

8. Ejercicio resuelto.
Supongamos que se sabe que el peso de los individuos de una determinada
población sigue una distribución aproximadamente normal, con una media de 80 Kg y
una desviación estándar de 10 Kg.
A) ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un
peso superior a 100 Kg ?
x − 80
La probabilidad que se desea calcular es z=
10

100 − 80 
La probabilidad que obtengo en la tabla es: P( x > 100) = P z >  = P(z > 2)
 10 

La solución es 0,0228, es decir un 2,28% P ( z ≥ 2) = 0,0288


B) ¿ Probabilidad de que el peso de un individuo esté entre 60 y 100 Kg ?
100 − 80 60 − 80
z1 = = 2 ; z2 = = −2
10 10 P ( z ≥ 2) = 0,0228
P( µ ± 2σ ) = 1 − 0,0228 − 0,0228 = 0,9454

30

Me han encerrado aquí ¿alguien puede leer esto?


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4674686

You might also like