P. 1
ESTADÍSTICA U.CHILE

ESTADÍSTICA U.CHILE

|Views: 5,079|Likes:

More info:

Published by: Claudio Andrés Reyes on Sep 08, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

02/21/2015

pdf

text

original

Sections

  • INTRODUCCIÓN: CIENCIA Y ESTADISTICA
  • I UNIDAD: ESTADISTICA DESCRIPTIVA
  • I.- ESTADÍSTICA
  • I.1.- Bases e historia
  • I.2.- Definición
  • II.- ESTADÍSTICA DESCRIPTIVA
  • II.1.- Observaciones, variables y escalas
  • II.2.- Representación de la información
  • II.3.- Medidas de resumen
  • Ejercicios de Estadística descriptiva
  • II UNIDAD: ESTADISTICA MATEMATICA
  • III.- PROBABILIDADES
  • III.1.- Experimento Aleatorio, Espacio Muestral
  • III.2.- Probabilidades y Conjuntos
  • III.3.- Propiedades de las Probabilidades
  • III.4.- Independencia Estocástica y Probabilidad Condicional
  • III.5.- Probabilidades en Medicina
  • Ejercicios de Probabilidades
  • IV.- VARIABLES ALEATORIAS
  • IV.1.- Distribución de una variable aleatoria
  • IV.2.- Distribución de Bernoulli
  • IV.3.- Distribución binomial
  • IV.4.- Distribución de Poisson
  • IV.5.- Variables aleatorias continuas
  • IV.6.- Distribución uniforme
  • IV.7.- Distribución exponencial
  • IV.8.- DISTRIBUCIÓN NORMAL
  • IV.9.- Otras distribuciones importantes
  • Ejercicios de variables aleatorias
  • III UNIDAD: INFERENCIA ESTADISTICA
  • V.- ESTIMACIÓN
  • V.1.- Estimadores
  • V.2.- Estimaciones
  • V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2
  • V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1- x2
  • V.3.- El tamaño muestral
  • V.2.3.- Estimaciones en Medicina
  • Ejercicios de estimación
  • VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS
  • VI.1.- Bases
  • VI.2.- Dócimas para una muestra
  • VI.3.- Dócimas para dos muestras
  • VI.4.- Supuestos de las dócimas
  • Ejercicios de Pruebas de Hipótesis para una y dos muestras
  • VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS
  • VII.1.- La distribución χ2
  • VII.2.- Bondad de ajuste de χ2
  • VII.4.- La prueba G
  • Ejercicios de análisis de datos enumerativos
  • VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA
  • VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras
  • Ejercicios de estadística no-paramétrica
  • IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA)
  • IX.2.- Diseño experimental
  • IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía)
  • IX4.- Comparaciones múltiples
  • IX.5.- ANOVA de dos vías: la interacción
  • IX.6.- Otros diseños
  • IX.7.- Alternativas no paramétricas al ANOVA
  • Ejercicios de análisis de la varianza
  • X.- CORRELACIÓN Y REGRESIÓN
  • X.1.- Correlación
  • X.2.- Regresión
  • X.3.- Regresión y ANOVA
  • X.4.- Predicciones
  • X.4.- Supuestos y alternativas no paramétricas
  • X.5.- Análisis de la covarianza (ANCOVA)
  • Ejercicios de correlación y regresión

CURSO DE ESTADISTICA UNIVERSITARIA

2007





DR. MAURICIO CANALS LAMBARRI
FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE



RPI N°:153541
2
Prologo

Este libro ha sido diseñado como un curso de estadística general de acuerdo a los
programas vigentes en diferentes universidades. Está escrito en una forma general con
ejemplos aplicables a diferentes ámbitos. Tiene un énfasis en las bases conceptuales y
metodológicas de los distintos temas, sin perder el rigor matemático de sus
fundamentos. En general se evitan las demostraciones matemáticas dificultosas que
distraen del objetivo general.

El libro está dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el análisis de datos es relevante.

La primera unidad corresponde a Estadística descriptiva, donde se sientan las
bases de la descripción de la información. La segunda unidad corresponde a Estadística
matemática, donde se aportan los aspectos más relevantes de la teoría de probabilidades.

Las unidades tres y cuatro son las más importantes en un curso básico, donde se
encuentran los principales métodos usados en inferencia estadística. Se separan en una
unidad especial el análisis de varianza y la regresión. Para los lectores poco avezados en
matemáticas, se puede pasar directamente desde la unidad 1 a la 3.

La unidad 5 corresponde a una serie de tópicos, habitualmente no tratados en los
cursos básicos, pero que frecuentemente son usados en diversas áreas como las
estadísticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en
el área industrial, las series temporales y la regresión logística. En esta unidad los temas
son tratados con menor profundidad, haciendo hincapié en las bases conceptuales, pero
sin perder rigurosidad de tratamiento del tema.

La última unidad introduce el análisis multivariado, ya que cada día se toma
mayor conciencia del origen multicausal de muchos fenómenos, por lo que es necesario
una mayor comprensión y utilización de esta metodología.

Este libro es el resultado de varios años dictando cursos básicos de estadística. El
tratamiento en todos los capítulos intenta ser claro pero conciso, sin redundar en largas
explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se
apoyan las explicaciones con ejemplos didácticos aplicables en cualquier disciplina.


3
Índice general

INTRODUCCIÓN: CIENCIA Y ESTADISTICA 6
I UNIDAD: ESTADISTICA DESCRIPTIVA 8
I.- ESTADÍSTICA 9

I.1.- Bases e historia 9
I.2.- Definición 9

II.- ESTADÍSTICA DESCRIPTIVA 12

II.1.- Observaciones, variables y escalas 12
II.2.- Representación de la información 12
II.3.- Medidas de resumen 14

Ejercicios de estadística descriptiva 20

II UNIDAD: ESTADISTICA MATEMATICA 22

III.- PROBABILIDADES 23

III.1.- Experimento Aleatorio, Espacio Muestral 23
III.2.- Probabilidades y Conjuntos 25
III.3.- Propiedades de las Probabilidades 26
III.4.- Independencia Estocástica y Probabilidad Condicional 27
III.5.- Probabilidades en Medicina 31

Ejercicios de Probabilidades 39

IV.- VARIABLES ALEATORIAS 44

IV.1.- Distribución de una variable aleatoria 44
IV.2.- Distribución de Bernoulli 48
IV.3.- Distribución binomial 48
IV.4.- Distribución de Poisson 50
IV.5.- Variables aleatorias continuas 52
4
IV.6.- Distribución uniforme 53
IV.7.- Distribución exponencial 53
IV.8.- DISTRIBUCIÓN NORMAL 53
IV.9.- Otras distribuciones importantes 57

Ejercicios de variables aleatorias 61

III UNIDAD: INFERENCIA ESTADISTICA 64

V.- ESTIMACIÓN 65

V.1.- Estimadores 65
V.2.- Estimaciones 67
V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 67
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x
1
-x
2
68
V.3.- El tamaño muestral 69
V.2.3.- Estimaciones en Medicina 70

Ejercicios de estimación 72

VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS 74

VI.1.- Bases 74
VI.2.- Dócimas para una muestra 78
VI.3.- Dócimas para dos muestras 80
VI.4.- Supuestos de las dócimas 84

Ejercicios de Pruebas de Hipótesis para una y dos muestras 87

VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS 91

VII.1.- La distribución χ
2
91
VII.2.- Bondad de ajuste de χ
2
96
VII.3. El χ
2
para proporciones 98
VII.4.- La prueba G 99
5

Ejercicios de análisis de datos enumerativos 101

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA 103

VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras 104

Ejercicios de estadística no-paramétrica 110

IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y
REGRESION 112

IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) 113

IX.1.-El Problema de Bonferroni 112
IX.2.- Diseño experimental 114
IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía). 115
IX4.- Comparaciones múltiples 119
IX.5.- ANOVA de dos vías: la interacción 122
IX.6.- Otros diseños 125
IX.7.- Alternativas no paramétricas al ANOVA 127

Ejercicios de análisis de la varianza 129

X.- CORRELACIÓN Y REGRESIÓN 132

X.1.- Correlación 132
X.2.- Regresión 133
X.3.- Regresión y ANOVA 135
X.4.- Predicciones 138
X.4.- Supuestos y alternativas no paramétricas 139
X.5.- Análisis de Covarianza (ANCOVA) 140

Ejercicios de correlación y regresión 142
6


INTRODUCCIÓN: CIENCIA Y ESTADISTICA

El objetivo de la ciencia es captar el orden de los fenómenos para hacerlos
comprensibles dando una explicación racional de ellos, determinando sus causas y
haciéndolos previsibles.

Esta captación del orden pasa primero por la elección e identificación del
fenómeno y decidiendo el enfoque de interés. Este puede ser de tipo sistémico u holista
en el que el interés esta concentrado en la totalidad y no en las partes (el todo es mas
que la suma de las partes), o bien de tipo reduccionista en el que se estudian las
partes para entender el todo. En general ambos enfoques conducen a la construcción de
modelos, sean éstos formales o de simple palabra, que representen el fenómeno. Estos
reducen la complejidad del fenómeno, haciéndolo comprensible.

La ciencia, según Kuhn (1962), puede ser entendida como una colección de datos
en el contexto de una forma de entender como funciona la naturaleza (paradigma). En
su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones científicas)
en la medida que se acumulan evidencias contradictorias a la luz del paradigma
existente. Esta acumulación de evidencias obedece a un proceso constante de
proposición de explicaciones y causalidades de fenómenos naturales que puede ir de lo
general a lo particular (deducción) o desde lo particular a lo general (inducción).

La deducción es una forma de generación de proposiciones lógicas. Estas
proposiciones lógicas que tienen un valor de verdad desconocido las conocemos como
hipótesis y pueden ser entendidas como enunciados que contienen proposiciones
verificables y que anteceden a otras en el proceso continuo de la ciencia.

La inducción por el contrario, genera proposiciones generales a partir de la
repetitividad de hechos particulares.

El proceso del conocer requiere de un método. Este es conocido como método
científico, que básicamente contiene varias etapas:

i) elección del sistema,
ii) enunciado del problema,
iii) planteamiento de la hipótesis y deducción de consecuencias verificables de ella
(si p, entonces q),
iv) diseño experimental,
v) prueba de la hipótesis, y
vi) interpretación de los resultados, generando nuevas hipótesis.
7

Para Popper (1979) el método consiste en una confrontación de los datos con una
hipótesis, pudiendo ésta ser solamente rechazada y no probada. Así, en el método de
Popper, hipotético-deductivo-refutacionista, existe una hipótesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hipótesis (falsificación de la
hipótesis).

En el método de Popper convergen la deducción y la inducción, estando
relacionada la primera con la generación de hipótesis y la segunda con la refutación.
Para este segundo proceso, la refutación, son necesarios métodos rigurosos y eficientes
que permitan una adecuada toma de decisiones. Aquí es donde es relevante la
metodología de la inferencia estadística. Esta, en su base fundamental consiste en
plantear una dicotomía entre la hipótesis de nulidad (Ho) y un alternativa (H
1
), de tal
manera que a través de la repetitividad de resultados experimentales (inducción) en una
muestra, sea posible el rechazo de Ho y por tanto la inferencia de H
1
a la población
completa.

8
I UNIDAD: ESTADISTICA DESCRIPTIVA
9



I.- ESTADÍSTICA

I.1.- Bases e historia

El término “estadística” proviene de la palabra estado, y se refiere al origen
histórico de esta disciplina relacionado con la descripción cuantitativa de asuntos del
estado. También se llamó aritmética política. Su objetivo inicial era describir
cuantitativamente diversos hechos de interés. En tiempos de Cesar Augusto el
estadístico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se
editó el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (1620-
1674) y W. Petty (1623-1687) desarrollaron la estadística vital.

En esta misma época, en forma independiente nació la rama matemática de las
probabilidades a raíz del interés en el juego de Antoine Gombaud (el caballero de Merè:
1610-1685) y de los matemáticos B. Pascal (1623-1662) y P. Fermat (1601-1665).
Posteriormente, J Bernouilli (1654-1705), A. De Moivre (1667—1754), P.S. Laplace
(1749-1827) y K.F. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades,
combinándola con los datos estadísticos. A. Quetelet (1796-1874) y finalmente F.
Galton (1822-1911) aplicaron la estadística al análisis de la variabilidad biológica.

El desarrollo definitivo de la estadística, uniendo sus raíces descriptivas y
matemáticas viene con K. Pearson (1857-1936), W.S. Gosset “Student” (1876-1937), J.
Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962).
Tal vez las figuras mas destacadas que relacionaron la estadística y la biología, dando
origen a la biometría, son K. Pearson (fundador de la revista Biometrika) y R.A.
Fisher (Statistical methods for research workers, 1925).

En paralelo, la estadística matemática ha sido enriquecida con las contribuciones
de Maxwell, Boltzman y Gills (mecánica estadística) y por Kolmogorov (probabilidades
axiomáticas) y Lebesgue (teoría de la medida).

I.2.- Definición

La estadística actual se puede definir de muchas formas, por ejemplo “conjunto
de métodos que permiten recolectar presentar y analizar información” o “análisis
científico de datos basados en fenómenos naturales” (Sokal & Rholf, 1969). Sin
embargo una definición útil en el contexto de su aplicación en las ciencias es:

10
“La estadística es la ciencia, pura y aplicada, que crea, desarrolla y aplica
técnicas para la descripción de datos y la evaluación de la incertidumbre de
inferencias inductivas” (modificada de Steel & Torrie, 1985).

Esta definición hace énfasis en dos aspectos:

i) la estadística no es sólo un conjunto de métodos o recetas para aplicar ante
determinados problemas, sino que también incluye la creación y el
desarrollo de la teoría y métodos.
ii) la estadística en ciencias se basa en la evaluación de la incertidumbre
(probabilidad) de ciertas proposiciones (hipótesis) inferidas mediante un
proceso de inducción (de lo particular a lo general)

La estadística tiene tres capítulos claramente diferentes que se correlacionan con
el desarrollo histórico:

I) Estadística Descriptiva: cuyo fin es describir datos.
II) Estadística Matemática: que constituye la base teórica de toda la
estadística.
III) Inferencia Estadística: que tiene dos sub-capítulos con objetivos
diferentes:
a) Estimación: cuyo fin es aproximar el valor de ciertos parámetros
b) Docimasia o prueba de Hipótesis: cuyo objetivo es probar
hipótesis.

La estadística en investigación ha enriquecido el método científico, dándole
sentido y un marco teórico a sus diversas etapas. Este último se puede describir
detalladamente como:

i) elección del sistema a estudiar y su enfoque,
ii) enunciado del problema,
iii) definición de objetivos,
iv) planteamiento de la hipótesis,
v) deducción de consecuencias verificables de ella,
vi) dicotomía de la hipótesis (Ho vs. H
1
),
vii) diseño experimental:
a) decidir tipo de investigación:
1) Recopilación de datos ya registrados (estudio retrospectivo) u
obtener nuevos datos (estudio prospectivo).
2) Un estudio instantáneo (estudio transversal) o un seguimiento
(estudio longitudinal).
3) Será sólo un estudio descriptivo o explicativo?
11
4) Será experimental o no-experimental?
b) definir el Universo,
c) diseño de la muestra,
d) definición de grupo control,
e) definición de unidades de observación,
f) definición de las fuentes de información,
g) unidades de medidas y escalas
viii) elección de estadígrafos para la prueba de la hipótesis,
ix) elección del nivel de significación
x) docimasia de hipótesis
xi) toma de decisión (rechazo Ho?)
xii) representación de la información
xiii) interpretación de los resultados,
xiv) génesis de nuevas hipótesis
12

II.- ESTADÍSTICA DESCRIPTIVA

II.1.- Observaciones, variables y escalas

La estadística trabaja con datos u observaciones, que en general son valores
numéricos de una variable en una unidad de observación particular. Por ejemplo, si
estamos interesados en la edad de los individuos, la unidad de observación es el
individuo, la variable de interés es la edad, la unidad de medida puede ser “años” y un
dato puede ser “5 años” en un individuo.

Las variables pueden ser cuantitativas cuando miden cantidad o contenido de
algún atributo, o bien cualitativas cuando se refieren a calidad. Por ejemplo masa, peso,
longitud, cantidad son cuantitativas y color, olor y textura son cualitativas. Las variables
pueden ser también continuas cuando se puede establecer correspondencia biunívoca
con los números reales, o discretas cuando establecen relación con los números
naturales.

Las escalas de medidas pueden ser nominales, ordinales, discretas, continuas o
por intervalos. Por ejemplo, nominal: negro o blanco; ordinal: corto, mediano, largo;
continua: gramos; por intervalos: menor que 10 años, mayor o igual que diez años.

II.2.- Representación de la información

Los datos u observaciones se representan de diversos modos, que en general se
pueden resumir en dos: i) gráficos, e ii) tablas. Entre éstos, son de interés las tablas de
distribución de frecuencias y los histogramas y polígonos de frecuencia

Tablas de distribución de frecuencias.

Las tablas de distribución de frecuencias de n datos u observaciones corresponden
básicamente a la representación en columnas del conjunto de valores de una variable
(niveles de una variable: y
i
) y sus frecuencias absolutas (n
i
).

En el caso de variables cualitativas adquiere una representación muy simple:

Variable Frecuencia absoluta (n
i
) %
Y
1
n
1
(n
1
/n)·100
Y
2
n
2
(n
2
/n)·100
....... ....... .........
Y
k
n
k
(n
k
/n)·100

n =∑n
i
100
13


En el caso de las variables discretas, si consideramos una variable X, donde X
i

son las observaciones e y
i
los k niveles de la variable. Entonces podemos definir:

i) frecuencia relativa n n h
i i
/ =

ii) frecuencia acumulada

=
=
=
j i
i
i j
n N
1


iii) frecuencia acumulada relativa

=
=
=
j i
i
i j
h H
1


En este caso la tabla incluye las columnas: y
i
, n
i
, h
i
, N
i
, y H
i
.

En el caso de las variables continuas muchas veces es necesario agrupar datos
(series agrupadas) por intervalos llamados intervalos de clase. Estos se anotan como
[y’
i-1
, y’
i
], donde y’
i-1
representa el límite inferior del intervalo e y’
i
, el límite superior.
La amplitud de cada intervalo es c
i
= y’
i
- y’
i-1
.

Si definimos recorrido o rango de la variable X como la diferencia entre los
valores máximo y mínimo, R = xmax –xmin, y se agrupa en k intervalos iguales,
entonces c
i
= R/k.

En estas tablas de distribución de frecuencias se define marca de clase como el
valor promedio entre los límites del intervalo: y
i
= (y’
i
- y’
i-1
)/2.

La tabla incluye las columnas: y’
i-1
, y’
i
, c
i
, y
i
, n
i
, h
i
, N
i
, y H
i

Histograma y polígono de frecuencias

La tabla de distribución de frecuencias tiene una expresión gráfica natural en el
histograma y el polígono de frecuencias. El histograma de frecuencias corresponde a un
gráfico de barra de X vs h
i
, donde cada barra es un intervalo. El polígono de frecuencias
corresponde a la gráfica de y
i
vs h
i
.

Ejemplo 1.-

La variable X con la siguiente tabla de distribución de frecuencias:


14




y’
i-1
Y’
i
y
i
c
i
n
i
h
i
N
i
h
i

2 4 3 2 20 0.2 20 0.2
4 6 5 2 25 0.25 45 0.45
6 8 7 2 30 0.3 75 0.75
8 10 9 2 10 0.1 85 0.85
10 12 11 2 12 0.12 97 0.97
12 14 13 2 3 0.03 100 1.00






En esta figura, el histograma corresponde al gráfico de barras y el polígono a la
línea poligonal que une los puntos medios de cada barra.

II.3.- Medidas de resumen

La información se puede representar en gráficos o tablas, sin embargo éstas no
son útiles a la hora de tomar decisiones estadísticas. Es mejor caracterizar las variables
por ciertas medidas que describen su distribución o histograma. Estas se denominan
medidas de resumen y se pueden dividir en cuatro:

15
a) medidas de posición: cuyo fin es representar la posición
central de la distribución u otras posiciones de interés.

b) medidas de dispersión: cuyo fin es representar la
dispersión de los datos en torno a alguna medida de
posición.

c) medidas de simetría o sesgo: cuyo fin es representar el
tipo de asimetría de la distribución.

d) medidas de apuntamiento o curtosis: cuyo fin es medir la
elevación de las frecuencias relativas.


Medidas de posición

La medida de posición más usada es el promedio, que podemos definir
preliminarmente como una medida central que se relaciona el valor de una variable con
su frecuencia relativa de presentación. Corresponde a la media aritmética y se puede
expresar como:

n
x
x
i

=

Si la serie ha sido agrupada, entonces


= =
i i
i i
y h
n
y n
y

Algunas propiedades den promedio son:

i) La suma de las desviaciones de los valores en torno al promedio es nula.
Si definimos z
i
= x
i
-x, entonces ∑z
i
= 0.
ii) Dado z’
i
= x
i
–u, con u un valor cualquiera, entonces ∑z’
i
es mínima si
u = x.

El promedio entonces es una medida central en donde se “equilibra” la
distribución completa, es decir es su centro de masas.

Una segunda medida de posición es la mediana que corresponde a un valor bajo
el cual se encuentra el 50% de las observaciones. Es decir si ordenamos en orden
ascendente la serie de n observaciones, la mediana corresponde al valor Me = x
(n+1)/2
si n
es impar y al valor Me = (x
n/2
+x
n/2 +1
)/2 si n es par.
16



Si la serie se encuentra agrupada la mediana se calcula como:

L
L L
L
n
N n c
y Me
) 2 / (
'
1
1



+ =

Donde L es el subíndice del intervalo que contiene a la mediana, y éste intervalo
es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones
(cuya N
j
sobrepasa a n/2).

Una medida de posición asociada a la mediana es el percentil “Pp” que
corresponde al valor bajo el cual se encuentra el “p%” de las observaciones. En una
serie agrupada, se puede calcular como:

L
L L
L p
n
N np c
y P
) 100 / (
'
1
1



+ =

Es fácil ver que P
50
es la mediana. A los percentiles P
25
, P
50
y P
75
se les denomina
primer, segundo y tercer cuartíl (Q
1
, Q
2
y Q
3
). Del mismo modo se pueden definir los
deciles, por ejemplo P
10
es el primer decíl.


La tercera medida de interés es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una fórmula que en cierta manera hace perder sentido
a la definición.

1 1
1
1
'
− +
+

+
+ =
L L
L
L L
n n
n
c y Md

Observaciones

i) Si la distribución de frecuencias es simétrica, entonces Md Me X = = .
ii) Si la distribución de frecuencias es asimétrica, se puede reconocer una
asimetría negativa en que Md Me X < < , y una asimetría positiva en que
Md Me X > > .


17
Medidas de dispersión

Las medidas de dispersión son aquellas que evalúan la variabilidad de las
observaciones. La más importante es la varianza (V(x) o S
2
) que podemos definir como
la desviación cuadrática media de los valores en torno al promedio, es decir:

S
2
= ∑ (x
i
-x)
2
/n


Observamos que ∑ (x
i
-x)
2
= ∑ (x
i
2
+x
2
–2x
i
x) = ∑ x
i
2
+∑x
2
–∑2x
i
x) =

= ∑ x
i
2
+nx
2
–2nx
2
= ∑ x
i
2
-nx
2
, y entonces:


− =
2
2
2
x
n
x
s
i


En una serie agrupada
∑ ∑
− = − =
2 2 2
2
2
y y h y
n
y n
s
i i
i i


Algunas propiedades de la varianza son: Si a y b son constantes, entonces:

V(a) = 0; V(ax) = a
2
V(x); V(a+x) = V(x) y V(ax+b) = a
2
V(x).

Un problema de la varianza como medida de dispersión es que se expresa en
unidades cuadráticas. Por ejemplo, si la variable se mide en metros, su varianza se mide
en metros cuadrados.

Una medida de dispersión aún más usada que la varianza y que corrige el
problema de las unidades, es la desviación estándar (s) que corresponde a la raíz
cuadrada de la varianza:

2
s s =

Por su estructura, la desviación estándar corresponde aproximadamente a una
distancia: la distancia media desde las observaciones individuales al promedio.

Las desviaciones estándar dependen del valor del promedio, siendo más grandes
cuanto mas grande es este último, lo que hace difícil su comparación. El coeficiente de
variación (CV) corrige este problema y corresponde a una desviación estándar
“normalizada” dividida por el promedio:
18

x s CV / =

Otra medida de dispersión es el error estándar (Es): n s Es / =

Sin embargo, esta tiene un sentido diferente. Corresponde a la desviación
estándar del promedio, es decir si de un conjunto de observaciones tomamos varias
sub-muestras y en cada una de ellas calculamos un promedio y a continuación
calculamos la desviación estándar de éstos promedios, obtenemos Es. Esta medida
adquiere sentido en inferencia estadística.

Otras medidas de dispersión son el rango (R) R = xmáx- xmín y el recorrido
intercuartílico (Q): Q = P
75
-P
25
= Q
3
-Q
1
.


Medidas de simetría o sesgo

Las medidas de simetría se basan en las relaciones entre la moda, mediana y
promedio en las distribuciones simétricas y asimétricas. Existe una relación empírica
que relaciona éstas medidas: ) ( 3 Me x Md x − = − . A partir de ésta se usan los
coeficientes de asimetría de Pearson:

s
Md x −
=
3
γ y
s
Me x ) ( 3
5

= γ

Si cualquiera de los γ > 0 se habla de sesgo positivo, o distribución sesgada a la
derecha. Si el cambio γ < 0 el sesgo es negativo o la distribución es sesgada a la
izquierda.

Medidas de apuntamiento o curtosis

El apuntamiento o curtosis se mide en referencia a una distribución muy habitual
denominada distribución normal (ver más adelante). Esta distribución se puede
caracterizar a través de un coeficiente β =µ
4
/S
4
= [∑ (x
i
-x)
4
/n]/S
4
. En esta distribución
β = 3. Esto permite clasificar las distribuciones como:

i) Leptocúrticas o más apuntadas que la normal, si β > 3,
ii) Mesocúrticas o igualmente apuntadas, si β = 3, y
iii) Platicúrticas o menos apuntadas que la normal, si β < 3.

19
Ejemplo 2.-

Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posición:

a) Promedio: 56 . 6 13 03 . 0 11 12 . 0 9 1 . 0 7 3 . 0 5 25 . 0 3 2 . 0 = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ = y
b) Intervalo de moda: (6; 8)
c) Mediana: el intervalo que contiene la mediana es aquél que por primera vez
sobrepasa la mitad de la cantidad total de observaciones, es decir 50. En este
caso es el intervalo (6; 8). Entonces y’
L-1
= 6. y la mediana es:
Me = 6 + 2((50-45)/30) = 6.33.
d) Primer cuartíl: el intervalo que contiene Q
1
es aquél que por primera vez
sobrepasa el 25% de la cantidad total de observaciones, es decir 25. En este
caso es el intervalo (4; 6). Entonces y’
L-1
= 4. y Q
1
es:
Q
1
= 4 + 2((25-20)/25) = 4.4.
e) Tercer cuartíl: en forma análoga al cálculo anterior:
Q
3
= 8 + 2((75-75)/10) = 8.

También podemos calcular las siguientes medidas de dispersión:

a) Varianza: en este caso lo más simple es calcular primero ∑h
i
y
i
2
:

44 . 50 169 03 . 0 121 12 . 0 81 1 . 0 49 3 . 0 25 25 . 0 9 2 . 0
2
= ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ =

i i
y h

Y, ahora se puede calcular fácilmente la varianza:



= − = − = 41 . 7 ) 56 . 6 ( 44 . 50
2 2 2 2
y y h s
i i


b) Rango: 14-2= 12.
c) Desviación estándar: s = √(s
2
) = 2.74
d) Coeficiente de variación: CV = 2.74/6.56 = 0.41
e) Error estándar: Es = 2.74/√(100) = 0.27.
f) Recorrido intercuartílico: Q
3
-Q
1
= 8-4.4 = 3.6.

Además en ocasiones es útil cuantificar la simetría, en éste caso a través de:
γ
5
= 3(6.56-6.33)/2.74 = 0.25. Esto indica un pequeño sesgo o asimetría a la derecha.
20


Ejercicios de Estadística descriptiva

1.a. Pesos de nacimiento de niños (en kg)

Rango Marca de
clase (y
i
)
Frecuenci
a (n
i
)
Frec.
acumulada
(N
i
)
Frec.
relativa
(h
i
)
Frec.
relativa
acumulada
(H
i
)
0 – 2 2
2 – 4 6
4 – 6 18
6 – 8 12
8 – 10 7
10 – 12 3

1.b. Datos de mg de glicina por mg de creatinina en la orina de 20 chimpancés
(tomadas de Gartler, Firchein y Dobzhansky, 1956)

0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300
0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300

Para los dos conjuntos de datos presentados arriba:
i) Calcular: promedio, mediana, moda, percentil 30, desviación estándar y
coeficiente de variación.
ii) ¿Son simétricas las distribuciones? Compruébelo haciendo histogramas de
frecuencia.
iii) Realice histogramas de frecuencia acumulada para cada grupo de datos.

R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P
30
: 4.71; desviación estándar: 2.39;
CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P
30
: 0.0475; desviación
estándar: 0.120; CV: 0.979.
21

2. Se ha realizado el estudio de dos medicamentos utilizando ratas. Se midió el
porcentaje cambio de una variable X en la sangre arterial tras la administración de
dosis idénticas de distintos medicamentos.

% de cambio en X

Compuesto I Compuesto
II

26.0 31.7 55.1 65.8 63.6
30.0 32.0 56.3 58.3 64.0
30.5 28.6 60.0 57.1 65.3
26.2 29.2 63.5 55.4 62.8
30.7 33.0 64.9 56.5 59.5
31.3 32.0 62.7 55.1
30.5 32.6 60.5 57.0
30.1 28.2 59.2 59.3
29.6 29.1 63.7 60.7
30.2 30.7 64.1 62.1

i) Calcular la media y la mediana muestral.
ii) Calcular la varianza y la desviación estándar de la muestra.
iii) Calcular rango y el rango intercuartílico.
iv) ¿Cuál compuesto produjo una respuesta más variable?

R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variación)
22
II UNIDAD: ESTADISTICA MATEMATICA
23

III.- PROBABILIDADES

III.1.- Experimento Aleatorio, Espacio Muestral

Definiciones Llamaremos experimento determinístico, a aquel que repetido en
las mismas condiciones, da siempre el mismo resultado, en caso contrario lo llamaremos
aleatorio.

Llamaremos espacio muestral (Ω) al conjunto de todos los posibles resultados de
un experimento aleatorio. Un punto muestral será un resultado posible, es decir, un
elemento de omega.

Llamaremos sigma-álgebra en omega a un conjunto σ-Ω formado por
subconjuntos de Ω que cumple con:

i) Si P (subconjunto de Ω) ∈ σ Ω, entonces P ∈ σ-Ω.
ii) Si P y Q ∈ σ-Ω entonces P ∪ Q ∈ σ-Ω.
iii) Si P y Q ∈ σ-Ω entonces P ∩ Q ∈ σ- Ω.

Es decir, σ-Ω es cerrada bajo complementación, unión e intersección. Una σ-Ω
es el conjunto de todos los subconjuntos de Ω (π (Ω)).

Llamaremos suceso o evento a los elementos de σ-Ω, o de otra forma, a cualquier
subconjunto de Ω. En este sentido σ-Ω es el conjunto de los sucesos.

Ejemplo1.-

Sea el experimento aleatorio “tiro un dado” Su espacio muestral es Ω= {1, 2, 3,
4, 5, 6} Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6)
= que salga 1 o 2 o 3 o 4 o 5 o 6.

Del ejemplo anterior es evidente que hay sucesos más “posibles” o “probables”
que otros. Es necesario definir entonces probabilidad de un suceso.

Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.

Definición clásica: Llamaremos probabilidad des suceso A al cuociente entre el
número de resultados o casos “favorables” a A y el número de resultados o casos
“posibles”.
24

les casosposib
ables casosfavor
A P = ) (

Así, en nuestro ejemplo, la probabilidad de sacar un dos en una tirada de un dado
(A = 2) es P(A) = 1/6, la probabilidad de sacar un uno o un tres (B = (1,3)) es P(B) = 2/6
y la probabilidad de sacar cualquier número (C = (1, 2, 3, 4, 5, 6)) es P(C) = 6/6 = 1.

Definición de Frechet: Si un experimento aleatorio se realiza n veces, es posible
estimar la probabilidad del suceso A como la frecuente relativa de ocurrencia de A, es
decir, el cuociente entre el número de veces en que dio como resultado A (nA) y el
número de veces en que se repitió el experimento.

n
nA
A P = ) (

Se debe hacer notar que al contrario de la definición clásica, esta es una
definición a posteriori, es decir, exige que el experimento se haya realizado repetidas
veces, antes de estimar la probabilidad de un suceso. En nuestro ejemplo, habría que
haber tirado el dado en varias oportunidades para luego calcular las probabilidades.

La crítica más importante a la definición de Frechet, es que no responde a la
pregunta ¿cuantas veces hay que repetir el experimento? La respuesta es: un número
suficientemente grande de veces; y es esto lo que quiso corregir Von Mises.

Definición de Von Mises: La probabilidad del suceso A corresponde a la
frecuencia relativa de ocurrencia de A, es decir, el cuociente entre el número de veces
en que dio como resultado A (nA) y un número suficientemente grande de veces en que
se repitió el experimento: El límite al que tiende la frecuencia relativa, cuando n tiende
a infinito.

) / ( lim ) ( n nA A P
n ∞ →
=

Un problema básico con esta definición, es que no es posible repetir un
experimento infinitas veces.

Definición axiomática (Kolmogorov): Una probabilidad es una función:

P: σ-Ω -----------------------> {0,1}
A ----------------------------> P(A), tal que:
25

i) P (Ω) = 1
ii) P (A) > 0 ∀ A ∈ σ-Ω
iii) si A ∩ B = ∅, entonces P (A ∪ B) = P(A) +P(B) (teorema de la o)

Definición Al triplete (Ω,σ-Ω, P) se le denomina Espacio de probabilidades.


III.2.- Probabilidades y Conjuntos

Es posible establecer analogías entre los conjuntos y las probabilidades:

Conjunto universo: Ω.
Conjunto vacío (∅): suceso imposible.
Elemento de σ-Ω: suceso.
A ∪ B: sucede A o sucede B o ambos.
A ∩ B: sucede A y sucede B.
A
C
: no sucede A.

Definición Dos sucesos A y B serán mutuamente excluyentes si la ocurrencia
de A ⇒ que no ocurre B. Así, si A ∩ B = ∅ entonces A y B son mutuamente
excluyentes.

Definición Dos sucesos A y B son complementarios si la no ocurrencia de A ⇒
la ocurrencia de B y a la inversa. Es decir A
C
= B. Notemos que A ∩ B = Ω, es decir,
constituyen una partición de omega. Observemos también que los sucesos
complementarios son mutuamente excluyentes, pero no todos los sucesos excluyentes
son complementarios.

Una definición de probabilidad de un suceso, asociada a la noción conjuntista, es
P(A) = m(A) / m(Ω), en que m(A) y m(Ω) representan alguna “medida” del suceso y del
espacio muestral respectivamente. Un ejemplo de esta “medida” es el cardinal de A y
de omega (P(A) / #(A) / #(Ω))








26

III.3.- Propiedades de las Probabilidades

I) P (∅) = 0

Demostración Sea A = Ω y B = ∅, como A ∩ B = ∅, entonces usando las propiedades
1 y 3 de la definición axiomática, P (A ∪ B) = P(Ω ) = 1 = P(A) + P(B) = 1 + P(B),
entonces P(B) = P( ∅) = 0.

Ejemplo 2.-

La probabilidad que salga 0 al tirar un dado es P(0) = P(Φ) = 0.

II) Aditividad finita: Si A
i
∩ B
i
= ∅, para cualquier i, j, entonces P (∪ A
i
) = Σ P (A
i
)

Demostración por extensión directa de la propiedad 3.

Ejemplo 3.-

Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6)
= 1/6 +1/6 = 2/6, pues los sucesos “sale 5” y “sale 6” son excluyentes.

IV) Probabilidad del Complemento: P (A
C
) = 1 – P(A)

Demostración P(Ω) = 1 = P(A
C
∪ A) = P(A
C
) + P(A).

Ejemplo 4.-

Si la probabilidad de que un individuo lea el diario es p = 0.2, entonces la
probabilidad que no lo lea es q = 1-p = 1-0.2 = 0.8.

IV) Monotonía: Si A ⊂ B, entonces P(A) < P(B)

Demostración Si A ⊂ B, #A ≤ #B, entonces P(A) < P(B)

Ejemplo 5.-

La probabilidad de encontrar un gato negro es menor que la de encontrar un gato,
pues los gatos negros son un sub-conjuto del conjunto de los gatos.

27
V) Probabilidad Compuesta: P(A ∪ B) = P(A) + P(B) – P(A ∩ B)

Demostración P(A ∪ B) = #(A ∪ B)/#(Ω) =[#(A) + #(B) - #(A ∩ B)]/ #(Ω) = #(A)/
#(Ω) + #(B)/ #(Ω) - #(A ∩ B)/ #(Ω) = P(A) + P(B) – P(A ∩ B).

Es posible extender este teorema a más de 2 conjuntos, por ejemplo: P(A ∪ B ∪ C)=
P(A) + P(B) + P(C) – P(A ∩ B) –P(A ∩ C) – P(B ∩ C)+ P(A ∩ B ∩ C)

Ejemplo 6.-

Si se tienen 60 alumnos, entre los cuales 15 sólo toman un curso de matemáticas
(M); 20 sólo de física (F); 10 sólo de química (Q); 4 M y F; 5 F y Q; 6 M y Q y ninguno
M F y Q. Entonces la probabilidad que un alumno tome matemáticas o física es : P(M
∪ F) = P(M) + P(F) – P(M ∩ F) = (15+6+4)/60 +(20+4+5)/60 – 4/60 = 50/60 =5/6
(Haga un diagrama de Venn, para una mejor comprensión del problema).

VI) Probabilidad que ocurra al menos un evento:

P(∪ A
i
)= 1 –P(∩ A
i
C
), lo que se interpreta como P(alguno) = 1 – P (ninguno)

Demostración Por teorema de De Morgan (∪ A
i
)
C
= (∩ A
i
C
) entonces aplicando la
propiedad del complemento P(∪ A
i
)= 1 –P[(∪ A
i
)
C
] = 1 -P(∩ A
i
C
).

Ejemplo 7.-

Si de dos personas, la probabilidad que muera la primera (p)es 0.1 y la
probabilidad que muera la segunda (s) es 0.01, entonces la probabilidad que muera
alguna P(alguna) = 1- P(ninguna) = 1- 0.9x0.99 = 0.109.

III.4.- Independencia Estocástica y Probabilidad Condicional

Definición Dos sucesos A y B se dirán independientes si la ocurrencia de uno
no “influye” en la ocurrencia del oro.

Ejemplo 8.-

Sean los sucesos A= llueve en Santiago, B = Juan duerme y C = hacemos un
“asado”. Los sucesos A y B son probablemente independientes; no así los sucesos A y
C.

28
Probabilidad condicional Definiremos probabilidad del suceso A, dado que ocurrió el
suceso B (condición) al cuociente:

) (
) (
) / (
B P
B A P
B A P

=


Podemos ahora hacer una definición más formal de sucesos independientes: A y
B son independientes si P(A/B) = P(A). Entonces, despejando P(A ∩ B) en la
definición anterior, se sigue inmediatamente el siguiente teorema:


Teorema de la probabilidad conjunta Si A y B son independientes, entonces P(A ∩
B) = P(A) P(B) (teorema de la y)

Definición El conjunto {B
i
} constituirá una partición de Ω si i) B
i
∩ B
j
= ∅ ∀ i,
j y ii) ∪ B
i
= Ω.

Teorema de la probabilidad total Dado un suceso A y una partición de Ω {B
i
},
entonces:


⋅ =
i
i i
B P B A P A P ) ( ) / ( ) (

Demostración: A = (A ∩ B
1
) ∪ (A ∩ B
2
) ∪... (A ∩B
n
) Como (A ∩ B
i
) ∩ (A∩B
j
) =
∅,∀ i, j, por el “teorema de la o”

P(A) = P(A ∩ B
1
) + P(A ∩ B
2
) + ... P(A ∩ B
n
) = Σ P(A ∩ B
i
) y por la definición de
probabilidad condicional,

P (A) = Σ [P(A/B
i
) · P(B
i
)]

Teorema de Bayes Dado un suceso A y una partición {B
i
} entonces,




=
j j j
i i
i
B P B A P
B P B A P
A B P
) ( ) / (
) ( ) / (
) / (

Demostración Por definición P(B
i
/A) = P(B
i
∩ A)/P(A) y por lo tanto,

P(B
i
/A) = P(A/B
i
) · P(B
i
)/P(A) y aplicando el teorema de la probabilidad total,
29

P(B
i
/A) = P(A/B
i
) · P(B
i
) / Σ [P(A/B
j
)·P(B
j
)]

Ejemplos 9-13.-

9.- Se lanza una moneda tres veces. a) ¿Cuál es su espacio muestral? b) ¿Cuál es la
probabilidad de obtener exactamente 2 caras? c) ¿cual es la probabilidad de obtener al
menos 2 caras d) ¿cual es la probabilidad de que los tres lanzamientos sean iguales?

R: a) Ω = {ccc, ccs, csc, css, scc, scs, ssc, sss}
b) Los únicos resultados en que salen exactamente dos caras son: {2c} = (ccs,
csc, scc) es decir hay 3 casos favorables, o, de otra manera, la medida o
cardinal de este suceso es 3.- Los casos posibles (o el cardinal del espacio
muestral) son 8, entonces, P(2c)/m(omega) = casos favorables/casos posibles
= 3/8.
c) P(2c o 3c) = P(2c U 3c) = P(2c) + P(3c) = 3/8 +1/8 = ½.
d) P(3c o3s) = P(3c U 3s) = P(3c) + P(3c) = 1/8 + 1/8 = ¼

10.- De un grupo de 200 estudiantes, 137 se inscribieron en Biología, 50 en
Matemáticas, y 124 en Zoología. El número de inscritos en Biología y Matemáticas es
33, en Matemáticas y Zoología es 29 y en Biología y Zoología es 92. Los inscritos en
las tres clases es 18. Al escoger un alumno al azar de los 200: a) ¿Cuál es la
probabilidad de que esté en Biología o Matemáticas? b) ¿Cuál es la probabilidad que no
esté en ninguna clase?

R: P(B) = 137/200; P(M) = 50/200; P(Z) = 137/200; P(B ∩ M) = 33/200; P(M ∩ Z) =
29/200; P(B ∩ Z) = 92/200; P(B ∩ M ∩ Z) = 18/200.
a) P(B ∪ M) = P (B) +P(M) –P(B ∩ M) = (137+50-33)/200 = 154/200.
b) la probabilidad de que esté en al menos una clase es P (B ∪ M ∪ Z) entonces la
probabilidad de que esté en ninguna es P(0) = 1-P(B ∪ M ∪ Z)

P(B ∪ M ∪ Z) = P(B) + P(M) + P(Z) –P(B ∩ M) –P(B ∩ Z) –P(M ∩ Z) + P(B ∩ M ∩
Z) = (137 + 50 + 124-33-29-92+18)/200 = 7/8, por lo que P(0) = 1-7/8 =1/8.

11.- Se estudian 98 perros con sospecha de hepatitis. Se les palpa el hígado
clasificándolo en: 0: no se palpa, 1: aumentado de tamaño, 2: muy aumentado de
tamaño. A los mismos perros se les hace biopsia hepática y se obtiene:
30


Lesión
hepática
Tamaño del hígado
0 1
2 Total
Cirrosis 1 4 12 17
Hematoma 8 13 14 25
Esteatosis 12 8 9 29
Sin lesión 9 15 3 27
Total 30 40 28 98

Sea C: el perro es cirrótico, y T2: el hígado tiene tamaño.
Determine a) P(C), b) P(T2), c) P(C ∩ T2) d) ¿son independientes C y T2?

R: a) P(C) = 17/98
b) P(T2) = 28/98
c) P(C ∩ T2) = P(C/T2) · P (T2) = 12/28 · 28/98= 12/98
d) P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.

12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son fértiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:

a) ¿Cuál es la probabilidad que sea fértil?
b) ¿si fue fértil, cual es la probabilidad de que sea de gallina?

R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una partición de Ω, pues G Ո P ∩ Gz = ∅
y G ∪ P ∪ Gz = Ω. Entonces por teorema de la probabilidad total:

P(F) = P(F/G · P (G) + P(F/P) · P (P) + P(F/Gz) · P (Gz) = 0.868.
b) P(G/F) por teorema de Bayes, es P(G/F) = P(F/G) · P(G)/P(F) = 0.168.

13.- Se quiere saber la bondad de la radiografía en el diagnóstico de la piometritis en
perros. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis, y se
anotan las radiografías que sugirieron tal diagnóstico. Se registraron los siguientes
resultados:
31


Radiografía (+) para pm (-) para pm Total

Animales con pm 13 7 20
Animales sin pm 8 32 40
Total 21 39 60

a) ¿Cuál es la probabilidad de que se encuentre una radiografía positiva dado que la
paciente tiene piometritis? (concepto de sensibilidad de un examen)

b) ¿Cuál es la probabilidad de que la radiografía sea negativa dado que la paciente no
tiene piometritis? (concepto de Especificidad de un examen)

c) con estos datos que concluiría acerca de este examen

R: a) Sensibilidad: P(e+/dg+) = 13/20 = 0.65

b) Especificidad: P(e-/dg-) = 32/40 = 0.80

c) No es un buen examen, pues es capaz de detectar sólo el 65% de los casos, en
pacientes con la patología. De los casos en que la radiografía sale positiva,
sólo un 80% efectivamente son piometritis.

III.5.- Probabilidades en Medicina

Probabilidades en el diagnóstico

Un concepto útil muy usado en medicina que se relaciona con probabilidad es la
chance (“odds”). Esta se puede definir como la razón entre la probabilidad de ocurrencia
de un suceso (p) y la probabilidad complementaria de que éste no ocurra (1-p):

p
p
O

=
1


Este concepto tiene un uso habitual y se relaciona bi-unívocamente con la
probabilidad p. Por ejemplo el decir que tengo una chance de O = 4/1 de ganar un
partido es equivalente a decir que la mi probabilidad de ganar es p = 4/(4+1) = 0.8.

32
En medicina es habitual el uso de exámenes para el diagnóstico de enfermedades.
Sin embargo los exámenes no son 100% certeros para hacer el diagnóstico. A veces un
individuo posee una enfermedad y el examen sale negativo (falso negativo) y otras
veces sale positivo para la enfermedad y el paciente no la tiene (falso positivo). Es
posible representar esto en la siguiente tabla:

EXAMEN
+ - Total
ENFERMO A B a +b
NO ENFERMO C D c+d
Total a+c b+d n = a+b+c+d

En este caso, los falsos positivos serían c y los falsos negativos serían b.

A partir de esta tabla se pueden definir ciertos conceptos:

La Sensibilidad de un examen corresponde a la probabilidad que el examen salga
positivo dado que el paciente está enfermo:

b a
a
E P S
+
= + = ) / (

Representa la capacidad del examen de detectar la enfermedad. La Especificidad
del examen corresponde a la probabilidad de que el examen salga negativo dado que el
paciente no tiene dicha enfermedad (aunque tenga otra):

d c
d
noE P Sp
+
= − = ) / (

Es decir, mide la capacidad del examen de responder a esa y sólo a esa
enfermedad.

El Valor predictivo positivo corresponde a la probabilidad de que el paciente
esté enfermo dado que el examen salió positivo, es decir mide la capacidad de
predicción de la enfermedad:

c a
a
E P VPP
+
= + = ) / (

33
El Valor predictivo negativo corresponde a la probabilidad de que el paciente no
esté enfermo dado que el examen salió negativo, es decir mide la capacidad de descarte
de la enfermedad.

d b
d
noE P VPN
+
= − = ) / (

La certeza diagnóstica corresponde a la probabilidad general de acertar P(C) =
(a+d)/n.

n
d a
C P
+
= ) (

Otra medida interesante es la razón o coeficiente de verosimilitud que se define
como la razón entre la probabilidad de un cierto resultado en el examen dado que el
paciente está enfermo, dividido por la probabilidad de ese mismo resultado, dado que no
lo está. Por ejemplo, para un resultado positivo:

Sp
S
noE P E P noE P E P LR

= − − + = + + =
1
)) / ( 1 /( ) / ( ) / ( / ) / (

Para un resultado negativo es fácil ver que:

Sp S LR / ) 1 ( − =

En cierta medida LR mide la potencia de un examen: cuanto más positivo es en
presencia que en ausencia de enfermedad.

Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una
probabilidad “P” de tener una enfermedad, cuando se hace el examen y este sale
positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el
teorema de Bayes:

P(E/+) = P(+/E)P(E)/(P(+/E)P(E) + P(+/noE)P(noE) = S·P/(S·P + (1-Sp)·(1-P)).

La probabilidad de que no tenga la enfermedad es P(noE/+) = 1 – [SP/(SP+(1-
Sp)(1-P)] = (1-Sp)(1-P)/ /(SP+(1-Sp)(1-P)). Entonces su chance a posteriori es Op =
P(E/+)/P(noE/+) = SP/(1-Sp)(1-P), es decir la chance a posteriori es:

Oo LR Op ⋅ =
34

entonces el coeficiente de verosimilitud actúa como un factor potenciador de la
chance. Este mismo resultado es válido para un resultado negativo.

Ejemplo 14.- Supongamos que para una enfermedad X, se está ensayando un
examen A y que en un estudio poblacional representativo se obtuvo:

EXAMEN A
+ - Total
ENFERMO de X 85 20 105
NO ENFERMO
de X
10 200 210
Total 95 220 315

Entonces, la prevalencia de la enfermedad se estima en: p = 105/315 = 0.33 y la
chance de un enfermo de tener dicha enfermedad antes de hacerse el examen es: O
0
=
0.33/(1-0.33) = 0.5, es decir 1es a 2. La sensibilidad del examen es S = 85/105 = 0.81; la
especificidad es Sp = 200/210 = 0.952; el valor predictivo positivo es VPP = 85/95 =
0.894; el valor predictivo negativo es VPN = 200/220 = 0.909; la probabilidad de
certeza es C = 285/315 = 0.904 y el LR(+) = 0.81/(1-0.952) = 16.875. Así, si a un
paciente le sale el resultado positivo, entonces ahora su chance de tener la enfermedad
es: Op = 0.5x16.875 = 8.44, es decir alrededor de 8 a 1.
Probabilidades en el tratamiento

Cuando se ensaya un tratamiento en general se dispone de dos grupos, uno que no
recibe el tratamiento (grupo control) y otro que lo recibe (grupo experimental) y se
mide un cierto efecto o evento, en general negativo (i.e. muerte).

Esto se representa en una tabla del tipo:

Control Experimental Total
Evento A B A+b
No evento C D C+d
Total A+c B+d N=a+b+c+d

Se define como tasa de evento en el control:

c a
a
control evento P CER
+
= = ) / ( y tasa de evento en el grupo experimental:

35
d b
b
ex evento P EER
+
= = ) / (

Estas tasas miden los riesgos absolutos de presentar cierto evento en situación
control y en situación experimental. De aquí surgen varias medidas útiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicará si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminución en éste:

CER EER RR / =

Otra medida importante es la reducción en el riesgo absoluto producida por el
tratamiento experimental: reducción de absoluta del riesgo:

EER CER ARR − =

Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrán beneficiados
con el tratamiento, o de otra manera habría que tratar 100 para beneficiar a uno. En otras
palabras el número necesario para beneficiar a uno es:

ARR NNT / 1 =

Otra medida de menor interés es la reducción relativa del riesgo:

CER EER CER RRR / ) ( − =

Esta representa la baja porcentual en el riesgo producida por el tratamiento.

Ejemplo 15.- Se está ensayando un nuevo tratamiento “Y” para una enfermedad
de alta mortalidad y se obtiene:

Tratamiento
antiguo (control)
Tratamiento Y Total
Fallecidos 20 5 25
Vivos 90 100 190
Total 110 105 215

Se puede observar que la tasa de mortalidad control es CER = 20/110 = 0.182,
mientras que la tasa experimental es EER = 5/105 = 0.048. Así la reducción absoluta del
riesgo con el nuevo tratamiento es ARR = 0.18-0.048 = 0.134 y entonces al tratar NNT
= 1/0.134 = 7.44, aproximadamente 8 pacientes se obtendrá al menos un beneficiado. La
reducción relativa del riesgo es RRR = 0.134/0.182 = 0.736, es decir un 73.6%.
36


Probabilidades en la etiología

Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar después cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cáncer bronquial); e ii) Estudio de casos y controles que consiste en
la elección de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de éstos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:

Caso (enfermo) control (no
enfermo)
Total
Expuesto A B a+b
no expuesto C D c+d
a+c b+d n=a+b+c+d

Aunque la tabla sea la misma las medidas útiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se está
expuesto EER = a/(a+b) y cuando no se está expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:

CER EER ARA − =

El riesgo relativo:

CER EER RR / =

Y el aumento relativo del riesgo:

CER CER EER RRA / ) ( − =

En este caso el número necesario de expuestos para que haya 1 enfermo es:

ARA NNH / 1 =
37

Ejemplo 16.- Supongamos que se realiza un experimento con ratones donde se
deja reproducir parejas en dos ambientes, uno con fertilizantes y otro sin fertilizantes.
Después de un tiempo largo se estudia la presencia de malformaciones congénitas en las
crías, obteniendo:

Crías con
malformaciones
Crías sin
malformaciones
Total
Expuestos a
fertilizantes
25 100 125
No expuestos 16 200 216
41 300 341


En este caso la tasa de eventos de los no expuestos es CER = 16/216 = 0.074 y, en
el caso de los sujetos experimentales es: EER = 25/125 = 0.2. Así el aumento absoluto
del riesgo es ARA = 0.2-0.074 = 0.126 y el número de individuos expuestos para que
ocurra al menos una malformación es NNH = 1/0.126 = 7.93 individuos. El aumento
relativo del riesgo es RRA = 0.126/0.074 = 1.70, es decir de un 170%, al estar expuestos
a fertilizantes. El riesgo relativo es RR = 0.2/0.074 = 2.70, es decir, al estar expuestos el
riesgo es 2.7 veces el riesgo que se tiene al no estar expuesto.

En el estudio de casos y controles no tiene sentido el cálculo de riesgos
directamente de la tabla porque los totales marginales de la derecha no son los expuestos
o no expuestos sino las sumas de los individuos que tienen antecedentes de exposición.
Entonces una buena medida del riesgo y que se interpreta de la misma manera es la
razón de disparidades de la chance (Odds ratio (OR)). Esta corresponde a la razón entre
la chance de tener el factor de exposición cuando se es un caso Oc = [a/(a+c)]/[c/(a+c)]
= a/c y la chance de tener el factor de exposición cuando se es un control Oo = b/d. De
esta manera la razón de disparidades es:

bc
ad
d b
c a
OR = =
/
/


En este caso también es posible estimar un número necesario de expuestos para
tener un caso a través de: NNH = [PEER(OR-1) +1]/[PEER(OR-1)(1-PEER)], donde
PEER es alguna estimación de EER.

Ejemplo 17.- Se piensa que el cigarrillo tiene relación con el cáncer de Vejiga,
entonces se realiza un estudio en pacientes con cáncer de vejiga (casos) y en sujetos
38
normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el
antecedente de consumo de cigarrillos, obteniendo:


Pacientes con
Cáncer de Vejiga
Controles
normales
Total
Fumadores 56 26 82
No fumadores 120 200 320
176 226 402

En este caso la chance de fumar en pacientes con cáncer de vejiga es: 56:120,
mientras que cuando no se tiene este cáncer es de 26:200. Así la razón de disparidades
es OR = 56x200/(26x120) = 3.59. Así si por ejemplo la prevalencia de cáncer de vejiga
en fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(1-
0.03)] = 14.3.


39


Ejercicios de Probabilidades

1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral Ω es:
Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o más caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(A∩B).
R: 3/8; 1/4; 1/8.

2. Calcúlese la probabilidad de obtener un 1 o un 5 al tirar un dado. Compruébelo
lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa)
con distintos N muestrales (5, 10, 20, 30). Haga lo mismo para obtener la
probabilidad de que salga un número par.
R: 2/6.

3. Una urna contiene 4 bolas blancas, 2 rojas y 2 verdes. Cuál es la probabilidad de
sacar:
i) una bola roja de una bola sacada de la urna.
ii) una bola verde de una bola sacada de la urna.
iii) una bola blanca y una bola roja.
R: 1/4; 1/4; 2/7.

4. En un juego, un combate simulado es resuelto tirando dados. Para determinar si el
ataque de un jugador es exitoso si le salen un * o un ° al lanzar un dado de 20 caras.
Si el ataque resulta exitoso, se lanza un dado de 8 caras para determinar el daño
causado por el ataque. Supongamos que se necesita un valor mayor o igual a 17 para
atacar exitosamente al oponente.
i) Sea A el evento “ataque exitoso”, cuál es P(A).
ii) Sea B el evento “causar 5 o más puntos de daño”, cuál es P(B).
iii) Si necesitas 6 o más puntos de daño para matar a tu oponente, cuál es la
probabilidad de matar a tu oponente en un ataque.
R: 1/10; 1/20; 3/160.

5. Una ruleta de casino tiene 37 números, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los números son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i) obtener un 18 en un solo tiro de ruleta.
ii) obtener un número rojo en un solo tiro.
iii) obtener un 5 o un número negro en un solo tiro.
iv) obtener un número rojo en el primer tiro y el cero en el segundo tiro.
40
R: 1/37; 18/37; 18/37; 18/1369.

6. En una encuesta realizada a 100 estudiantes de Ciencias, se obtuvo que 30 estaban
tomando el curso de bioestadística, 20 estaban tomando química orgánica y 10
estaban los dos cursos. Si un estudiante es seleccionado al azar, ¿cuál es la
probabilidad de que esté tomando bioestadística o química orgánica?
R: 0.4.

7. En una competencia de tiro de dardos se tiene un blanco circular de 30 cm de radio.
La circunferencia menor tiene un radio de 5 cm. Si se tiran 3 dardos, y suponiendo
que todos los tiros caen dentro de la circunferencia mayor, ¿cuál es la probabilidad de
dar en el blanco (circunferencia menor) los tres tiros?.
R: 0.0000214.

8. Se tira una moneda y un dado a la vez.
i) Definir el espacio muestral Ω.
ii) Expresar explícitamente los siguientes eventos; A = {sale cara y número par}, B =
{salga un número primo}, C = {salga sello y número impar}.
iii) Expresar explícitamente el evento que: a) A o B ocurra, b) B y C ocurra y c)
sólo C ocurra. Determinar sus probabilidades.

9. En una cierta ciudad, 40% de la gente tiene pelo castaño, 25% tiene ojos pardos y un
15% tienen ambas características. Si una persona es seleccionada al azar:
i) y tiene el pelo castaño, cuál es la probabilidad de que también tenga ojos
pardos.
ii) y tiene ojos pardos, cuál es la probabilidad de que no tenga pelo castaño.
iii) cuál es la probabilidad de que no tenga ni los ojos pardos ni el pelo castaño.
R: 0.375, 0.6, 0.5.

10. Se estima que el 15% del total de la población adulta padece de hipertensión.
Además se estima que el 75% de los adultos creen no tener este problema. Se estima
también que el 6% de la población tiene hipertensión y no es consciente de tenerla. Si
un adulto opina que no tiene hipertensión, ¿cuál es la probabilidad de que la
enfermedad de hecho exista en este individuo?
R: 0.012.

11. Un estudio indica que el 10% de la población de Chile tiene 75 años o más, y que el
1% de la población total padece de deficiencia cardiaca moderada. Además el 10.4%
de la población tiene 75 años o más o padece de enfermedad cardiaca.
i) hallar la probabilidad de que un individuo tenga 75 años o más y padezca de
deficiencia cardiaca.
41
ii) si un individuo tiene 75 años o más, ¿cuál es la probabilidad de que padezca
de deficiencia cardiaca?
iii) si un individuo tiene menos de 75 años, ¿cuál es la probabilidad de que
padezca la enfermedad?
R: i) 0.006; ii) 0.0006; iii) 0.0094.

12. Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres
eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C =
{salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos
independientes entre si (analice parejas de eventos).
R: Independientes A con B; A con C; dependientes B con C.

13. En una escuela se estudia la desnutrición infantil, tratando de ver si el hecho de estar
o no desnutrido tiene que ver con el sexo del niño. De 1000 niños examinados, 100
presentan desnutrición; y de 500 niñas, 49 presentan desnutrición. ¿Afecta el sexo de
los niños al fenómeno de desnutrición?
R: Son eventos estocásticamente dependientes.

14. En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si la probabilidad de
que los huevos sean fértiles es de 70% para la gallina, 80% para el pato y 90% para el
ganso:
i) ¿cuál es la probabilidad de que sea fértil?
ii) dado que fue fértil, ¿cuál es la probabilidad de que sea de pato?
R: 0.818; 0.445.

15. En un laboratorio se ha boicoteado el experimento de un investigador. Se sabe que
los otros 4 investigadores del laboratorio (A, B, C, D) han boicoteado anteriormente
otros experimentos. Haciendo una investigación de las veces que han boicoteado
anteriormente, se estimó las probabilidades de cada investigador de haber intervenido
en los experimentos. A tiene una probabilidad de 0.02; B, de 0.09; C, de 0.01; y D, de
0.05. Dado que el laboratorio tiene acceso restringido sólo a estos 5 investigadores, y
que A, B y D trabajan sólo 1 día a la semana, y que C trabaja 2 días a la semana
(todos en días distintos), ¿quién es el boicoteador más probable?.
R: B, con probabilidad 0.474.

16. En la universidad, 4% de los hombres y el 1% de las mujeres son más altos que 1.85
m. Además, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un
estudiante es seleccionado al azar y mide más de 1.85 m, ¿cuál es la probabilidad de
que el estudiante sea mujer?
R: 0.272.

42
17. A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no
(noE) se les practicó cierto examen. En algunos de ellos el examen salió positivo (+)
y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporción de
individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la
sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnóstica, el
coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no
estarlo.

E NoE Total
731 270 1001
+ 78 1500 1578
- 809 1770 2579

R: O
0
+ = 0.45; O
0
-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87;
LR+ = 6; LR-=0.12; Op+=2.7; Op-=0.27.

18. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT), como
alternativa al tratamiento habitual (HT). Se mide la presencia de complicaciones propias
de la enfermedad (evento) en uno y otro grupo, obteniendo:

HT NT
Complicaciones (%) 9.6 2.8

Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.

19. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos,
algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). Los
resultados se resumen en la siguiente tabla:

E NoE Total
F(+) 58 22 80
F(-) 36 44 80
94 66 160

Calcule el RR de la exposición al factor, el ARA, el RRA y el NNH. Interprete sus
resultados.
R: RR = 1.61, ARA = 0.275, RRA = 0.61, NNH = 4.
43

20. Se estudia la relación entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:

E NoE
F(+) 58 22
F(-) 36 44
94 66

Calcule la OR y el NNH en un paciente en que esperamos que el riesgo a priori (PEER)
sea similar al de la tabla.
RR: OR = 3.22, NNH = 6.
44

IV.- VARIABLES ALEATORIAS

Definición: Llamaremos variable aleatoria (v.a) a una función definida
X: Ω ------> R, tal que para cada punto del codominio, su preimagen es un suceso.

Ejemplo 1.- Sea el experimento “se tira 2 veces una moneda” Ω = {cc, cs, sc,ss}
Podemos definir la variable aleatoria X = número de caras. Así para X = 0 su preimagen
es el suceso (ss), para X = 1 su preimagen es (cs) ∪ (sc) y para X = 2 su preimagen es
(cc).

Las variables aleatorias pueden ser discretas si sólo pueden tomar un número k ∈ N
valores distintos, en todo otro caso, son continuas.


IV.1.- Distribución de una variable aleatoria

Variables discretas

Definición Si X es una variable aleatoria discreta (vad) , llamaremos función de
cuantía a:

¦ P(X = x), si x ∈ al rango de X (Rx)
p(x) =´
¹ 0 si x ∉ Rx

Además, llamaremos función de distribución a F(x) = P(X≤ x) = ∑ p(x
i
)
x
i
≤x

Se puede observar que F(x) es la función acumulada de p(x).

Ejemplo 2.-

Si se tiran 2 monedas y se define la variable aleatoria X = número de caras,
entonces P(X = 0) = ¼, P(X = 1) = ½ y P(X= 2) = ¼. Entonces:

X p(x) F(x)
0 0.25 0.25
1 0.50 0.75
2 0.25 1.00

45
Las características fundamentales de una variable aleatoria son la esperanza y la
varianza


Definición: Llamaremos Esperanza de una v. a a la cantidad:

E[X] = Σ xi · pi

Llamaremos varianza de una v. a. a la cantidad:

V[X] = E (X –E[X])
2
= E[X
2
] –(E[X])
2


Así en nuestro ejemplo, la esperanza es E[X] = 0·0.25+1·0.50+2·0.25 = 1, y la
varianza es V[X] = 0·0.25+ 1
2
·0.5+2
2
·0.25 – 1
2
= 1.5 –1 = 0.5.

Se puede observar que la esperanza corresponde al promedio ponderado de una
variable aleatoria y tiene la misma estructura que el promedio definido para series
agrupadas en estadística descriptiva y = ∑hi·yi. Del mismo modo el histograma de
frecuencias representa la función de cuantía y el histograma acumulado, la función de
distribución. La varianza representa la variabilidad de la variable en torno a la
esperanza.

Ejemplos 3-4.-

3.- El concepto de esperanza matemática surgió de las matemáticas financieras.
Supongamos que a alguien se le ofrece el siguiente negocio: invierte $100, y con este
dinero se tiene una probabilidad de 0.2 de perderlo todo, 0.2 de quedar igual, 0.4 de
duplicar la inversión y 0.2 de triplicar la inversión. ¿Convendría aceptar el negocio?

Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X =
200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 =
160.

Como la esperanza del retorno (160) es mayor que la inversión (100), el negocio parece
conveniente.







46
4.- Un alumno ha dado 100 pruebas de matemáticas con los siguientes resultados:

Nota nº de veces que la ha
obtenido
1 1
2 4
3 10
4 40
5 30
6 12
7 3

Se enfrenta a una nueva prueba de matemáticas ¿qué nota esperamos que saque
(esperanza)? ¿Cuál es la varianza?

Sea la v. a. X = nota. Entonces P (X = 1) = 0.01, P(X = 2) = 0.04, P(X=3) = 0.1, P(X=4)
= 0.4, P(X=5) = 0.3, P(X=6) = 0.12 y P(X = 7) = 0.03. E[X] = 0.01·1 + 0.04·2 + 0.1·3 +
0.4·4 + 0.3·5 + 0.12·6 + 0.03·7 = 4.42 (Observación: La esperanza corresponde al
promedio)

E[X
2
] = 0.04·1
2
+ 0.04·2
2
+0.1·.
2
+0.4·4
2
+ 0.3·5
2
+ 0.12·6
2
+0.03·7
2
= 20.76; (E[X])
2
=
(4.42)
2
= 19.54, y entonces, V[X] = 20.76 –19.54 = 1.22 (Observación: La varianza
corresponde a una medida de la dispersión de los valores en torno al promedio)

Algunas propiedades de la esperanza

i) E[constante] = constante, V[constante] = 0
ii) E[a + X] = a + E[X], V[a+X] = V[X]
iii) E[aX] = aE[X], V[aX] = a
2
V[X]
iv) E[(X-E[X])] = 0 (demuéstrelo)
v) E[X+Y] = E[X]+E[Y]
vi) Si X e Y son independientes E[XY] = E[X]E[Y]

Observación: Si examinamos E[(X-E[X])(Y-E[Y])], vemos que es equivalente a
E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] - E[X]E[Y] - E[X]E[Y] =
= E[XY] - E[X]E[Y]. Si X e Y son independientes, entonces esta cantidad es 0, pero
si son dependientes, entonces es distinta de 0. A esta cantidad se le conoce como
Covarianza entre X e Y y representa la variabilidad conjunta de ambas variables
aleatorias:

COV[X,Y] = E[XY]-E[X]E[Y].

47

Ejercicios Propuestos

1.- Se dividió el país en 5 regiones y se analizaron las deposiciones de ganado vacuno
obteniéndose la siguiente información

Región Total de vacas
en la región
Deposiciones
con parásitos
Deposiciones sin
parásitos
A1 10000 1240 1867
A2 200000 981 2008
A3 60000 2496 2608
A4 30000 864 981
A5 700000 1021 1564

a) ¿Cuál es la probabilidad de que una vaca tenga parásitos en la región A3? R: 0.489

b) ¿Cuál es la probabilidad de que una vaca tenga parásitos en el país b1) si
suponemos que es igualmente probable que venga de cualquier región? b2) si
suponemos que la probabilidad de que venga de la región Ai= nº vacas en Ai/nº total de
vacas R: 0.422 y 0.389 respectivamente.

2.- Se lanza un dado dos veces. ¿Cuál es el espacio muestral? ¿Cuál es la probabilidad
de obtener 2 números iguales? ¿Cuál es la probabilidad de sacar un 1 y un 5? ¿Cuál es
la probabilidad de sacar primero un 1 y después un 5?
R: 1/6; 2/36; 1/36.

3.- En una pieza hay 100 cachorros. Algunos de ellos “Beagle” y otros “Poodle”.
Algunos de ellos sanos y otros enfermos.

Beagle Poodle Total
Sanos 40 30 70
Enfermos 20 10 30
Total 60 40 100
Si una persona
compra un
perro al azar.
¿Cuál es la
probabilidad de
que sea
“Beagle”?

Son independientes los sucesos “el perro es sano” y “el perro es Beagle”? R: 0.6; no.

48
4.- Se va a realizar una cirugía de esófago a 2 gatos. Se sabe que en esta cirugía muere
el 1%. ¿Cual es la probabilidad de que: a) mueran los 2 gatos b) muera sólo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.

5.- Un procedimiento quirúrgico sólo se puede realizar 3 veces. Si la probabilidad de
que este procedimiento sea exitoso es 0.25. ¿Cuál es la probabilidad de salvar al
paciente?
R: 37/64.

6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. ¿Cuál es la
probabilidad de tratar un enfermo con M? R: 0.48.

7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la función de cuantía y a función de
distribución c) Encontrar E(X) y V[X] R: 7;5.83.

IV.2.- Distribución de Bernoulli

Si se tiene un experimento con un resultado dicotómico, por ejemplo éxito o
fracaso, y la probabilidad de éxito es p, entonces la probabilidad de fracaso es q = 1-p.
Este tipo de experimento se conoce como ensayo de Bernoulli. Si creamos la variable
aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un éxito, entonces
podemos ver que su función de cuantía y su función de distribución son:

X P(x) F(x)
0 1-p = q 1-p = q
1 P 1

Además E[X] = 1·p+0·q = p, y V[X] = 1
2
·p +0
2
·q –p
2
= p-p
2
=p(1-p) = pq.

Definición Diremos que la variable X definida como lo hemos hecho, asociada a
un experimento dicotómico tiene distribución de Bernoulli.

IV.3.- Distribución binomial

Si consideramos un experimento que consiste en n ensayos de Bernoulli, y
definimos la variable aleatoria discreta: X = n° de éxitos, entonces X tiene distribución
Binomial. Por ejemplo, si la probabilidad de éxito de cada ensayo es p y lo repetimos n
veces, entonces la probabilidad que en estos n ensayos haya k éxitos es:

49

k n k
p p
k
n
k X P

− ⋅
|
|
.
|

\
|
= = ) 1 ( ) (

Vemos que una vad con distribución binomial es caracterizada por 2 parámetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribución binomial consta de n
ensayos fijos e independientes, cada uno dicotómico en su resultado y con una
probabilidad constante (p) de éxito.

Como es de esperar E[X] = np, pues es la suma de n ensayos de Bernoulli.
Además V[X] = npq.

Demostración La esperanza E[X] = Σ kP(X=k) =
=
∑ ∑ ∑
=
=
− − −
=
=

=
= − −

=

⋅ = − ⋅
|
|
.
|

\
|

n k
k
k n k k n k
n k
k
k n k
n k
k
q p
k n k
n
np q p
k n k
n
k p p
k
n
k
1
1
0 0 )! ( )! 1 (
)! 1 (
)! ( !
!
) 1 (


=
=

= + =
|
|
.
|

\
|
= − = − =
m j
j
m j m j
np q p np q p
j
m
np n m y k j haciendo
0
) ( ; 1 , , 1 ,

La varianza V[X] = Σ k
2
P(X=k) – (E[X])
2
= Σ (k
2
- k + k)P(X=k) – (E[X])
2
= Σ (k(k-
1)P(X=k) + Σ kP(X=k) – (E[X])
2
, lo cual utilizando el mismo juego de sub-índices
lleva a: n(n-1)p
2
+ np – n
2
p
2
= npq.

Esta distribución es muy importante en ciencias pues es muy habitual poder
reducir un experimento a una situación dicotómica, por ejemplo cuando contamos el
número de individuos con una característica, si la tiene (éxito) o si no la tiene (fracaso).
Sin embargo esta distribución sigue siendo discreta y tiene el problema que se genera al
calcular números combinatorios con grandes valores de n.

Esta distribución tiende a ser asimétrica para bajos valores de p y n, pero es
simétrica si p y n son altos.

Ejemplo 5.-

Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10
individuos, entonces la probabilidad que en éstos 10, exactamente 3 lean el diario es:

2013 . 0 8 . 0 2 . 0
3
10
) 3 (
7 3
= ⋅
|
|
.
|

\
|
= = X P

50
Observación Si de un universo de N elementos en los cuales una proporción p de
ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n
haya k con el atributo es:


|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|


= =
n
N
k
Np
k n
Np N
k X P ) (

Esta variable tiene distribución hipergeométrica y E[X] = np y V[X] = npq(N-
n)/(N-1). Es fácil darse cuenta que si N es muy grande (tiende a ∞) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. Así si en una vad con distribución hipergeométrica,
N → ∞, su distribución se vuelve binomial (B(n,p)). Esto es también evidente al
observar que el límite cuando N → ∞ de V[X] es npq. Entonces se puede considerar a
la distribución binomial como una distribución asintótica para poblaciones infinitas.

Ejemplo 6.-

Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5, la
probabilidad que en éstas 5 haya 2 rojas es:


|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
= =
5
16
2
10
3
6
) 2 ( X P

IV.4.- Distribución de Poisson

Un hecho importante en la distribución B(n,p) es que es muy asimétrica para
valores bajos de p, a pesar de valores altos de n. Entonces es interesante estudiar que
sucede si
n→ ∞ y p → 0 manteniendo constante np = λ.
k n k
p p
k
n
k X P

− ⋅
|
|
.
|

\
|
= = ) 1 ( ) ( = n(n-1)(n-2)……(n-k+1)(λ/n)
k
(1-λ/n)
n-k
/(k!) =

= [λ
k
/k!]·[1·(1-1/n)·(1-2/n)···(1-(x-1)/n)]·(1-λ/n)
n
(1-λ/n)
-k


51
y tomando límite cuando n→ ∞ , = [λ
k
/k!]·1·1·1··e

·1 = [λ
k
/k!]·e

.

Entonces si N es grande y p pequeña (en general np < 0.1) la probabilidad de k
éxitos en n ensayos sigue a:


!
) (
k
e k X P
k
λ
λ
⋅ = =



Se dice entonces que esta variable tiene distribución de Poisson. En este caso,
E[X] = V[X] = λ.

Demostración
Para la esperanza, se tiene que

λ λ
λ
λ
λ
λ λ λ λ
= ⋅ ⋅ =

⋅ ⋅ = ⋅


=

− −

=
∑ ∑
e e
k
e
k
e k
k
k k
k 1
1
0 )! 1 ( !


Para la varianza,
∑ ∑

=


=
− −
= − + ⋅ ⋅ = − ⋅ + − = − ⋅
0
2 2 2
0
2 2
] [
!
) ) 1 ( ( ] [
! k k
k k
e e x E
k
e k k k X E
k
e k λ λ λ λ
λ λ
λ λ λ λ



Ejemplo 7.-

Si la probabilidad de que una máquina produzca un artículo defectuoso es p =
0.0003, entonces la probabilidad que en 100 artículos haya 2 defectuosos es:

000437 . 0
! 2
03 . 0
) 2 (
2
03 . 0
= ⋅ = =

e X P

Si un fenómeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefónicas, la emisión de partículas, accidentes etc... Y
además la probabilidad de una ocurrencia de éste fenómeno es proporcional al intervalo
(P(una o más ocurrencias en [t,t+δ) ) = λδ + o(δ), donde o(δ) es la probabilidad de que
ocurra más de uno), entonces el número de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribución de Poisson con parámetro λt:


!
) (
) (
k
t
e t P
k
t
k
λ
λ
⋅ =



52
Ejemplo 8.-

Si en una central telefónica llegan 3 llamadas/minuto, entonces la probabilidad
que en 2 minutos lleguen 4 llamadas es:

134 . 0
! 4
) 2 3 (
) 2 (
4
2 3
4
=

⋅ =
⋅ −
e P

IV.5.- Variables aleatorias continuas

Definiciones Una variable aleatoria es continua (vac) si su recorrido es infinito y
no-numerable. En este caso no existe una función de cuantía sino una función de
densidad de probabilidades f(x) definido como:

i) f(x) ≥0 ∀ x,
b
ii) P(a≤ x ≤ b) = ∫ f(x) dx
+ ∞ a
iii) ∫ f(x) dx = 1.
-∞
Podemos observar que la densidad de probabilidad en un punto es 0, y que sólo
tienen sentido las probabilidades de intervalos.

La función de distribución de una vac. Se define como:
x
F(x) = ∫ f(x)dx
-∞

Tanto las funciones como las características de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+∞
E[X] = ∫x·f(x) dx y V[X] = E[X
2
]-(E[X])
2

-∞

Una función especialmente útil en el estudio de las variables aleatorias continuas
es la llamada función generatriz de momentos (M
x
(t)) definida como:



∞ −
= dx x f e t M
tx
x
) ( ) ( . Observamos inmediatamente que la derivada de esta función, con
respecto a t, y evaluada en t = 0, corresponde a la esperanza E[X], o primer momento
53
central, y que la segunda derivada evaluada en t = 0, es E[X
2
], o segundo momento
central. Existen tres teoremas de demostración muy sencilla en referencia a esta
función:

1) Si c es una constante y la función generatriz de momentos (fgm) de X es M
x
(t),
entonces la fgm de y = X+c = M
y
(t) = e
ct
M
x
(t).

2) Si c es distinta de 0 e y = cX, entonces M
y
(t) = M
x
(ct).

3) Si X
1
, X
2
, ………X
n
son independientes y todas con igual fgm, M
x
(t), entonces Y
= X
1
+X
2
+…….X
n
tiene una fgm dada por:


n
x y
t M t M )] ( [ ) ( =

IV.6.- Distribución uniforme

Muchas veces en estadística se usan números aleatorios. Estos son un conjunto de
números ∈ [a,b] que tienen todos igual probabilidad de aparecer. Esto genera una
función densidad de probabilidad constante f(x) = 1/(b-a) y una función de distribución
F(x) = (x-a)/b-a) en el intervalo [a,b]. Además es fácil ver mediante integración que
E[X] = (a+b)/2 y V[X] = (b-a)
2
/12.

IV.7.- Distribución exponencial

Si consideramos la variable U como el tiempo que transcurre entre dos eventos
en un proceso de Poisson, podemos observar que la probabilidad que este “tiempo de
espera” sea mayor que un cierto valor u (P(U ≥ u) es equivalente a la probabilidad que
en este proceso no haya ocurrencia en el intervalo [0,u) es decir P(U ≥ u) = P
0
(u) = e
-λu
.
De otra forma 1 – F(u) = e
-λu
, es decir la vac “tiempo de espera” en un proceso de
Poisson tiene función de distribución F(u) = 1- e
-λu
, y derivando, la función densidad de
probabilidad es f(x) = λ e
-λu
. Se dice que una variable con esta función densidad tiene
distribución exponencial. Es fácil ver, simplemente integrando que E[X] = 1/λ y V[X]
= 1/λ
2


IV.8.- DISTRIBUCIÓN NORMAL

Definición Una variable aleatoria continua, con función densidad:


2
] [ ) 2 / 1 (
) 2 / 1 ( ) (
σ
µ
π σ

⋅ −
⋅ =
x
e x f

54
Se dice que tiene distribución normal o de Gauss (campana de Gauss).

Su esperanza es E[X] = µ y su varianza V[X] = σ
2
.

Observamos que σ = √V[X], es decir es la desviación estándar. Como esta
distribución queda caracterizada por dos parámetros, se abrevia como N(µ,σ).

Esta es, lejos, la distribución más importante en estadística. Si graficamos la
distribución, vemos que tiene forma de campana, con un máximo en µ y puntos de
inflexión en µ-σ y µ+σ. Además es importante que P(µ-σ ≤ x ≤ µ+σ) = 0.682, P(µ-2σ ≤
x ≤ µ+2σ) = 0.954 y P(µ-3σ ≤ x ≤ µ+3σ) = 0.997.





Es decir entre –1 y + 1 desviaciones estándar se encuentra el 68.2 % de la
distribución, entre –2 y + 2 d.s. el 95.4 y entre –3 y + 3 d.s. el 99.7%.

Observamos que además si X tiene distribución N(µ,σ) entonces la variable
estandarizada Z = (X-µ)/σ tiene distribución N(0,1). Esto es obvio pues E[Z] = E[(X-
µ)/σ] = (E[X]-µ)/σ = 0 y V[Z] = V[(X-µ)/σ] =V[(X-µ)]/σ
2
= V[X]/σ
2
= σ
2

2
= 1. En
este caso,
2 /
2
) (
t
Z
e t M

=

Esta distribución tiene dos orígenes fundamentales que se pueden enunciar a
manera de teoremas.

Teorema de De Moivre

Si X tiene distribución binomial (B(n,p)) y n→∞, entonces:
55

P(a < x < b) =
Donde µ = np y σ
2
= npq

Demostración La demostración es extensa por lo que sólo se muestran los pasos
fundamentales:

Si en
k n k
p p
k
n
k X P

− ⋅
|
|
.
|

\
|
= = ) 1 ( ) ( , aplicamos la fórmula de Stirling para factoriales,
n n n
e n e n n
12 /
2 !
θ
π ⋅ ⋅ ⋅ =

, donde θ es un número entre 0 y 1, se obtiene:

n R
e
npq
k X P
/ 2 /
2
2
1
) (
+ −
= =
λ
π
, donde
npq
np k −
= λ y el término R/n tiende a 0 para n
grandes.

Así, si n es grande


= ≤ ≤ = ≤ ≤
2
1
2 /
2 1 2 1
2
2
1
) ( ) (
λ
λ π
λ λ λ dx e
npq
P k X k P
x
, lo que
define una distribución normal con µ = np y σ
2
= npq.


Este primer teorema nos dice que la distribución normal es una distribución límite
de una binomial cuando n es grande. En la práctica n > 30 o bien np ≥5.

Teorema del límite central (o central del límite) (expresión general, Laplace
1812, Lyapunov 1901)

Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
µj y varianzas σ
2
j
, entonces X = ∑Xj es asintóticamente normal (N(µ,σ)) donde µ =
∑µj y σ
2
= ∑σ
2
j
.

Demostración Consideraremos sólo el caso más sencillo, donde las Xj tienen la misma
distribución. En este caso se puede partir por el siguiente corolario:

Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es
asintóticamente normal N(nµ,σ√n).

2
(1/ 2)[( ) / ]
1/( 2 ) ( )
b
x
a
e
µ σ
σ π
− −

56
Demostración: En este caso ∑µj = nµ y la varianza es nσ
2
j
, por lo que la
desviación estándar es σ√n.

Falta por demostrar la normalidad. X = ∑Xj, se puede estandarizar como:
Z = (X-E[X])/√V[X] = (X- nµ)/σ√n =
∑ ∑
⋅ = − ⋅
n n
j
Zj
n
X
n 1 1
1
) (
1
σ
µ
σ
. Entonces se
puede obtener la fgm de Z:
n
zj Z
n
t
M t M )] ( [ ) (
σ
= y como en M
Zj
(t) el primer y segundo
momentos son 0 y σ
2
se puede desarrollar en serie de Taylor: M
Zj
(t) = 1- σ
2
t
2
/2 + R, y
reemplazando t por t/ σ√n obtenemos para M
Z
(t):
) 2 / ( ) / 2 (
2
2
2 2
)] , (
/ 2
1
1 [ )] , (
2
1 [ ) (
t t n n
Z
t n R
t n
t n R
n
t
t M
− ⋅
+

+ = + − = y tomando límite cuando n
tiende a infinito se tiene que
2 /
2
) (
t
Z
e t M

= . Como esta es la fgm de una distribución
normal, entonces concluimos que la distribución es normal.


Corolario 2 El promedio X = X/n de estas Xj tiene distribución asintóticamente
normal N(µ,σ/√n).

Demostración: la esperanza E[X ] = E[X/n] =E[X]/n = nµ/n = µ.
La varianza V[X] =V[X/n] = V[X]/n
2
=nσ
2
/n
2
= σ
2
/n, y entonces la desviación estándar
es σ/√n.

Corolario 3 La variable estandarizada Z = (X -µ)/(σ/√n) tiene distribución N(0,1)

Demostración: la esperanza E[Z] = E[(X-µ)/(σ/√n)] =(E[X]- µ)/(σ/√n) =
= (µ-µ)/(σ/√n) = 0. La varianza V[Z] =[(X-µ)/(σ/√n)] =(V[X]- 0)/(σ/√n)
2
=
=(σ
2
/n)/σ
2
/n) = 1, y entonces la desviación estándar también es 1.

Corolario 4 Si Y es B(n,p) y n→∞ , entonces la variable estandarizada Z = (Y-
np)/√(npq)) tiene distribución N(0,1).

Demostración: Trivial; se sigue inmediatamente del teorema de De Moivre y los
corolarios anteriores.

El teorema del límite central y sus importantes corolarios nos explican porqué es
normal (habitual) encontrar distribuciones normales en las variables que estudiamos.
Además mediante el uso de la estandarización (Z) de la variable X, es posible calcular
las probabilidades P(a ≤ x ≤b)= P((a-µ)/σ ≤ z ≤ (b-µ)/σ). Afortunadamente para
nosotros los valores de las integrales que definen las probabilidades ya se encuentran
57
tabulados y son accesibles en programas computacionales. Algunos valores muy
conocidos, importantes y fáciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) =
0.025.

Ejemplo 9.-

Supongamos que el peso (W) de los seres humanos tiene distribución normal con
promedio µ = 70 Kg y desviación estándar σ = 5Kg. Entonces cual es la probabilidad
que un individuo pese más de 83 Kg?. Como W tiene distribución normal N(70; 5),
entonces Z = (W-µ)/σ tiene distribución normal N(0;1) y preguntar por P(W >83) es
equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de áreas de la
distribución normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.

IV.9.- Otras distribuciones importantes

En los siguientes párrafos introduciremos algunas distribuciones y una serie de
teoremas, cuya importancia se verá mas adelante. En general todas las distribuciones de
variables aleatorias continuas se encuentran relacionadas y pueden expresarse como
casos particulares de una ecuación general (sistema de Pearson). El conocimiento de
estas distribuciones permite posteriormente generar las dócimas o pruebas de
hipótesis.

Una distribución habitual es la distribución logarítmico-normal o log-normal.
Una variable aleatoria X tiene distribución log-normal si existe una constante a, tal que
Y = log(x-a) se distribuye normalmente.

Los siguientes teoremas y distribuciones tienen relación con la función gama (Γ),
de importantes aplicaciones en cálculo y estadística:




− −
⋅ = Γ
0
1
) ( dx e x k
x k
, k > 0.

Basados en esta función, se dice que una variable aleatoria continua X, tiene una
distribución Γ de parámetros r y α si su densidad es


x r
e x
r
x f
α
α
α
− −
⋅ ⋅
Γ
=
1
) (
) (
) ( , x >0; r > 0; α > 0; y 0 en cualquier otro caso.

En esta distribución, E[X] = r/α y V[X] = r/α
2
y M
x
(t) = (1-t/α)
-r
.

58
Si r = 1, f(x) = α e
–αx
, E[X] = 1/α y V[X] = 1/α
2
. Cuando ocurre esto, se dice que
la variable tiene distribución exponencial.

Cuando r = n/2 y α = 1/2, se dice que la variable tiene distribución Chi-
cuadrado con n grados de libertad (χ
2
n
).

Teorema Si las variables Zj tienen distribución N(0,1), entonces X = ∑Z
2
j, tiene
una distribución Chi-cuadrado con “n grados de libertad”: χ
2
n
.

Demostración Veamos primero el caso de una variable Z con distribución N(0,1) y
llamemos F(Z) y f(Z) a su función de distribución y función densidad respectivamente.
En este caso: Y = Z
2
tendría por función de distribución a G(Y):

G(Y) = P(Y ≤ y) = P(0 < Y ≤ y) = P(-√y ≤ Z ≤ √y) = 2 P(0≤Z≤√y) = 2[F(√y)-F(0)].
Entonces la función densidad g(Y) corresponde a la derivada de G(Y). O sea,
g(Y) = G´(Y) = 2F´(√y)(1/2(√y) = f(√y)/√y =
y
e
y
1
) 2 / 1 (
) 2 / 1 (
⋅ ⋅
⋅ −
π . Observamos ahora
que g(Y=Z
2
) corresponde a una distribución Γ con r = 1/2 y α = 1/2 es decir Chi-
Cuadrado con 1 grado de libertad (χ
2
1
). Su fgm es entonces M
Y
(t) = 1/√(1-2t).

Ahora veamos el caso de la variable X = ∑Y = ∑Z
2
j. En este caso la fgm de X es
M
x
(t) =M
∑Y
(t) =[M
Y
(t)]
n
= (1-t/(1/2))
-n/2
= (1-t/α)
-r
, con r = n/2 y α = 1/2; y por tanto es
una distribución χ
2
n
. Naturalmente su E[X] = n y V[X] = 2n.

Esta es una distribución asimétrica en que su simetría depende de n. Mientras más
grande n, más simétrica.

Teorema Si una variable aleatoria X cuya varianza es σ
2
, en una muestra de n
elementos tiene una varianza s
2
, entonces y = (n-1)s
2

2
tiene distribución χ
2
n-1
.

Demostración Si desarrollamos:

∑ (xi-µ)
2
= ∑(xi-x + x -µ)
2
=∑(xi-x)
2
+ ∑(x-µ)
2
+2∑(xi-x)(x-µ) =

∑ (xi-µ)
2
= ∑(xi-x)
2
+ ∑(x-µ)
2
+ 0 y dividiendo por σ
2
obtenemos:

∑ ((xi-µ)/σ)
2
= n·s
2

2
+ ((x-µ)/(σ/√n))
2
.

En este desarrollo, como el primer término es la suma de n variable aleatorias con
distribución normal N(0,1) elevadas al cuadrado, este tiene distribución χ
2
n
y además el
59
último término tiene distribución N(0,1) al cuadrado, es decir, χ
2
1
, entonces ns
2

2
tiene
distribución χ
2
n-1
.

Definición Una variable aleatoria continua tiene distribución t de Student con k
“grados de libertad” si su función densidad es:


2
1 2
) 1 (
) 2 / (
)
2
1
(
) (
+

+
⋅ Γ
+
Γ
=
k
k
x
k k
k
x f
π


Teorema Si una variable X tiene distribución normal N(0,1) y una variable Y
tiene una distribución χ
2
k
entonces t = X/√(Y/k) tiene una distribución t de Student
con k “grados de libertad” (t
k
). Su E[t] = 0 y V[t] = k/(k-2). La demostración de este
teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este
libro.

Corolario La variable estandarizada t = (X-µ)/(s/√n) tiene distribución t
n-1
.

Demostración Como La variable estandarizada Z = (X-µ)/(σ/√n) tiene distribución
N(0,1) y además Y = (n-1)s
2

2
tiene distribución χ
2
n-1
, entonces t = X/√(Y/(n-1)) =
(X-µ)/(s/√n) tiene distribución t
n-1
.

Teorema Si n→∞, t
n-1
→ N(0,1)

Demostración Si n→∞, s →σ, y entonces por el teorema central del límite, t
n-1

N(0,1).

Esta distribución “t” se le debe a Gossett, quien escribía bajo el seudónimo de
Student y es una de las distribuciones más importantes, junto con la normal. Es un
distribución acampanada, más apuntada que la normal. Sin embargo, en la práctica, si n
> 30 esta distribución es prácticamente normal.

Definición Una variable aleatoria continua X tiene distribución F de Snedecor
con n
1
y n
2
grados de libertad si su función densidad es:


2 / ) 2 1 (
1 2
1 2 / 1
2 1
2 / 2
2
2 / 1
1
2 1
) ( ) 2 / ( ) 2 / (
)
2
(
) (
n n
n
n n
x n n
x
n n
n n
n n
x f
+

+

Γ ⋅ Γ
⋅ ⋅
+
Γ
=

Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)
2
(n2-4).
60

Esta es una distribución muy útil usada en las dócimas de varianza y en el análisis
de la varianza (ANOVA).

Teorema Si U es χ
2
n1
y V es χ
2
n1
, entonces F = (U/n1)/(V/n2) tiene una
distribución F de Snedecor con n1 y n2 “grados de libertad”(F
n1,n2
). La demostración
de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de
este libro.

Teorema Si t tiene distribución t
k
, entonces t
2
tiene distribución F
1,k
.

Demostración Como t = X/√(Y/k) tiene una distribución t de Student con k “grados de
libertad” (t
k
) y en ella X tiene distribución normal N(0,1) y una variable Y tiene una
distribución χ
2
k
entonces t
2
es el cuociente entre X
2
con distribución χ
2
1
y Y/k con
distribución χ
2
k
. Así, por el teorema anterior t
2
tiene distribución F
n1,n2
.

Teorema El cuociente de las varianzas de dos muestras S = s
2
1
/s
2
2
tiene
distribución F
n1-1,n2-1


Demostración Como en una población dos muestras independientes de tamaños n
1
y n
2
,
Y
1
= (n
1
-1)s
1
2

2
tiene distribución χ
2
n1-1
y Y
2
= (n
2
-1)s
2
2

2
tiene distribución χ
2
n2-1
,
entonces el cuociente W = [Y
1
/(n
1
-1)]/[ Y
1
/(n
1
-1)] = s
2
1
/s
2
2
tiene distribución F
n1-1,n2-1
.
61

Ejercicios de variables aleatorias

1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor
obtenido en el lanzamiento una v.a.d., ¿cuál es su esperanza y su varianza?
R: 3.5; 2.92.

2. Sea X el número de casos nuevos de SIDA diagnosticados en un hospital durante un
día. La distribución acumulativa para X es

X 0 1 2 3 4 5 6
F (x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0

a) Hallar la probabilidad de que en un día cualquiera,
i) Tres casos nuevos sean diagnosticados.
ii) Por lo menos un caso nuevo sea diagnosticado.
iii) Ningún caso nuevo sea diagnosticado.
iv) Entre dos y cuatro casos nuevos sean diagnosticados.
b) Hallar la función de cuantía para X.
c) Determinar E[x] y V[x].
R: a) 0.3; 0.9; 0.1;0.6; c) 2.81; 4.60.

3. ¿Qué requisitos debe cumplir una variable para que en sus análisis se utilice la
distribución binomial?

4. Se ha determinado que de cada 100 nacimientos, 20 de los niños nacidos son
hombres y 80 mujeres. Dado que una madre ha dado a luz 8 hijo, ¿cuál es la
probabilidad de que tenga 5 hijas?
R: 0.147.

5. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas con un
fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20
ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos lleguen 8
vivas al final del experimento?.
R: 0.677.

6. En Escherichia coli, una célula de cada 10
5
muta generando resistencia al antibiótico
estreptomicina. Observando 556.000 células, ¿cuál es la probabilidad de que ninguna
mute? ¿cuál es la probabilidad de que al menos una mute?
R: 0.00348; 0.9965.

62
7. Se estima que sólo uno de cada 50 loros capturados en el sur de Chile para su
utilización como animales domésticos sobrevive al cambio. Se capturan 700 pájaros
en un día. ¿Cuál es el número esperado de sobrevivientes? ¿Cuál es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.

8. ¿Qué características tiene la distribución normal?

9. Si la variable X tiene distribución normal con µ=21 y σ
2
=3. Calcule:
a) P (x<22)
b) P (x<18)
c) P (x>22)
d) P (22<x<24)
e) P (16<x<18)
R: 0.719; 0.0418; 0.281; 0.239; 0.0398.

10. En cierta población de primates, el volumen de la cavidad craneal se distribuye
aproximadamente como una normal con media µ 1200 cm
3
y desviación estándar σ
de 140 cm
3
.
a) Hallar la probabilidad de que un miembro de la población seleccionado al azar
tenga una cavidad craneal superior a 1400 cm
3
.
b) Hallar P (1000<x<1050)
c) Hallar P (x<1060)
d) Hallar P (x<920)
e) Hallar el punto x
0
tal que el 20% de los primates tenga una cavidad craneal más
pequeña que x
0
.
f) Hallar el punto x
0
tal que el 10% de los primates tenga una cavidad craneal
superior que x
0
.
R: 0.0764; 0.0659; 0.0228; 1081.7; 1379,9.

11. La densidad del suelo se define como la masa de materia sólida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las raíces, la siembra
precipitada y la ventilación. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribución normal con µ=1.5 y σ=0.2 g/cm
3
.
a) ¿Cuál es la función densidad de X? Haga un esbozo de la función densidad.
Indique en esa gráfica la probabilidad de que X esté comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, ésta tenga una densidad menor que 0.9 g/cm
3
. R: 0.0013.
63
c) ¿Estaría sorprendido si una muestra de este tipo de tierra, seleccionada
aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente.

12. La Escala de Inteligencia Wechsler para Niños (WISC) tiene una media de 100 y una
varianza de 225 para la población general. Si un niño cae en el 10% menor de la
población, generalmente los psicólogos clínicos urgen a los padres de los niños a que
les realicen exámenes en busca de posibles problemas cerebrales. Asumiendo que los
puntajes de WISC están normalmente distribuidos, ¿cuál es el puntaje crítico que los
psicólogos utilizan para hablar con los padres?
R: 80.725.
64
III UNIDAD: INFERENCIA ESTADISTICA
65
V.- ESTIMACIÓN

La base fundamental de la inferencia estadística es la obtención de una muestra
de la población o universo y, a partir de lo que ocurre en ella, inferir, con una cierta
incertidumbre, la validez de una proposición en la población completa. La muestra es
entonces un subconjunto del universo. Los elementos de la muestra constituyen las
unidades de análisis, por ejemplo los individuos de una población. Las unidades de
análisis no necesariamente coinciden con las llamadas unidades de muestreo. Estas
últimas son unidades operativas, que por ciertas razones constituyen la unidad obtenida
como muestra. Por ejemplo, un investigador puede estar interesado en los glóbulos rojos
(unidad de análisis) pero muestrea individuos (unidad de muestreo), o bien estar
interesado en características de los individuos (unidad de análisis) y muestrear
“manzanas” o barrios de una ciudad (unidad de muestro)...etc. El marco de muestreo
consiste en el listado de las unidades de muestreo que se van a considerar.

V.1.- Estimadores

En la teoría de estimación se considera la existencia de:

i) Parámetros: éstos se pueden definir como características (θ) de una
variable aleatoria, propios de la población. En general se denotan con
letras griegas o mayúsculas. Los ejemplos más conocidos son la esperanza,
µ, la proporción poblacional “P”, la desviación estándar σ y la varianza σ
2
.

ii) Estimadores: éstos son funciones de una variable aleatoria cuyo fin es
aproximar el valor de un parámetro a partir de las unidades de la muestra
Los ejemplos más característicos son el promedio muestral x , la
proporción muestral “p”, la desviación estándar “s” y la varianza “s
2

muestrales.


Así, las medidas de posición y dispersión que aprendimos en estadística
descriptiva, aquí adquieren otra connotación. Si nuestro fin es inferir y no simplemente
describir una muestra, el promedio, la varianza y la desviación estándar se constituyen
en estimadores de parámetros poblacionales.

Los estimadores tienen cuatro características de interés:

i) Linealidad: es una característica deseable en un estimador que permite
operarlo algebraicamente. Por ejemplo, es evidente que el promedio es
66
lineal, pues es una combinación lineal de los valores de una variable
aleatoria (x = ∑hixi).

ii) Sesgo: este corresponde a la diferencia entre la esperanza de un estimador
(E[ê] ) y el parámetro (θ): Sesgo = E[ê] - θ. Naturalmente es deseable que
los estimadores sean insesgados (Sesgo = 0). Por ejemplo, el promedio es
un estimador insesgado: x = ∑xi/n.
Si la variable x tiene E[x] = µ , entonces E[x] = E[ ∑xi/n] = (1/n)E[∑xi] =
(1/n)∑E[xi] = (1/n)nµ = µ, o sea la esperanza del estimador es igual al
parámetro.

iii) Consistencia: un estimador se dice consistente si lim
n→∞
V[ê] = 0. Es decir,
es deseable que en un estimador, a medida que aumente el tamaño muestral
(n), su varianza disminuya. Por ejemplo V[x] = V[ ∑xi/n] = (1/n
2
)∑V[xi]
= (1/n
2
)nσ
2
= σ
2
/n, entonces lim
n→∞
V[x] = 0, es decir el promedio
muestral es un estimador consistente.

Observamos inmediatamente que la desviación estándar poblacional del
estimador x es εs = √V[x] = σ/√n, entonces tiene sentido considerar el estimador
Es = s/√n, conocido como error estándar.

iv) Varianza mínima: es deseable que un estimador tenga la mínima varianza
posible.

Cuando un estimador cumple estas condiciones, se dice que es un estimador meli:
el mejor estimador lineal insesgado.

Además del promedio, otro estimador meli es la proporción muestral “p” como
estimador de la proporción poblacional “P”. Si tenemos una muestra de n elementos y
definimos la variable aleatoria x = 1 si tiene una característica y x = 0 si no la tiene,
entonces se aprecia que p = ∑xi/n, es decir tiene la estructura de un promedio, por lo que
E[p] = P y V[p] = PQ/n.

En cambio, observemos el siguiente desarrollo:

∑ (xi-µ)
2
= ∑(xi-x + x -µ)
2
=∑(xi-x)
2
+ ∑(x-µ)
2
+2∑(xi-x)(x-µ) =

∑ (xi-µ)
2
= ∑(xi-x)
2
+ ∑(x-µ)
2
+ 0 y dividiendo por σ
2
obtenemos:

∑ ((xi-µ)/σ)
2
= n·s
2

2
+ ((x-µ)/(σ/√n))
2
.

67
En este desarrollo, como el primer término es la suma de n variable aleatorias con
distribución normal N(0,1) elevadas al cuadrado, este tiene distribución χ
2
n
y además el
último término tiene distribución χ
2
1
(ver teoremas), entonces ns
2

2
tiene distribución
χ
2
n-1
. O sea E[ns
2

2
] = (n-1) o, lo que es lo mismo, E[s
2
] = (n-1)σ
2
/n.

En palabras, la varianza muestral s
2
=∑(xi-x)
2
/n, es un estimador sesgado
de σ
2
. Entonces, nada mejor que corregirle el sesgo multiplicando este estimador
multiplicándolo por n/(n-1). Así, creamos el nuevo estimador s
2
= n/(n-1)s
2
= ∑(xi-
x)
2
/(n-1), y este es insesgado porque E[s
2
] = n/(n-1)E[s
2
] = (n/(n-1))(n-1)σ
2
/n = σ
2
.
Esta es la razón por la que se usa n-1 en el denominador de la varianza y la
desviación estándar muestral: son los estimadores insesgados. En la práctica para n
> 30 son prácticamente iguales.

V.2.- Estimaciones

Las estimaciones o estimas son los valores que toma un estimador para una
muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor
particularx = 5 es una estimación. Las estimaciones pueden ser de dos tipos:
puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el
promedio poblacional está entre 2 y 5. Obviamente la primera estimación es precisa
pero poco confiable y la segunda es más confiable pero pierde precisión. Estas dos
últimas, precisión y confianza son las dos características de una estimación (no
confundir con estimador).

La estimación puntual prácticamente no se usa. De ser necesario ésta corresponde
en general al valor central del intervalo.

Definición Llamaremos intervalo de confianza del nivel C = 1-α a un intervalo
que tenga una probabilidad o confianza “C” de contener el valor real de un parámetro.
Así, por ejemplo un intervalo del 95% de confianza para el promedio, es un intervalo
que tiene una probabilidad 0.95 de contener al promedio poblacional real.

V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2

Supongamos que queremos el intervalo de confianza del 95% para la proporción
poblacional P. Es decir queremos construir un intervalo (a,b) que tenga una probabilidad
0.95 de contener a P.

Sabemos que Z = (p –P)/√(pq/n) tiene distribución N(0,1) y además sabemos que
P(-1.96≤ z ≤1.96) = 0.95, es decir:

68
[-1.96 ≤ (p-P)/√(pq/n) ≤1.96] = [p – 1.96√(pq/n)≤ P ≤ p + 1.96√(pq/n)], de manera que
se puede asegurar con probabilidad 0.95 que P está contenido por el intervalo definido
por (p ± 1.96√(pq/n)).

En términos generales, entonces el intervalo de confianza del nivel C = 1-α para
la proporción poblacional P es:

] / [
2 / 1
n pq Z p IC ⋅ ± =
− α α


Notamos que Z
α/2
en el caso de C = 0.95 es Z
α/2
= 1.96, pero que para otros
niveles son otros valores que se pueden obtener directamente de la tabla de la
distribución N(0;1) (Z).

Ejemplo 1.-

Si al examinar 30 insectos se encontraron 5 parasitados, como p = 5/30 = 0.167 y
q = 1-0.167 = 0.833, se podría afirmar con un 95% de confianza que la proporción
poblacional de parasitados se encuentra en el intervalo:

] 30 / 833 . 0 167 . 0 96 . 1 167 . 0 [
95 . 0
⋅ ⋅ ± = IC Es decir entre 0.033 y 0.3 o entre un
3.3 y 30%. Naturalmente, en este caso si quisiera mayor precisión tendría que aumentar
el tamaño muestral.

En el Intervalo de confianza para una diferencia de proporciones P1-P2, por un
razonamiento enteramente análogo al anterior se llega a:

)] / / ( ) [(
2 2 2 1 1 1 2 / 2 1 1
n q p n q p Z p p IC + ⋅ ± − =
− α α


V.2.2 Intervalo de confianza para el promedio x y para la diferencia x
1
-x
2


Si se conoce la varianza poblacional, entonces por un razonamiento análogo al
anterior:

] / [
2 / 1
n Z x IC σ
α α
⋅ ± =



Sin embargo esto no es lo habitual; en general, la varianza es desconocida.

69
Si la varianza es desconocida recordamos que (x-µ)/(s/√n) tiene distribución de
Student t
n-1
y entonces es fácil llegar a que el intervalo de confianza del nivel C = 1-α es
en este caso:

] / [
) 2 / 1 ( 1
n s t x IC ⋅ ± =
− − α α


Aquí t
(1-α/2)
tiene el mismo sentido que Z
α/2
pero se escribe distinto por razón de
construcción de las tablas t de Student.

Ejemplo 2.-

Si en una muestra de 49 individuos se tiene una glicemia promedio de 1.042 con
una desviación estándar de 0.03. Entonces puedo afirmar con un 95% de confianza que
el promedio poblacional de la glicemia se encuentra en:

] 49 / 03 . 0 2 042 . 1 [
1
⋅ ± =
−α
IC Es decir entre 1.033 y 1.051.

A estas alturas ya es conveniente observar que todos los intervalos de confianza
tienen la misma estructura: IC
1-α
=[ê ± k·Es], donde ê es un estimador, “Es” su error
estándar y k un valor que determina en una cierta distribución una probabilidad
determinada. Para los estimadores habituales, promedios y proporciones, que
generalmente siguen distribuciones normales o Student, un buen valor para recordar al
95% de confianza es k = 1.96≈ 2.

Para la diferencia de promedios x
1
-x
2
el intervalo de confianza es:

] ) [(
) 2 / 1 ( 2 1 1
Es t x x IC ⋅ ± − =
− − α α
donde ) / 1 / 1 (
2
) 1 ( ) 1 (
2 1
2 1
2
2 2
2
1 1
n n
n n
s n s n
Es + ⋅
− +
− + −
=

V.3.- El tamaño muestral

Esta misma forma de pensamiento, permite calcular el tamaño muestral para una
precisión y una confianza dadas.

Si se acepta que una medida de la precisión es la mitad del ancho del intervalo de
confianza, se observa que la precisión es d = k·Es = ,ê-θ, y, entonces equivale al valor
absoluto de la diferencia entre el valor real del parámetro y el promedio muestral
(observación: a mayor valor de d la estimación es menos precisa).

70
Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y
una confianza C = 1-α para estimar una proporción P, es obvio que d = z
α/2
√(PQ/n), es
decir, despejando n, el tamaño muestral adecuado es:

2
2
2 /
d
PQ Z
n
α
=


Ejemplo 3.-

Si deseamos estimar una proporción P, que según estimaciones previas de otros
autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (α
= 0.05) y con una precisión de 10 % , entonces P≈ 0.32; Q ≈ 0.68; Z
α/2
= 1.96 y d =
0.1x0.32 = 0.032. Así el tamaño muestral necesario es aproximadamente n =
(1.96)
2
(0.32x0.68)/(0.032)
2
= 816.34. O sea alrededor de 817 individuos.

Si nuestro interés es calcular un promedio, entonces d = t
(1-α/2)
s/√n, y entonces el
tamaño adecuado es:

2
2 2
2 /
2
2 2
2 / 1
d
s Z
d
s t
n
α α
≈ =



Para confianzas del 95% se suele aproximar z
2
α/2
= 4.

Ejemplo 4.-

Si queremos estimar un promedio con un 95% de confianza, con una precisión del
5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviación
estándar de s = 5.4, entonces el tamaño muestral requerido es aproximadamente: n =
4(5.4)
2
/(0.05x45)
2
= 51.84 = 52.

Observamos que todos los cálculos de tamaño muestral son sólo aproximaciones y
que todos necesitan de algún conocimiento o estimaciones previas de lo que se pretende
estimar y su variabilidad.

V.2.3.- Estimaciones en Medicina

A menudo en Medicina se usan estimadores para diagnóstico, tratamiento, y
factores de riesgo (ver capítulo de probabilidades). Muchos de estos estimadores son
proporciones o diferencia de proporciones por lo que sus intervalos de confianza se
calculan en la forma convencional ya señalada:
71

Proporciones Sensibilidad, Especificidad, Valores
predictivos, certeza diagnóstica, CER y
EER
Diferencia de proporciones Reducción y aumento absoluto del riesgo:
ARR y ARA

En otros casos existen técnicas especiales para el cálculo:

Números necesarios : NNT y NNH Ambos están definidos como los valores
inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los
límites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los límites
de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8].

Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR): En
todos estos casos se prefiere trabajar con los logaritmos (en cualquier base) de las
estimaciones: log RR, log OR y log LR. Se calculan los límites de confianza para el
logaritmo y a estos valores se les aplica el antilogaritmo, obteniendo los límites de
confianza buscados. Por ejemplo, si los límites de confianza para log
10
RR son [0.30 y
0.47] entonces los límites de confianza para RR son [antilog 0.30 y antilog 0.47] = [2 y
3].

Usando exactamente la nomenclatura del capítulo de probabilidades, los
intervalos de confianza para el logaritmo de estos estimadores son:

Para log RR: ]
1 1 1 1
[log
2 / 1
d b c a b a
Z RR IC
+

+
− + ⋅ ± =
− α α


Para log OR: ]
1 1 1 1
[log
2 / 1
d c b a
Z OR IC − − + ⋅ ± =
− α α


Para log LR: ]
1 1 1 1
[log
2 / 1
d c b a d a
Z LR IC
+

+
− + ⋅ ± =
− α α

72

Ejercicios de estimación

1. Se tomó una muestra que mostró que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg
2
/dcl
2
. ¿Cuál es el intervalo de confianza del
95% si el tamaño muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].

2. De 191 niños con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporción de niños con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].

3. El tamaño de la muestra desempeña un papel importante en la determinación de la
longitud de un intervalo de confianza. Considerar dos intervalos de confianza del
95% de µ basándose en muestras de tamaño N
1
y N
2
extraídas de la misma población.
Si N
1
es mayor que N
2
, ¿qué intervalo de confianza tendrá mayor precisión?

4. Se dice que el 11.4% de las vinchucas “rojas” están infectadas con un parásito. ¿Qué
tamaño muestral necesito para re-estimar esta proporción con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.

5. Se estudió el efecto de una droga sobre el cambio de peso en 12 pacientes dando un
promedio de –0.5 kg y una varianza de 0.4 kg
2
. Se necesita estimar la media
poblacional µ con un intervalo de confianza del 95% no mayor que 0.5 kg. ¿Qué
tamaño necesito para obtener esto?
R: n = 25.

6. Considerar 200 muestras de tamaño 25 extraídas de una población con media µ
desconocida. Suponiendo que las 200 medias muestrales obtenidas se utilizan para
construir 200 intervalos de confianza del 90%. ¿Cuántos de estos intervalos esperaría
que no contuvieran a µ?
R: 20.

7. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la
prevención de muerte dada por ataques cardíacos en pacientes que ya han sufrido
ataques. En el estudio, 733 pacientes recibieron el medicamento y a 742 se les dio un
placebo. Después de 8 meses, se halló que de 42 muertes por ataques cardíacos, 29 se
produjeron dentro del grupo que recibió el placebo y 13 en el grupo que recibió la
73
droga. Generar un intervalo de confianza del 95% para la diferencia de muertes entre
el grupo que recibió el placebo y el que recibió la droga.
R: [0.0041; 0.0379].

8. Se ha realizado un estudio sobre la tasa de supervivencia de los pájaros adultos en los
trópicos y en las zonas templadas. Inicialmente se marcaron 500 pájaros adultos con
cintas en las patas y se liberaron en una región lluviosa. Al año siguiente, se
recapturaron 445 (suponer que aquellos pájaros no capturados fueron consumidos por
depredadores). Un experimento similar en Santiago (una región templada), dio como
resultado una recuperación de 252 de los 500 pájaros liberados. Hallar el intervalo de
confianza del 90% de la diferencia en las tasas de supervivencia de un año para las
dos regiones
R: [0.342; 0.429].

9. Se cree que los jóvenes adolescentes que fuman comienzan a hacerlo a una edad más
temprana que las mujeres adolescentes fumadoras. Según los siguientes datos, ¿usted
apoyaría esta suposición?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 años ; σ
2
=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 años ; σ
2
=4
R: No.

10. Se ha realizado un estudio para comparar la concentración de plomo en el agua de
dos casas. En una casa se utilizó una soldadura con el 50% de plomo y el 50% de
estaño en las tuberías. En la otra casa no utilizaron esta soldadura. ¿Qué podría decir
a una confianza del 95%?
Lugar 1 (con soldadura de plomo): N=25 ; media=25 ; σ
2
=12
Lugar 2 (sin soldadura de plomo): N=25 ; media=10 ; σ
2
=5
R: Que la concentración de plomo aumenta entre 13.5 y 16.47.
74

VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS

VI.1.- Bases

Definición Llamaremos hipótesis a una proposición lógica. Tiene por tanto un
contenido de verdad (dicotómico si trabajamos con lógica binaria: V o F), pero en
general, desconocido.

Desde esta perspectiva una hipótesis constituye una afirmación cuya validez o
certeza es desconocida. El fin de la estadística es llegar a conocer o aproximar la
incerteza de tal afirmación.

Definición En términos estadísticos paramétricos una hipótesis es una afirmación
que especifica la distribución de una o varias variables.

En este sentido las hipótesis en términos estadísticos se refieren a parámetros. Por
ejemplo, cuando afirmamos que los hombres pesan más que las mujeres, en términos
estadísticos paramétricos afirmamos que el promedio poblacional del peso masculino es
mayor que el femenino.

La estrategia estadística se enmarca en una lógica de tipo binario que permite
siempre dividir una hipótesis en dos. Esto lo denominamos dicotomía de la hipótesis:

Hipótesis de nulidad (Ho): es la hipótesis de nulidad del efecto contenido en la
afirmación. Es en general una hipótesis de igualdad.

Hipótesis alternativa (H
1
): es la hipótesis que contiene la afirmación.

Así, por ejemplo si se afirma que los hombres pesan más que las mujeres, se
establece inmediatamente la dicotomía Ho: los hombres pesan igual o menos que las
mujeres y H
1
: los hombres pesan más que las mujeres. En términos estadísticos
paramétricos nos referimos a los promedios: Ho: µ
H ≤
µ
M
vs. H1: µ
H >
µ
M
. Naturalmente
una u otra es verdad, pero no ambas.

Definición Una dócima o prueba de hipótesis es una regla o procedimiento
estadístico que permite tomar una decisión acerca de la aceptación o rechazo de la
hipótesis de nulidad.

Bajo esta definición es claro que toda la estrategia estadística está destinada al
rechazo de Ho, y que este rechazo es el que permite sostener H
1
. Para esto es
estrictamente necesario que las hipótesis Ho y H
1
sean complementarias.
75

Sin embargo, encontrar una regla que permita tomar una decisión adecuada no es
fácil como podemos ver en el siguiente ejemplo.

Supongamos que el peso de un animal A tiene una distribución normal N(1, 2) y
que se afirma que un animal B pesa más que el animal A.

Entonces, seguimos el procedimiento habitual y planteamos:

Ho: µ
B ≤
µ
A
vs. H
1
: µ
B
> µ
A
.

Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crítico “Co” para el promedio muestral x
B
sobre el cual
rechazar Ho (y por tanto sostener H
1
). Esto establece un conjunto de valores Rc =[x
B
/
x
B
> Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....¿cómo elegir este
valor crítico?

Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio
poblacional del peso de B (θ), llamada función de potencia de la dócima (K(θ)).
Esperamos que la variable peso del animal B tenga una distribución normal similar al
ave A, conservando su varianza pero con un promedio poblacional distinto (θ). Así el
peso de B sigue una N(θ, 2). Ahora bien, la probabilidad de pertenecer a la zona de
rechazo es P(x
B
> Co). Además sabemos que si el peso es N(θ,2) entonces x
B
es N(θ,
2/√100) = N(θ,0.2) y entonces P(x
B
> Co) = P((x
B
-θ)/0.2

> (Co-θ)/0.2) =
= P(Z >(Co-θ)/0.2) = K(θ) es la función de potencia de la dócima. Esta depende del
valor crítico Co.

Probemos con un valor crítico Co = 1, es decir rechazaremos Ho ( y aceptaremos
que B pesa más que A) si en la muestra x
B
> 1. La función de potencia K(θ) = P(Z>(1-
θ)/0.2) depende de θ, obteniéndose para varios valores de éste:


θ K(θ)
Ho
0.7 0.0668 V
0.8 0.1587 V
0.9 0.3085 V
1.0 0.5 V
1.1 0.6915 F
1.2 0.8413 F
1.3 0.9332 F

76
En esta tabla observamos que la probabilidad de rechazar Ho (K(θ)) cuando Ho es
verdadera es muy alta, por ejemplo para θ = 0.9 hay una probabilidad de 0.3 (30%) y
para θ = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1.

Si escogemos Co = 1.2 obtenemos:

θ K(θ)
Ho
0.8 0.0228 V
0.9 0.0668 V
1.0 0.1587 V
1.1 0.3085 F
1.2 0.5000 F
1.3 0.6915 F
1.4 0.8413 F

En este caso en cambio, cuando Ho es falsa, recién tenemos probabilidades de 0.3
a 0.5 de rechazarla. Entonces lo ideal sería tener un valor crítico Co sobre el cual la
probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que
bajo este, la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera
cercano a 0. Sin embargo esto no es posible y sólo es posible encontrar valores críticos
de compromiso entre los posibles errores.

Así notamos que la validez de Ho es una característica poblacional y que la toma
de decisión se realiza en base a la muestra. Esto produce una disociación entre estos dos
eventos, originando dos clases posibles de errores. La situación se puede expresar en la
siguiente tabla:

VALOR DE VERDAD de
Ho
V (H
1
F) F (H
1
V)
DECISIÓN Rechazo Ho
ERROR I (α) K = 1-β
Acepto Ho
C = 1-α ERROR II (β)

En esta tabla se describen dos tipos de errores estadísticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es α = P
max
(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es β = P
max
(AHo/H
1
V) = 1-P
max
(RHo/H
1
V)
= 1-K(θ
1
).

Observamos que C = P(AHo/HoV) = 1-α. El valor C establece la confianza de la
dócima, y a α, el máximo error de tipo I que se está dispuesto a tolerar, se le denomina
77
nivel de significación cuando se encuentra previamente especificado. Del mismo modo
a K(θ
1
), el valor de la función de potencia en θ
1
,o simplemente K, se le conoce como
potencia de la dócima.

La docimasia o prueba de hipótesis debe cumplir varias etapas:

i) Planteamiento de la Hipótesis.

ii) Dicotomía de la hipótesis: Ho vs H
1
.

iii) Elección del nivel de significación. En esta etapa se define a priori el nivel de
significación con que se va a trabajar. En general en ciencias se consideran
como adecuados niveles menores que α = 0.1; 0.05; 0.01 (o confianzas
mayores que 90%; 95%; 99%). El más aceptado es lejos α = 0.05. O sea en
ciencias parece aceptable cometer errores de tipo I con probabilidades
menores o a lo sumo iguales a 0.05.

iv) Elección de la dócima apropiada (ver más adelante).

v) En base al resultado de la dócima, tomar una decisión estadística por una de
dos vías equivalentes:
a. rechazar Ho si la probabilidad de error I es p < 0.05, o
b. rechazar Ho si el valor del estadígrafo que se usó como dócima se
encuentra en la zona de rechazo (Rc) definida por un cierto valor crítico
(Co).

vi) Interpretación estadística de los resultados. Sólo hay dos posibles:
a. De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho,
y por tanto sostener H
1
con una probabilidad de error I = p; y
b. De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar
Ho (y por tanto en general aceptamos Ho, pero ¡ojo! Si aceptamos Ho
podemos estar cayendo en el error II por lo que deberíamos medir β o
alternativamente la potencia de la dócima(K)).

78

VI.2.- Dócimas para una muestra

Dócima para una proporción (P) Una pregunta muy habitual en ciencias de
cualquier tipo es si cierta proporción P corresponde o no a un valor dado. Por ejemplo es
habitual pensar que la proporción de mujeres es mayor que 0.5 o que la prevalencia de
una cierta enfermedad sea menor que una prevalencia dada etc...

Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30%
(p
0
) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces
planteo la hipótesis: la proporción de casas infestadas por este insecto es mayor que un
30%. En términos estadísticos Ho: P ≤ 0.3 vs: H
1
: P > 0.3. Voy a trabajar con un nivel
de significación de α = 0.05.

Supongamos además que examiné 25 viviendas (muestra de tamaño n = 25) y
encontré 13 con el insecto.

Como ya sabemos que Z = (p-P)/√(PQ/n) es N(0,1), entonces uso el estadígrafo
Z = (p-p
0
)/√(p
0
q
0
/n) como dócima.

Esto es porque la probabilidad de encontrar una proporción p > 13/25 = 0.52 en
una muestra de 25 viviendas bajo el supuesto que Ho es V es: P (Z > (0.52-
0.3)/√(0.3·0.7/25)) = P(Z > 2.41) = 0.008.

Entonces como la probabilidad de rechazar Ho con este valor dado que Ho es
verdadera es menor que 0.05, rechazo Ho y acepto H
1
: la proporción de viviendas
infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . En
realidad con una confianza a posteriori de un 99.2%, ya que hemos calculado la
probabilidad de error I como p = 0.008.

Una segunda manera de ver esto es buscando el valor crítico Co tal que P(Z>Co)
= 0.05. Este es Co = 1.64, es decir rechazaré la hipótesis Ho para todo valor calculado de
z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la
zona de rechazo de Ho.

Observación importante Si la hipótesis H
1
hubiera sido P ≠ 0.3 existirían dos
situaciones que la verifican: P< 0.3 y P > 0.3, entonces la zona de rechazo se divide en
los dos extremos de la distribución dejando una probabilidad 0.025 en cada extremo. En
este caso hay dos puntos críticos simétricos Co = -1.96 y Co = +1.96, rechazando Ho si
Z <-1.96 o si Z > 1.96. En este caso se habla de una prueba de dos colas, y en el caso
79
anterior, de una cola. En la práctica cada vez que en H
1
aparece el símbolo ≠ se
trata de una prueba de dos colas, en caso contrario es de una cola.

Así, en resumen la prueba adecuada para una muestra en el caso de una
proporción es:



n
q p
p p
Z
0 0
0
ˆ −
=



Ejemplo 1.-

La prevalencia histórica de una cierta enfermedad infecciosa es de un 8%. Sin
embargo en una localidad se examinaron 196 personas, de las cuales 25 estaban
infectadas. ¿Habrá en esta localidad una mayor prevalencia o sólo será un hecho
fortuito?

Planteamos estadísticamente: Ho: P ≤ 0.08 vs. H
1
: P > 0.08. Trabajaremos con α =
0.05 y el problema es de una cola, por lo que el valor crítico de rechazo es Z
c
= 1.64.
Además, en la muestra, p = 25/196 = 0.128.

Aplico el estadígrafo Z:

48 . 2
196
92 . 0 08 . 0
08 . 0 128 . 0
=


= Z

Como el valor calculado de Z a partir de la muestra (2.48) es mayor que 1.64,
entonces cae en la zona de rechazo de Ho, y por tanto debo aceptar H
1
. En otras
palabras, puedo afirmar que en dicha localidad existe una mayor prevalencia de esta
enfermedad, con una probabilidad de error de tipo I menor que un 5%.

Dócima para el promedio (µ) En este caso la afirmación se refiere a una variable
continua distinta de una proporción, por ejemplo se afirma que el peso promedio de los
hombres es más de 70 kg.

80
Aquí la hipótesis H
1
es de una de las siguientes formas: a) µ >µo (una cola), b)
µ<µo (una cola) o c) µ ≠µo (dos colas).

Por un razonamiento completamente análogo al anterior se esperaría que el
estadígrafo adecuado fuera Z = (x -µo)/(σ/√n), sin embargo en general no conocemos
σ. Afortunadamente por los teoremas anteriores sabemos que t
n-1
= (x -µo)/(s/√n)
donde s es la desviación estándar calculada en la muestra, que si la conocemos. Entonces
la prueba adecuada es :


n
s
x
t
n
0
1
µ −
=



Ejemplo 2.-

Supongamos que se ha propuesto que el peso promedio de un hombre es 70 Kg, y
que nosotros pensamos que es mayor. Tomamos una muestra de 60 individuos y
encontramos un peso promedio de 73 Kg, con una desviación estándar de 1Kg. Entonces
planteamos las hipótesis en términos estadísticos: H
0
: µ ≤ 70 vs µ > 70 y usamos el test:
2 . 23
60
1
70 73
59
=

= t . Como el valor crítico de t para una cola, 59 grados de libertad y una
máxima probabilidad de error de tipo I α = 0.05, es 1.64, y además 23.2 >>1.64,
entonces rechazamos H
0
y afirmamos que efectivamente el peso promedio de los
hombres es mayor que 70 Kg.

VI.3.- Dócimas para dos muestras

En este caso se trata de hipótesis que comparan dos situaciones y por tanto para
probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A
hay más prevalencia de cáncer que en la ciudad B, es necesario tomar una muestra en A
y otra en B.

El razonamiento estadístico y la forma en que se toma la decisión son enteramente
análogos a las anteriores por lo que nos limitaremos a escribir las hipótesis Ho y H
1
de
dos colas y los test o dócimas apropiadas.
81
Dócimas para dos proporciones

En este caso, para una prueba de dos colas, las hipótesis H
0
y H
1
se pueden
escribir como:
H
0
: (P
1
-P
2
) = P
0
vs. H
0
: (P
1
-P
2
) ≠ P
0
. Lo habitual es que P
0
= 0, pues en general interesa
la pregunta P
1
= P
2
o P
1
≠ P
2
? La prueba a usar en este caso es:

)
1 1
(
) ˆ ˆ (
2 1
0 0
0 2 1
n n
q p
P p p
Z
+
− −
= donde
2 1
2 2 1 1
0
ˆ ˆ
n n
n p n p
p
+
+
=


Ejemplo 3.-

Interesa saber si dos insectos, A y B, se encuentran parasitados en diferente
proporción. Se examinan 52 insectos A, de los cuales 10 estaban parasitados, y de 100
insectos B, 36 lo estaban. Entonces se plantea: H
0
: P
A
=P
B
vs. H
1
: P
A
≠P
B
(P
0
= 0).
Entonces 192 . 0 52 / 10 ˆ
1
= = p y 36 . 0 100 / 36 ˆ
2
= = p , por lo
que 303 . 0
100 52
100 36 . 0 52 192 . 0
0
=
+
⋅ + ⋅
= p . Entonces calculo Z:
14 . 2
)
100
1
52
1
( 697 . 0 303 . 0
36 . 0 192 . 0
− =
+ ⋅

= Z . Entonces ahora se debe tomar la decisión. El
valor crítico de rechazo para un máximo error de tipo I α = 0.05 es 1.96, y como es una
prueba de dos colas rechazaremos H
0
, cuando el valor calculado de Z sea < -1.96 o >
+1.96 . En nuestro caso -2.14 < -1.96 y entonces rechazo H
0
y puedo afirmar que existe
suficiente evidencia para sostener que la proporción de insectos parasitados es diferente.
Podemos observar además que si nuestra hipótesis H
1
hubiera sido que el insecto B tiene
una mayor proporción de parasitismo que A. La prueba habría sido de una cola, el valor
crítico habría sido 1.64, y nuevamente habríamos rechazado H
0
, en este caso afirmando
que existe suficiente evidencia para sostener que la proporción de insectos parasitados es
mayor en el insecto B que en A.

Dócimas para dos promedios

En el caso de hipótesis referidas a dos promedios, es necesario distinguir dos
situaciones. La primera en que son, a) dos muestras independientes y la segunda en
que es, b) la misma muestras o muestras relacionadas en dos situaciones experimentales.
Este último caso es muy habitual en medicina donde se estudia la misma muestra con y
82
sin un cierto fármaco, o bien situaciones del tipo antes-después. En este último caso se
habla de muestras pareadas o dependientes

Muestras independientes

Por razones estadísticas la prueba a usar depende de si las varianzas muestrales se
pueden considerar iguales (homocedasticidad) o bien son diferentes. Una estimación
razonable para decidir esto es hacer el cuociente s
2
M
/s
2
m,
donde s
2
M
es la varianza mayor
y s
2
m
es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible
docimar directamente la homocedasticidad (ver más adelante). Las hipótesis para dos
colas son H
0

1
- µ
2
= µ
0
vs H
1
: µ
1
- µ
2
≠ µ
0
y al igual que en el caso de las proporciones lo
habitual es que µ
0
= 0.

a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:

)
1 1
(
2 1
2
0 2 1
2
2 1
n n
s
x x
t
c
n n
+
− −
=
− +
µ
donde
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1 2
− +
− + −
=
n n
s n s n
s
c



Ejemplo 4.-

Se afirma que la especie A pesa más que la especie B. Entonces se plantean las
hipótesis H
0

A
– µ
B
> 0 vs H
1
: µ
A
- µ
B
≤ 0 y se toman muestras de A y de B.
Supongamos que en 46 individuos de A el peso promedio fue 36g con una desviación
estándar de 6g y que en 50 individuos de B el peso promedio fue 33 g con una
desviación estándar de 5g. Así como el cuociente entre las varianzas es 6
2
/5
2
= 1.44, es
decir es menor que 4, usando nuestra regla simple, podemos suponer homocedasticidad.
Además podemos estimar la “varianza común s
2
c
como:
27 . 30
2 50 46
25 49 36 45
2
=
− +
⋅ + ⋅
=
c
s . Ahora podemos usar nuestro test:
67 . 2
)
50
1
46
1
( 27 . 30
33 36
94
=
+ ⋅

= t . Para α = 0.05 y una cola, el valor crítico de t es 1.64,
entonces como 2.67 > 1.64, rechazamos H
0
y podemos sostener H
1
, es decir A pesa más
que B.
Observamos que el valor crítico de t con 94 grados de libertad es 1.64, idéntico al
valor crítico para Z en el caso de una cola. Esto no debe extrañarnos, pues como hemos
enunciado en un teorema anterior, si el tamaño muestral aumenta, la distribución t se
aproxima a la normal N(0,1) (Z).
83
2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
gl
s s
n n
n n
| |
+
|
\ .
=
| | | |
| |
\ . \ .
+
− −
b) si no hay homocedasticidad, entonces usamos:

) (
2
2
2
1
2
1
0 2 1
n
s
n
s
x x
t
gl
+
− −
=
µ
pero los grados de libertad “gl” los estimamos mediante









Ejemplo 5.-

Usando el mismo caso anterior, pero ahora las desviaciones estándar son: para A
6g y para B 2g. Entonces la razón entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:

23 . 3
)
50
4
46
36
(
33 36
=
+

=
gl
t y los grados de libertad: 55 15 . 54
1 50
) 50 / 4 (
1 46
) 46 / 36 (
) 50 / 4 46 / 36 (
2 2
2
≈ =

+

+
= gl
Entonces con α = 0.05 y una cola el valor crítico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H
0
y la interpretación es la misma.

Muestras dependientes (pareadas)

Este caso es equivalente a una dócima para promedio de una muestra. Se crea la
variable auxiliar d = x
1
-x
2
, se calcula su promedio d y su desviación estándar s
d
. Las
hipótesis en este caso son referidas al parámetro D = µ
1
- µ
2
. Por ejemplo, proponer que
H
1
: µ
1
> µ
2
, es equivalente a H
1
: D > 0. Entonces el test de hipótesis a usar es:

n s
d
t
d
n
/
1
=







84
Ejemplo 6.-

Se piensa que un fármaco baja la presión arterial. Entonces se estudian 10
individuos, tomándole la presión diastólica antes y después de la administración del
fármaco obteniendo:


Individuos Antes (x
1
) Después (x
2
) d = x
1
-x
2

1 100 95 5
2 95 95 0
3 80 85 -5
4 90 80 10
5 98 90 8
6 105 95 10
7 110 95 15
8 100 92 8
9 90 80 10
10 110 93 17
Total 978 900 78
Promedio 97.8 90
d =7.8
Desviación estándar 9.5 6.1 s
d
= 6.5

Entonces se pueden plantear las hipótesis de una cola: H
0
: D ≤ 0 vs H
1
: D > 0, ya que
pensamos que la presión antes debe ser mayor que después (µ
1
> µ
2
, o D = µ
1
- µ
2
> 0).
Calculamos el valor del estadígrafo: 79 . 3
10 / 5 . 6
8 . 7
9
= = t . Como, para α = 0.05 el valor
calculado de t (3.79) es mayor que el valor crítico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H
0
y entonces podemos afirmar que efectivamente el fármaco
baja la presión arterial.

VI.4.- Supuestos de las dócimas

Para que las dócimas tengan real validez, se deben cumplir ciertos supuestos
básicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dócimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:

i) independencia
ii) normalidad
iii) homocedasticidad

85
Independencia Es el requisito fundamental de todas las dócimas. Cada elemento
de la muestra debe ser independiente del resto. Es decir los elementos de una muestra no
deben estar relacionados entre sí, mas que por el hecho de pertenecer a la misma
situación experimental. Por ejemplo, si estamos estudiando un parámetro fisiológico, no
parece conveniente incluir hermanos en la misma muestra porque sus fisiologías pueden
ser semejantes violando el supuesto de independencia. En este caso los elementos de la
muestra no constituyen réplicas sino seudo réplicas. Aunque no siempre es fácil decidir
si los elementos son realmente independientes, por ejemplo en el caso de las plantas de
un prado, el supuesto de independencia lo debe asegurar el investigador. Cuando existen
dudas es posible realizar un estudio de correlación de los errores a través de una dócima
de Durbin-Watson (que no se tratará en este libro).

Normalidad Este supuesto se refiere a que se espera que las variables
consideradas en las muestras tengan distribución normal. Esto proviene de los supuestos
en que se fundamentan las distribuciones que se usan como estadígrafos.
Existen varias pruebas para probar la normalidad de los datos de una muestra. En
este capítulo sólo mencionaremos tres y en los siguientes describiremos dos de ellas.
Estas son i) Prueba de Lilliefors que consiste en una prueba gráfica utilizando una
distribución normal acumulada, ii) Bondad de ajuste de Kolmogorov-Smirnov e iii)
Bondad de ajuste χ
2
.

Homocedasticidad Este supuesto consiste en la suposición de igualdad de
varianzas, que es necesario sólo para comparar promedios con suposición de la
existencia de una varianza común. En párrafos anteriores habíamos dado una regla
simple: si el cuociente entre las varianzas era mayor que 4, entonces las suponíamos
distintas. En esta ocasión vamos a ser más rigurosos y plantearemos las hipótesis Ho: σ
2
1

= σ
2
2
(homocedasticidad) vs. H
1
: σ
2
1
≠σ
2
2
. Para tomar la decisión se usa el test F de
Snedecor (F en honor a Fisher):

2
2
) 1 ( ), 1 (
2 1
m
M
n n
s
s
F =
− −
, donde S
M
2
representa la varianza mayor y S
m
2
la menor.

Ejemplo 7.-

Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una
especie de árbol:

Población A B
Número de árboles 46 68
Altura promedio 3.5 m 4.3 m
Desviación estándar 0.6 m 1.26 m
86

Planteamos la hipótesis H
1
que los árboles de la población B son más altos que los
de la población A. Entonces, en términos estadísticos H
0

B
≤ µ
A
vs H
1
: µ
B
> µ
A
, por lo
que es una hipótesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta ¿puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hipótesis principal, planteo las hipótesis: Ho: σ
2
1
= σ
2
2
(homocedasticidad) vs. H
1
:
σ
2
1
≠σ
2
2
y aplico el test: F
67,45
=(1.26)
2
/(0.6)
2
= 4.41 y comparo este valor con el valor
crítico de la distribución F, con 67 grados de libertad en el numerador y 45 grados de
libertad en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la
homocedasticidad (H
0
) y deberé considerar las varianzas como diferentes.

Ahora nos preocupamos de la hipótesis principal y aplicamos el test adecuado:

53 . 4
)
46
36 . 0
68
59 . 1
(
5 . 3 3 . 4
=
+

=
gl
t con 103 3 . 102
1 46
) 46 / 36 . 0 (
1 68
) 68 / 59 . 1 (
) 46 / 36 . 0 68 / 59 . 1 (
2 2
2
≈ =

+

+
= gl
Como 4.53 > 1.64 (valor crítico), entonces rechazo H
0
y afirmo que efectivamente
los árboles de B son más altos que los de A.
87
Ejercicios de Pruebas de Hipótesis para una y dos muestras

1. Un cierto tipo de cáncer tiene habitualmente una letalidad (número de muertos por
cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los
cuales se producen 15 defunciones. ¿Qué puede decir usted sobre la eficiencia de la
droga?
a) Señale la hipótesis de trabajo.
b) Señale el nivel de significación.
c) Realice la prueba de significación estadística. R: Z = -2.19
d) Saque conclusiones. R: La droga disminuye la letalidad.

2. De acuerdo con las leyes de Mendel, el cruzamiento de heterocigotos produce una
descendencia formada por dos tipos de individuos: aquellos con carácter dominante
que representan el 75% y el resto presenta el carácter recesivo. En un experimento
con 500 semillas se obtienen 360 semillas amarillas (dominante) y 140 verdes.
¿Puede aceptarse que esta distribución es mendeliana?
R: Z = -1.55, si es mendeliana.

3. Habitualmente la ictericia fisiológica del recién nacido dura 3.8 días. Al tratar a 100
niños con fototerapia, el período ictérico dura 2.8 días con una desviación estándar de
2.7 días. ¿Es la fototerapia un tratamiento efectivo contra la ictericia?.
R: t
99
= -3.7; la fototerapia es efectiva.

4. Se ha medido la concentración de una sustancia en células tratadas con un compuesto
que se cree sedimenta dicha sustancia, y en células no tratadas (controles), dando los
siguientes resultados (en ng/mL): Que puede Ud. decir?

Controles Tratadas
68 66
21 29
100 50
48 77
46 110
7 55
5 91
57 90
96 114
138 50
R: t
9
= 0.89. No hay evidencias de variaciones de concentración.

88
5. Se ha observado que la administración de dosis bajas de aspirina en pacientes
sometidos a diálisis renal disminuye la frecuencia de trombosis. Así, en pacientes a
los que se les administró un placebo presentaron trombosis en un 70% de los casos y
en aquellos que recibieron aspirina, se observó trombosis sólo en el 50% de los casos.
a) Si el número de pacientes es de 30 para ambos grupos, ¿cuál sería su conclusión
respecto al efecto de la aspirina?
b) Si el número de pacientes es 60, ¿cuál sería ahora su conclusión?
R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis.

6. Se han realizado mediciones de metabolismo en carrera en felinos provenientes de
dos zonas (norte y sur). De 15 felinos nortinos medidos, se obtuvo un metabolismo
de 0.12±0.02 [ml O
2
kg
-1
m
-1
] (promedio±SD). De 23 felinos sureños, se obtuvo un
metabolismo de 0.15±0.06 [ml O
2
kg
-1
m
-1
]. ¿Existe diferencia entre los
metabolismos?.
R: No hay homocedasticidad; t
28
=-2.22, si existe diferencia.

7. La contracción (en mm) de los úteros de 8 ratas usando dos hormonas distintas (A y
B) es la siguiente:

Útero Hormona A Hormona B
1 28 24
2 30 29
3 25 28
4 34 30
5 35 25
6 26 19
7 31 32
8 32 32

¿Existe efecto diferencial entre las dos hormonas? Use nivel de significación del 1%.
R: t
7
= 1.79; no hay evidencias de efecto para el nivel 1%.

8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
después de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:

Individuo Antes Después
1 95 85
2 90 85
89
3 110 104
4 80 78
5 95 94
6 83 75
7 91 91
¿Existirán evidencias para suponer que esta dieta produce una disminución
significativa del peso? (Use nivel de significación del 1%).
R: t
6
= 3.24; si hay evidencias de reducción de peso.

10. Se realizó un estudio sobre dos poblaciones de Spalacopus cianus (Cururo)
provenientes de la costa y de la cordillera. Se les midió el largo del pelo a 20
individuos de cada población, resultados que fueron tabulados en la siguiente tabla.

LARGO DEL PELAJE
[MM]
f
costa
f
cordillera

10-12 1 2
12-14 3 5
14-16 6 8
16-18 6 3
18-20 2 2
20-22 1 0
22-24 1 0

¿Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dócima adecuada).
R: t
38
= 1.77; no hay evidencias de diferencias.

11. Mientras paseaba por el parque, un señor se puso a contar el número de perros que
eran sacados a pasear por sus dueños. Los siguientes datos corresponden al número
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres: 1 - 1 - 2 - 2 - 2 - 3 - 3 - 3 - 3 - 4 - 4 - 6 - 9
Mujeres: 1 - 1 - 1 - 2 - 2 - 2 - 2 - 2 - 2 - 3 - 3 – 5

Suponiendo que los datos son normales, determine si existe diferencia en el número
de perros sacados a pasear entre hombres y mujeres
R: t
23
= 1.63; p = 0.059.

12. En un análisis químico de las aguas del río Mapocho, se encontró que los valores de
concentración de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la mañana que durante la tarde. La muestra tomada en la mañana
90
presento una varianza de 23 mg
2
/mL
2
(N=15) y la muestra de la tarde, una varianza
de 20 mg
2
/mL
2
(N=20). ¿Tienen razón los investigadores?.
R: no.
91

VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS


VII.1.- La distribución χ
2


Muchas veces en ciencias las hipótesis se refieren a diferencias en cantidades o
frecuencias entre diferentes poblaciones, por ejemplo número de enfermos, población
animal, etc. Una distribución muy útil en éstos casos es la distribución χ
2
, que como
recordamos proviene de una variable aleatoria x con distribución normal estandarizada,
N(0,1), elevada al cuadrado. Si sumamos n variables de este tipo se obtiene una nueva
variable X = ∑x
2
con distribución χ
2
n
, es decir una distribución cuya forma depende de
un parámetro n llamado “grados de libertad”.

Si recordamos que Z = (x-µ)/σ tiene distribución N(0,1), es obvio que Z
2
tiene
distribución χ
2
1
y entonces Ζ
2
n
= ∑[(x-µ)/σ]
2
tiene distribución χ
2
n
. Si en esta última
variable estimamos µ directamente de la muestra restringimos en uno los grados de
libertad. Bástenos observar que si nos lo proponemos, se pueden escoger libremente tres
números, pero si se los somete a la condición de que el promedio es un número
determinado, entonces sólo se pueden escoger dos libremente pues el último queda
determinado por la condición (se ha restringido en uno los grados de libertad).

Supongamos que µ no es muy diferente de σ
2
(como en una distribución de
Poisson) y que ambos los estimamos por un valor esperado “e” a partir de la muestra.
Entonces esperamos que la variable:

X
2
= ∑(o-e)
2
/e , donde o es un valor observado de x y e su esperado, tenga
distribución χ
2
n-1
. Este estadígrafo es conocido como Chi-cuadrado.

Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay
N
1
mujeres y N
2
hombres y que a priori esperamos que la mitad fueran mujeres, entonces
o
1
= N
1
, o
2
= N
2
, e
1
= N/2 = e
2
y entonces X
2
= (N
1
-N/2)
2
/(N/2) + (N
2
-N/2)
2
/(N/2) =
= (N
1
-N
2
)
2
/N = 4N(N
1
-N
2
)
2
/4N
2
= [(N
1
-N
2
)/2N]
2
/(1/4N) = (N
1
/N –1/2)
2
/[√((1/2·1/2)/N)]
2

= [(p- P)/√(PQ/N)]
2
= Z
2
.

En un ejemplo numérico supongamos que se tienen 35 hombres y 46 mujeres en
una muestra de 81 personas. Entonces si probamos Ho: P = 0.5 vs. H
1
: P ≠ 0.5 usamos el
estadígrafo Z = = (p- P)/√(PQ/N) = (35/81- 0.5)/√(0.5·0.5/81) = 1.222 y como el valor
crítico de Z para dos colas es Z = 1.96, entonces acepto Ho.

92
Si ahora calculo X
2
considerando que ambos valores esperados son e =
0.5·81=40.5, obtengo X
2
= (35-40.5)
2
/40.5 + (46-40.5)
2
/40.5 = 1.4938.

Es fácil ver que Z
2
=1.222
2
= 1.4938= X
2
.

Tablas de contingencia

La distribución χ
2
cobra su mayor importancia en las tablas de doble entrada o
tablas de contingencia. Estas son la manera habitual de presentar datos enumerativos.
Por ejemplo tres poblaciones A, B y C y en cada una de ellas el número de enfermos y
no enfermos.

A B C Total
marginal
Enfermos


No enfermos


Total
marginal
Gran total

En general una tabla de doble entrada se puede escribir así:

C1 C2 ...... Ct T. marginal
R1 N
1,1
N
1,2
...... N
1,t
N
1,0

R2 N
2,1
N
2,2
....... N
2,t
N
2,0

….. .......
Rr N
r,1
N
r,2
…… N
r,t
N
r,0

T. marginal N
0,1
N
0,2
........ N
0,t
N
0,0


Es fácil darse cuenta que si todos los N se comportan en forma homogénea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debería ocurrir
que N
1,1
/ N
o,1
≈ N
1,o
/ N
o,o.


Entonces si la respuesta es homogénea los valores esperados para cada celda se
pueden determinar como: e
i,j
= (N
i,o
/N
o,o
)N
o,j
.

Existen dos tipos de diseños experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociación entre las
93
variables de clasificación (entradas) o independencia. En este caso Ho: independencia
vs. H
1
: asociación. En cambio en el segundo se escoge una muestra de un mismo tamaño
determinado para cada nivel de una primera entrada (total marginal regulado), y en cada
una se determina el número que se encuentra en cada nivel de la segunda entrada. En
este último caso interesa la homogeneidad de la repuesta de la segunda variable de
clasificación, dentro de la primera. En este caso Ho: homogeneidad vs. H
1
: diferencia.

En ambos casos el estadígrafo adecuado es:



=
− −
j i
c r
e
e o
,
2
2
) 1 )( 1 (
) (
χ donde r es el número de filas y c el número de columnas.

Observaciones importantes

i) Por su derivación la prueba Chi-cuadrado en general se debe usar cuando
los valores esperados son ≥ 5.

ii) La prueba de hipótesis es siempre de 2 colas.

iii) Cuando se realiza una prueba de independencia vs. asociación, una buena
medida de la asociación es: X
2
/(N
o,o
·(m-1)), donde m es el menor valor
entre r y c.

iv) El rechazo de la hipótesis Ho en una prueba de homogeneidad indica
diferente respuesta el algún nivel (C) de la primera variable clasificatoria,
pero no informa cual nivel es el diferente. En caso que esto sea relevante se
debe ir sacando en forma iterada la columna que más contribuye al valor
del X
2
y recalculando el valor de X
2
hasta que este deje de ser significativo.
Las columnas que queden serán homogéneas. (Comparaciones múltiples en
χ
2
)


iv) En el caso de una tabla de contingencia de 2x2, cuando no se cumple con
N
i,j
> 5, se debe realizar la prueba exacta de Fisher que proviene de una
distribución hipergeométrica


Ejemplo 1.-

Supongamos que se desea saber si existe asociación entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:

94
Blancas Rojas Amarillas Total
Con abejas 45 24 60 129
Sin abejas 36 83 40 159
Total 81 107 100 288

Entonces planteamos las hipótesis H
0
: independencia u homogeneidad de
proporciones vs. H
1
: asociación entre el color de las flores y la presencia de abejas.
A continuación hay que calcular los valores esperados para cada celda. Por
ejemplo para la primera celda e = 81(129/288), o sea de el total de 81 flores blancas, si a
la abeja no le importa el color de la flor (independencia), se espera que una proporción
(129/288) de ellas sea visitada por abejas. Entonces e = 36.3. Para la segunda celda e =
81(159/288) = 44.7. Notamos enseguida que 36.3 + 44.7 = 81. Así se puede proseguir el
cálculo para cada celda, obteniendo:

Blancas (esperadas) Rojas (esperadas) Amarillas (esperadas) Total
Con
abejas
45 36.3 24 47.9 60 44.8 129
Sin
abejas
36 44.7 83 59.1 40 55.2 159
Total 81 107 100 288

Ahora entonces podemos calcular el valor del X
2
:

7 . 34 ......... ..........
9 . 47
) 9 . 47 24 (
7 . 44
) 7 . 44 36 (
3 . 36
) 3 . 36 45 (
2 2 2
2
2
= +

+

+

= χ

El valor crítico de Chi-cuadrado para 2 grados de libertad y α = 0.05 es 5.99, y
como 34.7>>5.99, rechazamos H
0
y afirmamos que existe una asociación entre el color
de las flores y la presencia de abejas.

Si queremos avanzar más, observamos que la columna que más contribuye al
valor del estadígrafo es la de las flores rojas, que tiene una proporción menor de visitas
de abejas que la esperada. Entonces retiramos la columna y recalculamos los valores
esperados obteniendo:

Blancas (esperadas) Amarillas (esperadas) Total
Con
abejas
45 47.0 60 58.0 105
Sin
abejas
36 34 40 42.0 76
Total 81 100 181
95

Planteamos una nueva hipótesis de independencia versus asociación y calculamos
el valor de X
2
:

36 . 0
42
) 42 40 (
58
) 58 60 (
34
) 34 36 (
47
) 47 45 (
2 2 2 2
2
1
=

+

+

+

= χ

Como el valor crítico es ahora 3.84 y 0.36 < 3.84, ahora acepto H
0
y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.

Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble
entrada:


FACTOR 1

+ - TOTAL
FACTOR 2 (+) A B A+B
FACTOR 2 (-) C D C+D
TOTAL A+C B+D N

Observamos que la probabilidad de que haya A asociaciones (+,+) dados los
totales marginales es:

Desarrollando los números combinatorios se llega a:

P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.

Entonces la probabilidad de obtener una asociación igual o mayor, dados los
totales marginales es P = ∑ P(X=x), x ≥ A.
( )
A C B D
A B
P X A
N
A B
+ + | || |
| |
\ .\ .
= =
| |
|
+
\ .
96


De esta manera entonces, en términos generales, la prueba exacta de Fisher para
una tabla de contingencia de 2x2 es:




= = = =
1 , 1
! ! ! ! !
! ! ! !
) ( ); (
0 , 0 2 , 2 1 , 2 2 , 1 1 , 1
1 , 0 1 , 0 0 , 2 0 , 1
N x
F
N N N N N
N N N N
x X dondeP x X P P

La hipótesis de nulidad es la independencia (es decir la asociación es la esperable
por simple azar) vs. H
1
: existe una asociación mayor (una cola) o distinta (dos colas) que
la esperada por azar. En el caso de una cola la probabilidad de error I es p = P y en el
caso de dos colas p = 2P. Rechazamos Ho si p < 0.05.

Ejemplo 2.-

Supongamos que hubo una intoxicación en una comida y pensamos que la
mayonesa estaba contaminada. Hacemos un estudio de los casos obteniendo:

Intoxicados No intoxicados Total
Comieron mayonesa 8 2 10
No comieron
mayonesa
2 4 6
10 6 16

Planteamos la hipótesis de una asociación positiva entre la mayonesa y la
intoxicación. Es decir, la hipótesis de nulidad es que la probabilidad de intoxicación es
la misma entre los que comieron y no comieron mayonesa (P = 10/16 = 0.625).

Calculamos 084 . 0
! 16 ! 4 ! 2 ! 2 ! 8
! 6 ! 10 ! 6 ! 10
) 8 ( =
⋅ ⋅ ⋅ ⋅
⋅ ⋅ ⋅
= = X P

Ahora deberíamos sumarle P(X=9) y P(X=10), para calcular finalmente P
F
=
P(X=8) + P(X=9) +P(X=10). Sin embargo, como P
F
va a dar un valor mayor que 0.084,
que a su vez es mayor que 0.05 = α, debemos aceptar H
0
. Es decir, no existe suficiente
evidencia para afirmar que existe una asociación entre la mayonesa y la intoxicación.

VII.2.- Bondad de ajuste de χ
2
Cuando es necesario saber si una determinada variable
tiene una cierta distribución, se realiza la prueba de bondad de ajuste.

Si agrupamos en n intervalos los valores de una variable aleatoria X, siempre será
posible establecer una tabla del tipo:
97

Intervalo Frecuencia (n
i
)
observada
Frecuencia esperada (e
i
)
(yo,y
1
) n
1
E
1

(y
1
,y
2
) n
2
E
2

.......... ....... .......
Total N N

Las frecuencias esperadas corresponden a e
k
= N·P(y
k-1
≤ x ≤ y
k
), donde las
probabilidades son calculadas de acuerdo a la función de densidad de probabilidades o la
función de cuantía de la distribución esperada. El caso más habitual es esperar una
distribución normal. Sin embargo para calcular estas probabilidades es siempre
necesario estimar una cantidad p de parámetros, a partir de la muestra, por ejemplo, µ y
σ (p = 2). Es por esto que la distribución χ
2
usada para probar la bondad de ajuste es:



=
− −
e
e o
p n
2
2
1
) (
χ

Observamos que en este caso el número de grados de libertad es igual al número
de intervalos menos 1 y menos el número de parámetros estimados a partir de la
muestra.

Ejemplo 3.-

Supongamos que estamos interesados en saber si cierta variable tiene una
distribución normal y se tiene la serie agrupada de la siguiente forma:

Intervalo n
i

2-4 20
4-6 25
6-8 30
8-10 10
10-12 12
12-14 3
Total 100

Aquí las frecuencias relativas (n
i
) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribución
normal. Mediante las técnicas aprendidas en estadística descriptiva podemos calcular el
promedio (6.56) y la desviación estándar (2.74). A continuación debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo
98
P(2≤x≤4) = P((2-6.56)/2.74 ≤ z ≤ (4-6.56)/2.74) = 0.1277. P(4≤x≤6) =0.2445; P(6≤x≤8)
= 0.2778; P(8≤x≤10) = 0.1977; P(10 ≤x≤12) = 0.0799 y P(12 ≤x≤14) = 0.0204.
Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8;
19.8; 8.0 y 2.0 .

Intervalo Observado
s
Esperados
2-4 20 12.3
4-6 25 24.5
6-8 30 27.8
8-10 10 19.8
10-12 12 8.0
12-14 3 2.0
Total 100

La hipótesis de nulidad H
0
corresponde a un ajuste a una distribución normal
sujeta a dos condiciones (p = 2): Promedio 6.59 y desviación estándar 2.74. Entonces
podemos calcular X
2
:

36 . 12 ..........
8 . 27
) 8 . 27 30 (
5 . 24
) 5 . 24 25 (
3 . 12
) 3 . 12 20 (
2 2 2
2
1 2 6
= +

+

+

=
− −
χ

Entonces como el valor crítico para tres grados de libertad y α = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hipótesis de nulidad. Es decir esta variable
no tiene distribución normal.

VII.3. El χ
2
para proporciones

En ocasiones es necesario comparar dos o más proporciones, lo cuál puede
hacerse con una prueba de χ
2
. Ya hemos visto que cuando la hipótesis es de dos colas es
posible comparar 2 proporciones a través de Z = N(0,1) o bien con un χ
2
. En el caso de
más de dos proporciones puede usarse:

q p
p p n
n
i i
n


=

1 2
1
) (
χ en donde n p n p
i
i
/
1

=

Observamos que este caso es enteramente equivalente al χ
2
para una tabla de
contingencia.

99
VII.4.- La prueba G

Una aproximación alternativa a la prueba de χ
2
para bondad de ajuste y tablas de
contingencia es la prueba del logaritmo del cuociente de verosimilitudes (log-
likelihood ratio), prueba 2I, o prueba G.

Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f
1
éxitos y f
2
fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si están en
relación a:b. Si fuera así la probabilidad de un éxito sería p = a/(a+b) y de fracaso q =
b/(a+b). Sin embargo, las proporciones observadas son: ) /( ˆ ); /( ˆ
2 1 2 2 1 1
f f f q f f f p + = + = .

Entonces la probabilidad de obtener f
1
éxitos basados en la hipótesis de nulidad
es:
2 1
1
f f
q p
f
n
p
|
|
.
|

\
|
= y la probabilidad de obtener f
1
éxitos basados en lo observado es:
2 1
1
ˆ ˆ
f f
q p
f
n
p
|
|
.
|

\
|
= . Así el cuociente entre estas probabilidades (verosimilitud; L) es:
2 1
ˆ ˆ
f f
q
q
p
p
L
|
|
.
|

\
|

|
|
.
|

\
|
= y considerando que las frecuencias f
i
= np
i
se obtiene:

2
2
2
1
1
1
ˆ ˆ
f f
f
f
f
f
L
|
|
.
|

\
|

|
|
.
|

\
|
= , y sacando logaritmo natural:


⋅ = = + =
a
i i i
f f f f f f f f f L )
ˆ
/ ln( ... )
ˆ
/ ln( )
ˆ
/ ln( ) ln(
2 2 2 1 1 1

En esta expresión se puede reconocer la definición de información (I) de Shannon.
Por otra parte s ha demostrado que G = 2I = 2ln(L) sigue una distribución χ
2
a-1
.
100


Ejemplo 4.- Supongamos que en un experimento genético se espera una relación
3:1 para un cierto carácter y se ha obtenido: 80 con el carácter y 10 sin el carácter. En
tonces se propone H
0
: las frecuencias se encuentran en relación 3:1. Y podemos calcular:

Resultados Observados

Propoción
observada

Proporción
esperada
Frecuencia
Esperada
Razón
f obs/f esp
Producto
fr x
ln(razón)
Con el
carácter
80 8/9 3/4 67.5 1.18 13.59
Sin el
carcácter
10 1/9 1/4 22.5 0.44 -8.11
Total 90 1 1 90 lnL=5.48

Entonces G = 2x5.48 = 10.96 y como sigue una distribución χ
2
, en este caso con 1
grado de libertad, es fácil ver que p << 0.01 y entonces rechazamos H
0
.
101

Ejercicios de análisis de datos enumerativos

1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas
o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus
clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. ¿Qué le diría
usted al peluquero?.

SEXO\COLOR
PELO
Negro Castaño Rubio Colorín
Masculino 32 43 16 9
Femenino 55 65 64 16

R: χ
2
3
= 8.99; p < 0.05. Existe asociación entre el color del pelo y el sexo.

2. La Secretaría de Estudios de la facultad necesita saber si existe alguna relación entre
el nivel de deserción de los alumnos de primer año y el hecho que hayan tomado
determinado curso. Por eso, la secretaria acudió a un estadístico con los datos
presentados en la siguiente tabla, y le pidió que le diera una respuesta. ¿Qué cree que
le respondió a la secretaria?

Toma el curso No toma el curso
Se va 37 31
Se queda 26 40

R: χ
2
1
= 3.03; p > 0.05. No hay evidencias que así sea.

3. Se desea averiguar si existe alguna relación entre el biotipo de un individuo y la
probabilidad de que tenga alguna lesión gástrica. Para eso se analizó el grupo
sanguíneo de individuos sanos (control), con cáncer gástrico y con úlcera gástrica,
obteniéndose los siguientes resultados:


Biotipo Cáncer Úlcera Control Total
Ectomórfico 383 983 2892 4258
Mesomórfico 416 679 2625 3720
Endomesomórfico 84 134 570 788
Endomórfico 25 43 226 294
Total 908 1839 6313 9060


102
¿Son eventos independientes el grupo sanguíneo y la lesión gástrica?

R: No son independientes. χ
2
6
= 48.61; p << 0.05.

4. En un experimento para determinar el modo de herencia de un mutante, se
obtuvieron 146 descendientes del tipo normal y 30 mutantes cuando se cruzaron
las moscas de la generación F
1
. Comprobar si los datos concuerdan con la
hipótesis de que la proporción de individuos normales y mutantes es 3: 1.

R: χ
2
1
= 5.94; p > 0.05. No concuerdan.

5. En un estudio sobre polimorfismo de inversiones cromosómicas en el saltamontes
Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la
composición de una población en Royalla ‘B’ en 1958. ¿Están las frecuencias de
las tres combinaciones del cromosoma EF asociadas a las frecuencias de las tres
combinaciones del cromosoma CD?

R: No. Son independientes. χ
2
4
= 6.3; p > 0.05

6. En la localidad A se ha realizado una captura exhaustiva de serpientes de la
especie S. Un examen de los 167 machos adultos que han sido recogidos revela
que 35 de éstos presentan bandas pálidas alrededor del cuello. De la localidad B, a
30 kilómetros de distancia de la A, se obtuvo una muestra de 27 machos adultos
de la misma especie, 6 de los cuales presentaban bandas. ¿Cuál es la probabilidad
de que ambas muestras procedan de la misma población estadística con respecto a
la frecuencia de bandas?
R: p = 0.88.
St/St St/B1 B1/B1
Td/Td 22 96 75
St/Td 8 56 64
St/St 0 6 6
Cromosoma CD
Cromosoma EF
103

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA

Las dócimas que hemos mencionado hasta ahora, siempre presuponen
distribuciones particulares de la variable aleatoria, o bien sus hipótesis especifican
parámetros o distribuciones. Por esto la estadística que las usa se denomina estadística
paramétrica. Pero, ¿qué sucede cuando no se cumplen los supuestos necesarios para
tales dócimas?

Existe un conjunto de dócimas denominadas no-paramétricas o de distribución
libre que vienen a constituirse en alternativas para éstos casos o para ser usadas
directamente. Sin embargo es interesante notar que es diferente no especificar
parámetros que no suponer una cierta distribución. Si se clasifican las dócimas se puede
establecer el siguiente cuadro:

Supuestos de
Distribución
Sin supuestos de
Distribución
Especifica parámetro Ej: t de Student Ej: Dócima Binomial
No especifica parámetro Ej: Wilcoxon Ej: Kolmogorov-
Smirnov

Esta estadística se utiliza fundamentalmente cuando no se cumplen los supuestos
de la estadística paramétrica y, lo que en general va ligado, cuando el número muestral
es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para números bajos y
la falta de supuestos acerca de distribuciones o parámetros. Sin embargo, tiene algunas
críticas: i) con n > 10 en general se usan las distribuciones asintóticas de los estadígrafos
y no sus propias distribuciones, y éstas son paramétricas, ii) son dócimas con menor
potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el
nivel de significación, e iv) en general se basan en la transformación de los valores a
“rangos”, siendo ésta última transformación irreversible y anisométrica (no conserva las
distancias).

Existen alternativas no-paramétricas para una muestra (Pruebas de Mediana,
Dócimas Binomiales), pero las más usadas son las alternativas a las pruebas para 2
muestras o las alternativas para el análisis de la varianza (ver más adelante).







104

VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras

Se pueden resumir en el siguiente cuadro:

Muestras pareadas, distribución asimétrica SIGNOS DE FISHER
Muestras pareadas, distribución simétrica RANGOS SIGNADOS DE WILCOXON
Muestras independientes SUMA DE RANGOS DE WILCOXON-
MANN-WHITNEY
Datos enumerativos McNEMAR


Prueba de los signos de Fisher

En esta prueba se comparan dos muestras [x
i
] e [y
i
] y se define una diferencia
poblacional δ
i
= x
i
-y
i
= θ + ε
i
, donde ε
i
representa el error de muestreo. Entonces las
hipótesis pueden ser a) Ho: θ = 0 vs H
1
: θ ≠ 0, b) Ho: θ ≤ 0 vs. H
1
: θ > 0 o c) Ho:θ ≥.0
vs. H
1
: θ < 0. Se define además d
i
como la diferencia muestral d
i
= x
i
-y
i
y una variable
auxiliar b
i
que es 0 si d
i
≤ 0 y 1 si d
i
> 0.

El estadígrafo es:

=
i
b B

Observamos inmediatamente que B corresponde al número de ocasiones de un
total de “n” en que x
i
> y
i,
y, que al azar se esperaría que fuera el 50%. Entonces es
posible calcular directamente la probabilidad de calcular esto mediante una distribución
binomial (de aquí es que se denomina B). Afortunadamente no hay que hacer ningún
cálculo y éstas probabilidades se encuentran tabuladas para el nivel de significación (α),
el tamaño muestral (n) y la probabilidad (p) que en nuestro caso es p = 0.5 (50%):
b(α,n,0.5) .

Si Ho es del tipo a), rechazamos Ho si el valor calculado de B ≥ b(α,n,0.5) o
B ≤ n -b(α,n,0.5) , si es del tipo b), rechazamos Ho si B ≥ b(α,n,0.5) y si es del tipo c)
entonces rechazamos Ho si B ≤ n - b(α,n,0.5) .

Ejemplo 1.-

Estamos interesados en el efecto de cierto fármacos sobre la presión arterial como
en el ejemplo VI.6. Obteniendo la tabla:



105
Individuos Antes (x
1
) Después (x
2
)
1 100 95
2 95 95
3 80 85
4 90 80
5 98 90
6 105 95
7 110 95
8 100 92
9 90 80
10 110 93

Se propone que el fármaco baja la presión, es decir Ho: θ ≤ 0 vs. H
1
: θ > 0.
Entonces creamos las variables auxiliares d = x
1
-x
2
y b, Obteniendo:

Individuos Antes (x
1
) Después (x
2
) D B
1 100 95 5 1
2 95 95 0 0
3 80 85 -5 0
4 90 80 10 1
5 98 90 8 1
6 105 95 10 1
7 110 95 15 1
8 100 92 8 1
9 90 80 10 1
10 110 93 17 1

Entonces, B = ∑b
i
= 8. El valor crítico para n = 10 es 8 con α = 0.054, por lo que
rechazamos H
0
y afirmamos que el fármaco baja la presión. Observamos que como la
distribución binomial es discreta no se encuentra exactamente el nivel 0.05 para α, y en
cierta medida queda a criterio del investigador la aceptación o rechazo de H
0
(esto
ocurre en general en toda la estadística no-paramétrica). Si se es riguroso, para B = 8, p
= 0.054 y este valor es mayor que 0.05, por lo que deberíamos aceptar H
0
. Sin embargo,
las dócimas binomiales son de baja potencia y, entonces aceptando H
0
con toda
seguridad estaríamos cayendo en el error estadístico de tipo II.

Prueba de los rangos signados de Wilcoxon

En esta prueba se considera la misma situación anterior y las mismas hipótesis,
pero esta prueba requiere una distribución simétrica de d
i
lo que se puede apreciar
106
observando su histograma de frecuencias (o bien realizando una prueba de simetría de
GUPTA, fuera del alcance de este libro).

En esta prueba además de considerar la variable b
i
, se ordenan de menor a mayor
los valores absolutos de d
i
(,d
i
,) y se les asigna un orden (rango: Ri), como por ejemplo,
en la siguiente tabla:

d
i
R
i

-5 5
3 3
0 1
-1 2
4 4

En esta dócima se define el estadígrafo T = ∑b
i
R
i
.

Este valor se compara con un valor crítico tabulado Tc(α,n). Si Ho es del tipo a)
rechazamos Ho si T ≥ Tc(α,n) o s T ≤ n(n+1)/2 - Tc(α,n), si es del tipo b) rechazamos
Ho si T ≥ Tc(α,n), y si es del tipo c) cuendo T ≤ n(n+1)/2 - Tc(α,n).

Ejemplo 2.-

Usaremos el mismo caso anterior. Ahora agregamos la asignación de rangos a las
diferencias “d”:

Individuos Antes (x
1
) Después (x
2
) D Rangos(R) B
1 100 95 5 2.5 1
2 95 95 0 1 0
3 80 85 -5 2.5 0
4 90 80 10 7 1
5 98 90 8 4.5 1
6 105 95 10 7 1
7 110 95 15 9 1
8 100 92 8 4.5 1
9 90 80 10 7 1
10 110 93 17 10 1

Observamos que en el caso de empates se les asigna el rango promedio. Por
ejemplo hay tres valores 10, que deberían ocupar los rangos 6, 7 y 8, por lo que a los tres
se les asigna (6+7+8)/3 = 7.

107
Ahora se puede calcular T = ∑R
i
b
i
= 2.5 + 7 + 4.5 + 7 + 9 + 4.5 + 7 + 10 = 51.5.

Como este valor es mayor al valor crítico……….. Llegamos a la misma
conclusión anterior.

Prueba de la suma de rangos de Wilcoxon- Mann-Whitney

En este caso tenemos dos muestras independientes [x
i
] e [y
i
] de tamaños n
1
y n
2
.
Se propone que x
i
= ε
i
y que y
i
= ε
i
+ ∆, donde ε
i
es el error experimental y ∆ da cuenta
de las diferencias (efecto del tratamiento). Como antes, las hipótesis pueden ser a) Ho: ∆
= 0 vs H
1
: ∆ ≠ 0, b) Ho: ∆ ≤ 0 vs. H
1
: ∆ > 0 o c) Ho:∆ ≥.0 vs. H
1
: ∆ < 0.

En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les
asigna un rango (R
i
) y se consigna el estadígrafo:



=
o
n
i
R T
1
1


Aquí es importante indicar que la suma se realiza sobre aquella muestra de tamaño
n
o
que tiene el menor rango promedio.

Este valor se compara con un valor crítico tabulado w(α,n
1
,n
2
) donde n
1
es el
número muestral menor (no necesariamente igual a n
o
) y n
2
el mayor. Si Ho es del tipo
a) rechazamos Ho si T
1
≥ w(α,n
1
,n
2
) o s T
1
≤ n
o
(N+1) - w(α,n
1
,n
2
), si es del tipo b)
rechazamos Ho si T
1
≥ w(α,n
1
,n
2
), y si es del tipo c) cuando T
1
≤ n
o
(N+1) - w(α,n
1
,n
2
).

En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadígrafos
diferentes, pero después se demostró que la U de Mann-Whitney era U = T
1
-n
o
(n
o
+1)/2 y
por tanto ambas dócimas son equivalentes.

Ejemplo 3.-

Supongamos que se quieren comparar los pesos de dos especies A y B y se
plantea la hipótesis que A pesa más que B. Se realiza un estudio obteniendo:







108



Especie A (masa: g) Especie B (masa: g)
30 26
28 28
27 30
32 25
29 24
33 22
28 25
26
28
Planteamos la hipótesis Ho: ∆ ≤ 0 vs. H
1
: ∆ > 0 y asignamos los rangos:

Especie A (masa: g) Rango Especie B (masa: g) Rango
30 13.5 26 5.5
28 9.5 28 9.5
27 7 30 13.5
32 15 25 3.5
29 12 24 2
33 16 22 1
28 9.5 25 3.5
26 5.5
28 9.5
Suma de rangos 82.5 53.5
Rango promedio 11.8 5.9

Observamos que n
1
= 7; n
2
= 9 y que n
o
= 9, y entonces T = 53.5. A este valor le
corresponde una probabilidad de error de tipo I < 0.01, por lo que rechazamos H
0.
Es
decir, afirmamos que la especie A pesa más que la especie B.

Dócima de McNemar

Esta prueba está específicamente diseñada para situaciones antes-después cuando
la variable respuesta es un dato enunerativo, como por ejemplo ver el efecto de una
campaña anti-cigarrillo . En este caso es útil la tabla de doble entrada:

DESPUÉS (+) DESPUÉS (-)
ANTES (+) A B
ANTES (-) C D
109

Como vemos en esta tabla sólo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hipótesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para éstas celdas se puede
realizar un prueba χ
2
1
que después de algún trabajo algebraico se reduce a:

) (
) (
2
2
1
C B
C B
+

= χ o
) (
) 1 (
2
2
1
C B
C B
+
− −
= χ si se quiere corregir la distorsión provocada por
aplicar una distribución continua a una variable discreta.

Ejemplo 4.-

Se realizó una campaña antidrogas a un grupo de jóvenes obteniendo el siguiente
resultado:

(+) después de la
campaña
(-) después de la
campaña
Total
(+) antes de la
campaña
15 8 23
(-) antes de la
campaña
2 35 37
17 43 50

Se plantea H
0
: No hay efecto (B = C) vs H
1
: Si se produjo efecto.

Calculamos: 5 . 2
) 2 8 (
) 1 2 8 (
2
2
1
=
+
− −
= χ y como el valor crítico para α = 0.05 es
3.84 y 2.5 < 3.84, aceptamos H
0
. Es decir la campaña no tuvo éxito.

110

Ejercicios de estadística no-paramétrica

1. En un estudio sobre empleo de Sildenafil en pacientes hipertensos se utiliza una dosis
de 6.25 mg. Se anota la presión arterial sistólica de cada paciente antes que reciba el
fármaco (X) y setenta minutos después de que haya sido administrado (Y). ¿Altera la
presión arterial el uso del Sildenafil?

X (antes) Y (después) d
i
b
i

175 140
179 143
165 135
170 133
160 162
180 150
177 182

R: No hay evidencia; B = 5; p > 0.05.

2. Se realiza una investigación sobre los efectos del ejercicio físico sobre pacientes
cardiópatas, midiendo el máximo de oxígeno consumido por cada paciente antes de
comenzar el entrenamiento y después de seis meses de régimen. Se obtuvieron los
siguientes datos (suponga simetría):

Sujeto Antes Después
1 48 40
2 25 26
3 46 57
4 40 30
5 43 50
6 42 55
7 23 25
8 30 55

¿Existe diferencia en el oxígeno consumido luego del entrenamiento?

R: No hay evidencia; T = 9; p = 0.2.

3. Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. En
este estudio se consideró el efecto de la privación de la sustancia sobre el contenido
proteínico total de las raíces nerviosas de O. degu. Se comparan dos grupos: las
111
nacidas de hembras deficientes en la sustancia (en el útero) y las nacidas de hembras
normales, pero amamantadas por hembras deficientes en la sustancia (en la leche). Se
obtienen los siguientes datos:

Contenido proteínico total (mg de proteína por raíz de ganglio dorsal)

EN EL ÚTERO En la leche
0.12 0.19
0.19 0.21
0.17 0.21
0.20 0.23
0.09 0.20
0.13 0.22
0.21

¿Indican estos datos, a un nivel α=0.05, que el contenido proteínico total tiende a ser
menor entre las ratas privadas de la sustancia X en el útero que entre las privadas de ella
en la leche?

R: Si. T
1
= 33; p < 0.05.
112
IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION
Y REGRESION
113
IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA)

IX.1.-El Problema de Bonferroni

Muchas veces en ciencias es necesario comparar más de dos muestras, como por
ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo
4 o 5 condiciones experimentales reguladas. En este caso, la primera tentación es hacer
varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede
ser un número elevado de comparaciones, pues si hay N muestras, el número de pruebas
que se deben hacer es:


Sin embargo, este no es el único problema. Analicemos lo siguiente:

Si realizamos una vez la prueba, la probabilidad de cometer error de tipo I es
P(E
1
) = α, es decir la probabilidad de no cometer error de tipo I es P(noE
1
) = 1-α.

Si la prueba se realiza k veces entonces la probabilidad de no cometer ningún
error I es P(noE
k
) = (1-α)
k
y entonces la probabilidad de cometer al menos un error I en
k repeticiones de una prueba es P(al menos 1 E
k
) = 1-(1-α)
k
= 1 - [1-kα + (k!/(k-
2)!2!)α
2
-.........]. Y, como α
n
≈ 0 para n ≥ 2, porque α es pequeño, entonces P(al menos 1
E
k
) ≈ kα. En la siguiente tabla vemos lo que puede significar esto para α = 0.05:

K 1 2 3 5 10
P(al menos
1 en E
k
)
0.05 0.09 0.14 0.23 0.4

Observamos que si tenemos 3 muestras k = 3 y tendríamos probabilidad de error I
p = 0.14 (14%), con 4 muestras k = 6 y p = 0.3 (30%) etc.

Sin embargo Bonferroni nos da una solución en el caso de pocas muestras: Si se
quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel α =
0.05, entonces podemos asegurar esto trabajando en cada una de las pruebas con un
nivel de significación α* = α/k. Aunque este sistema es muy restrictivo pues restringe
mucho α, puede ser muy útil para bajo número de muestras (hasta 4 aproximadamente).
Esto se conoce como la corrección de Bonferroni. Por ejemplo, si se van a realizar 4
comparaciones y se quiere una error de tipo I de 0.05, entonces en cada comparación se
debería permitir a lo sumo un error p = 0.05/4 = 0.0125.
2
N
k
| |
=
|
\ .
114

IX.2.- Diseño experimental

El diseño experimental en términos estadísticos se refiere al acoplamiento entre la
lógica de un diseño experimental científico y el método estadístico de análisis de este
diseño. Es muy habitual que en ciencias encontremos muy buenos diseños científicos
con malos análisis desde la perspectiva estadística, o simplemente diseños para los
cuales la estadística actual es insuficiente o parcial.

En un experimento en general tenemos una o varias variables respuesta o
dependientes, y variables cualitativas independientes que denominamos factores o
vías. Por ejemplo, puede ser interesante estudiar el efecto de las estaciones del año
(factor) sobre el metabolismo (variable respuesta).

Los factores pueden ser 1 (1 factor o 1 vía), 2 (2 factores o 2 vías) o 3 o más,
hablando en este caso de diseño multifactorial. Las categorías en que se divide cada
factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de
los factores se denominan tratamientos. Por ejemplo en la siguiente tabla se muestra
una cierta variable respuesta X frente a diferentes condiciones:

TEMPERATURA
BAJA MEDIA ALTA
HUMEDAD ALTA ------- ------- --------
BAJA ------- ------- --------

En este caso la variable respuesta es X, y se trata de un diseño de dos factores:
temperatura y humedad. El factor temperatura tiene tres niveles: baja, media y alta, y el
factor humedad tiene dos: alta y baja. El número de tratamientos es 6 (2x3). A las
unidades muestrales dentro de cada tratamiento se les denomina réplicas.

Cuando los niveles de un factor son todos los posibles, en general fijados por el
experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando
los niveles son sólo una muestra de las categorías posibles se dice que es un modelo II o
de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un
modelo mixto. Así por ejemplo, si nos interesa el efecto de la altitud sobre el
metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de
tipo II, pues las localidades son sólo una muestra de todas las posibles alturas. Si en
cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el
investigador, entonces es un modelo de tipo I.



115
IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía).

En este caso, el más simple, se tiene un factor con varios niveles y una variable
respuesta. Como sólo hay un factor, los niveles coinciden con los tratamientos.

Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar
mediante una prueba de bondad de ajuste de χ
2
o bien Kolmogorov-Smirnov;
independencia que debe asegurarla el investigador mediante un muestreo adecuado; y
homocedasticidad que se puede probar mediante una dócima de Bartlett o bien una
dócima de Hartley, habitualmente disponibles en los programas estadísticos
computacionales.

Modelo El modelo que se plantea es que cada valor de la variable repuesta y
ij
se puede
expresar como la suma entre un promedio paramétrico poblacional µ, un efecto
provocado por el tratamiento (τ
i
) y el error experimental o residual (ε
ij
) Esto se
conoce como el supuesto de aditividad. De esta manera τ
i
= µ
i
-µ, mide el efecto
provocado sobre y
ij
por el tratamiento. El modelo se escribe:

y
ij
= µ + τ
i

ij


Notación Es habitual en el ANOVA usar la notación de la siguiente tabla:

FACTOR
T
1
T
2
..... Tt TOTAL
y
11
y
21
..... y
t1

y
12
y
22
..... y
t2

.... ..... ...... .....
y
1n
y
2n
....... y
tn

TOTALES Y
1o
Y
2o
..... Y
to
Y
oo

PROMEDIOS y
1o
y
2o
..... y
to
y
oo


Observamos que, al contrario que la notación habitual de matrices donde el
subíndice i indica la fila en este caso indica el tratamiento que va en las columnas.
Observamos además que se usan las minúsculas para los promedios y las mayúsculas
para los totales. Habiltualmente al término Y
oo
se le denomina gran total.

Partición de la varianza Trabajemos algebraicamente el término ∑(y
ij
-y
oo
)
2
que
corresponde a la suma de desviaciones cuadráticas en torno al promedio (y
oo
) llamado
simplemente suma de cuadrados total (SCT) y que corresponde al numerador de la
varianza (s
2
):

116
∑(y
ij
-y
oo
)
2
= ∑(y
ij
-y
io
+y
io
- y
oo
)
2
= ∑(y
ij
-y
io
)
2
+ ∑(y
io
-y
oo
)
2
+ 2∑(y
ij
-y
io
)(y
io
-y
oo
)

∑(y
ij
-y
oo
)
2
= ∑(y
ij
-y
io
)
2
+ ∑(y
io
-y
oo
)
2
, pues el último término es 0.

En palabras, la suma de las desviaciones cuadráticas en torno al promedio general
(SCT) se puede descomponer aditivamente en la suma de las desviaciones cuadráticas
de cada valor individual al promedio de su tratamiento (suma de cuadrados dentro de
tratamiento: SCD) y la suma de las desviaciones cuadráticas de cada promedio de
tratamiento al promedio general (suma de cuadrados entre tratamientos: SCE): SCT
= SCD + SCE. Esto es lo que se conoce como partición de la varianza y es la base de
todo el análisis de la varianza. Hay que hacer notar que esta partición y aditividad se
produce a nivel de la suma de cuadrados y no de la varianza, pues la varianza total es:
S
2
= ∑(y
ij
-y
oo
)
2
/(nt-1), la varianza dentro de tratamientos es CMD= ∑(y
ij
-y
io
)
2
/(t(n-1))
(intravarianza) y la varianza entre tratamientos es CME = ∑(y
io
-y
oo
)
2
/(t-1)
(intervarianza).

Esquema general del ANOVA

Definición Llamaremos Fuente de variación a las fuentes que originan
variabilidad en la variable respuesta. Estas en general corresponden a la variabilidad
originada en el error experimental (ε) y a aquella provocada por los niveles de los
factores y sus interacciones.

El esquema general del ANOVA es una tabla que incluye sucesivamente las
fuentes de variación (FV), las sumas de cuadrados (SC), los grados de libertad (que
corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o
medias cuadráticas (CM), el valor del estadígrafo F y la probabilidad de error I (p). En
un ANOVA de una vía, balanceado (igual tamaño muestral en cada tratamiento), ésta es:


FV SC Gl CM=SC/gl F P
T (entre)
nt Y n Y
i
i
/ ) / (
2
00
2
0


t-1 F =
CME/CMD

ε (dentro o
error)
∑ ∑
− = ∆
i
i
ij
ij
n Y y /
2
0
2

t(n-1)
TOTAL
nt Y y
ij
ij
/
2
00
2



nt-1

Como dato práctico, observamos que para los cálculos en una tabla de ANOVA,
se necesitan tres cálculos sencillos:

117

i
i
n Y ) / (
2
0


j i
ij
y
,
2
nt Y /
2
00


También observamos que ∆ no se calcula, sino que se obtiene por la diferencia ∆
= SCT – SCE

Esperanza de los cuadrados medios y la dócima F.

Es posible demostrar que el valor esperado o esperanza del cuadrado medio del
error (dentro) es E[CMD] = σ
2
, es decir es la varianza poblacional. Además si el modelo
del diseño es de tipo I E[CME] = σ
2
+ n ∑(τ
i
-τ)
2
/(t-1) = σ
2
+φ(τ) y si es de tipo II
E[CME] =σ
2
+nσ
2
τ
.La interpretación de esto es que se espera que la desviación
cuadrática entre tratamientos sea similar a la desviación cuadrática dentro de
tratamientos más un componente añadido por los tratamientos (efecto del tratamiento).

En forma natural surge la idea de realizar el cuociente F = CME/CMD, lo que
estadísticamente tiene gran sentido por cuanto CMD/σ
2
tiene distribución χ
2
t(n-1)
y
CME/σ
2
tiene distribución χ
2
t-1
por lo que F = CME/CMD tiene distribución de
Snedecor F
t-1,t(n-1)
. Así, es posible docimar Ho: τ
i
= τ
j
∀ i,j vs. H
1
: τ
i
≠τ
j
para algún par i,j
mediante el valor de F.

Ejemplo 1.-

Se quiere saber el efecto de ciertos tratamientos A, B y C sobre la presión arterial
diastólica probándolos en tres grupos de individuos, obteniendo:

A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78

Se plantean las hipótesis H
0
: µ
A
= µ
B
= µ
C
vs H
1
: al menos un par de promedios
distintos.

Se construye la tabla básica:



118
A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78
Total (Y
i0
) 575 569 488
Promedio (y
i0
) 95.8 94.8 81.3

Calculamos: Y
00
= 575 + 569 + 488 = 1632.

148755 6 / ) 488 569 575 ( ) / (
2 2 2 2
0
= + + =

i
i
n Y
149430 78 ... 76 80 ..... 90 100 ..... 100 110
2 2 2 2 2 2 2
,
2
= + + + + + + + =

j i
ij
y
147968 3 6 / 1632 /
2 2
00
= ⋅ = nt Y

Entonces construimos la tabla de ANOVA:

FV SC Gl CM=SC/gl F
2,15
P
T (entre)
nt Y n Y
i
i
/ ) / (
2
00
2
0


=148755-147968 =
787
t-1 = 2 787/2 =
= 393.5
F =
CME/CMD
= 393.5/45 =
= 8.74

ε (dentro o
error)
∑ ∑
− = ∆
i
i
ij
ij
n Y y /
2
0
2

= 1462 – 787 = 675
t(n-1) =
15
675/15 =
= 45

TOTAL
nt Y y
ij
ij
/
2
00
2



=149430-147968 =
1462
nt-1 =
17
1462/17 =
= 86


El valor crítico de F
2,15
con α = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H
0
y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadístico, a continuación habría que hacer comparaciones múltiples
a posteriori.




119
Transformaciones

El análisis de la varianza es un análisis muy poderoso y que conduce a resultados
confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad
lo que es especialmente válido para números de replicas iguales en cada tratamiento
(modelos balanceados) y números muestrales grandes. Por esto se dice que el ANOVA
y en general toda la estadística paramétrica, son robustos. Sin embargo, en ciencias
siempre interesa tener el mínimo de violaciones posibles de los supuestos por lo que a
veces es necesario transformar la variable.

Cuando existe violación de la normalidad, es útil el siguiente teorema: En
cualquier distribución de una variable aleatoria “y” tal que su varianza V se puede
expresar como una función de la esperanza E: V = Φ(E), entonces existe una
transformación:


Φ
= =
) (
) (
y
dy
y f T cuya varianza y esperanza son independientes. El resultado es una

nueva variable, con distribución normal.

Por ejemplo en una distribución de Poisson V = E y entonces, f(y) = ∫dy/√y = 2√y.
De esta manera si una variable tiene distribución de Poisson, conviene aplicarle una
transformación “raíz cuadrada” para su análisis con ANOVA. De esta manera surgen
algunas transformaciones recomendadas:

Distribución
Φ(y)
Transformación f(y)
Normal C = constante Y
Binomial (proporciones) y(1-y)
arcsen√(y)
Poisson (sucesos raros) Y
√y
Sin homocedasticidad y
2
ln(y) o ln(y+1)
y
4
1/y o 1/(y+1)
Binomial negativa arcsen(y)
Decreciente y
2


IX4.- Comparaciones múltiples

En general el ANOVA no termina con el rechazo de Ho. Con esto sólo sabemos
que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a
menudo (sobre todo en modelo de efectos fijos) interesa saber cuál o cuales de los
tratamientos produce el efecto. En este caso es necesario realizar comparaciones
múltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e
120
ii) definidas a posteriori. Aquí es importante notar que a priori o a posteriori no se
refiere a si se ha hecho o no primero el ANOVA, sino al diseño experimental. A veces
por diseño sólo interesa comparar los tratamientos contra un control (a priori), o sólo
realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan
todas las comparaciones para interpretar después (a posteriori).

Comparaciones a priori

Contrastes ortogonales La idea en este caso es realizar sólo comparaciones
independientes entre sí (ortogonales). Para esto se define un contraste Λ
j
=∑c
ij
τ
i
, donde
c
ij
son constantes que definen el contraste de tal manera que ∑c
ij
= 0. Entonces un
estimador de Λ
j
es L
j
=∑c
ij
y
io
. La hipótesis de nulidad para un contraste es Ho: Λ
j
= 0.
Por ejemplo si se tienen cuatro tratamientos y se quiere comparar el primero con el
tercero se puede elegir c
11
= 1, c
21
= 0, c
31
= -1 y c
41
= 0 y entonces L
1
= y
1o
-y
3o
(la
diferencia de los promedios entre el tratamiento 1 y el 3. Es un contraste porque c
11
+ c
31

= 1-1= 0.

Dos contrastes L
j
y L
k
son ortogonales o independientes si ∑c
ij
.c
ik
= 0. Entonces
un contraste independiente del anterior es L
2
= y
2o
-y
4o
porque c
11
= 1, c
21
= 0, c
31
= -1 y
c
41
= 0 y c
11
= 0, c
21
= 1, c
31
= 0 y c
41
= -1 y entonces ∑c
ij
.c
ik
= 1·0+0·1+(-1)·0+0·(-1) = 0.

Una de las utilidades mayores de los contrastes ortogonales es la posibilidad de
comparar tendencias, por ejemplo si se tienen 4 tratamientos y se quiere evaluar
tendencia lineal, cuadrática o cúbica, basta elegir los c
ij
de acuerdo a la siguiente tabla:


c
ij


Lineal -1 -1 1 1
Cuadrática -1 1 1 -1
Cúbica -1 1 -1 1

El estadígrafo adecuado para probar la hipótesis es una t de Student con los grados
de libertad del error (t
gle
):


=
i i
j
gle
n c CMD
L
t
/
2


Prueba de Dunnet Muchas veces la idea del diseño es comparar los tratamientos
contra un tratamiento control. En este caso el estadígrafo adecuado es t
d
(t,gle,α) de
Dunnet (existen tablas especiales):
121

n CMD
y y
t
control i
d
/ 2
0

=



En este caso y
control
representa el promedio en el tratamiento control.

Prueba de Scheffé Esta prueba se basa en el concepto de contrastes, definidos de
igual manera que antes: Λ
j
= ∑c
i
τ
i
. Sin embargo en este caso no es necesario que los
contrastes sean ortogonales. Si los contrastes son sugeridos por el diseño, es una prueba
a priori, pero si se realizan todas las comparaciones, es a posteriori. Como es posible
ejecutar múltiples contrastes, se recomienda la corrección de Bonferroni. La prueba de
hipótesis (Ho: Λ
j
= 0) se realiza con una distribución F
1-α,t-1,gle
:


⋅ ⋅ −
=

i i
gle t
n c CMD t
L
F
/ ) 1 (
2
2
, 1


Comparaciones a posteriori

Existen muchas pruebas para hacer comparaciones múltiples, sin embargo son dos
las más utilizadas. Ambas están basadas en la distribución del rango “Studentizado”: Q
= (x
max
-x
min
)/s
x
.

Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles,
usando la distribución del rango “Studentizado” Q
1-α,t,gle
:

)
1 1
( ) 2 / (
0 0
,
j i
j i
gle t
n n
CMD
y y
Q
+ ⋅

=

Prueba de Student-Newman-Keuls (SNK) Esta prueba tiene la misma estructura
que la prueba de Tukey, pero considera el número de tratamientos “t”, como un variable.
Por ejemplo, si tenemos cuatro tratamientos (t = 4) y se obtuvo: y
1o
= 27, y
2o
= 19 y
3o
=
15 y
4o
= 13. Como están ordenadas en forma decreciente al comparar y
1o
con y
4o

participan 4 medias adyacentes (t=4), pero al comparar y
1o
con y
3o
sólo participan 3,
entonces t = 3 para esta comparación, y así sucesivamente.

122
Las pruebas a posteriori, se pueden ordenar según su potencia en forma
decreciente: SNK, Tukey y Scheffé. Sin embargo, en la medida que aumenta su
potencia, también aumenta su probabilidad de error de tipo I, por lo que en general, se
recomienda una prueba intermedia (Tukey).

Ejemplo 2.-

Considerando los datos del ejemplo 1 vamos a realizar las comparaciones
correspondientes. Para cada comparación se establece la hipótesis H
0
: µ
i
= µ
j
vs H
1
: µ
i ≠

µ
j
y se realizan los cálculos. Usaremos la prueba de Tukey.

Para comparar A con B:

149 . 0
45
8 . 94 8 . 95
15 , 3
=

= Q

Para comparar A con C:

16 . 2
45
3 . 81 8 . 95
15 , 3
=

= Q

Y para comparar B con C:

01 . 2
45
3 . 81 8 . 94
15 , 3
=

= Q

El valor crítico de Q
3,15
es 3.67, por lo que no es posible rechazar H
0
en ninguno
de los tres casos.

IX.5.- ANOVA de dos vías: la interacción

El análisis de la varianza de dos factores (o vías) es conceptualmente similar. En
este se puede probar en forma independiente el efecto de cada factor sobre la variable
respuesta. El modelo se puede expresar como:

y
ijk
= µ + τ
i
+ β
j
+ ε
k(ij)


Sin embargo, cuando existen dos factores, existe la posibilidad de que éstos
provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el
factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor
2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia
123
de interacción entre los factores. La variabilidad proveniente de la interacción (τβ)
puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe:

y
ijk
= µ + τ
i
+ β
j
+τβ
ij
+ ε
k(ij)


La interpretación de la interacción queda clara en la siguiente figura.




En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los gráficos
superiores no existe interacción, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha sólo del segundo
factor (B). En los gráficos inferiores si existe interacción. En el gráfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el gráfico de la izquierda existe
interacción que podríamos llamar “paradojal”: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este último caso lo más probable es que el test
no arroje significación ni en el factor 1, ni en el factor 2, pero sí efecto de interacción.




124
Ejemplo 3.- Se ha medido una variable fisiológica “x” en tres localidades A, B y
C a dos especies W y Z. Obteniendo:

A B C
W 3
4
5
4
3
7
8
9
8
7
2
3
1
3
3
Z 2
3
2
1
2
4
3
4
3
2
1
2
2
2
1

Valores promedio:

A B C
W 3.8 7.8 2.4
Z 2.0 3.2 1.6

Se desea saber si existen diferencias en “x” entre las especies y el efecto de la
localidad sobre ésta.

Se realiza ANOVA de dos vías: Localidad y Especie, con interacción, obteniendo:

F de V SC Gl CM F P
Localidad 66.1 2 33.0 53.6 << 0.001
Especie 43.2 1 43.2 70.1 << 0.001
Interacción 19.4 2 9.7 15.7 << 0.001
Error 14.8 24 0.62
Total 143.5 29

Del análisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interacción).

El valor de la probabilidad de error I (p: en negritas los valores significativos
(< 0.05)) en las comparaciones múltiples con prueba de Tukey muestra:


125
{1} {2} {3} {4} {5} {6}
A W {1} x .015196 .000138 .828719 .088555 .002275
A Z {2} x .000138 .190434 .963783 .963783
B W {3} x .000138 .000138 .000138
B Z {4} x .599784 .037791
C W {5} x .599784
C Z {6} x

La interpretación es la siguiente: En la localidad B se encuentran valores más altos
de x. La especie Z tiende a tener valores más bajos de x que la especie W. Sin embargo,
esto se manifiesta claramente en las localidades A y especialmente en B donde la
diferencia es muy grande, pero no alcanza a ser significativo en C.

IX.6.- Otros diseños

El análisis de la varianza no sólo es un método de análisis de la información, sino
también establece una forma de compatibilizar el análisis con el diseño del experimento.
Así, por ejemplo, para un diseño que considere tres factores y que en uno de ellos tenga
sub-muestras, existe una estadística adecuada para analizarlo (ANOVA factorial
anidado). A la inversa, conociendo que existe una estadística para analizar un diseño, se
puede adecuar el experimento a tal diseño, como ocurre por ejemplo con el diseño de
cuadrados latinos.

Al analizar un experimento, es importante usar el modelo adecuado a tal diseño,
identificando adecuadamente las fuentes de variación. Si éstas no son identificadas, la
variabilidad de dichas fuentes será incorporada a la variabilidad residual (aumenta
CMD) y por tanto, como esta última se encuentra en el denominador de la F de
Snedecor, tendrá un valor inferior, reduciendo la probabilidad de rechazar Ho, y por
tanto aumentando el error de tipo II. La eficiencia del modelo se puede medir a través de
E = (CMD sin el modelo)/(CMD con el modelo). Si E = 1, el uso del modelo es
irrelevante.

Diseños factoriales Un diseño es factorial, si tiene más de 2 vías.
Conceptualmente es igual a los anteriores, pero incorpora cada vez más posibilidades de
interacción.

Diseño de bloques aleatorizados Muchas veces un experimento exige que los
tratamientos (T) se repitan en distintas parcelas o bloques (B), por ejemplo el uso de tres
fertilizantes en tres lugares. En este caso los tratamientos se distribuyen aleatoriamente
en cada uno de los lugares, y el efecto del lugar es irrelevante. Un ejemplo de este
diseño se puede resumir en la siguiente tabla:
126

B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3

Diseño de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de análisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estímulos (T):

T1 T2 T3
I1
I2
I3
I4

Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseño es necesario excluir a los individuos de respuesta extraña (out-group)
pues violan un supuesto de este diseño: la simetría compuesta. Esta última junto a la
homocedasticidad constituyen el supuesto de esfericidad.

Diseños anidados, encajados o jerárquicos Para entender este modelo conviene
definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad
de muestreo como aquella que constituye una réplica.
En los diseños jerárquicos se consideran sub-niveles dentro de cada tratamiento.
Por ejemplo si estamos estudiando las diferencias en cierta característica de individuos
de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N):


T1

T2

T3

N1 N2 N1 N2 N1 N2



Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son sólo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseño anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las réplicas constituyen sub-muestras.


127

Cuadrados latinos y parcelas divididas (split-plot)

Estos son dos diseños especiales que a veces es necesario usar y se pueden
representar en las siguientes tablas.

El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles:

b1 b2 b3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2

El diseño de parcela dividida corresponde a un diseño de bloques incompleto (no
incorpora todas las combinaciones posibles) en que se mezclan dos tratamientos (T y t) y
un bloque (B):

B1 T1 t1 T3 t1 T2 t1
t2 t2 t2
B2 T3 t1 T2 t1 T1 t1
t2 t2 t2
B3 T2 t1 T1 t1 T3 t1
t2 t2 t2

IX.7.- Alternativas no paramétricas al ANOVA

Afortunadamente la estadística paramétrica, especialmente el ANOVA es muy
robusto, de tal manera que es posible tolerar algunas violaciones a los supuestos,
especialmente en modelos balanceados (n iguales en cada celda) y con número grande
de observaciones. Sin embargo las comparaciones múltiples no son tan robustas, por lo
que a veces es necesario primero usar transformaciones y, si estas no resultan, utilizar
estadística no paramétrica. Esta en general se restringe a diseños con bajo número de
observaciones.

Prueba de Kruskall-Wallis Es la alternativa no-paramétrica de un ANOVA de una
vía. En esta, se transforman todos los valores a rangos y luego se calcula el estadígrafo:

) 1 ( 3
) 1 (
12
1
2
0
+ −
+
=

n
n
R
N N
H
t
j
j



128
Se puede demostrar que esta prueba es exactamente equivalente a un ANOVA
aplicado sobre los rangos (ANOVA sobre Rangos). Además si se realiza un ANOVA
sobre rangos, entonces la F obtenida se relaciona con la H a través de:

H
t H N
t N
F
) 1 )( 1 ( − − −

=

Es posible realizar pruebas a porteriori, entre ellas la prueba de Dunn y la de
Nemenyi. Escribiremos esta última por su simplicidad y usar la misma distribución que
el estadígrafo de Tukey:

12
) 1 )( (
0 0
, ,
+

=

nt nt n
R R
Q
k j
t α


Prueba de Friedman Es la alternativa no paramétrica para el ANOVA en bloques y
el ANOVA de medidas repetidas. En esta se “rankea” entre los tratamientos dentro de
cada bloque o individuo y después se calcula el estadígrafo:

) 1 ( 3
) 1 (
12
2
0
2
+ −
+
=

t b R
t bt j
j t
χ

También es posible hacer comparaciones múltiples a posteriori. En este caso se
usa:

12
) 1 )( (
0 0
, ,
+

=

t t b
R R
Q
k j
t α


Otras alternativas Existen algunas alternativas no paramétricas para una y dos vías
cuando la hipótesis H
1
incorpora una tendencia u ordenación (i.e: H
1
: t1 <t2 < t3 ). En
este caso se usa para el caso de una vía la prueba de Jonckheere y para dos vías la
prueba de Page. Cuando se tiene un diseño más complejo se realiza un ANOVA sobre
rangos.
129
Ejercicios de análisis de la varianza




ANÁLISIS DE VARIANZA (ANOVA) DE 1 VÍA

1. Se realizó un estudio de diversas especies de pájaros que son de similar naturaleza y
comparten un medio común. El canto de cada especie tiene un conjunto de rasgos
distintivos que permite reconocerla. Una característica investigada es la duración del
canto en segundos. Se estudian tres especies: A, B y C. Se obtuvieron los siguientes
datos:

A B C
1.11 2.20 0.50
1.23 1.90 0.94
0.90 2.00 0.78
0.95 1.70 0.38
1.00 1.54 0.50
1.10 1.88 0.50
1.20 1.90 0.68
1.30 2.05 0.62
1.10 1.70 0.40

¿Qué se puede decir respecto a la duración de los cantos de las distintas especies?
R: Son diferentes; F
2,24
= 122.6; p << 0.05.

2. Un grupo de investigadores analizaron 6 muestras provenientes de 5 lagos distintos
para poder determinar la concentración de rotíferos (individuos por mL). Los datos
son presentados en la tabla de abajo. Según los datos obtenidos, existen diferencias
en la concentración de copépodos dependiendo de su procedencia?.










Lago 1 Lago 2 Lago 3 Lago 4 Lago 5
28.2 39.6 46.3 41.0 56.3
33.2 40.8 42.1 44.1 54.1
36.4 37.9 43.5 46.4 59.4
34.6 37.1 48.8 40.2 62.7
29.1 43.6 43.7 38.6 60.0
31.0 42.4 40.1 36.3 57.3
Promedio 32.1 40.2 44.1 41.1 58.3
130















Comparaciones Múltiples (Test de Tukey, α = 0.05). Las diferencias significativas se
presenta en negritas.











3. Se estudió una variable “x” en tres situaciones A, B y C, obteniendo:

A B C
2 6 1
3 7 2
2 8 2
4 7 3
5 8 6

Que puede decir acerca del comportamiento de “x” en las tres situaciones?

R: Existen diferencias; F
2,12
= 14,6; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situación B.
Análisis de varianza de un factor
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Lago 1 6 192.5 32.08 10.27
Lago 2 6 241.4 40.23 6.40
Lago 3 6 264.5 44.08 9.49
Lago 4 6 246.6 41.10 13.44
Lago 5 6 349.8 58.30 9.22
ANÁLISIS DE VARIANZA
Origen de las variaciones SC gl CM F P F
C
Entre grupos 2193.44 4 548.36 56.15 3.95E-12 2.759
Dentro de los grupos 244.13 25 9.77
Total 2437.57 29
Comparaciones
Diferencia (∆)
SE T
k
T
k
crítico ∆ crítica
5 - 1 26.2 1.28 20.55 4.166 5.31
5 - 2 18.1 1.28 14.16 4.166 5.31
5 - 4 17.2 1.28 13.48 4.166 5.31
5 - 3 14.2 1.28 11.13 4.166 5.31
3 - 1 12.0 1.28 9.41 4.166 5.31
3 - 2 3.9 1.28 3.06 4.166 5.31
3 - 4
4 - 1 9.0 1.28 7.05 4.166 5.31
4 - 2
2 - 1 8.1 1.28 6.35 4.166 5.31
No es necesario
No es necesario
131

4.- Analice de nuevo el ejercicio anterior, pero con estadística no-paramétrica.

R: Existen diferencias; KW = 8.57; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situación B.



132


X.- CORRELACIÓN Y REGRESIÓN

X.1.- Correlación

A menudo en ciencias nos encontramos interesados en la relación o asociación
entre dos variables cuantitativas. En este caso, tratándose de dos variables aleatorias X e
Y, sabemos que si son independientes la variación conjunta o covarianza es cero:
COV(X,Y) = 0. Además el valor máximo que puede tener la covarianza es
COV(X,Y)
max
= √(V[X]·V[Y]).

Aprovechando éstas propiedades podemos definir correlación entre dos variables
X e Y como la covarianza estandarizada:

] [ ] [
] , [
Y V X V
Y X COV

= ρ

Naturalmente, un buen estimador de ρ, será el coeficiente de correlación (r) de
Pearson:

∑ ∑

∑ ∑

− −

=
− −
− −
=
) )( ( ) ( ) (
) )( (
2 2 2 2 2 2
y n y x n x
y x n y x
y y x x
y y x x
r
i i
i i
i i
i i


Entonces tanto ρ como su estimador (r) varían entre –1 y 1. Además si X e Y son
independientes, ρ y su estimador (r) son 0.

133


El coeficiente de correlación mide el grado de asociación entre dos variables X e
Y, siendo máxima si r ≈ 1 como en la situación A de la figura, o r ≈ -1 como en la
situación C. La diferencia entre éstos últimos dos valores es que un valor positivo indica
asociación positiva y un valor negativo, lo contrario, es decir aumentos en la primera
variable implican disminuciones en la segunda. Cuando no existe asociación, es decir Y
es independiente de X como en la situación B, r ≈ 0.

Es importante decidir si existe asociación o independencia por lo que se debe
realizar la dócima Ho: ρ = 0 vs. H
1
: ρ ≠ 0. Y en este caso se usa el estadígrafo:

2
2
1
2
r
n r
t
n


=



X.2.- Regresión

Muchas veces en la búsqueda de asociación entre dos variables X e Y, intentamos
establecer una relación funcional entre ambas, por ejemplo una línea recta: y = mx + c, o
una parábola y = ax
2
+ bx +c o una exponencial y = a·e
bx
o una potencial y = ax
b
. En este
caso no sólo buscamos la asociación sino que pre-suponemos una relación funcional
entre las variables. Este es el objetivo del análisis de regresión sea este lineal,
cuadrático, exponencial o potencial. Lo más habitual es el análisis de regresión lineal,
134
sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son
reductibles al modelo lineal a través de logaritmos.

Por ejemplo si a una relación potencial del tipo Y = aX
b
le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(e
bX
), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.

Regresión lineal mínimo cuadrática

El problema básico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B
1
y un
intercepto Bo, entonces tendremos para cada x
i
un y’
i
= B
1
x
i
+Bo que estima el valor real
de y
i
(ver figura). A la diferencia entre y
i
e y’
i
: e
i
= y
i
-y’
i
la llamamos residuo.
Observamos que la raíz de la suma sobre i del residuo elevado al cuadrado: D =


2 '
) (
i i
y y tiene la estructura de una distancia y entonces interesa la pregunta: ¿ para
que valores de B
1
y Bo es mínima D, o, lo que es lo mismo, D
2
?





Estableciendo las ecuaciones: ∂D/∂B
1
= 0 y ∂D/∂Bo = 0 (ecuaciones normales), se
obtiene:

135




=
2 2
1
/
/
x n x
y x n y x
B
i
i i


Y además: x B y B
1 0
− =

En términos estadísticos, lo mencionado es equivalente a plantear el modelo:
y
i
= βo + β
1
x
i
+ e
i
, con los supuestos de independencia e igual distribución de los errores
e
i


Entonces, la pendiente B
1
y el intercepto Bo, son estimadores de los parámetros
poblacionales β
1
= COV(X,Y)/V[X] y βo = y - β
1
x. Estos estimadores son “meli”.
Además las varianzas de B
1
y Bo se pueden estimar a través de:

2
2
1
) (
] [


=
x x
S
B V
i
yx
y )
) (
1
( ] [
2
2
0


+ =
x x
x
n
S B V
i
yx
donde


=
2
2
2
n
e
S
i
yx




Así, es posible probar las hipótesis Ho: β
*
= 0, vs H
1
: β
*
≠ 0 (donde β
*
representa
a β
1
o a βo) mediante:

] [
*
*
2
B V
B
t
n
=





Observamos que es posible relacionar la pendiente y el coeficiente de correlación,
ya sea en términos poblacionales (β
1
y ρ) o muestrales (B
1
y r) a través de:
β
1
·(√V[X]/√V[Y]) = ρ. Esto implica que a altos valores del coeficiente de correlación le
corresponden altos valores de la pendiente B
1
y a la inversa.

X.3.- Regresión y ANOVA

Observemos el siguiente desarrollo algebraico:

∑ ∑ ∑ ∑ ∑
− − − = − + − = − =
2 ' 2 2 ' 2 ' 2
) ( ) ( ) ( ) ( y y y y y y y y y y e
i i i i i i i
, lo que ordenado
de otra forma queda:

∑ ∑ ∑
− + − = −
2 ' 2 ' 2
) ( ) ( ) ( y y y y y y
i i i i

136

Esto se puede leer de la siguiente forma: La variabilidad total (desde cada y
i
al
promedio y) es igual a la suma de la variabilidad residual (desde cada y
i
al
predicho y’
i
) mas la variabilidad debida a la regresión (desde los predichos al
promedio y).

En otras palabras, la variación total es la suma de la variación no explicada por
la regresión (residuo) mas la variación explicada por la regresión.

Como vemos, es posible la partición aditiva de la varianza y entonces establecer
una tabla de ANOVA:

Fuente de
variación
SC Gl CM F
1,n-2
P
Modelo
(Regresión)
) ( ) (
2 2 2
1
2 '
x n x B y y
i i
− = −
∑ ∑
1 SC/gl CMmodelo/CMresiduo
Residuo
∆ (por diferencia)
n-2 SC/gl
= S
yx
2

Total
2 2 2
) ( y n y y y
i i
− = −
∑ ∑

n-1

Es decir a través de un ANOVA se puede docimar Ho: β
1
= 0 vs H
1
: β
1
≠ 0.

Al cuociente entre la suma de cuadrados explicada (regresión) dividida por la
suma de cuadrados totales se le denomina coeficiente de determinación (R
2
):

SCTotal
n SCregresió
R =
2



Este coeficiente representa la proporción de la variabilidad total que es explicada
por la regresión. Además R
2
= r
2
, de ahí su notación. Además al valor S
yx
= √(S
yx
2
) se le
denomina error típico de la estima y representa la desviación media de los valores en
torno a la recta de regresión.

Ejemplo 1.-

Supongamos que se quiere estudiar la relación entre dos variables X e Y y se tiene
la siguiente tabla:

X 1 2 3 4 5 6 7 8 9 10
Y 2 5 6 7 9 13 15 15 19 20
137

El primer problema es decidir si se hará un análisis de correlación o uno de
regresión. Esta duda se resuelve pensando si el objetivo del estudio es simplemente la
búsqueda de una asociación, y en este caso usar sólo correlación, o si buscamos o
presuponemos una relación lineal que permita algún grado de predicción del fenómeno y
realizar análisis de regresión. En este último caso debemos pensar además si la recta de
regresión que se obtenga tiene sentido, especialmente en el caso de variables discretas,
donde entre punto y punto no existe nada, y por tanto no hay recta.

Supongamos en este caso que la variable es continua, y que presuponemos una
relación funcional de tipo lineal, por lo que se hará un análisis de regresión. Por razones
prácticas conviene inmediatamente hacer la siguiente tabla:

X Y X
2
Y
2
XY
1 2 1 4 2
2 5 4 25 10
3 6 9 36 18
4 7 16 49 21
5 9 25 81 45
6 13 36 169 78
7 15 49 225 105
8 15 64 225 120
9 19 81 361 171
10 20 100 400 200
Total 55 111 385 1575 770
Promedio 5.5 11.1 38.5 157.5 77.0

A partir de esta tabla se puede calcular directamente la pendiente B
1
y el
intercepto B
0
:

93 . 1
5 . 5 5 . 38
1 . 11 5 . 5 0 . 77
2
1
=

⋅ −
= B y 485 . 0 5 . 5 93 . 1 1 . 11
0
= ⋅ − = B

Así, la recta que mejor representa la relación entre X e Y es 485 . 0 93 . 1 + = X Y .

Pero interesa saber si esta pendiente B
1
es efectivamente diferente de 0; es decir si
la asociación que se obtiene en la muestra es realmente inferible a la población.
Entonces estudiaremos las hipótesis H
0
: β = 0 vs β ≠ 0 mediante el ANOVA. Esto es
enteramente equivalente a realizar una prueba de “t” para la pendiente. Sin embargo se
prefiere el ANOVA porque aporta mayor información como se observa a continuación.
138
Observamos además que todos los valores para la tabla de ANOVA ya se encuentran
calculados.

Fuente de
variación
SC Gl CM F
1,8
P
Modelo
(Regresión)
30 . 307 ) 5 . 5 10 385 ( 93 . 1
2 2
= ⋅ −
1 307.3 69.1 << 0.01
Residuo
∆ = 342.9-307.3 = 35.6
10-2= 8 S
yx
2
= 4.45
Total
9 . 342 1 . 11 10 1575
2
= ⋅ −
10-1= 9

Entonces efectivamente la pendiente es diferente de 0, y la asociación mediada
por la relación lineal es real. Además el coeficiente de determinación (R
2
) es: R
2
=
307.3/342.9 = 0.896. Es decir el 89.6 % de la variabilidad de Y es efectivamente
explicada por el modelo lineal, lo que es muy bueno pus la variabilidad residual
representa sólo un 10.4%. Si además queremos el coeficiente de correlación, este es
simplemente r = √(0.896) = 0.947. El error típico de la estima es S
yx
= √4.45 = 2.1. Este
último valor nos permite calcular las varianzas y errores estándar de la pendiente e
intercepto.

Por otra parte debemos observar que a partir del valor de F = 69.1 se puede
deducir el valor que habría tenido la “t” de Student si la hubiésemos usado para probar la
misma hipótesis. Esta es simplemente: t = √69.1 = 8.3, y conduce exactamente al mismo
valor de probabilidad de error I (p).


X.4.- Predicciones

Muchas veces el sentido de una regresión es predecir un valor o valores de y para
algún valor o valores de x.

Predicción de un valor y, para un valor x
k
(y/x
k
) En este caso el intervalo de
confianza del nivel (1-α) está dado por:

IC
1-α
:
∑ ∑


+ + ⋅ ±

n x x
x x
n
S t y
i i
k
yx n k
/ ) (
) ( 1
1
2 2
2
2
'



Predicción del valor y para x
k
En este caso el intervalo de confianza está dado
por:

139
IC
1-α
:
∑ ∑


+ ⋅ ±

n x x
x x
n
S t y
i i
k
yx n k
/ ) (
) ( 1
2 2
2
2
'


Ejemplo 2.-

Si en el caso del ejemplo1, interesara calcular a) el valor predicho para x = 12 y b)
el valor promedio de y para x = 15, tendríamos:

Para el caso a) el valor predicho para x = 12 sería: y = 1.93(12) + 0.485 = 23.645.
y su intervalo del 95% de confianza sería:
96 . 4 65 . 23
10 / ) 55 ( 385
) 5 . 5 12 (
10
1
1 1 . 2 86 . 1 645 . 23
2
2
± =


+ + ⋅ ±

Para el caso b) el valor predicho sería y = 1.93(15) + 0.485 = 29.435, y el
intervalo de confianza para el promedio de los valores de y cuando x = 15 sería:

94 . 10 435 . 29
10 / ) 55 ( 385
) 5 . 5 15 (
10
1
1 . 2 86 . 1 435 . 29
2
2
± =


+ ⋅ ±

Es importante observar que en le medida que x
k
se aleja del promedio, la precisión
de la predicción va disminuyendo, o, lo que es equivalente, el intervalo de confianza se
va haciendo más amplio.

X.4.- Supuestos y alternativas no paramétricas

En algunas ocasiones la variable independiente (x) es fija y se miden muchos
valores de la variable dependiente (y) para cada valor de x. En este caso se habla de
modelo de tipo I. En otras ocasiones la variable x no controla la variable y, y se hace un
muestreo aleatorio de pares (x,y). En este caso se habla de modelo II.

Independiente del modelo, el supuesto básico de la regresión es la independencia e
idéntica distribución de los errores. Esta se puede probar con el estadígrafo de Durbin-
Watson. Esto es especialmente relevante cuando las variables independientes son el
tiempo o el espacio y puede existir autocorrelación (espacial o temporal). La
distribución esperada de los errores es una Normal, univariada o bivariada, según sea
modelo I o II.

En caso de no cumplirse los supuestos, se pueden usar otros métodos, como
análisis de series temporales en el caso de que la variable independiente sea el tiempo, o
140
método de las semi-medias en otros casos. En el caso de un análisis de correlación, se
puede usar el coeficiente de correlación no-paramétrico de Spearman (r
s
).

Este simplemente corresponde a un coeficiente de correlación de Pearson (r)
aplicado sobre las variables previamente transformadas a rangos. Se puede demostrar
que si d
i
es la diferencia entre los rangos de x
i
e y
i
: d
i
= x
i
-y
i
, entonces:

n n
d
r
n i
i
i
s


− =

=
=
3
1
2
6
1

X.5.- Análisis de la covarianza (ANCOVA)

En el análisis de la covarianza se tiene un diseño donde la variable respuesta varía
en función de otra variable llamada co-variado. Por ejemplo si se mide una variable “y”
que varía en función de “x” frente a tres niveles de un factor “A” se tiene la tabla:

Factor A
A1 A2 A3
Y X Y X Y X




En este caso es un ANCOVA de una vía o factor, con tres tratamientos. La
variable respuesta es Y y el co-variado es X.

El modelo de ANCOVA se puede escribir:

ij ij i ij
x x y ε β τ µ + − + + = ) (
1


Se observa que en este modelo se contempla una relación funcional entre la
variable respuesta y su covariado mediada por un modelo de regresión.

En su expresión original el interés del ACOVA está centrado en el efecto de los
tratamientos y la regresión sobre la variable respuesta Sin embargo a menudo el interés
se centra en la variable respuesta descartando el efecto del covariado y más
habitualmente, el interés se encuentra en las variaciones de la respuesta funcional, las
pendientes de regresión, frente a los distintos tratamientos (Homogeneidad de
pendientes. En el ANCOVA al igual que en el ANOVA y en la regresión, es posible la
partición de la suma de cuadrado y docimar por separado cada uno de los efectos. En su
141
forma más simple el ANCOVA consta de dos tratamientos, una variable respuesta “y”
con su respectivo co-variado. En este caso la homogeneidad de pendientes se puede
probar alternativamente con una t de Student:

)
1 1
(
2
2
2
1
2
12 11
4 2 1
∑ ∑
+

=
− +
i i
yxc
n n
x x
S
t
β β
donde
4
2 1
2 1 2
− +
+
=
n n
SCresiduo SCresiduo
S
yxc


142

Ejercicios de correlación y regresión

1. Se realiza un estudio para predecir la estatura final de un individuo a partir de la talla
al nacer obteniendo:

Talla al
nacer
(cm)
36 38 42 44 45 48 50 51 52 53 54 55 56 58
Estatura
final
(m)
1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88

¿Qué puede decir de la capacidad predictiva de la talla de nacimiento sobre la estatura
final? ¿ Que estatura final esperaría de un individuo con una talla de 30.53 cm al
nacimiento? Y ¿su intervalo de confianza?

R: Es buena. EF = 1.093 + 0.0133xTN; F
1,12
= 65.9, p < 0.05; R
2
= 0.833. Se esperaría
una EF = 1.5 m; el IC
95%
= {1.389; 1.611}.

2. Se piensa que los grados de conciencia (GC: del 1 al 10) después de un TEC están
relacionados con la edad del paciente accidentado. Se realiza un estudio y se obtiene:
Edad 26 34 45 48 57 62 70 72 76 78 80 87
GC 10 8 10 9 7 10 5 4 4 3 1 2

a) ¿Qué tipo de análisis corresponde a la pregunta?

b) Plantée la hipótesis correspondiente.

c) Utilice estadística paramétrica y después no-paramétrica.

d) Que puede decir finalmente de su hipótesis?

R: Correlación; r = -0.86; t
10
= -5.33; p < 0.05; R =-0.89; t
10
= -6.26; p < 0.05.
Efectivamente, están asociados negativamente, a mayor edad, menor grado de
conciencia después de un TEC.


143
BIBLIOGRAFIA

Azocar MR (1974) Probabilidad Matemática. Universidad Católica de Chile, Instituto
de Matemáticas (Apunte).

Brown D & Rothery P (1993) Models in Biology: Mathematics, Statistics and
Computing. John Wiley & Sons, New Jork.

Cochran WG (1980) Técnicas de Muestreo. Compañía editorial Continental SA,
Mexico.

Cramer H (1945) Métodos Matemáticos en Estadística. Aguilar SA, Madrid.

Cramer (1966) Elementos de la Teoría de Probabilidades. Aguilar SA, Madrid.

Feller W (1968) An Introduction To Probability Theory And Its Applications. John
Wiley & Sons, New Jork.

Hair JF, Anderson RE, Tatham RL & Black WC (1999) Análisis Multivariante .
Prentice Hall, Madrid.

Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.

Manley FJ (1986) Multivariate Statistical Methods, A Primer. Chapmann & Hall,
London.

Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.

Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.

Silva C & Cumsille F (1984) Calculo de Probabilidades. Universidad de Chile, Escuela
de Salud Pública. (apunte).

Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.

Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.

144
Steel RGD & Torrie JH (1980) Bioestadística: Principios Y Procedimientos. McGraw-
Hill Latinoamericana SA, Bogotá.

Taucher E (1997) Bioestadística. Editorial Universitaria, Santiago, Chile.

Zar JH (1996) Biostatistical Análisis. Prentice Hall, New Jersey.
145

ANEXO I.- FORMULAS UTILES

II.- ESTADÍSTICA DESCRIPTIVA

Frecuencia relativa n n h
i i
/ =

Frecuencia acumulada

=
=
=
j i
i
i j
n N
1


Frecuencia acumulada relativa

=
=
=
j i
i
i j
h H
1

Promedio
n
x
x
i

=
Promedio si la serie ha sido agrupada


= =
i i
i i
y h
n
y n
y

Mediana
L
L L
L
n
N n c
y Me
) 2 / (
'
1
1



+ =

Percentil de orden p
L
L L
L p
n
N np c
y P
) 100 / (
'
1
1



+ =

Varianza

− =
2
2
2
x
n
x
s
i

Varianza en una serie agrupada
∑ ∑
− = − =
2 2 2
2
2
y y h y
n
y n
s
i i
i i

Desviación estándar
2
s s =

Coeficiente de Variación x s CV / =

Error estándar (Es): n s Es / =
146

III.- PROBABILIDADES

Probabilidad
les casosposib
ables casosfavor
A P = ) (

Aditividad finita: Si A
i
∩ B
i
= ∅, para cualquier i, j, entonces P (∪ A
i
) = Σ P (A
i
)

Probabilidad Compuesta: P(A ∪ B) = P(A) + P(B) – P(A ∩ B)

Probabilidad de que ocurra al menos un evento: P(∪ A
i
)= 1 –P(∩ A
i
C
), lo que se
interpreta como P(alguno) = 1 – P (ninguno)

Probabilidad condicional
) (
) (
) / (
B P
B A P
B A P

=

Probabilidad conjunta Si A y B son independientes, entonces P(A ∩ B) = P(A) P(B)
(teorema de la y)

Probabilidad total

⋅ =
i
i i
B P B A P A P ) ( ) / ( ) (

Teorema de Bayes



=
j j j
i i
i
B P B A P
B P B A P
A B P
) ( ) / (
) ( ) / (
) / (

Chance u “odds”
p
p
O

=
1


Sensibilidad
b a
a
E P S
+
= + = ) / (

Especificidad
d c
d
noE P Sp
+
= − = ) / (

Valor predictivo positivo
c a
a
E P VPP
+
= + = ) / (


147
Valor predictivo negativo
d b
d
noE P VPN
+
= − = ) / (

Certeza diagnóstica
n
d a
C P
+
= ) (

Razón de verosimilitud (+)
Sp
S
noE P E P noE P E P LR

= − − + = + + =
1
)) / ( 1 /( ) / ( ) / ( / ) / (

Razón de verosimilitud (-) Sp S LR / ) 1 ( − =

]
1 1 1 1
[log
2 / 1
d c b a d a
Z LR IC
+

+
− + ⋅ ± =
− α α


Chance a posteriori Oo LR Op ⋅ =

Tasa de evento en el control
c a
a
control evento P CER
+
= = ) / (

Tasa de evento en el grupo experimental
d b
b
ex evento P EER
+
= = ) / (

Riesgo relativo CER EER RR / = ]
1 1 1 1
[log
2 / 1
d b c a b a
Z RR IC
+

+
− + ⋅ ± =
− α α


Reducción absoluta del riesgo EER CER ARR − =

Número necesario a tratar para un beneficio ARR NNT / 1 =

Reducción relativa del riesgo CER EER CER RRR / ) ( − =

Aumento absoluto del riesgo CER EER ARA − =

Aumento relativo del riesgo CER CER EER RRA / ) ( − =

Número necesario de expuestos para un daño ARA NNH / 1 =

148
Razón de disparidades de la chance (“Odds ratio”)
bc
ad
d b
c a
OR = =
/
/


]
1 1 1 1
[log
2 / 1
d c b a
Z OR IC − − + ⋅ ± =
− α α



IV.- VARIABLES ALEATORIAS

Distribución de Bernoulli E[X] = p, V[X] = pq.

Distribución binomial
k n k
p p
k
n
k X P

− ⋅
|
|
.
|

\
|
= = ) 1 ( ) (

E[X] = np, V[X] = npq.
Distribución Hiergeométrica
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|


= =
n
N
k
Np
k n
Np N
k X P ) (

E[X] = np, V[X] = npq(N-n)/(N-1).

Distribución de Poisson
!
) (
k
e k X P
k
λ
λ
⋅ = =


E[X] = V[X] = λ

Distribución exponencial
x
e x f
λ
λ

⋅ = ) (
E[X] = 1/λ y V[X] = 1/λ
2


DISTRIBUCIÓN NORMAL
2
] [ ) 2 / 1 (
) 2 / 1 ( ) (
σ
µ
π σ

⋅ −
⋅ =
x
e x f
E[X] = µ y V[X] = σ
2

V.- ESTIMACIÓN

Intervalo de confianza para una proporción P y para la diferencia P1-P2

] / [
2 / 1
n pq Z p IC ⋅ ± =
− α α
] / / ( ) [(
2 2 2 1 1 1 2 / 2 1 1
n q p n q p Z p p IC + ⋅ ± − =
− α α

149

Intervalo de confianza para el promedio x y para la diferencia x
1
-x
2


Si se conoce la varianza poblacional ] / [
2 / 1
n Z x IC σ
α α
⋅ ± =



Si no se conoce ] / [
) 2 / 1 ( 1
n s t x IC ⋅ ± =
− − α α


Para la diferencia de promedios
] ) [(
) 2 / 1 ( 2 1 1
Es t x x IC ⋅ ± − =
− − α α
donde ) / 1 / 1 (
2
) 1 ( ) 1 (
2 1
2 1
2
2 2
2
1 1
n n
n n
s n s n
Es + ⋅
− +
− + −
=

Estimadores en Medicina

Proporciones Sensibilidad, Especificidad, Valores
predictivos, certeza diagnóstica, CER y
EER
Diferencia de proporciones Reducción y aumento absoluto del riesgo:
ARR y ARA

Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los límites de
confianza para ARR y ARA y se calcula su inverso.

Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR)

Para log RR: ]
1 1 1 1
[log
2 / 1
d b c a b a
Z RR IC
+

+
− + ⋅ ± =
− α α


Para log OR: ]
1 1 1 1
[log
2 / 1
d c b a
Z OR IC − − + ⋅ ± =
− α α


Para log LR: ]
1 1 1 1
[log
2 / 1
d c b a d a
Z LR IC
+

+
− + ⋅ ± =
− α α


Tamaño muestral para estimar una proporción
2
2
2 /
d
PQ Z
n
α
=

150
Tamaño muestral para estimar un promedio
2
2 2
2 /
2
2 2
2 / 1
d
s Z
d
s t
n
α α
≈ =



Para confianzas del 95% se suele aproximar z
2
α/2
= 4.

VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS

VALOR DE VERDAD de
Ho
V (H
1
F) F (H
1
V)
DECISIÓN Rechazo Ho
ERROR I (α) K = 1-β
Acepto Ho
C = 1-α ERROR II (β)

Dócimas para una muestra
Dócima para una proporción (P)
n
q p
p p
Z
0 0
0
ˆ −
=

Dócima para un promedio
n
s
x
t
n
0
1
µ −
=



Dócimas para dos muestras

Dos proporciones
)
1 1
(
) ˆ ˆ (
2 1
0 0
0 2 1
n n
q p
P p p
Z
+
− −
= donde
2 1
2 2 1 1
0
ˆ ˆ
n n
n p n p
p
+
+
=

Dócimas para dos promedios

Muestras independientes

c) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:

)
1 1
(
2 1
2
0 2 1
2
2 1
n n
s
x x
t
c
n n
+
− −
=
− +
µ
donde
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1 2
− +
− + −
=
n n
s n s n
s
c

151
2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
gl
s s
n n
n n
| |
+
|
\ .
=
| | | |
| |
\ . \ .
+
− −

d) si no hay homocedasticidad, entonces usamos:

) (
2
2
2
1
2
1
0 2 1
n
s
n
s
x x
t
gl
+
− −
=
µ
pero los grados de libertad “gl” los estimamos mediante







Muestras dependientes (pareadas)
n s
d
t
d
n
/
1
=



Dócima de Homocedasticidad
2
2
) 1 ( ), 1 (
2 1
m
M
n n
s
s
F =
− −



VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS

La distribución χ
2
para tablas de contingencia


=
− −
j i
c r
e
e o
,
2
2
) 1 )( 1 (
) (
χ

Prueba exacta de Fisher



= = = =
1 , 1
! ! ! ! !
! ! ! !
) ( ); (
0 , 0 2 , 2 1 , 2 2 , 1 1 , 1
1 , 0 1 , 0 0 , 2 0 , 1
N x
F
N N N N N
N N N N
x X dondeP x X P P

La distribución χ
2
para bondad de ajuste


=
− −
e
e o
p n
2
2
1
) (
χ

La distribución χ
2
para proporciones
q p
p p n
n
i i
n


=

1 2
1
) (
χ en donde n p n p
i
i
/
1

=

152

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA

Prueba de los signos de Fisher

=
i
b B

Prueba de los rangos signados de Wilcoxon

=
i i
R b T

Prueba de la suma de rangos de Wilcoxon- Mann-Whitney

=
o
n
i
R T
1
1


Dócima de McNemar
) (
) (
2
2
1
C B
C B
+

= χ o
) (
) 1 (
2
2
1
C B
C B
+
− −
= χ

IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA)

Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía).

FV SC Gl CM=SC/gl F P
T (entre)
nt Y n Y
i
i
/ ) / (
2
00
2
0


t-1 F =
CME/CMD

ε (dentro o
error)
∑ ∑
− = ∆
i
i
ij
ij
n Y y /
2
0
2

t(n-1)
TOTAL
nt Y y
ij
ij
/
2
00
2



nt-1

Transformaciones

Distribución
Φ(y)
Transformación f(y)
Normal C = constante Y
Binomial (proporciones) y(1-y)
arcsen√(y)
Poisson (sucesos raros) Y
√y
Sin homocedasticidad y
2
ln(y) o ln(y+1)
y
4
1/y o 1/(y+1)
Binomial negativa arcsen(y)
Decreciente y
2


Contrastes ortogonales

=
i i
j
gle
n c CMD
L
t
/
2


153
Prueba de Dunnet
n CMD
y y
t
control i
d
/ 2
0

=

Prueba de Scheffé

⋅ ⋅ −
=

i i
gle t
n c CMD t
L
F
/ ) 1 (
2
2
, 1


Prueba de Tukey
)
1 1
( ) 2 / (
0 0
,
j i
j i
gle t
n n
CMD
y y
Q
+ ⋅

=

Diseño de bloques aleatorizados
B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3

Diseño de medidas repetidas
T1 T2 T3
I1
I2
I3
I4

Diseños anidados, encajados o jerárquicos

T1

T2

T3

N1 N2 N1 N2 N1 N2



Cuadrado latino
b1 B2 B3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2

154

Parcelas divididas (split-plot)
B1 T1 t1 T3 T1 T2 t1
t2 T2 t2
B2 T3 t1 T2 T1 T1 t1
t2 T2 t2
B3 T2 t1 T1 T1 T3 t1
t2 T2 t2

Prueba de Kruskall-Wallis: ) 1 ( 3
) 1 (
12
1
2
0
+ −
+
=

n
n
R
N N
H
t
j
j

Relación entre Kruskall-Wallis y ANOVA sobre rangos H
t H N
t N
F
) 1 )( 1 ( − − −

=

Comparaciones múltiples de Nemenyi (post- K-W)
12
) 1 )( (
0 0
, ,
+

=

nt nt n
R R
Q
k j
t α


Prueba de Friedman ) 1 ( 3
) 1 (
12
2
0
2
+ −
+
=

t b R
t bt j
j t
χ

Comparaciones múltiples post-Friedman
12
) 1 )( (
0 0
, ,
+

=

t t b
R R
Q
k j
t α


X.- CORRELACIÓN Y REGRESIÓN

Coeficiente de correlación
∑ ∑

∑ ∑

− −

=
− −
− −
=
) )( ( ) ( ) (
) )( (
2 2 2 2 2 2
y n y x n x
y x n y x
y y x x
y y x x
r
i i
i i
i i
i i


Prueba de Hipótesis
2
2
1
2
r
n r
t
n


=



Regresión: Pendiente e Intercepto




=
2 2
1
/
/
x n x
y x n y x
B
i
i i
x B y B
1 0
− =

155
Varianzas de la pendiente e intercepto

2
2
1
) (
] [


=
x x
S
B V
i
yx
y )
) (
1
( ] [
2
2
0


+ =
x x
x
n
S B V
i
yx
donde


=
2
2
2
n
e
S
i
yx


Pruebas de Hipótesis
] [
*
*
2
B V
B
t
n
=



ANOVA de la regresión
Fuente de
variación
SC Gl CM F
1,n-2
P
Modelo
(Regresión)
) ( ) (
2 2 2
1
2 '
x n x B y y
i i
− = −
∑ ∑
1 SC/gl CMmodelo/CMresiduo
Residuo
∆ (por diferencia)
n-2 SC/gl
= S
yx
2

Total
2 2 2
) ( y n y y y
i i
− = −
∑ ∑

n-1

Coeficiente de determinación (R
2
)
SCTotal
n SCregresió
R =
2


Error típico de la estima
2
2
2
yx
i
yx
S
n
e
S =

=



Predicción de un valor y para un valor x
k
(y/x
k
)

IC
1-α
:
∑ ∑


+ + ⋅ ±

n x x
x x
n
S t y
i i
k
yx n k
/ ) (
) ( 1
1
2 2
2
2
'


Predicción del valor y para x
k


IC
1-α
:
∑ ∑


+ ⋅ ±

n x x
x x
n
S t y
i i
k
yx n k
/ ) (
) ( 1
2 2
2
2
'


Correlación no-paramétrico de Spearman (r
s
)
n n
d
r
n i
i
i
s


− =

=
=
3
1
2
6
1

156
ANCOVA

Factor A
A1 A2 A3
Y X Y X Y X




Comparación de dos pendientes:

)
1 1
(
2
2
2
1
2
12 11
4 2 1
∑ ∑
+

=
− +
i i
yxc
n n
x x
S
t
β β
donde
4
2 1
2 1 2
− +
+
=
n n
SCresiduo SCresiduo
S
yxc


157
ANEXO II.- TABLAS SIMPLIFICADAS

A.- DISTRIBUCION NORMAL (N(0,1))

Área desde z a ∞; Valores críticos para 1 cola (°) (α = 0.05) y dos colas (°°) (α = 0.05)

Z Area
0 0.5000
0.1 0.4602
0.2 0.4207
0.3 0.3821
0.4 0.3446
0.5 0.3085
0.6 0.2743
0.7 0.2420
0.8 0.2119
0.9 0.1841
1.0 0.1587
1.1 0.1357
1.2 0.1151
1.3 0.0968
1.4 0.0808
1.5 0.0668
1.6 0.0548
1.64 (°) 0.0500
1.7 0.0446
1.8 0.0359
1.9 0.0287
1.96 (°°) 0.0250
2.0 0.0228
2.5 0.0062
3.0 0.0013

158
B.- DISTRIBUCION t DE STUDENT

Valores críticos para una (α = 0.05) y dos colas (α = 0.025)

Grados de libertad Α= 0.05 α = 0.025
5 2.01 2.57
6 1.94 2.45
7 1.90 2.36
8 1.86 2.31
9 1.83 2.26
10 1.81 2.23
15 1.75 2.13
20 1.72 2.09
25 1.71 2.06
30 1.70 2.04
∞ 1.64 1.96

159
C.- DISTRIBUCION χ
2


Valores críticos para α = 0.05

Grados de libertad Valor crítico
1 3.84
2 5.99
3 7.81
4 9.49
5 11.1
6 12.6
7 14.1
8 15.5
9 16.9
10 18.3
11 19.7
12 21.0
13 22.4
14 23.7
15 25.0
16 26.3
17 27.6
18 28.9
19 30.1
20 31.4
25 37.7
30 43.8

160
D.- DISTRIBUCION F

Valores críticos para α = 0.05

Grados De Libertad Del Numerador
Gr. libertad
denominador
1 2 3 4 5 8 10 ∞
3 10.13 9.55 9.28 9.12 9.01 8.84 8.78 8.53
4 7.71 6.94 6.59 6.39 6.26 6.04 5.96 5.63
5 6.61 5.79 5.41 5.19 5.05 4.82 4.74 4.36
6 5.99 5.14 4.76 4.53 4.39 4.15 4.06 3.67
7 5.59 4.74 4.35 4.12 3.97 3.73 3.63 3.23
8 5.32 4.46 4.07 3.84 3.69 3.44 3.34 2.93
9 5.12 4.26 3.86 3.63 3.48 3.23 3.13 2.71
10 4.96 4.10 3.71 3.48 3.33 3.07 2.97 2.54
15 4.54 3.68 3.29 3.06 2.90 2.64 2.55 2.07
20 4.35 3.49 3.10 2.87 2.71 2.45 2.35 1.84
25 4.24 3.38 2.99 2.76 2.60 2.34 2.24 1.71
30 4.17 3.32 2.92 2.69 2.53 2.27 2.16 1.62
40 4.08 3.23 2.84 2.61 2.45 2.18 2.07 1.51
50 4.03 3.18 2.79 2.56 2.40 2.13 2.02 1.44
60 4.00 3.15 2.76 2.52 2.37 2.10 1.99 1.39
∞ 3.84 2.99 2.60 2.37 2.21 1.94 1.83 1.00

Observación: Si el número de grados de libertad del denominador es mayor que 3, lo que
es lo habitual, entonces cualquier valor calculado de F mayor que 10 permite rechazar
H
0
para α = 0.05, sin necesidad de mirar ninguna tabla.
161
E.- DISTRIBUCION DEL RANGO “STUDENTIZADO”: Q

Valores críticos para α = 0.05 para diferentes números de tratamientos (t)

T
Gr. libertad 2 3 4 5 8 10
5 3.64 4.60 5.22 5.67 6.58 6.99
10 3.15 3.88 4.33 4.65 5.30 5.60
15 3.01 3.67 4.08 4.37 4.94 5.20
20 2.95 3.58 3.96 4.23 4.77 5.01
∞ 2.77 3.31 3.63 3.86 4.29 4.47



162
F.- DISTRIBUCION de WILCOXON (Rangos signados)

Valor crítico para α = 0.05, vs n

N Valor crítico
4 10
5 14
6 19
7 24
8 30
9 37
10 44
15 89

163
G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos)

Valores críticos (α = 0.05) para diferentes valores de n
1
y n
2

n
2
=2 3 4 5 10
n
1
= 3 10 15
4 12 17 24
5 13 20 27 36
6 15 23 30 40
7 16 24 33 43
8 18 27 36 47
9 20 29 39 50
10 22 32 42 54 127


2

Prologo Este libro ha sido diseñado como un curso de estadística general de acuerdo a los programas vigentes en diferentes universidades. Está escrito en una forma general con ejemplos aplicables a diferentes ámbitos. Tiene un énfasis en las bases conceptuales y metodológicas de los distintos temas, sin perder el rigor matemático de sus fundamentos. En general se evitan las demostraciones matemáticas dificultosas que distraen del objetivo general. El libro está dividido en seis unidades, de las cuales las primeras cuatro corresponden a los programas habituales de los cursos de pre-grado en todas las carreras donde el análisis de datos es relevante. La primera unidad corresponde a Estadística descriptiva, donde se sientan las bases de la descripción de la información. La segunda unidad corresponde a Estadística matemática, donde se aportan los aspectos más relevantes de la teoría de probabilidades. Las unidades tres y cuatro son las más importantes en un curso básico, donde se encuentran los principales métodos usados en inferencia estadística. Se separan en una unidad especial el análisis de varianza y la regresión. Para los lectores poco avezados en matemáticas, se puede pasar directamente desde la unidad 1 a la 3. La unidad 5 corresponde a una serie de tópicos, habitualmente no tratados en los cursos básicos, pero que frecuentemente son usados en diversas áreas como las estadísticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en el área industrial, las series temporales y la regresión logística. En esta unidad los temas son tratados con menor profundidad, haciendo hincapié en las bases conceptuales, pero sin perder rigurosidad de tratamiento del tema. La última unidad introduce el análisis multivariado, ya que cada día se toma mayor conciencia del origen multicausal de muchos fenómenos, por lo que es necesario una mayor comprensión y utilización de esta metodología. Este libro es el resultado de varios años dictando cursos básicos de estadística. El tratamiento en todos los capítulos intenta ser claro pero conciso, sin redundar en largas explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se apoyan las explicaciones con ejemplos didácticos aplicables en cualquier disciplina.

3

Índice general INTRODUCCIÓN: CIENCIA Y ESTADISTICA I UNIDAD: ESTADISTICA DESCRIPTIVA I.- ESTADÍSTICA I.1.- Bases e historia I.2.- Definición II.- ESTADÍSTICA DESCRIPTIVA II.1.- Observaciones, variables y escalas II.2.- Representación de la información II.3.- Medidas de resumen Ejercicios de estadística descriptiva II UNIDAD: ESTADISTICA MATEMATICA III.- PROBABILIDADES III.1.- Experimento Aleatorio, Espacio Muestral III.2.- Probabilidades y Conjuntos III.3.- Propiedades de las Probabilidades III.4.- Independencia Estocástica y Probabilidad Condicional III.5.- Probabilidades en Medicina Ejercicios de Probabilidades IV.- VARIABLES ALEATORIAS IV.1.- Distribución de una variable aleatoria IV.2.- Distribución de Bernoulli IV.3.- Distribución binomial IV.4.- Distribución de Poisson IV.5.- Variables aleatorias continuas 6 8 9 9 9 12 12 12 14 20 22 23 23 25 26 27 31 39 44 44 48 48 50 52

2.El tamaño muestral V..3.2.2.Supuestos de las dócimas Ejercicios de Pruebas de Hipótesis para una y dos muestras VII.DOCIMASIA O PRUEBA DE HIPÓTESIS VI.Distribución uniforme IV.2....3.1. El χ2 para proporciones VII.La distribución χ2 VII..Estimadores V.1.DISTRIBUCIÓN NORMAL IV.6.4.Otras distribuciones importantes Ejercicios de variables aleatorias III UNIDAD: INFERENCIA ESTADISTICA V.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 V.Estimaciones en Medicina Ejercicios de estimación VI...2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 V.9....4.2..Dócimas para una muestra VI..3.ESTIMACIÓN V.1.Bondad de ajuste de χ2 VII...Bases VI.Dócimas para dos muestras VI..8.2.7..ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS VII..La prueba G 53 53 53 57 61 64 65 65 67 67 68 69 70 72 74 74 78 80 84 87 91 91 96 98 99 .Estimaciones V.4 IV.3.Distribución exponencial IV..

..Correlación X.4..Regresión y ANOVA X.6..5..4.CORRELACIÓN Y REGRESIÓN X.-El Problema de Bonferroni IX.3.. CORRELACION Y REGRESION IX.Comparaciones múltiples IX. IX4.1.Análisis de Covarianza (ANCOVA) Ejercicios de correlación y regresión 101 103 104 110 112 113 112 114 115 119 122 125 127 129 132 132 133 135 138 139 140 142 ..Regresión X.3....ANOVA de dos vías: la interacción IX.Supuestos y alternativas no paramétricas X.2..Alternativas no paramétricas a las dócimas para dos muestras Ejercicios de estadística no-paramétrica IV UNIDAD: ANALISIS DE LA VARIANZA.1.Alternativas no paramétricas al ANOVA Ejercicios de análisis de la varianza X.Diseño experimental IX...2.ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) IX.7.Otros diseños IX..5 Ejercicios de análisis de datos enumerativos VIII.Predicciones X.Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía)..1.5.ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA VIII..

enunciado del problema. En general ambos enfoques conducen a la construcción de modelos. Esta acumulación de evidencias obedece a un proceso constante de proposición de explicaciones y causalidades de fenómenos naturales que puede ir de lo general a lo particular (deducción) o desde lo particular a lo general (inducción). La ciencia. Esta captación del orden pasa primero por la elección e identificación del fenómeno y decidiendo el enfoque de interés. El proceso del conocer requiere de un método. La deducción es una forma de generación de proposiciones lógicas. sean éstos formales o de simple palabra. . haciéndolo comprensible. que representen el fenómeno. Este es conocido como método científico. Este puede ser de tipo sistémico u holista en el que el interés esta concentrado en la totalidad y no en las partes (el todo es mas que la suma de las partes). generando nuevas hipótesis.6 INTRODUCCIÓN: CIENCIA Y ESTADISTICA El objetivo de la ciencia es captar el orden de los fenómenos para hacerlos comprensibles dando una explicación racional de ellos. evoluciona saltando de paradigma en paradigma (revoluciones científicas) en la medida que se acumulan evidencias contradictorias a la luz del paradigma existente. Estos reducen la complejidad del fenómeno. La inducción por el contrario. diseño experimental. prueba de la hipótesis. puede ser entendida como una colección de datos en el contexto de una forma de entender como funciona la naturaleza (paradigma). según Kuhn (1962). Estas proposiciones lógicas que tienen un valor de verdad desconocido las conocemos como hipótesis y pueden ser entendidas como enunciados que contienen proposiciones verificables y que anteceden a otras en el proceso continuo de la ciencia. planteamiento de la hipótesis y deducción de consecuencias verificables de ella (si p. que básicamente contiene varias etapas: i) ii) iii) iv) v) vi) elección del sistema. o bien de tipo reduccionista en el que se estudian las partes para entender el todo. y interpretación de los resultados. entonces q). En su conjunto. determinando sus causas y haciéndolos previsibles. genera proposiciones generales a partir de la repetitividad de hechos particulares.

Aquí es donde es relevante la metodología de la inferencia estadística.7 Para Popper (1979) el método consiste en una confrontación de los datos con una hipótesis. En el método de Popper convergen la deducción y la inducción. de tal manera que a través de la repetitividad de resultados experimentales (inducción) en una muestra. Así. en su base fundamental consiste en plantear una dicotomía entre la hipótesis de nulidad (Ho) y un alternativa (H1). la refutación. sea posible el rechazo de Ho y por tanto la inferencia de H1 a la población completa. Esta. hipotético-deductivo-refutacionista. son necesarios métodos rigurosos y eficientes que permitan una adecuada toma de decisiones. en el método de Popper. nos permite proponer nuevas hipótesis (falsificación de la hipótesis). estando relacionada la primera con la generación de hipótesis y la segunda con la refutación. . pudiendo ésta ser solamente rechazada y no probada. Para este segundo proceso. existe una hipótesis de nulidad que cuando es rechazada.

8 I UNIDAD: ESTADISTICA DESCRIPTIVA .

En el siglo XVII J. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades. y se refiere al origen histórico de esta disciplina relacionado con la descripción cuantitativa de asuntos del estado. W.A. Gosset “Student” (1876-1937).. E. Su objetivo inicial era describir cuantitativamente diversos hechos de interés. P. Quetelet (1796-1874) y finalmente F. En esta misma época. Fermat (1601-1665). 1969). en forma independiente nació la rama matemática de las probabilidades a raíz del interés en el juego de Antoine Gombaud (el caballero de Merè: 1610-1685) y de los matemáticos B.Definición La estadística actual se puede definir de muchas formas.A. Pearson (fundador de la revista Biometrika) y R. uniendo sus raíces descriptivas y matemáticas viene con K. Laplace (1749-1827) y K. A. dando origen a la biometría. El desarrollo definitivo de la estadística. la estadística matemática ha sido enriquecida con las contribuciones de Maxwell. Fisher (Statistical methods for research workers. Graunt (16201674) y W. En tiempos de Cesar Augusto el estadístico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se editó el primer censo de Inglaterra (Domesday Book). Pearson (1895).S. Tal vez las figuras mas destacadas que relacionaron la estadística y la biología. Fisher (1890-1962).F. I. En paralelo. Sin embargo una definición útil en el contexto de su aplicación en las ciencias es: .Bases e historia El término “estadística” proviene de la palabra estado.. Neyman (1894).ESTADÍSTICA I. También se llamó aritmética política.9 I.S.2.1. Galton (1822-1911) aplicaron la estadística al análisis de la variabilidad biológica. 1925). son K. por ejemplo “conjunto de métodos que permiten recolectar presentar y analizar información” o “análisis científico de datos basados en fenómenos naturales” (Sokal & Rholf.S. A. Boltzman y Gills (mecánica estadística) y por Kolmogorov (probabilidades axiomáticas) y Lebesgue (teoría de la medida). Petty (1623-1687) desarrollaron la estadística vital. Pearson (1857-1936). De Moivre (1667—1754). Posteriormente.. Wald (1902-1950) y R. J Bernouilli (1654-1705). combinándola con los datos estadísticos. A. Pascal (1623-1662) y P. J.

vi) dicotomía de la hipótesis (Ho vs. iv) planteamiento de la hipótesis. 3) Será sólo un estudio descriptivo o explicativo? . que crea. Esta definición hace énfasis en dos aspectos: i) ii) la estadística no es sólo un conjunto de métodos o recetas para aplicar ante determinados problemas. La estadística en investigación ha enriquecido el método científico. desarrolla y aplica técnicas para la descripción de datos y la evaluación de la incertidumbre de inferencias inductivas” (modificada de Steel & Torrie. v) deducción de consecuencias verificables de ella. vii) diseño experimental: a) decidir tipo de investigación: 1) Recopilación de datos ya registrados (estudio retrospectivo) u obtener nuevos datos (estudio prospectivo). Inferencia Estadística: que tiene dos sub-capítulos con objetivos diferentes: a) Estimación: cuyo fin es aproximar el valor de ciertos parámetros b) Docimasia o prueba de Hipótesis: cuyo objetivo es probar hipótesis. sino que también incluye la creación y el desarrollo de la teoría y métodos. pura y aplicada. Este último se puede describir detalladamente como: i) elección del sistema a estudiar y su enfoque. 2) Un estudio instantáneo (estudio transversal) o un seguimiento (estudio longitudinal). iii) definición de objetivos. 1985). dándole sentido y un marco teórico a sus diversas etapas. la estadística en ciencias se basa en la evaluación de la incertidumbre (probabilidad) de ciertas proposiciones (hipótesis) inferidas mediante un proceso de inducción (de lo particular a lo general) La estadística tiene tres capítulos claramente diferentes que se correlacionan con el desarrollo histórico: I) II) III) Estadística Descriptiva: cuyo fin es describir datos. H1). ii) enunciado del problema. Estadística Matemática: que constituye la base teórica de toda la estadística.10 “La estadística es la ciencia.

g) unidades de medidas y escalas viii) elección de estadígrafos para la prueba de la hipótesis. d) definición de grupo control. xiv) génesis de nuevas hipótesis . f) definición de las fuentes de información. c) diseño de la muestra.11 4) Será experimental o no-experimental? b) definir el Universo. e) definición de unidades de observación. ix) elección del nivel de significación x) docimasia de hipótesis xi) toma de decisión (rechazo Ho?) xii) representación de la información xiii) interpretación de los resultados.

Por ejemplo masa. peso. continuas o por intervalos. ordinales. Las variables pueden ser también continuas cuando se puede establecer correspondencia biunívoca con los números reales. nk n =∑ni % (n1 /n)·100 (n2 /n)·100 . ordinal: corto. olor y textura son cualitativas. (nk /n)·100 100 .. o discretas cuando establecen relación con los números naturales.. o bien cualitativas cuando se refieren a calidad. la unidad de medida puede ser “años” y un dato puede ser “5 años” en un individuo.. discretas... mediano.2... Por ejemplo. que en general se pueden resumir en dos: i) gráficos. longitud... e ii) tablas.12 II... la unidad de observación es el individuo.. Las tablas de distribución de frecuencias de n datos u observaciones corresponden básicamente a la representación en columnas del conjunto de valores de una variable (niveles de una variable: yi) y sus frecuencias absolutas (ni)... largo. En el caso de variables cualitativas adquiere una representación muy simple: Variable Y1 Y2 . Las variables pueden ser cuantitativas cuando miden cantidad o contenido de algún atributo.. cantidad son cuantitativas y color. la variable de interés es la edad. Por ejemplo.ESTADÍSTICA DESCRIPTIVA II. Yk Frecuencia absoluta (ni) n1 n2 ... II. nominal: negro o blanco. Entre éstos.Representación de la información Los datos u observaciones se representan de diversos modos. variables y escalas La estadística trabaja con datos u observaciones..1. Las escalas de medidas pueden ser nominales.... por intervalos: menor que 10 años. mayor o igual que diez años.. continua: gramos. son de interés las tablas de distribución de frecuencias y los histogramas y polígonos de frecuencia Tablas de distribución de frecuencias.. que en general son valores numéricos de una variable en una unidad de observación particular. si estamos interesados en la edad de los individuos.Observaciones.

ci. Entonces podemos definir: i) ii) frecuencia relativa hi = ni / n frecuencia acumulada N j = ∑ ni i =1 i= j iii) frecuencia acumulada relativa H j = ∑ hi i =1 i= j En este caso la tabla incluye las columnas: yi. Estos se anotan como [y’i-1. hi. y’i. y se agrupa en k intervalos iguales.13 En el caso de las variables discretas.- La variable X con la siguiente tabla de distribución de frecuencias: . La tabla incluye las columnas: y’i-1. ni. Ejemplo 1. El polígono de frecuencias corresponde a la gráfica de yi vs hi. Si definimos recorrido o rango de la variable X como la diferencia entre los valores máximo y mínimo. R = xmax –xmin. el límite superior. ni. La amplitud de cada intervalo es ci = y’i.y’i-1. si consideramos una variable X.y’i-1)/2. donde cada barra es un intervalo. El histograma de frecuencias corresponde a un gráfico de barra de X vs hi. Ni. hi. y’i]. Ni. y Hi Histograma y polígono de frecuencias La tabla de distribución de frecuencias tiene una expresión gráfica natural en el histograma y el polígono de frecuencias. entonces ci = R/k. donde Xi son las observaciones e yi los k niveles de la variable. y Hi. En estas tablas de distribución de frecuencias se define marca de clase como el valor promedio entre los límites del intervalo: yi = (y’i. En el caso de las variables continuas muchas veces es necesario agrupar datos (series agrupadas) por intervalos llamados intervalos de clase. yi. donde y’i-1 representa el límite inferior del intervalo e y’i.

14 y’i-1 2 4 6 8 10 12 Y’i 4 6 8 10 12 14 yi 3 5 7 9 11 13 ci 2 2 2 2 2 2 ni 20 25 30 10 12 3 hi 0. Es mejor caracterizar las variables por ciertas medidas que describen su distribución o histograma. el histograma corresponde al gráfico de barras y el polígono a la línea poligonal que une los puntos medios de cada barra.2 0. sin embargo éstas no son útiles a la hora de tomar decisiones estadísticas.85 0.3 0.00 En esta figura.45 0.3.97 1. II.2 0.1 0..25 0.03 Ni 20 45 75 85 97 100 hi 0.75 0.12 0. Estas se denominan medidas de resumen y se pueden dividir en cuatro: .Medidas de resumen La información se puede representar en gráficos o tablas.

es decir es su centro de masas. . entonces y = Algunas propiedades den promedio son: ∑n y i i n = ∑ hi yi i) La suma de las desviaciones de los valores en torno al promedio es nula. Medidas de posición La medida de posición más usada es el promedio. la mediana corresponde al valor Me = x(n+1)/2 si n es impar y al valor Me = (xn/2+xn/2 +1)/2 si n es par. con u un valor cualquiera.15 a) medidas de posición: cuyo fin es representar la posición central de la distribución u otras posiciones de interés. entonces ∑zi = 0. Es decir si ordenamos en orden ascendente la serie de n observaciones. entonces ∑z’i es mínima si u = x. b) medidas de dispersión: cuyo fin es representar la dispersión de los datos en torno a alguna medida de posición. Corresponde a la media aritmética y se puede expresar como: x = ∑x n i Si la serie ha sido agrupada. Si definimos zi = xi -x. ii) Dado z’i = xi –u. c) medidas de simetría o sesgo: cuyo fin es representar el tipo de asimetría de la distribución. El promedio entonces es una medida central en donde se “equilibra” la distribución completa. d) medidas de apuntamiento o curtosis: cuyo fin es medir la elevación de las frecuencias relativas. que podemos definir preliminarmente como una medida central que se relaciona el valor de una variable con su frecuencia relativa de presentación. Una segunda medida de posición es la mediana que corresponde a un valor bajo el cual se encuentra el 50% de las observaciones.

Md = y ' L −1 +c L Observaciones nL +1 nL +1 + nL −1 i) ii) Si la distribución de frecuencias es simétrica.16 Si la serie se encuentra agrupada la mediana se calcula como: Me = y ' L −1 + c L (n / 2 − N L −1 ) nL Donde L es el subíndice del intervalo que contiene a la mediana. Esta se define como el valor que tiene una mayor frecuencia relativa. En una serie agrupada. y una asimetría positiva en que X > Me > Md . . Una medida de posición asociada a la mediana es el percentil “Pp” que corresponde al valor bajo el cual se encuentra el “p%” de las observaciones. segundo y tercer cuartíl (Q1. entonces X = Me = Md . se puede calcular como: Pp = y ' L −1 + c L (np / 100 − N L −1 ) nL Es fácil ver que P50 es la mediana. En el caso de series agrupadas la moda corresponde a un intervalo. Q2 y Q3). y éste intervalo es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones (cuya Nj sobrepasa a n/2). La tercera medida de interés es la moda. por ejemplo P10 es el primer decíl. Del mismo modo se pueden definir los deciles. P50 y P75 se les denomina primer. Si la distribución de frecuencias es asimétrica. aunque se ha propuesto una fórmula que en cierta manera hace perder sentido a la definición. A los percentiles P25. se puede reconocer una asimetría negativa en que X < Me < Md .

entonces: V(a) = 0. es decir: S2 = ∑ (xi-x)2/n Observamos que ∑ (xi-x)2 = ∑ (xi2 +x2 –2xix) = ∑ xi2 +∑x2 –∑2xix) = = ∑ xi2 +nx2 –2nx2 = ∑ xi2 -nx 2 . V(a+x) = V(x) y V(ax+b) = a2V(x).17 Medidas de dispersión Las medidas de dispersión son aquellas que evalúan la variabilidad de las observaciones. Un problema de la varianza como medida de dispersión es que se expresa en unidades cuadráticas. El coeficiente de variación (CV) corrige este problema y corresponde a una desviación estándar “normalizada” dividida por el promedio: . Las desviaciones estándar dependen del valor del promedio. la desviación estándar corresponde aproximadamente a una distancia: la distancia media desde las observaciones individuales al promedio. Una medida de dispersión aún más usada que la varianza y que corrige el problema de las unidades. siendo más grandes cuanto mas grande es este último. su varianza se mide en metros cuadrados. lo que hace difícil su comparación. La más importante es la varianza (V(x) o S2) que podemos definir como la desviación cuadrática media de los valores en torno al promedio. es la desviación estándar (s) que corresponde a la raíz cuadrada de la varianza: s = s2 Por su estructura. y entonces: xi2 s = ∑ − x2 n 2 ni yi2 − y 2 = ∑ hi yi2 − y 2 En una serie agrupada s = ∑ n 2 Algunas propiedades de la varianza son: Si a y b son constantes. si la variable se mide en metros. V(ax) = a2V(x). Por ejemplo.

o distribución sesgada a la derecha. Existe una relación empírica que relaciona éstas medidas: x − Md = 3( x − Me) . esta tiene un sentido diferente. En esta distribución β = 3. si β = 3. Medidas de apuntamiento o curtosis El apuntamiento o curtosis se mide en referencia a una distribución muy habitual denominada distribución normal (ver más adelante). Esta medida adquiere sentido en inferencia estadística. y Platicúrticas o menos apuntadas que la normal. . Mesocúrticas o igualmente apuntadas. si β < 3. es decir si de un conjunto de observaciones tomamos varias sub-muestras y en cada una de ellas calculamos un promedio y a continuación calculamos la desviación estándar de éstos promedios. Corresponde a la desviación estándar del promedio. obtenemos Es. Esta distribución se puede caracterizar a través de un coeficiente β =µ4/S4 = [∑ (xi-x)4/n]/S4.18 CV = s / x Otra medida de dispersión es el error estándar (Es): Es = s / n Sin embargo. Esto permite clasificar las distribuciones como: i) ii) iii) Leptocúrticas o más apuntadas que la normal. mediana y promedio en las distribuciones simétricas y asimétricas. Si el cambio γ < 0 el sesgo es negativo o la distribución es sesgada a la izquierda. A partir de ésta se usan los coeficientes de asimetría de Pearson: γ3 = x − Md 3( x − Me) y γ5 = s s Si cualquiera de los γ > 0 se habla de sesgo positivo. si β > 3. Medidas de simetría o sesgo Las medidas de simetría se basan en las relaciones entre la moda.xmín y el recorrido intercuartílico (Q): Q = P75-P25 = Q3-Q1. Otras medidas de dispersión son el rango (R) R = xmáx.

es decir 50. Entonces y’L-1= 6.4 = 3.1 ⋅ 81 + 0.56) 2 = 7. ahora se puede calcular fácilmente la varianza: s 2 = ∑ hi yi2 − y 2 = 50.2 ⋅ 3 + 0. e) Tercer cuartíl: en forma análoga al cálculo anterior: Q3 = 8 + 2((75-75)/10) = 8. Además en ocasiones es útil cuantificar la simetría.74 = 0.41 b) c) d) e) f) Rango: 14-2= 12.12 ⋅ 11 + 0. Desviación estándar: s = √(s2) = 2. Recorrido intercuartílico: Q3-Q1 = 8-4.19 Ejemplo 2.03 ⋅ 13 = 6.56 = 0.56 b) Intervalo de moda: (6.25. 8) c) Mediana: el intervalo que contiene la mediana es aquél que por primera vez sobrepasa la mitad de la cantidad total de observaciones.1 ⋅ 9 + 0. En este caso es el intervalo (6.74/6.44 − (6.2 ⋅ 9 + 0.74/√(100) = 0.4.56-6. d) Primer cuartíl: el intervalo que contiene Q1 es aquél que por primera vez sobrepasa el 25% de la cantidad total de observaciones.74 Coeficiente de variación: CV = 2.27. en éste caso a través de: γ5 = 3(6.33.44 Y. . y la mediana es: Me = 6 + 2((50-45)/30) = 6.25 ⋅ 25 + 0.25 ⋅ 5 + 0.41 Error estándar: Es = 2.03 ⋅ 169 = 50.33)/2.3 ⋅ 49 + 0.6.3 ⋅ 7 + 0.- Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de posición: a) Promedio: y = 0. es decir 25. Entonces y’L-1= 4. También podemos calcular las siguientes medidas de dispersión: a) Varianza: en este caso lo más simple es calcular primero ∑hiyi2: ∑h y i 2 i = 0. 6). 8). En este caso es el intervalo (4.12 ⋅ 121 + 0. Esto indica un pequeño sesgo o asimetría a la derecha. y Q1 es: Q1 = 4 + 2((25-20)/25) = 4.

mediana. P30: 0.123.440 0.04. Datos de mg de glicina por mg de creatinina en la orina de 20 chimpancés (tomadas de Gartler.a. a (ni) acumulada relativa clase (yi) (hi) (Ni) 2 6 18 12 7 3 Frec. Pesos de nacimiento de niños (en kg) Rango Frec.120.018 0.025 0.350 0. Marca de Frecuenci Frec.100 0. relativa acumulada (Hi) 0–2 2–4 4–6 6–8 8 – 10 10 – 12 1. R: i) a) promedio: 6.0475.b.055 0. . CV: 0. ii) ¿Son simétricas las distribuciones? Compruébelo haciendo histogramas de frecuencia. mediana: 0.043 0. Moda 0. iii) Realice histogramas de frecuencia acumulada para cada grupo de datos.979.135 0. percentil 30. desviación estándar: 2. Firchein y Dobzhansky.395. P30: 4.036 0.026 0.100 0.008 0.077 0.052 0. moda.78.1. Moda [4. b) promedio: 0.120 0. 1956) 0.20 Ejercicios de Estadística descriptiva 1.6].089.110 0.39.300 0. mediana: 5. desviación estándar y coeficiente de variación.300 Para los dos conjuntos de datos presentados arriba: i) Calcular: promedio. CV: 0.056 0.100 0.71. desviación estándar: 0.

5.0 65.9 56.0 32.0 30.1 65. CII: V 12.2 29.47.5 57.35. Se ha realizado el estudio de dos medicamentos utilizando ratas.7 64. RIQ 6.52.3 29.5 i) ii) iii) iv) Calcular la media y la mediana muestral.7.8 30.55.5. ds 3.0 62. Calcular rango y el rango intercuartílico.5. iii) CI: Rango 7.6 60.2 59.0 56.1 30.5 31.1 26.5 32. ds 1.6 60.3 58. mediana 60.1 28.0 31.2 30. Compuesto II: media 60.7 33. Calcular la varianza y la desviación estándar de la muestra.0 57.6 64.2 59.6 29.3 32. ¿Cuál compuesto produjo una respuesta más variable? R: i) Compuesto I: media 30. RIQ 2. % de cambio en X Compuesto I Compuesto II 26. mediana: 30.21 2.11.0 64.8 59. ii) CI: V 3.5 55. Se midió el porcentaje cambio de una variable X en la sangre arterial tras la administración de dosis idénticas de distintos medicamentos.5 28.04.1 63. iv) el primero (ver coeficiente de variación) .3 62.4 30.87.7 30.1 62.7 55.7 60. CII: Rango 10.2 63.3 30.7 55.1 63.

22 II UNIDAD: ESTADISTICA MATEMATICA .

o de otra forma. ii) Si P y Q ∈ σ-Ω entonces P ∪ Q ∈ σ-Ω. . Ejemplo1. 3. unión e intersección. Llamaremos suceso o evento a los elementos de σ-Ω.Experimento Aleatorio. Es decir.PROBABILIDADES III. 5. entonces P ∈ σ-Ω. es decir. 2. cada una de las cuales tiene cierta utilidad..2) = que salga 1 o 2. (1. 4. Definición clásica: Llamaremos probabilidad des suceso A al cuociente entre el número de resultados o casos “favorables” a A y el número de resultados o casos “posibles”.23 III. en caso contrario lo llamaremos aleatorio. (1. un elemento de omega. Una σ-Ω es el conjunto de todos los subconjuntos de Ω (π (Ω)). Llamaremos espacio muestral (Ω) al conjunto de todos los posibles resultados de un experimento aleatorio. 6) = que salga 1 o 2 o 3 o 4 o 5 o 6. Existen varias definiciones de probabilidad. Espacio Muestral Definiciones Llamaremos experimento determinístico. σ-Ω es cerrada bajo complementación. da siempre el mismo resultado. Del ejemplo anterior es evidente que hay sucesos más “posibles” o “probables” que otros. 6} Son posibles sucesos (1)= que salga 1. Llamaremos sigma-álgebra en omega a un conjunto σ-Ω formado por subconjuntos de Ω que cumple con: i) Si P (subconjunto de Ω) ∈ σ Ω.1. Es necesario definir entonces probabilidad de un suceso..- Sea el experimento aleatorio “tiro un dado” Su espacio muestral es Ω= {1. a cualquier subconjunto de Ω. 3. En este sentido σ-Ω es el conjunto de los sucesos. 5.Ω. a aquel que repetido en las mismas condiciones. 2. Un punto muestral será un resultado posible. iii) Si P y Q ∈ σ-Ω entonces P ∩ Q ∈ σ. 4.

exige que el experimento se haya realizado repetidas veces. 6)) es P(C) = 6/6 = 1. es que no responde a la pregunta ¿cuantas veces hay que repetir el experimento? La respuesta es: un número suficientemente grande de veces. 4.3)) es P(B) = 2/6 y la probabilidad de sacar cualquier número (C = (1. la probabilidad de sacar un dos en una tirada de un dado (A = 2) es P(A) = 1/6. el cuociente entre el número de veces en que dio como resultado A (nA) y el número de veces en que se repitió el experimento. P( A) = lim(nA / n) n →∞ Un problema básico con esta definición. es decir. habría que haber tirado el dado en varias oportunidades para luego calcular las probabilidades. 2. el cuociente entre el número de veces en que dio como resultado A (nA) y un número suficientemente grande de veces en que se repitió el experimento: El límite al que tiende la frecuencia relativa.24 P( A) = casosfavorables casosposibles Así. Definición axiomática (Kolmogorov): Una probabilidad es una función: P: σ-Ω -----------------------> {0. es posible estimar la probabilidad del suceso A como la frecuente relativa de ocurrencia de A. esta es una definición a posteriori. 5. antes de estimar la probabilidad de un suceso. en nuestro ejemplo. es decir. 3. cuando n tiende a infinito. es que no es posible repetir un experimento infinitas veces. es decir. P( A) = nA n Se debe hacer notar que al contrario de la definición clásica. La crítica más importante a la definición de Frechet. tal que: .1} A ----------------------------> P(A). Definición de Von Mises: La probabilidad del suceso A corresponde a la frecuencia relativa de ocurrencia de A. En nuestro ejemplo. la probabilidad de sacar un uno o un tres (B = (1. y es esto lo que quiso corregir Von Mises. Definición de Frechet: Si un experimento aleatorio se realiza n veces.

Un ejemplo de esta “medida” es el cardinal de A y de omega (P(A) / #(A) / #(Ω)) . si A ∩ B = ∅ entonces A y B son mutuamente excluyentes. entonces P (A ∪ B) = P(A) +P(B) (teorema de la o) Definición Al triplete (Ω. Definición Dos sucesos A y B serán mutuamente excluyentes si la ocurrencia de A ⇒ que no ocurre B. Elemento de σ-Ω: suceso. Así.2. en que m(A) y m(Ω) representan alguna “medida” del suceso y del espacio muestral respectivamente. III. Una definición de probabilidad de un suceso. complementarios son mutuamente excluyentes. Definición Dos sucesos A y B son complementarios si la no ocurrencia de A ⇒ la ocurrencia de B y a la inversa.25 i) P (Ω) = 1 ii) P (A) > 0 ∀ A ∈ σ-Ω iii) si A ∩ B = ∅. AC: no sucede A. Notemos que A ∩ B = Ω. Conjunto vacío (∅): suceso imposible.Probabilidades y Conjuntos Es posible establecer analogías entre los conjuntos y las probabilidades: Conjunto universo: Ω. es P(A) = m(A) / m(Ω). A ∩ B: sucede A y sucede B. P) se le denomina Espacio de probabilidades. asociada a la noción conjuntista. es decir.σ-Ω. Observemos también que los sucesos constituyen una partición de omega.. A ∪ B: sucede A o sucede B o ambos. pero no todos los sucesos excluyentes son complementarios. Es decir AC = B.

pues los gatos negros son un sub-conjuto del conjunto de los gatos. Ejemplo 3. entonces usando las propiedades 1 y 3 de la definición axiomática. entonces la probabilidad que no lo lea es q = 1-p = 1-0. #A ≤ #B. entonces P(A) < P(B) Ejemplo 5.8.26 III. la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6) = 1/6 +1/6 = 2/6.. II) Aditividad finita: Si Ai ∩ Bi = ∅. pues los sucesos “sale 5” y “sale 6” son excluyentes. entonces P(B) = P( ∅) = 0. entonces P(A) < P(B) Demostración Si A ⊂ B. Ejemplo 2. entonces P (∪ Ai) = Σ P (Ai) Demostración por extensión directa de la propiedad 3. para cualquier i. Ejemplo 4. IV) Monotonía: Si A ⊂ B.2 = 0. como A ∩ B = ∅.- Si tiro una vez un dado. .- La probabilidad que salga 0 al tirar un dado es P(0) = P(Φ) = 0.3. P (A ∪ B) = P(Ω ) = 1 = P(A) + P(B) = 1 + P(B). IV) Probabilidad del Complemento: P (AC) = 1 – P(A) Demostración P(Ω) = 1 = P(AC ∪ A) = P(AC) + P(A).- Si la probabilidad de que un individuo lea el diario es p = 0.2.- La probabilidad de encontrar un gato negro es menor que la de encontrar un gato.Propiedades de las Probabilidades I) P (∅) = 0 Demostración Sea A = Ω y B = ∅. j.

4 M y F.Independencia Estocástica y Probabilidad Condicional Definición Dos sucesos A y B se dirán independientes si la ocurrencia de uno no “influye” en la ocurrencia del oro. B = Juan duerme y C = hacemos un “asado”.0.27 V) Probabilidad Compuesta: P(A ∪ B) = P(A) + P(B) – P(A ∩ B) Demostración P(A ∪ B) = #(A ∪ B)/#(Ω) =[#(A) + #(B) .1 y la probabilidad que muera la segunda (s) es 0.99 = 0. 5 F y Q. Los sucesos A y B son probablemente independientes.- Si se tienen 60 alumnos. por ejemplo: P(A ∪ B ∪ C)= P(A) + P(B) + P(C) – P(A ∩ B) –P(A ∩ C) – P(B ∩ C)+ P(A ∩ B ∩ C) Ejemplo 6.4.- Si de dos personas. III. Entonces la probabilidad que un alumno tome matemáticas o física es : P(M ∪ F) = P(M) + P(F) – P(M ∩ F) = (15+6+4)/60 +(20+4+5)/60 – 4/60 = 50/60 =5/6 (Haga un diagrama de Venn.- Sean los sucesos A= llueve en Santiago.P(ninguna) = 1. entre los cuales 15 sólo toman un curso de matemáticas (M). lo que se interpreta como P(alguno) = 1 – P (ninguno) Demostración Por teorema de De Morgan (∪ Ai)C = (∩ AiC) entonces aplicando la propiedad del complemento P(∪ Ai)= 1 –P[(∪ Ai)C] = 1 -P(∩ AiC).01.#(A ∩ B)]/ #(Ω) = #(A)/ #(Ω) + #(B)/ #(Ω) .109.9x0.#(A ∩ B)/ #(Ω) = P(A) + P(B) – P(A ∩ B). no así los sucesos A y C. para una mejor comprensión del problema). VI) Probabilidad que ocurra al menos un evento: P(∪ Ai)= 1 –P(∩ AiC). Ejemplo 7. . Es posible extender este teorema a más de 2 conjuntos. entonces la probabilidad que muera alguna P(alguna) = 1.. 20 sólo de física (F). 6 M y Q y ninguno M F y Q. la probabilidad que muera la primera (p)es 0. 10 sólo de química (Q). Ejemplo 8.

despejando P(A ∩ B) en la definición anterior.∀ i. j. por el “teorema de la o” P(A) = P(A ∩ B1) + P(A ∩ B2) + .... . j y ii) ∪ Bi = Ω. Entonces.. (A ∩Bn) Como (A ∩ Bi) ∩ (A∩Bj) = ∅. dado que ocurrió el suceso B (condición) al cuociente: P( A / B) = P( A ∩ B) P( B) Podemos ahora hacer una definición más formal de sucesos independientes: A y B son independientes si P(A/B) = P(A). P(A ∩ Bn) = Σ P(A ∩ Bi) y por la definición de probabilidad condicional. P (A) = Σ [P(A/Bi) · P(Bi)] Teorema de Bayes Dado un suceso A y una partición {Bi} entonces. Teorema de la probabilidad total Dado un suceso A y una partición de Ω {Bi}.28 Probabilidad condicional Definiremos probabilidad del suceso A. se sigue inmediatamente el siguiente teorema: Teorema de la probabilidad conjunta Si A y B son independientes. entonces: P( A) = ∑ P( A / Bi ) ⋅ P( Bi ) i Demostración: A = (A ∩ B1) ∪ (A ∩ B2) ∪. entonces P(A ∩ B) = P(A) P(B) (teorema de la y) Definición El conjunto {Bi} constituirá una partición de Ω si i) Bi ∩ Bj = ∅ ∀ i. P( Bi / A) = P( A / Bi ) ⋅ P( Bi ) ∑ j P( A / B j ) ⋅ P( B j ) Demostración Por definición P(Bi/A) = P(Bi ∩ A)/P(A) y por lo tanto. P(Bi/A) = P(A/Bi) · P(Bi)/P(A) y aplicando el teorema de la probabilidad total.

11.Se estudian 98 perros con sospecha de hepatitis.Los casos posibles (o el cardinal del espacio muestral) son 8. scs. la medida o cardinal de este suceso es 3. El número de inscritos en Biología y Matemáticas es 33. csc. Se les palpa el hígado clasificándolo en: 0: no se palpa. P(Z) = 137/200.Se lanza una moneda tres veces.29 P(Bi/A) = P(A/Bi) · P(Bi) / Σ [P(A/Bj)·P(Bj)] Ejemplos 9-13. o. en Matemáticas y Zoología es 29 y en Biología y Zoología es 92.. b) la probabilidad de que esté en al menos una clase es P (B ∪ M ∪ Z) entonces la probabilidad de que esté en ninguna es P(0) = 1-P(B ∪ M ∪ Z) P(B ∪ M ∪ Z) = P(B) + P(M) + P(Z) –P(B ∩ M) –P(B ∩ Z) –P(M ∩ Z) + P(B ∩ M ∩ Z) = (137 + 50 + 124-33-29-92+18)/200 = 7/8. 1: aumentado de tamaño. d) P(3c o3s) = P(3c U 3s) = P(3c) + P(3c) = 1/8 + 1/8 = ¼ 10. scc. P(B ∩ M ∩ Z) = 18/200. csc..De un grupo de 200 estudiantes.. P(M) = 50/200. Al escoger un alumno al azar de los 200: a) ¿Cuál es la probabilidad de que esté en Biología o Matemáticas? b) ¿Cuál es la probabilidad que no esté en ninguna clase? R: P(B) = 137/200. A los mismos perros se les hace biopsia hepática y se obtiene: . P(B ∩ Z) = 92/200. Los inscritos en las tres clases es 18. de otra manera. ssc.- 9. ccs. 50 en Matemáticas. a) P(B ∪ M) = P (B) +P(M) –P(B ∩ M) = (137+50-33)/200 = 154/200. por lo que P(0) = 1-7/8 =1/8. P(2c)/m(omega) = casos favorables/casos posibles = 3/8. c) P(2c o 3c) = P(2c U 3c) = P(2c) + P(3c) = 3/8 +1/8 = ½. y 124 en Zoología. scc) es decir hay 3 casos favorables. a) ¿Cuál es su espacio muestral? b) ¿Cuál es la probabilidad de obtener exactamente 2 caras? c) ¿cual es la probabilidad de obtener al menos 2 caras d) ¿cual es la probabilidad de que los tres lanzamientos sean iguales? R: a) Ω = {ccc.. css. P(B ∩ M) = 33/200. 2: muy aumentado de tamaño. sss} b) Los únicos resultados en que salen exactamente dos caras son: {2c} = (ccs. P(M ∩ Z) = 29/200. entonces. 137 se inscribieron en Biología.

Determine a) P(C). c) P(C ∩ T2) d) ¿son independientes C y T2? R: a) b) c) d) P(C) = 17/98 P(T2) = 28/98 P(C ∩ T2) = P(C/T2) · P (T2) = 12/28 · 28/98= 12/98 P(C/T2) = 12/28 = P(C) = 17/98. y se anotan las radiografías que sugirieron tal diagnóstico. es P(G/F) = P(F/G) · P(G)/P(F) = 0.Se quiere saber la bondad de la radiografía en el diagnóstico de la piometritis en perros. P(F/P) = 6/7 y P(F/Gz) = 11/12. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis. 6 de cada 7 de pato y 11 de cada 12 de ganso.En una caja hay 4 huevos de gallina..868. P(P) = 10/22.. P(F/G) = 4/5.P(G) = 4/22. P(Gz) = 8/22. P y Gz constituyen una partición de Ω. b) P(G/F) por teorema de Bayes. Se registraron los siguientes resultados: . Entonces por teorema de la probabilidad total: P(F) = P(F/G · P (G) + P(F/P) · P (P) + P(F/Gz) · P (Gz) = 0. cual es la probabilidad de que sea de gallina? R. a) Los sucesos G.30 Lesión hepática Cirrosis Hematoma Esteatosis Sin lesión Total Tamaño del hígado 0 2 1 4 8 13 12 8 9 15 30 40 1 12 14 9 3 28 Total 17 25 29 27 98 Sea C: el perro es cirrótico. b) P(T2). Si son fértiles 4 de cada 5 de gallina. pues G Ո P ∩ Gz = ∅ y G ∪ P ∪ Gz = Ω. 12. 13.168. entonces no son independientes.. Al sacar un huevo: a) ¿Cuál es la probabilidad que sea fértil? b) ¿si fue fértil. 10 de pato y 8 de ganso. y T2: el hígado tiene tamaño.

31 Radiografía Animales con pm Animales sin pm Total (+) para pm 13 8 21 (-) para pm 7 32 39 Total 20 40 60 a) ¿Cuál es la probabilidad de que se encuentre una radiografía positiva dado que la paciente tiene piometritis? (concepto de sensibilidad de un examen) b) ¿Cuál es la probabilidad de que la radiografía sea negativa dado que la paciente no tiene piometritis? (concepto de Especificidad de un examen) c) con estos datos que concluiría acerca de este examen R: a) Sensibilidad: P(e+/dg+) = 13/20 = 0.Probabilidades en Medicina Probabilidades en el diagnóstico Un concepto útil muy usado en medicina que se relaciona con probabilidad es la chance (“odds”).8. Esta se puede definir como la razón entre la probabilidad de ocurrencia de un suceso (p) y la probabilidad complementaria de que éste no ocurra (1-p): O= p 1− p Este concepto tiene un uso habitual y se relaciona bi-unívocamente con la probabilidad p. pues es capaz de detectar sólo el 65% de los casos.5. sólo un 80% efectivamente son piometritis. en pacientes con la patología.. III. De los casos en que la radiografía sale positiva. .65 b) Especificidad: P(e-/dg-) = 32/40 = 0.80 c) No es un buen examen. Por ejemplo el decir que tengo una chance de O = 4/1 de ganar un partido es equivalente a decir que la mi probabilidad de ganar es p = 4/(4+1) = 0.

Es posible representar esto en la siguiente tabla: EXAMEN + A C a+c B D b+d Total a +b c+d n = a+b+c+d ENFERMO NO ENFERMO Total En este caso. A veces un individuo posee una enfermedad y el examen sale negativo (falso negativo) y otras veces sale positivo para la enfermedad y el paciente no la tiene (falso positivo). los falsos positivos serían c y los falsos negativos serían b. mide la capacidad del examen de responder a esa y sólo a esa enfermedad. Sin embargo los exámenes no son 100% certeros para hacer el diagnóstico. es decir mide la capacidad de predicción de la enfermedad: VPP = P( E / + ) = a a+c . A partir de esta tabla se pueden definir ciertos conceptos: La Sensibilidad de un examen corresponde a la probabilidad que el examen salga positivo dado que el paciente está enfermo: S = P(+ / E ) = a a+b Representa la capacidad del examen de detectar la enfermedad. El Valor predictivo positivo corresponde a la probabilidad de que el paciente esté enfermo dado que el examen salió positivo. La Especificidad del examen corresponde a la probabilidad de que el examen salga negativo dado que el paciente no tiene dicha enfermedad (aunque tenga otra): Sp = P(− / noE ) = d c+d Es decir.32 En medicina es habitual el uso de exámenes para el diagnóstico de enfermedades.

VPN = P (noE / −) = d b+d La certeza diagnóstica corresponde a la probabilidad general de acertar P(C) = (a+d)/n. dado que no lo está. dividido por la probabilidad de ese mismo resultado. es decir la chance a posteriori es: Op = LR ⋅ Oo . P(C ) = a+d n Otra medida interesante es la razón o coeficiente de verosimilitud que se define como la razón entre la probabilidad de un cierto resultado en el examen dado que el paciente está enfermo. La probabilidad de que no tenga la enfermedad es P(noE/+) = 1 – [SP/(SP+(1Sp)(1-P)] = (1-Sp)(1-P)/ /(SP+(1-Sp)(1-P)). cuando se hace el examen y este sale positivo. para un resultado positivo: LR = P (+ / E ) / P (+ / noE ) = P (+ / E ) /(1 − P (− / noE )) = S 1 − Sp Para un resultado negativo es fácil ver que: LR = (1 − S ) / Sp En cierta medida LR mide la potencia de un examen: cuanto más positivo es en presencia que en ausencia de enfermedad. Entonces su chance a posteriori es Op = P(E/+)/P(noE/+) = SP/(1-Sp)(1-P). Su chance a priori es Oo = P/(1-P). y por el teorema de Bayes: P(E/+) = P(+/E)P(E)/(P(+/E)P(E) + P(+/noE)P(noE) = S·P/(S·P + (1-Sp)·(1-P)). es decir mide la capacidad de descarte de la enfermedad. En este caso interesa P(E/+). Por ejemplo. Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una probabilidad “P” de tener una enfermedad.33 El Valor predictivo negativo corresponde a la probabilidad de que el paciente no esté enfermo dado que el examen salió negativo.

894.952) = 16.44.34 entonces el coeficiente de verosimilitud actúa como un factor potenciador de la chance.33 y la chance de un enfermo de tener dicha enfermedad antes de hacerse el examen es: O0 = 0.904 y el LR(+) = 0.909. Probabilidades en el tratamiento Cuando se ensaya un tratamiento en general se dispone de dos grupos. Esto se representa en una tabla del tipo: Evento No evento Total Control A C A+c Experimental B D B+d Total A+b C+d N=a+b+c+d Se define como tasa de evento en el control: CER = P(evento / control ) = a y tasa de evento en el grupo experimental: a+c . Este mismo resultado es válido para un resultado negativo. el valor predictivo negativo es VPN = 200/220 = 0.81/(1-0. la prevalencia de la enfermedad se estima en: p = 105/315 = 0.5x16.33/(1-0. se está ensayando un examen A y que en un estudio poblacional representativo se obtuvo: EXAMEN A + ENFERMO de X 85 NO ENFERMO 10 de X Total 95 20 200 220 Total 105 210 315 Entonces.5. entonces ahora su chance de tener la enfermedad es: Op = 0. es decir alrededor de 8 a 1. La sensibilidad del examen es S = 85/105 = 0.875 = 8. muerte). en general negativo (i. si a un paciente le sale el resultado positivo.e.952. Ejemplo 14. Así. la especificidad es Sp = 200/210 = 0.875..81. uno que no recibe el tratamiento (grupo control) y otro que lo recibe (grupo experimental) y se mide un cierto efecto o evento. es decir 1es a 2. el valor predictivo positivo es VPP = 85/95 = 0.33) = 0. la probabilidad de certeza es C = 285/315 = 0.Supongamos que para una enfermedad X.

De aquí surgen varias medidas útiles. La reducción relativa del riesgo es RRR = 0.44. y si es menor que 1 una disminución en éste: RR = EER / CER Otra medida importante es la reducción en el riesgo absoluto producida por el tratamiento experimental: reducción de absoluta del riesgo: ARR = CER − EER Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrán beneficiados con el tratamiento.048 = 0. . mientras que la tasa experimental es EER = 5/105 = 0. es decir un 73..6%. En otras palabras el número necesario para beneficiar a uno es: NNT = 1 / ARR Otra medida de menor interés es la reducción relativa del riesgo: RRR = (CER − EER) / CER Esta representa la baja porcentual en el riesgo producida por el tratamiento.736. Así la reducción absoluta del riesgo con el nuevo tratamiento es ARR = 0.048.182.35 EER = P(evento / ex) = b b+d Estas tasas miden los riesgos absolutos de presentar cierto evento en situación control y en situación experimental.18-0. aproximadamente 8 pacientes se obtendrá al menos un beneficiado.134/0.134 = 7. o de otra manera habría que tratar 100 para beneficiar a uno.182 = 0. que indicará si es mayor que 1 un aumento en el riesgo. Ejemplo 15. Primero es interesante medir el riesgo relativo RR = EER/CER.Se está ensayando un nuevo tratamiento “Y” para una enfermedad de alta mortalidad y se obtiene: Fallecidos Vivos Total Tratamiento antiguo (control) 20 90 110 Tratamiento Y 5 100 105 Total 25 190 215 Se puede observar que la tasa de mortalidad control es CER = 20/110 = 0.134 y entonces al tratar NNT = 1/0.

A veces se sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i) Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no expuesto. el primero de enfermos y el segundo de no enfermos. En el caso de un estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se está expuesto EER = a/(a+b) y cuando no se está expuesto CER = c/(c+d) y en este caso el aumento absoluto del riesgo al estar expuesto: ARA = EER − CER El riesgo relativo: RR = EER / CER Y el aumento relativo del riesgo: RRA = ( EER − CER ) / CER En este caso el número necesario de expuestos para que haya 1 enfermo es: NNH = 1 / ARA . Cualquiera sea el tipo de estudio en general se expresa en la siguiente tabla: Caso (enfermo) Expuesto no expuesto A C a+c control enfermo) B D b+d (no Total a+b c+d n=a+b+c+d Aunque la tabla sea la misma las medidas útiles son distintas. estudiando en ellos cuantos de éstos estuvieron expuestos al factor.36 Probabilidades en la etiología Muchas veces es necesario indagar en las causas de las enfermedades. para estudiar después cuantos desarrollan la enfermedad en cada grupo (por ejemplo tabaco y cáncer bronquial). e ii) Estudio de casos y controles que consiste en la elección de dos grupos. En este caso es un estudio transversal.

Supongamos que se realiza un experimento con ratones donde se deja reproducir parejas en dos ambientes. al estar expuestos el riesgo es 2.. Esta corresponde a la razón entre la chance de tener el factor de exposición cuando se es un caso Oc = [a/(a+c)]/[c/(a+c)] = a/c y la chance de tener el factor de exposición cuando se es un control Oo = b/d. uno con fertilizantes y otro sin fertilizantes. es decir. Ejemplo 17.126/0.074 = 2. Después de un tiempo largo se estudia la presencia de malformaciones congénitas en las crías.126 y el número de individuos expuestos para que ocurra al menos una malformación es NNH = 1/0.7 veces el riesgo que se tiene al no estar expuesto. El riesgo relativo es RR = 0.37 Ejemplo 16. al estar expuestos a fertilizantes. obteniendo: Expuestos a fertilizantes No expuestos Crías con malformaciones 25 16 41 Crías sin malformaciones 100 200 300 Total 125 216 341 En este caso la tasa de eventos de los no expuestos es CER = 16/216 = 0. De esta manera la razón de disparidades es: OR = a / c ad = b / d bc En este caso también es posible estimar un número necesario de expuestos para tener un caso a través de: NNH = [PEER(OR-1) +1]/[PEER(OR-1)(1-PEER)]..2-0.074 = 1.Se piensa que el cigarrillo tiene relación con el cáncer de Vejiga. Entonces una buena medida del riesgo y que se interpreta de la misma manera es la razón de disparidades de la chance (Odds ratio (OR)). en el caso de los sujetos experimentales es: EER = 25/125 = 0.70. entonces se realiza un estudio en pacientes con cáncer de vejiga (casos) y en sujetos . Así el aumento absoluto del riesgo es ARA = 0. En el estudio de casos y controles no tiene sentido el cálculo de riesgos directamente de la tabla porque los totales marginales de la derecha no son los expuestos o no expuestos sino las sumas de los individuos que tienen antecedentes de exposición.074 y.93 individuos.126 = 7.2. donde PEER es alguna estimación de EER.70.074 = 0. El aumento relativo del riesgo es RRA = 0.2/0. es decir de un 170%.

03)] = 14. obteniendo: Pacientes con Cáncer de Vejiga 56 120 176 Controles normales 26 200 226 Total 82 320 402 Fumadores No fumadores En este caso la chance de fumar en pacientes con cáncer de vejiga es: 56:120.03(3. . mientras que cuando no se tiene este cáncer es de 26:200. pareados por edad y sexo (controles).59-1)(10.03(3. Se estudia en estos pacientes el antecedente de consumo de cigarrillos.59. Así si por ejemplo la prevalencia de cáncer de vejiga en fumadores fuera PEER = 0.3.38 normales.59-1)+1]/[0. entonces NNH =[0. Así la razón de disparidades es OR = 56x200/(26x120) = 3.03.

5. Calcular P(A). el cual es verde. 1/20. Sea A el evento “ataque exitoso”. que sean todas cara o todas sello. 30). Supongamos que se necesita un valor mayor o igual a 17 para atacar exitosamente al oponente. Encuentre la probabilidad de: obtener un 18 en un solo tiro de ruleta. Una ruleta de casino tiene 37 números. CSC. Excepto por el 0. 1/4. El espacio muestral Ω es: Ω = {CCC. Compruébelo lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa) con distintos N muestrales (5. iv) obtener un número rojo en el primer tiro y el cero en el segundo tiro. ii) iii) una bola blanca y una bola roja. i) una bola verde de una bola sacada de la urna. 3/160. i) obtener un número rojo en un solo tiro. 20. 3. 2.39 Ejercicios de Probabilidades 1. Una urna contiene 4 bolas blancas. 1/4. Para determinar si el ataque de un jugador es exitoso si le salen un * o un ° al lanzar un dado de 20 caras. ii) iii) obtener un 5 o un número negro en un solo tiro. ii) Si necesitas 6 o más puntos de daño para matar a tu oponente. la mitad de los números son rojos (pares) y la otra mitad. SSS} Sea A el evento que aparezcan dos o más caras consecutivas. 10. R: 1/10. 2/7. cuál es la iii) probabilidad de matar a tu oponente en un ataque. Haga lo mismo para obtener la probabilidad de que salga un número par. Calcúlese la probabilidad de obtener un 1 o un 5 al tirar un dado. cuál es P(A). P(B) y P(A∩B). se lanza un dado de 8 caras para determinar el daño causado por el ataque. R: 3/8. 4. Si el ataque resulta exitoso. i) Sea B el evento “causar 5 o más puntos de daño”. cuál es P(B). CSS. En un juego. R: 1/4. CCS. R: 2/6. Cuál es la probabilidad de sacar: una bola roja de una bola sacada de la urna. SCC. un combate simulado es resuelto tirando dados. SSC. 1/8. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen. y B. del 0 al 36. . 2 rojas y 2 verdes. SCS. negros (impares).

B = {salga un número primo}. En una encuesta realizada a 100 estudiantes de Ciencias. A = {sale cara y número par}. Se tira una moneda y un dado a la vez. 8. 9. 0. 0. Además se estima que el 75% de los adultos creen no tener este problema. cuál es la probabilidad de que también tenga ojos i) pardos. Expresar explícitamente el evento que: a) A o B ocurra. 18/37. 7. 25% tiene ojos pardos y un 15% tienen ambas características. En una cierta ciudad.012. y suponiendo que todos los tiros caen dentro de la circunferencia mayor. y tiene ojos pardos.4. 18/1369. ii) Expresar explícitamente los siguientes eventos. ¿cuál es la probabilidad de que la enfermedad de hecho exista en este individuo? R: 0. 11. Se estima también que el 6% de la población tiene hipertensión y no es consciente de tenerla.375. . Determinar sus probabilidades. 10.4% de la población tiene 75 años o más o padece de enfermedad cardiaca. ¿cuál es la probabilidad de que esté tomando bioestadística o química orgánica? R: 0. y que el 1% de la población total padece de deficiencia cardiaca moderada. 18/37. 6. iii) R: 0. En una competencia de tiro de dardos se tiene un blanco circular de 30 cm de radio. Si un adulto opina que no tiene hipertensión.40 R: 1/37. Además el 10. Un estudio indica que el 10% de la población de Chile tiene 75 años o más. Si un estudiante es seleccionado al azar.6. 40% de la gente tiene pelo castaño. Si una persona es seleccionada al azar: y tiene el pelo castaño. R: 0. i) Definir el espacio muestral Ω.0000214. ii) cuál es la probabilidad de que no tenga ni los ojos pardos ni el pelo castaño. se obtuvo que 30 estaban tomando el curso de bioestadística. La circunferencia menor tiene un radio de 5 cm. cuál es la probabilidad de que no tenga pelo castaño. hallar la probabilidad de que un individuo tenga 75 años o más y padezca de i) deficiencia cardiaca. ¿cuál es la probabilidad de dar en el blanco (circunferencia menor) los tres tiros?. C = {salga sello y número impar}. 20 estaban tomando química orgánica y 10 estaban los dos cursos. Se estima que el 15% del total de la población adulta padece de hipertensión. Si se tiran 3 dardos. b) B y C ocurra y c) iii) sólo C ocurra.5.

0094. y que A. 14. Además.41 si un individuo tiene 75 años o más.85 m. 0. C. En la universidad. ¿cuál es la probabilidad de que sea de pato? ii) R: 0. A con C. y D.445. 13. De 1000 niños examinados. y que C trabaja 2 días a la semana (todos en días distintos). Se sabe que los otros 4 investigadores del laboratorio (A. A tiene una probabilidad de 0. Haciendo una investigación de las veces que han boicoteado anteriormente. ¿quién es el boicoteador más probable?. R: B. de 0. tratando de ver si el hecho de estar o no desnutrido tiene que ver con el sexo del niño. 12. si un estudiante es seleccionado al azar y mide más de 1. En una escuela se estudia la desnutrición infantil.02.85 m. ii) 0. D) han boicoteado anteriormente otros experimentos. Ahora. Si la probabilidad de que los huevos sean fértiles es de 70% para la gallina.0006. iii) 0. B = {segunda moneda sale cara}. se sabe que el 60% de los estudiantes son mujeres. Se realiza un experimento de tirar tres veces al aire una moneda. 15. dependientes B con C.006. R: Independientes A con B. 16. con probabilidad 0. de 0.01. Considere tres eventos: A = {la primera moneda sale cara}. ii) .272. B. de 0. C. ¿Afecta el sexo de los niños al fenómeno de desnutrición? R: Son eventos estocásticamente dependientes. En una caja hay 4 huevos de gallina.818. En un laboratorio se ha boicoteado el experimento de un investigador. B.09.05. 4% de los hombres y el 1% de las mujeres son más altos que 1. ¿cuál es la probabilidad de que el estudiante sea mujer? R: 0. ¿cuál es la probabilidad de que iii) padezca la enfermedad? R: i) 0. 80% para el pato y 90% para el ganso: ¿cuál es la probabilidad de que sea fértil? i) dado que fue fértil. y de 500 niñas. Son estos eventos independientes entre si (analice parejas de eventos). Dado que el laboratorio tiene acceso restringido sólo a estos 5 investigadores. B y D trabajan sólo 1 día a la semana. 49 presentan desnutrición.474. 100 presentan desnutrición. se estimó las probabilidades de cada investigador de haber intervenido en los experimentos. ¿cuál es la probabilidad de que padezca de deficiencia cardiaca? si un individuo tiene menos de 75 años. C = {salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. 10 de pato y 8 de ganso.

85. O0-=2. el VPN. la especificidad. RR = 0. la sensibilidad del examen. P(C) = 0. RRA = 0. LR+ = 6.9. 18. Comente sus resultados.7. S = 0. Los resultados se resumen en la siguiente tabla: F(+) F(-) E 58 36 94 NoE 22 44 66 Total 80 80 160 Calcule el RR de la exposición al factor.275. Interprete sus resultados. como alternativa al tratamiento habitual (HT). la chance a priori de estar enfermo (pv/(1-pv)). 19. Calcule la prevalencia (pv) de la enfermedad (proporción de individuos con la enfermedad). ARR.068. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos.12. obteniendo: Complicaciones (%) HT 9. Se mide la presencia de complicaciones propias de la enfermedad (evento) en uno y otro grupo.22.73. En algunos de ellos el examen salió positivo (+) y en otros no (-). Op+=2. NNT = 15. R: CER = 0. Op-=0. algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). y la chance a posteriori de estar enfermo y de no estarlo. A un grupo de individuos. el RRA y el NNH.61.87. y NNT. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT). R: RR = 1. algunos enfermos de cierta enfermedad (E) y otros no (noE) se les practicó cierto examen.45. RRR = 0.8 Calcule el CER. ARR = 0. ARA = 0.708.61. el coeficiente de verosimilitud (LR). EER = 0.95. VPP = 0. el VPP. RRR. .42 17. VPN = 0. NNH = 4. la certeza diagnóstica. LR-=0. RR. Sp = 0.29.27.096.6 NT 2. el ARA. EER.028. E 731 78 809 NoE 270 1500 1770 Total 1001 1578 2579 + - R: O0+ = 0.

NNH = 6.43 20.22. Se estudia la relación entre cierto factor de riesgo (F(+)) y una cierta enfermedad. Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE). RR: OR = 3. midiendo en ellos la presencia o ausencia de dicho factor. . Los resultados se resumen en la siguiente tabla: F(+) F(-) E 58 36 94 NoE 22 44 66 Calcule la OR y el NNH en un paciente en que esperamos que el riesgo a priori (PEER) sea similar al de la tabla.

- Si se tiran 2 monedas y se define la variable aleatoria X = número de caras. entonces P(X = 0) = ¼.00 . Entonces: X 0 1 2 p(x) 0. son continuas.25 F(x) 0. llamaremos función de cuantía a:  P(X = x). en todo otro caso. sc. tal que para cada punto del codominio.Sea el experimento “se tira 2 veces una moneda” Ω = {cc. Ejemplo 1.75 1.VARIABLES ALEATORIAS Definición: Llamaremos variable aleatoria (v.Distribución de una variable aleatoria Variables discretas Definición Si X es una variable aleatoria discreta (vad) . Ejemplo 2.25 0. cs. IV.. P(X = 1) = ½ y P(X= 2) = ¼. su preimagen es un suceso. para X = 1 su preimagen es (cs) ∪ (sc) y para X = 2 su preimagen es (cc). Las variables aleatorias pueden ser discretas si sólo pueden tomar un número k ∈ N valores distintos.1. Así para X = 0 su preimagen es el suceso (ss).44 IV.25 0.50 0... llamaremos función de distribución a F(x) = P(X≤ x) = ∑ p(xi) xi≤x Se puede observar que F(x) es la función acumulada de p(x).a) a una función definida X: Ω ------> R.ss} Podemos definir la variable aleatoria X = número de caras. si x ∈ al rango de X (Rx) p(x) =  0 si x ∉ Rx Además.

¿Convendría aceptar el negocio? Sea la variable aleatoria X = retorno..25 – 12 = 1.25 = 1.5 –1 = 0.- 3.4 + 300. el negocio parece conveniente. a la cantidad: V[X] = E (X –E[X])2 = E[X2] –(E[X])2 Así en nuestro ejemplo. a a la cantidad: E[X] = Σ xi · pi Llamaremos varianza de una v.0. 0. y la varianza es V[X] = 0·0. la esperanza es E[X] = 0·0.2 de triplicar la inversión.2 de quedar igual. Ejemplos 3-4. Del mismo modo el histograma de frecuencias representa la función de cuantía y el histograma acumulado.4 y P(X = 300) = 0. .0.50+2·0.2 + 100.2 + 200. Se puede observar que la esperanza corresponde al promedio ponderado de una variable aleatoria y tiene la misma estructura que el promedio definido para series agrupadas en estadística descriptiva y = ∑hi·yi.2.0.2 de perderlo todo. E[X] = 0. La varianza representa la variabilidad de la variable en torno a la esperanza.2 = 160. P(X = 200) = 0.2. Entonces.0. Supongamos que a alguien se le ofrece el siguiente negocio: invierte $100. 0.5.4 de duplicar la inversión y 0. entonces P(X=0) = 0.25+1·0.45 Las características fundamentales de una variable aleatoria son la esperanza y la varianza Definición: Llamaremos Esperanza de una v.2 P(X = 100) = 0. a.5+22·0. la función de distribución. Como la esperanza del retorno (160) es mayor que la inversión (100). y con este dinero se tiene una probabilidad de 0.25+ 12·0.El concepto de esperanza matemática surgió de las matemáticas financieras.

E[X]E[Y] .76 –19.3. entonces es distinta de 0. a.03. Entonces P (X = 1) = 0.Un alumno ha dado 100 pruebas de matemáticas con los siguientes resultados: Nota 1 2 3 4 5 6 7 nº de veces que la ha obtenido 1 4 10 40 30 12 3 Se enfrenta a una nueva prueba de matemáticas ¿qué nota esperamos que saque (esperanza)? ¿Cuál es la varianza? Sea la v.03·7 = 4. P(X=4) = 0.3·52+ 0. P(X = 2) = 0.04·22+0. (E[X])2= (4.E[X]E[Y] = = E[XY] .42)2= 19. V[aX] = a2V[X] E[(X-E[X])] = 0 (demuéstrelo) E[X+Y] = E[X]+E[Y] Si X e Y son independientes E[XY] = E[X]E[Y] Observación: Si examinamos E[(X-E[X])(Y-E[Y])].4·42 + 0.2+0.54 = 1.Y] = E[XY]-E[X]E[Y].. pero si son dependientes. y entonces.12 y P(X = 7) = 0. E[X] = 0.46 4. Si X e Y son independientes.22 (Observación: La varianza corresponde a una medida de la dispersión de los valores en torno al promedio) Algunas propiedades de la esperanza i) ii) iii) iv) v) vi) E[constante] = constante.12·62+0.1.3·5 + 0.54. .01·1 + 0. X = nota.12·6 + 0. V[constante] = 0 E[a + X] = a + E[X].42 (Observación: La esperanza corresponde al promedio) E[X2] = 0. P(X=6) = 0. P(X=3) = 0.04·12 + 0.4.76.01.E[X]E[Y]. entonces esta cantidad es 0. vemos que es equivalente a E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] .03·72= 20.1·3 + 0.04.1·.4·4 + 0. A esta cantidad se le conoce como Covarianza entre X e Y y representa la variabilidad conjunta de ambas variables aleatorias: COV[X.04·2 + 0. V[a+X] = V[X] E[aX] = aE[X]. P(X=5) = 0. V[X] = 20.

389 respectivamente. 2/36.47 Ejercicios Propuestos 1.. Algunos de ellos “Beagle” y otros “Poodle”.Se dividió el país en 5 regiones y se analizaron las deposiciones de ganado vacuno obteniéndose la siguiente información Región A1 A2 A3 A4 A5 Total de vacas en la región 10000 200000 60000 30000 700000 Deposiciones con parásitos 1240 981 2496 864 1021 Deposiciones sin parásitos 1867 2008 2608 981 1564 a) ¿Cuál es la probabilidad de que una vaca tenga parásitos en la región A3? R: 0. 1/36.489 b) ¿Cuál es la probabilidad de que una vaca tenga parásitos en el país b1) si suponemos que es igualmente probable que venga de cualquier región? b2) si suponemos que la probabilidad de que venga de la región Ai= nº vacas en Ai/nº total de vacas R: 0..422 y 0. Algunos de ellos sanos y otros enfermos. no. ¿Cuál es la probabilidad de que sea “Beagle”? Son independientes los sucesos “el perro es sano” y “el perro es Beagle”? R: 0. 3.En una pieza hay 100 cachorros.. .6. 2. ¿Cuál es el espacio muestral? ¿Cuál es la probabilidad de obtener 2 números iguales? ¿Cuál es la probabilidad de sacar un 1 y un 5? ¿Cuál es la probabilidad de sacar primero un 1 y después un 5? R: 1/6. Beagle Sanos Enfermos Total 40 20 60 Poodle Total 70 30 100 30 10 40 Si una persona compra un perro al azar.Se lanza un dado dos veces.

0. Si la probabilidad de que este procedimiento sea exitoso es 0.Distribución binomial Si consideramos un experimento que consiste en n ensayos de Bernoulli.La enfermedad x se puede tratar con C o con M. entonces la probabilidad de fracaso es q = 1-p.Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado.9801. entonces podemos ver que su función de cuantía y su función de distribución son: X 0 1 P(x) 1-p = q P F(x) 1-p = q 1 Además E[X] = 1·p+0·q = p. si la probabilidad de éxito de cada ensayo es p y lo repetimos n veces. IV.Se va a realizar una cirugía de esófago a 2 gatos.2. Si el 60% de los enfermos son varones. 6.48 4. ¿Cuál es la probabilidad de salvar al paciente? R: 37/64. entonces X tiene distribución Binomial.. Se sabe que en esta cirugía muere el 1%.48. b) graficar la función de cuantía y a función de distribución c) Encontrar E(X) y V[X] R: 7.0001. Definición Diremos que la variable X definida como lo hemos hecho.5. a) encontrar P(X=k) para todo k.. El 80% de los varones prefiere C.. ¿Cuál es la probabilidad de tratar un enfermo con M? R: 0. Si creamos la variable aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un éxito. asociada a un experimento dicotómico tiene distribución de Bernoulli. y la probabilidad de éxito es p. Por ejemplo.. 7.25.3. entonces la probabilidad que en estos n ensayos haya k éxitos es: .. el 90% de las mujeres prefiere M. y V[X] = 12·p +02·q –p2 = p-p2 =p(1-p) = pq. 5.0198.. y definimos la variable aleatoria discreta: X = n° de éxitos. IV.Un procedimiento quirúrgico sólo se puede realizar 3 veces. Este tipo de experimento se conoce como ensayo de Bernoulli. ¿Cual es la probabilidad de que: a) mueran los 2 gatos b) muera sólo 1 c) ninguno muera R: 0.83. 0.Distribución de Bernoulli Si se tiene un experimento con un resultado dicotómico. por ejemplo éxito o fracaso.

entonces se abrevia B(n. por ejemplo cuando contamos el número de individuos con una característica. Ejemplo 5. Además V[X] = npq. y. lo cual utilizando el mismo juego de sub-índices lleva a: n(n-1)p2 + np – n2p2 = npq.- Si la probabilidad que un individuo lea el diario es p = 0. cada uno dicotómico en su resultado y con una probabilidad constante (p) de éxito. j = k − 1. si la tiene (éxito) o si no la tiene (fracaso). Esta distribución tiende a ser asimétrica para bajos valores de p y n.k + k)P(X=k) – (E[X])2 = Σ (k(k1)P(X=k) + Σ kP(X=k) – (E[X])2 .49 n P( X = k ) =   p k ⋅ (1 − p ) n − k k    Vemos que una vad con distribución binomial es caracterizada por 2 parámetros: n y p. m = n − 1. Como es de esperar E[X] = np. Demostración La esperanza E[X] = Σ kP(X=k) = k =n k =n k =n n n! (n − 1)! = ∑ k ⋅   p k ⋅ (1 − p ) n− k = ∑ k ⋅ p k q n − k = np ∑ p k −1 q n −k k  k!(n − k )! k =1 ( k − 1)!( n − k )! k =0 k =0   m haciendo. = np ∑   p j q m− j = np ( p + q ) m = np   j =0  j  j =m La varianza V[X] = Σ k2 P(X=k) – (E[X])2 = Σ (k2 . entonces la probabilidad que en éstos 10.2 y se toman al azar 10 individuos. exactamente 3 lean el diario es: 10  P( X = 3) =  0. Esta distribución es muy importante en ciencias pues es muy habitual poder reducir un experimento a una situación dicotómica. pero es simétrica si p y n son altos. Sin embargo esta distribución sigue siendo discreta y tiene el problema que se genera al calcular números combinatorios con grandes valores de n.p).2013 3    .8 7 = 0. Observamos que la distribución binomial consta de n ensayos fijos e independientes. pues es la suma de n ensayos de Bernoulli.2 3 ⋅ 0.

- Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5. Esto es también evidente al observar que el límite cuando N → ∞ de V[X] es npq. Entonces es interesante estudiar que sucede si n→ ∞ y p → 0 manteniendo constante np = λ. entonces cada ensayo se vuelve de tipo Bernoulli. N → ∞. sacamos n elementos.50 Observación Si de un universo de N elementos en los cuales una proporción p de ellos tiene un atributo. Entonces se puede considerar a la distribución binomial como una distribución asintótica para poblaciones infinitas. Es fácil darse cuenta que si N es muy grande (tiende a ∞) la toma de cada elemento no altera la probabilidad de atributo del siguiente elemento y. n P( X = k ) =   p k ⋅ (1 − p ) n − k = n(n-1)(n-2)……(n-k+1)(λ/n)k(1-λ/n)n-k/(k!) = k    = [λk/k!]·[1·(1-1/n)·(1-2/n)···(1-(x-1)/n)]·(1-λ/n)n(1-λ/n)-k . Así si en una vad con distribución hipergeométrica. Ejemplo 6.p)). la probabilidad que en éstas 5 haya 2 rojas es:  6 10      3  2  P( X = 2) =    16    5    IV.4.Distribución de Poisson Un hecho importante en la distribución B(n.p) es que es muy asimétrica para valores bajos de p.. su distribución se vuelve binomial (B(n. a pesar de valores altos de n. entonces la probabilidad que en estos n haya k con el atributo es:  N − Np  Np    n − k  k       P( X = k ) = N   n    Esta variable tiene distribución hipergeométrica y E[X] = np y V[X] = npq(Nn)/(N-1).

entonces la probabilidad que en 100 artículos haya 2 defectuosos es: P ( X = 2) = e − 0.03 0. = [λk/k!]·1·1·1··e-λ·1 = [λk/k!]·e-λ.- Si la probabilidad de que una máquina produzca un artículo defectuoso es p = 0.1) la probabilidad de k éxitos en n ensayos sigue a: P( X = k ) = e ⋅ −λ λk k! Se dice entonces que esta variable tiene distribución de Poisson.000437 2! Si un fenómeno ocurre X(t) veces en un intervalo [0.. entonces el número de ocurrencias (k) en un plazo fijo (t) se conoce como un proceso de Poisson y tiene distribución de Poisson con parámetro λt: Pk (t ) = e − λt (λ t ) k ⋅ k! .t). Demostración Para la esperanza. se tiene que ∑k ⋅ e k =0 ∞ −λ λk k! = e ⋅λ ⋅∑ −λ k =1 ∞ λk −1 (k − 1)! = e −λ ⋅ λ ⋅ e λ = λ Para la varianza. como ocurre por ejemplo en la llegada de llamadas telefónicas.. Entonces si N es grande y p pequeña (en general np < 0. En este caso. E[X] = V[X] = λ.51 y tomando límite cuando n→ ∞ . Y además la probabilidad de una ocurrencia de éste fenómeno es proporcional al intervalo (P(una o más ocurrencias en [t. accidentes etc. donde o(δ) es la probabilidad de que ocurra más de uno).t+δ) ) = λδ + o(δ).032 ⋅ = 0.0003. la emisión de partículas. ∑k k =0 ∞ 2 ⋅e −λ λk k! − E[ X ] = ∑ (k (k − 1) + k ) ⋅ e 2 ∞ −λ λk k! − E[ x]2 = e −λ ⋅ λ2 ⋅ e λ + λ − λ2 = λ k =0 Ejemplo 7.

b ii) P(a≤ x ≤ b) = ∫ f(x) dx a +∞ iii) ∫ f(x) dx = 1. y evaluada en t = 0. corresponde a la esperanza E[X]. La función de distribución de una vac. pero cambian sus definiciones: +∞ E[X] = ∫x·f(x) dx y V[X] = E[X2]-(E[X])2 -∞ Una función especialmente útil en el estudio de las variables aleatorias continuas es la llamada función generatriz de momentos (Mx(t)) definida como: M x (t ) = ∫ e tx f ( x)dx . -∞ Podemos observar que la densidad de probabilidad en un punto es 0. entonces la probabilidad que en 2 minutos lleguen 4 llamadas es: P4 (2) = e − 3⋅2 (3 ⋅ 2) 4 ⋅ = 0.Variables aleatorias continuas Definiciones Una variable aleatoria es continua (vac) si su recorrido es infinito y no-numerable. o primer momento .- Si en una central telefónica llegan 3 llamadas/minuto. y que sólo tienen sentido las probabilidades de intervalos. Observamos inmediatamente que la derivada de esta función. En este caso no existe una función de cuantía sino una función de densidad de probabilidades f(x) definido como: i) f(x) ≥0 ∀ x. con −∞ ∞ respecto a t.134 4! IV.. Se define como: x F(x) = ∫ f(x)dx -∞ Tanto las funciones como las características de una vac se interpretan del mismo modo.5.52 Ejemplo 8.

podemos observar que la probabilidad que este “tiempo de espera” sea mayor que un cierto valor u (P(U ≥ u) es equivalente a la probabilidad que en este proceso no haya ocurrencia en el intervalo [0. De otra forma 1 – F(u) = e-λu .53 central.Distribución uniforme Muchas veces en estadística se usan números aleatorios. Se dice que una variable con esta función densidad tiene distribución exponencial. entonces Y = X1+X2+……. y derivando.u) es decir P(U ≥ u) = P0(u) = e-λu. Existen tres teoremas de demostración muy sencilla en referencia a esta función: Si c es una constante y la función generatriz de momentos (fgm) de X es Mx(t). con función densidad: f ( x) = (1 / σ 2π ) ⋅ e − (1 / 2 )⋅[ x−µ σ ]2 .Xn tiene una fgm dada por: M y (t ) = [ M x (t )]n IV.6. IV. 2) Si c es distinta de 0 e y = cX. 3) Si X1. 1) entonces la fgm de y = X+c = My(t) = ectMx(t). y que la segunda derivada evaluada en t = 0. o segundo momento central..b] que tienen todos igual probabilidad de aparecer. Es fácil ver. Además es fácil ver mediante integración que E[X] = (a+b)/2 y V[X] = (b-a)2/12. X2. la función densidad de probabilidad es f(x) = λ e-λu .b]. es decir la vac “tiempo de espera” en un proceso de Poisson tiene función de distribución F(u) = 1. es E[X2].Distribución exponencial Si consideramos la variable U como el tiempo que transcurre entre dos eventos en un proceso de Poisson..8. Esto genera una función densidad de probabilidad constante f(x) = 1/(b-a) y una función de distribución F(x) = (x-a)/b-a) en el intervalo [a. Estos son un conjunto de números ∈ [a. simplemente integrando que E[X] = 1/λ y V[X] = 1/λ2 IV.. ………Xn son independientes y todas con igual fgm. entonces My(t) = Mx(ct).7.DISTRIBUCIÓN NORMAL Definición Una variable aleatoria continua.e-λu . Mx(t).

lejos.σ). En este caso. Esta es. la distribución más importante en estadística.2 % de la distribución. con un máximo en µ y puntos de inflexión en µ-σ y µ+σ.σ) entonces la variable estandarizada Z = (X-µ)/σ tiene distribución N(0. Si graficamos la distribución. el 95.54 Se dice que tiene distribución normal o de Gauss (campana de Gauss).1). P(µ-2σ ≤ x ≤ µ+2σ) = 0.s. Su esperanza es E[X] = µ y su varianza V[X] = σ2. es decir es la desviación estándar. Teorema de De Moivre Si X tiene distribución binomial (B(n.682.p)) y n→∞. se abrevia como N(µ.7%. entonces: . el 99. Es decir entre –1 y + 1 desviaciones estándar se encuentra el 68. Observamos que σ = √V[X]. entre –2 y + 2 d.4 y entre –3 y + 3 d. Esto es obvio pues E[Z] = E[(Xµ)/σ] = (E[X]-µ)/σ = 0 y V[Z] = V[(X-µ)/σ] =V[(X-µ)]/σ2 = V[X]/σ2 = σ2 /σ2 = 1.s. Además es importante que P(µ-σ ≤ x ≤ µ+σ) = 0. M Z (t ) = e − t / 2 2 Esta distribución tiene dos orígenes fundamentales que se pueden enunciar a manera de teoremas.954 y P(µ-3σ ≤ x ≤ µ+3σ) = 0.997. Observamos que además si X tiene distribución N(µ. vemos que tiene forma de campana. Como esta distribución queda caracterizada por dos parámetros.

55

P(a < x < b) =
1/(σ 2π ) ∫ (e − (1/ 2)[( x − µ ) / σ ] )
2

b

a

Donde µ = np y σ = npq Demostración La demostración es extensa por lo que sólo se muestran los pasos fundamentales: n Si en P( X = k ) =   p k ⋅ (1 − p ) n − k , aplicamos la fórmula de Stirling para factoriales, k    n!= n n ⋅ e − n ⋅ 2πn ⋅ eθ / 12 n , donde θ es un número entre 0 y 1, se obtiene:

2

P( X = k ) = grandes.

1 e −λ 2πnpq

2

/ 2+ R / n

, donde λ =

k − np y el término R/n tiende a 0 para n npq

Así, si n es grande P(k1 ≤ X ≤ k 2 ) = P(λ1 ≤ λ ≤ λ2 ) =

λ2

∫ λ

1

1 e − x / 2 dx , lo que 2πnpq
2

define una distribución normal con µ = np y σ = npq. Este primer teorema nos dice que la distribución normal es una distribución límite de una binomial cuando n es grande. En la práctica n > 30 o bien np ≥5.
Teorema del límite central (o central del límite) (expresión general, Laplace 1812, Lyapunov 1901)

2

Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas µj y varianzas σ2j, entonces X = ∑Xj es asintóticamente normal (N(µ,σ)) donde µ = ∑µj y σ2 = ∑σ2j . Demostración Consideraremos sólo el caso más sencillo, donde las Xj tienen la misma distribución. En este caso se puede partir por el siguiente corolario:
Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es asintóticamente normal N(nµ,σ√n).

56

Demostración: En este caso ∑µj = nµ y la varianza es nσ2j, por lo que la desviación estándar es σ√n. Falta por demostrar la normalidad. X = ∑Xj, se puede estandarizar como: n n 1 1 ⋅ ∑( X j − µ) = ⋅ ∑ Zj . Entonces se Z = (X-E[X])/√V[X] = (X- nµ)/σ√n = σ n 1 σ n 1 t )]n y como en MZj(t) el primer y segundo puede obtener la fgm de Z: M Z (t ) = [ M zj ( σ n 2 momentos son 0 y σ se puede desarrollar en serie de Taylor: MZj(t) = 1- σ2t2/2 + R, y reemplazando t por t/ σ√n obtenemos para MZ(t): 1 t2 + R (n, t )]n = [1 + + R(n, t )]( 2 n / t )⋅( − t / 2 ) y tomando límite cuando n M Z (t ) = [1 − 2 − 2n / t 2n tiende a infinito se tiene que M Z (t ) = e − t / 2 . Como esta es la fgm de una distribución normal, entonces concluimos que la distribución es normal.
2 2
2

Corolario 2 El promedio X = X/n de estas Xj tiene distribución asintóticamente normal N(µ,σ/√n).

Demostración: la esperanza E[X ] = E[X/n] =E[X]/n = nµ/n = µ. La varianza V[X] =V[X/n] = V[X]/n2 =nσ2/n2 = σ2/n, y entonces la desviación estándar es σ/√n.
Corolario 3 La variable estandarizada Z = (X -µ)/(σ/√n) tiene distribución N(0,1)

Demostración: la esperanza E[Z] = E[(X-µ)/(σ/√n)] =(E[X]- µ)/(σ/√n) = = (µ-µ)/(σ/√n) = 0. La varianza V[Z] =[(X-µ)/(σ/√n)] =(V[X]- 0)/(σ/√n)2 = =(σ2/n)/σ2/n) = 1, y entonces la desviación estándar también es 1.
Corolario 4 Si Y es B(n,p) y n→∞ , entonces la variable estandarizada Z = (Ynp)/√(npq)) tiene distribución N(0,1).

Demostración: Trivial; se sigue inmediatamente del teorema de De Moivre y los corolarios anteriores. El teorema del límite central y sus importantes corolarios nos explican porqué es normal (habitual) encontrar distribuciones normales en las variables que estudiamos. Además mediante el uso de la estandarización (Z) de la variable X, es posible calcular las probabilidades P(a ≤ x ≤b)= P((a-µ)/σ ≤ z ≤ (b-µ)/σ). Afortunadamente para nosotros los valores de las integrales que definen las probabilidades ya se encuentran

57

tabulados y son accesibles en programas computacionales. Algunos valores muy conocidos, importantes y fáciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) = 0.025.
Ejemplo 9.-

Supongamos que el peso (W) de los seres humanos tiene distribución normal con promedio µ = 70 Kg y desviación estándar σ = 5Kg. Entonces cual es la probabilidad que un individuo pese más de 83 Kg?. Como W tiene distribución normal N(70; 5), entonces Z = (W-µ)/σ tiene distribución normal N(0;1) y preguntar por P(W >83) es equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de áreas de la distribución normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.
IV.9.- Otras distribuciones importantes

En los siguientes párrafos introduciremos algunas distribuciones y una serie de teoremas, cuya importancia se verá mas adelante. En general todas las distribuciones de variables aleatorias continuas se encuentran relacionadas y pueden expresarse como casos particulares de una ecuación general (sistema de Pearson). El conocimiento de estas distribuciones permite posteriormente generar las dócimas o pruebas de hipótesis. Una distribución habitual es la distribución logarítmico-normal o log-normal. Una variable aleatoria X tiene distribución log-normal si existe una constante a, tal que Y = log(x-a) se distribuye normalmente. Los siguientes teoremas y distribuciones tienen relación con la función gama (Γ), de importantes aplicaciones en cálculo y estadística: Γ(k ) = ∫ x k −1 ⋅ e − x dx , k > 0.
0 ∞

Basados en esta función, se dice que una variable aleatoria continua X, tiene una distribución Γ de parámetros r y α si su densidad es f ( x) =

α
Γ(r )

⋅ (αx) r −1 ⋅ e −αx , x >0; r > 0; α > 0; y 0 en cualquier otro caso.

En esta distribución, E[X] = r/α y V[X] = r/α2 y Mx(t) = (1-t/α)-r.

este tiene distribución χ2n y además el . E[X] = 1/α y V[X] = 1/α2. entonces X = ∑Z2j. Cuando r = n/2 y α = 1/2. como el primer término es la suma de n variable aleatorias con distribución normal N(0.1) elevadas al cuadrado. Teorema Si una variable aleatoria X cuya varianza es σ2. Observamos ahora g(Y) = G´(Y) = 2F´(√y)(1/2(√y) = f(√y)/√y = (1 / 2π ) ⋅ e −(1 / 2 )⋅ y ⋅ y que g(Y=Z2) corresponde a una distribución Γ con r = 1/2 y α = 1/2 es decir ChiCuadrado con 1 grado de libertad (χ21). Entonces la función densidad g(Y) corresponde a la derivada de G(Y). con r = n/2 y α = 1/2. tiene una distribución Chi-cuadrado con “n grados de libertad”: χ2n. Cuando ocurre esto. O sea. En este desarrollo. Naturalmente su E[X] = n y V[X] = 2n. más simétrica. entonces y = (n-1)s2/σ2 tiene distribución χ2n-1. Demostración Veamos primero el caso de una variable Z con distribución N(0. se dice que la variable tiene distribución exponencial. En este caso: Y = Z2 tendría por función de distribución a G(Y): G(Y) = P(Y ≤ y) = P(0 < Y ≤ y) = P(-√y ≤ Z ≤ √y) = 2 P(0≤Z≤√y) = 2[F(√y)-F(0)]. Demostración Si desarrollamos: ∑ (xi-µ)2 = ∑(xi-x + x -µ)2 =∑(xi-x)2 + ∑(x-µ)2+2∑(xi-x)(x-µ) = ∑ (xi-µ)2 = ∑(xi-x)2 + ∑(x-µ)2+ 0 y dividiendo por σ2 obtenemos: ∑ ((xi-µ)/σ)2 = n·s2/σ2 + ((x-µ)/(σ/√n))2. Teorema Si las variables Zj tienen distribución N(0. Mientras más grande n. se dice que la variable tiene distribución Chicuadrado con n grados de libertad (χ2n).1) y llamemos F(Z) y f(Z) a su función de distribución y función densidad respectivamente. En este caso la fgm de X es Mx(t) =M∑Y (t) =[MY(t)]n = (1-t/(1/2))-n/2 = (1-t/α)-r. y por tanto es una distribución χ2n. Esta es una distribución asimétrica en que su simetría depende de n. Ahora veamos el caso de la variable X = ∑Y = ∑Z2j.1). en una muestra de n elementos tiene una varianza s2. Su fgm es entonces MY(t) = 1/√(1-2t). f(x) = α e –αx . 1 .58 Si r = 1.

si n > 30 esta distribución es prácticamente normal. Sin embargo.1) al cuadrado. entonces t = X/√(Y/(n-1)) = (X-µ)/(s/√n) tiene distribución tn-1. La demostración de este teorema requiere de variables bi-dimensionales. Teorema Si n→∞.1) Demostración Si n→∞. y entonces por el teorema central del límite.59 último término tiene distribución N(0. entonces ns2/σ2 tiene distribución χ2n-1. en la práctica. Corolario La variable estandarizada t = (X-µ)/(s/√n) tiene distribución tn-1. Definición Una variable aleatoria continua X tiene distribución F de Snedecor con n1 y n2 grados de libertad si su función densidad es: f ( x) = Γ( n1 + n2 ) ⋅ n1n1 / 2 ⋅ n2n 2 / 2 x n1 / 2−1 2 ⋅ Γ(n1 / 2) ⋅ Γ(n2 / 2) (n2 + n1 x) ( n1+ n 2 ) / 2 Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)2(n2-4). tn-1→ N(0. s →σ. más apuntada que la normal. χ21. tn-1→ N(0. Esta distribución “t” se le debe a Gossett. junto con la normal. lo que esta fuera del alcance de este libro. . Es un distribución acampanada. Demostración Como La variable estandarizada Z = (X-µ)/(σ/√n) tiene distribución N(0. quien escribía bajo el seudónimo de Student y es una de las distribuciones más importantes.1) y además Y = (n-1)s2/σ2 tiene distribución χ2n-1. Su E[t] = 0 y V[t] = k/(k-2).1) y una variable Y tiene una distribución χ2k entonces t = X/√(Y/k) tiene una distribución t de Student con k “grados de libertad” (tk). Definición Una variable aleatoria continua tiene distribución t de Student con k “grados de libertad” si su función densidad es: k +1 ) + x 2 − k2 1 2 (1 + ) f ( x) = k Γ(k / 2) ⋅ πk Γ( Teorema Si una variable X tiene distribución normal N(0.1). es decir.

Teorema Si t tiene distribución tk.60 Esta es una distribución muy útil usada en las dócimas de varianza y en el análisis de la varianza (ANOVA). lo que esta fuera del alcance de este libro. entonces t2 tiene distribución F1. Así.n2-1 Demostración Como en una población dos muestras independientes de tamaños n1 y n2. Y1= (n1 -1)s12/σ2 tiene distribución χ2n1-1 y Y2= (n2 -1)s22/σ2 tiene distribución χ2n2-1. .n2).1) y una variable Y tiene una distribución χ2k entonces t2 es el cuociente entre X2 con distribución χ21 y Y/k con distribución χ2k.n2-1. La demostración de este teorema requiere de variables bi-dimensionales. por el teorema anterior t2 tiene distribución Fn1. entonces F = (U/n1)/(V/n2) tiene una distribución F de Snedecor con n1 y n2 “grados de libertad”(Fn1. Demostración Como t = X/√(Y/k) tiene una distribución t de Student con k “grados de libertad” (tk) y en ella X tiene distribución normal N(0.k.n2. Teorema Si U es χ2n1 y V es χ2n1. Teorema El cuociente de las varianzas de dos muestras S = s21/s22 tiene distribución Fn1-1. entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribución Fn1-1.

Dado que una madre ha dado a luz 8 hijo. ¿cuál es la probabilidad de que ninguna mute? ¿cuál es la probabilidad de que al menos una mute? R: 0. 6.3 3 0. Considere un experimento que consiste en tirar una vez un dado. iv) Entre dos y cuatro casos nuevos sean diagnosticados. 2. 2. R: a) 0. 5.147.1 1 0. c) 2.60. 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. ¿cuál es su esperanza y su varianza? R: 3.61 Ejercicios de variables aleatorias 1. .5.92. ¿cuál es la probabilidad de que tenga 5 hijas? R: 0. c) Determinar E[x] y V[x].9965. 20 de los niños nacidos son hombres y 80 mujeres. R: 0.9. En Escherichia coli.677. una célula de cada 105 muta generando resistencia al antibiótico estreptomicina. Si se trata a 10 animales con el fármaco. 0. 3. Siendo X = el valor obtenido en el lanzamiento una v.0. Observando 556.6.. Tres casos nuevos sean diagnosticados.a. La distribución acumulativa para X es X F (x) 0 0.d.0 a) Hallar la probabilidad de que en un día cualquiera. ¿cuál es la probabilidad de que al menos lleguen 8 vivas al final del experimento?. Sea X el número de casos nuevos de SIDA diagnosticados en un hospital durante un día.1. 4.6 4 0. ¿Qué requisitos debe cumplir una variable para que en sus análisis se utilice la distribución binomial? 4. b) Hallar la función de cuantía para X. Se ha determinado que de cada 100 nacimientos.3. 0.2 2 0.81.000 células.8 5 0. iii) Ningún caso nuevo sea diagnosticado.9 6 1. 0. i) ii) Por lo menos un caso nuevo sea diagnosticado.00348. En general. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas con un fármaco que inhibe la síntesis de proteínas del organismo.

0764.9. La densidad del suelo se define como la masa de materia sólida seca por unidad de volumen.9 g/cm3.281.0418. 8. a) Hallar la probabilidad de que un miembro de la población seleccionado al azar tenga una cavidad craneal superior a 1400 cm3.0228. Indique en esa gráfica la probabilidad de que X esté comprendida entre 1. Una densidad elevada implica un suelo compacto con escasos poros. Se capturan 700 pájaros en un día. 0. R: 0.5 y σ=0.7. Si la variable X tiene distribución normal con µ=21 y σ2=3. Se estima que sólo uno de cada 50 loros capturados en el sur de Chile para su utilización como animales domésticos sobrevive al cambio.239. 0. la siembra precipitada y la ventilación. 10. ésta tenga una densidad menor que 0. Halle esta probabilidad. Esta densidad es un factor importante para el crecimiento de las raíces. . b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra arcillosa. el volumen de la cavidad craneal se distribuye aproximadamente como una normal con media µ 1200 cm3 y desviación estándar σ de 140 cm3. a) ¿Cuál es la función densidad de X? Haga un esbozo de la función densidad. ¿Cuál es el número esperado de sobrevivientes? ¿Cuál es la probabilidad de que sobrevivan entre 10 y 12? R: 0. 0.1545. Los estudios demuestran que X tiene una distribución normal con µ=1. R: 0. En cierta población de primates. 0. Calcule: a) P (x<22) b) P (x<18) c) P (x>22) d) P (22<x<24) e) P (16<x<18) R: 0. R: 0. b) Hallar P (1000<x<1050) c) Hallar P (x<1060) d) Hallar P (x<920) e) Hallar el punto x0 tal que el 20% de los primates tenga una cavidad craneal más pequeña que x0.719.9. Sea X la densidad de tierra arcillosa.62 7. 11. 1081. f) Hallar el punto x0 tal que el 10% de los primates tenga una cavidad craneal superior que x0.0659.0013. 0. 1379. 0.2 g/cm3.0398.9544.1 y 1. ¿Qué características tiene la distribución normal? 9.

2 g? R: absolutamente. tuviese una densidad de 3. ¿cuál es el puntaje crítico que los psicólogos utilizan para hablar con los padres? R: 80. 12. . La Escala de Inteligencia Wechsler para Niños (WISC) tiene una media de 100 y una varianza de 225 para la población general. generalmente los psicólogos clínicos urgen a los padres de los niños a que les realicen exámenes en busca de posibles problemas cerebrales. Asumiendo que los puntajes de WISC están normalmente distribuidos. seleccionada aleatoriamente.725.63 c) ¿Estaría sorprendido si una muestra de este tipo de tierra. Si un niño cae en el 10% menor de la población.

64 III UNIDAD: INFERENCIA ESTADISTICA .

1. con una cierta incertidumbre..etc. Por ejemplo.ESTIMACIÓN La base fundamental de la inferencia estadística es la obtención de una muestra de la población o universo y. ii) Así... por ejemplo los individuos de una población. la desviación estándar “s” y la varianza “s2” muestrales. V. Estas últimas son unidades operativas. Los ejemplos más conocidos son la esperanza. es evidente que el promedio es . Estimadores: éstos son funciones de una variable aleatoria cuyo fin es aproximar el valor de un parámetro a partir de las unidades de la muestra Los ejemplos más característicos son el promedio muestral x . Los elementos de la muestra constituyen las unidades de análisis. Los estimadores tienen cuatro características de interés: i) Linealidad: es una característica deseable en un estimador que permite operarlo algebraicamente. que por ciertas razones constituyen la unidad obtenida como muestra. propios de la población. inferir.Estimadores En la teoría de estimación se considera la existencia de: i) Parámetros: éstos se pueden definir como características (θ) de una variable aleatoria. El marco de muestreo consiste en el listado de las unidades de muestreo que se van a considerar. la desviación estándar σ y la varianza σ2. la varianza y la desviación estándar se constituyen en estimadores de parámetros poblacionales. Por ejemplo.. la validez de una proposición en la población completa. aquí adquieren otra connotación. La muestra es entonces un subconjunto del universo. o bien estar interesado en características de los individuos (unidad de análisis) y muestrear “manzanas” o barrios de una ciudad (unidad de muestro). En general se denotan con letras griegas o mayúsculas. un investigador puede estar interesado en los glóbulos rojos (unidad de análisis) pero muestrea individuos (unidad de muestreo). la proporción poblacional “P”.65 V. las medidas de posición y dispersión que aprendimos en estadística descriptiva. Las unidades de análisis no necesariamente coinciden con las llamadas unidades de muestreo. a partir de lo que ocurre en ella. Si nuestro fin es inferir y no simplemente describir una muestra. el promedio. µ. la proporción muestral “p”.

es decir el promedio muestral es un estimador consistente. Consistencia: un estimador se dice consistente si limn→∞ V[ê] = 0. Por ejemplo V[x] = V[ ∑xi/n] = (1/n2)∑V[xi] = (1/n2)nσ2 = σ2/n. Si tenemos una muestra de n elementos y definimos la variable aleatoria x = 1 si tiene una característica y x = 0 si no la tiene. conocido como error estándar. Naturalmente es deseable que los estimadores sean insesgados (Sesgo = 0). otro estimador meli es la proporción muestral “p” como estimador de la proporción poblacional “P”. su varianza disminuya. Por ejemplo. a medida que aumente el tamaño muestral (n). . Cuando un estimador cumple estas condiciones. En cambio. iv) Varianza mínima: es deseable que un estimador tenga la mínima varianza posible. iii) Observamos inmediatamente que la desviación estándar poblacional del estimador x es εs = √V[x] = σ/√n. se dice que es un estimador meli: el mejor estimador lineal insesgado.66 lineal. pues es una combinación lineal de los valores de una variable aleatoria (x = ∑hixi).θ. entonces tiene sentido considerar el estimador Es = s/√n. entonces se aprecia que p = ∑xi/n. el promedio es un estimador insesgado: x = ∑xi/n. Es decir. por lo que E[p] = P y V[p] = PQ/n. Además del promedio. entonces E[x] = E[ ∑xi/n] = (1/n)E[∑xi] = (1/n)∑E[xi] = (1/n)nµ = µ. entonces limn→∞ V[x] = 0. es decir tiene la estructura de un promedio. ii) Sesgo: este corresponde a la diferencia entre la esperanza de un estimador (E[ê] ) y el parámetro (θ): Sesgo = E[ê] . es deseable que en un estimador. o sea la esperanza del estimador es igual al parámetro. observemos el siguiente desarrollo: ∑ (xi-µ)2 = ∑(xi-x + x -µ)2 =∑(xi-x)2 + ∑(x-µ)2+2∑(xi-x)(x-µ) = ∑ (xi-µ)2 = ∑(xi-x)2 + ∑(x-µ)2+ 0 y dividiendo por σ2 obtenemos: ∑ ((xi-µ)/σ)2 = n·s2/σ2 + ((x-µ)/(σ/√n))2. Si la variable x tiene E[x] = µ .

Estas dos últimas. V.b) que tenga una probabilidad 0. De ser necesario ésta corresponde en general al valor central del intervalo. entonces ns2/σ2 tiene distribución χ2n-1.95 de contener al promedio poblacional real. Obviamente la primera estimación es precisa pero poco confiable y la segunda es más confiable pero pierde precisión. Por ejemplo. como el primer término es la suma de n variable aleatorias con distribución normal N(0.96) = 0. lo que es lo mismo. Entonces.1) elevadas al cuadrado. la varianza muestral s2 =∑(xi-x)2/n. Esta es la razón por la que se usa n-1 en el denominador de la varianza y la desviación estándar muestral: son los estimadores insesgados. es decir: . creamos el nuevo estimador s2 = n/(n-1)s2 = ∑(xix)2/(n-1). O sea E[ns2/σ2 ] = (n-1) o. es un estimador sesgado de σ2. es un intervalo que tiene una probabilidad 0. por ejemplo un intervalo del 95% de confianza para el promedio. precisión y confianza son las dos características de una estimación (no confundir con estimador).95 de contener a P.Estimaciones Las estimaciones o estimas son los valores que toma un estimador para una muestra determinada.96≤ z ≤1. Las estimaciones pueden ser de dos tipos: puntuales. nada mejor que corregirle el sesgo multiplicando este estimador multiplicándolo por n/(n-1). por ejemplo el promedio poblacional es 3.2. Así. por ejemplo el promedio poblacional está entre 2 y 5. La estimación puntual prácticamente no se usa.2. En palabras. o por intervalos. Definición Llamaremos intervalo de confianza del nivel C = 1-α a un intervalo que tenga una probabilidad o confianza “C” de contener el valor real de un parámetro. el promedio es un estimador y pero el valor particularx = 5 es una estimación. E[s2] = (n-1)σ2/n.1) y además sabemos que P(-1. V. este tiene distribución χ2n y además el último término tiene distribución χ21(ver teoremas).67 En este desarrollo. Sabemos que Z = (p –P)/√(pq/n) tiene distribución N(0.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 Supongamos que queremos el intervalo de confianza del 95% para la proporción poblacional P. Así. En la práctica para n > 30 son prácticamente iguales.95. Es decir queremos construir un intervalo (a. y este es insesgado porque E[s2] = n/(n-1)E[s2] = (n/(n-1))(n-1)σ2/n = σ2..

2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 Si se conoce la varianza poblacional.95 = [0.96√(pq/n)). En términos generales. entonces por un razonamiento análogo al anterior: IC1−α = [ x ± Z α / 2 ⋅ σ / n ] Sin embargo esto no es lo habitual. se podría afirmar con un 95% de confianza que la proporción poblacional de parasitados se encuentra en el intervalo: IC0.3 y 30%. en general.3 o entre un 3. Naturalmente.033 y 0.833. por un razonamiento enteramente análogo al anterior se llega a: IC1−α = [( p1 − p2 ) ± Z α / 2 ⋅ ( p1q1 / n1 + p2 q 2 / n2 )] V.167 ± 1.95 es Zα/2 = 1.96 ⋅ 0.95 que P está contenido por el intervalo definido por (p ± 1.96√(pq/n)≤ P ≤ p + 1.68 [-1. la varianza es desconocida. de manera que se puede asegurar con probabilidad 0.96] = [p – 1.2. en este caso si quisiera mayor precisión tendría que aumentar el tamaño muestral.1) (Z). entonces el intervalo de confianza del nivel C = 1-α para la proporción poblacional P es: IC1−α = [ p ± Z α / 2 ⋅ pq / n ] Notamos que Zα/2 en el caso de C = 0.167 y q = 1-0.833 / 30 ] Es decir entre 0.167 = 0. como p = 5/30 = 0.- Si al examinar 30 insectos se encontraron 5 parasitados.96√(pq/n)]. pero que para otros niveles son otros valores que se pueden obtener directamente de la tabla de la distribución N(0.96 ≤ (p-P)/√(pq/n) ≤1.167 ⋅ 0. Ejemplo 1. En el Intervalo de confianza para una diferencia de proporciones P1-P2.96. .

Para la diferencia de promedios x1-x2 el intervalo de confianza es: IC1−α = [( x1 − x2 ) ± t (1−α / 2 ) ⋅ Es ] donde Es = V.- Si en una muestra de 49 individuos se tiene una glicemia promedio de 1. “Es” su error estándar y k un valor que determina en una cierta distribución una probabilidad determinada. Si se acepta que una medida de la precisión es la mitad del ancho del intervalo de confianza.3. A estas alturas ya es conveniente observar que todos los intervalos de confianza tienen la misma estructura: IC1-α =[ê ± k·Es].69 Si la varianza es desconocida recordamos que (x-µ)/(s/√n) tiene distribución de Student tn-1 y entonces es fácil llegar a que el intervalo de confianza del nivel C = 1-α es en este caso: IC1−α = [ x ± t (1−α / 2 ) ⋅ s / n ] Aquí t(1-α/2) tiene el mismo sentido que Zα/2 pero se escribe distinto por razón de construcción de las tablas t de Student.. un buen valor para recordar al 95% de confianza es k = 1.03 / 49 ] Es decir entre 1.El tamaño muestral (n1 − 1) s12 + (n2 − 1) s 22 ⋅ (1 / n1 + 1 / n2 ) n1 + n2 − 2 Esta misma forma de pensamiento. permite calcular el tamaño muestral para una precisión y una confianza dadas. promedios y proporciones. Entonces puedo afirmar con un 95% de confianza que el promedio poblacional de la glicemia se encuentra en: IC1−α = [1. que generalmente siguen distribuciones normales o Student.96≈ 2. entonces equivale al valor absoluto de la diferencia entre el valor real del parámetro y el promedio muestral (observación: a mayor valor de d la estimación es menos precisa). . se observa que la precisión es d = k·Es = |ê-θ| y. Para los estimadores habituales.03.042 ± 2 ⋅ 0.042 con una desviación estándar de 0.033 y 1. donde ê es un estimador.051. Ejemplo 2.

entonces el tamaño muestral requerido es aproximadamente: n = 4(5..68.05x45)2 = 51. Q ≈ 0. entonces d = t(1-α/2)s/√n. que según estimaciones previas de otros autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (α = 0.3.- Si queremos estimar un promedio con un 95% de confianza. V. Ejemplo 4.68)/(0.1x0.32x0. el tamaño muestral adecuado es: Z α2 / 2 PQ n= d2 Ejemplo 3. Zα/2 = 1.96 y d = 0. Así el tamaño muestral necesario es aproximadamente n = (1.70 Entonces.32 = 0. y factores de riesgo (ver capítulo de probabilidades).- Si deseamos estimar una proporción P.2. Muchos de estos estimadores son proporciones o diferencia de proporciones por lo que sus intervalos de confianza se calculan en la forma convencional ya señalada: . Observamos que todos los cálculos de tamaño muestral son sólo aproximaciones y que todos necesitan de algún conocimiento o estimaciones previas de lo que se pretende estimar y su variabilidad.032.4. es obvio que d = zα/2√(PQ/n).4)2/(0.32. tratamiento.96)2(0. es decir. Si nuestro interés es calcular un promedio.Estimaciones en Medicina A menudo en Medicina se usan estimadores para diagnóstico.34. entonces P≈ 0.05) y con una precisión de 10 % .032)2 = 816. con una precisión del 5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviación estándar de s = 5.84 = 52. y entonces el tamaño adecuado es: t12−α / 2 s 2 Z α2 / 2 s 2 ≈ n= d2 d2 Para confianzas del 95% se suele aproximar z2α/2 = 4. por ejemplo si se desea buscar el tamaño muestral con una precisión d y una confianza C = 1-α para estimar una proporción P. O sea alrededor de 817 individuos. despejando n.

47] = [2 y 3]. Especificidad.47] entonces los límites de confianza para RR son [antilog 0.71 Proporciones Diferencia de proporciones Sensibilidad. certeza diagnóstica. Usando exactamente la nomenclatura del capítulo de probabilidades. entonces para NNT son [2 y 8]. si los límites de confianza para log10RR son [0. Riesgo relativo (RR). CER y EER Reducción y aumento absoluto del riesgo: ARR y ARA En otros casos existen técnicas especiales para el cálculo: Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de ARR y ARA respectivamente. Por ejemplo.30 y 0. se calculan los límites de confianza para ARR y ARA y se calcula su inverso. Se calculan los límites de confianza para el logaritmo y a estos valores se les aplica el antilogaritmo. log OR y log LR. obteniendo los límites de confianza buscados. por lo que en estos casos. Valores predictivos. los intervalos de confianza para el logaritmo de estos estimadores son: Para log RR: IC1−α = [log RR ± Z α / 2 ⋅ 1 1 1 1 ] + − − a b a+c b+d 1 1 1 1 + − − ] a b c d 1 1 1 1 ] + − − a d a+b c+d Para log OR: IC1−α = [log OR ± Z α / 2 ⋅ Para log LR: IC1−α = [log LR ± Z α / 2 ⋅ . Odds ratio (OR) y cuocientes de verosimilitud (LR): En todos estos casos se prefiere trabajar con los logaritmos (en cualquier base) de las estimaciones: log RR.30 y antilog 0. Por ejemplo si los límites de confianza para ARR son [1/8 y 1/2].

4% de las vinchucas “rojas” están infectadas con un parásito.[9. [0. ¿qué intervalo de confianza tendrá mayor precisión? 4. [0.5 mg/dcl y una varianza de 0. Se necesita estimar la media poblacional µ con un intervalo de confianza del 95% no mayor que 0. se halló que de 42 muertes por ataques cardíacos. ¿Qué tamaño necesito para obtener esto? R: n = 25. 3. ¿Qué tamaño muestral necesito para re-estimar esta proporción con un intervalo de confianza de 95 % de ancho total 7 %? R: n = 317.6]. c) 100.9. 733 pacientes recibieron el medicamento y a 742 se les dio un placebo.14. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la prevención de muerte dada por ataques cardíacos en pacientes que ya han sufrido ataques. Se tomó una muestra que mostró que una variable en los hombres tiene un promedio de 9. R: [0.786.402. El tamaño de la muestra desempeña un papel importante en la determinación de la longitud de un intervalo de confianza. Se estudió el efecto de una droga sobre el cambio de peso en 12 pacientes dando un promedio de –0.794. 29 se produjeron dentro del grupo que recibió el placebo y 13 en el grupo que recibió la .86]. En el estudio. 160 tienen electrocardiograma (ECG) normal.890]. 6.9.47.769. Suponiendo que las 200 medias muestrales obtenidas se utilizan para construir 200 intervalos de confianza del 90%.0.12]. 0.[9. Si N1 es mayor que N2. 5.4 kg2. Después de 8 meses. 95 y 99% de la proporción de niños con dolor al pecho que tienen ECG normal. Se dice que el 11. Obtener el intervalo de confianza del 90. d) 1000? R: [8.72 Ejercicios de estimación 1.[9. 2. De 191 niños con dolor al pecho. 0.5 kg.5 kg y una varianza de 0. Considerar dos intervalos de confianza del 95% de µ basándose en muestras de tamaño N1 y N2 extraídas de la misma población.907].882]. b) 10. ¿Cuál es el intervalo de confianza del 95% si el tamaño muestral es: a) 5.88.9. ¿Cuántos de estos intervalos esperaría que no contuvieran a µ? R: 20. 7. Considerar 200 muestras de tamaño 25 extraídas de una población con media µ desconocida.10.53].25 mg2/dcl2.

¿Qué podría decir a una confianza del 95%? Lugar 1 (con soldadura de plomo): N=25 . edad media a la que empiezan a fumar=11. 8. 10.47. media=10 . 9.429].342.0379]. Según los siguientes datos. Se ha realizado un estudio para comparar la concentración de plomo en el agua de dos casas. . Inicialmente se marcaron 500 pájaros adultos con cintas en las patas y se liberaron en una región lluviosa. R: [0.3 años . σ2=5 R: Que la concentración de plomo aumenta entre 13. media=25 . En una casa se utilizó una soldadura con el 50% de plomo y el 50% de estaño en las tuberías.73 droga. Al año siguiente. 0. σ2=12 Lugar 2 (sin soldadura de plomo): N=25 .6 años . dio como resultado una recuperación de 252 de los 500 pájaros liberados.0041. σ2=4 R: No. Hallar el intervalo de confianza del 90% de la diferencia en las tasas de supervivencia de un año para las dos regiones R: [0. Generar un intervalo de confianza del 95% para la diferencia de muertes entre el grupo que recibió el placebo y el que recibió la droga. Se cree que los jóvenes adolescentes que fuman comienzan a hacerlo a una edad más temprana que las mujeres adolescentes fumadoras. se recapturaron 445 (suponer que aquellos pájaros no capturados fueron consumidos por depredadores). 0. ¿usted apoyaría esta suposición? Hombres: N=33 . Un experimento similar en Santiago (una región templada). Se ha realizado un estudio sobre la tasa de supervivencia de los pájaros adultos en los trópicos y en las zonas templadas.5 y 16. σ2=4 Mujeres: N=14 . edad media a la que empiezan a fumar=12. En la otra casa no utilizaron esta soldadura.

Así. Hipótesis alternativa (H1): es la hipótesis que contiene la afirmación. Tiene por tanto un contenido de verdad (dicotómico si trabajamos con lógica binaria: V o F). Naturalmente una u otra es verdad. Es en general una hipótesis de igualdad. desconocido. se establece inmediatamente la dicotomía Ho: los hombres pesan igual o menos que las mujeres y H1: los hombres pesan más que las mujeres. Definición Una dócima o prueba de hipótesis es una regla o procedimiento estadístico que permite tomar una decisión acerca de la aceptación o rechazo de la hipótesis de nulidad.DOCIMASIA O PRUEBA DE HIPÓTESIS VI. Esto lo denominamos dicotomía de la hipótesis: Hipótesis de nulidad (Ho): es la hipótesis de nulidad del efecto contenido en la afirmación. El fin de la estadística es llegar a conocer o aproximar la incerteza de tal afirmación. La estrategia estadística se enmarca en una lógica de tipo binario que permite siempre dividir una hipótesis en dos. Definición En términos estadísticos paramétricos una hipótesis es una afirmación que especifica la distribución de una o varias variables. Por ejemplo. y que este rechazo es el que permite sostener H1. H1: µH > µM. Para esto es estrictamente necesario que las hipótesis Ho y H1 sean complementarias. En términos estadísticos paramétricos nos referimos a los promedios: Ho: µH ≤ µM vs.Bases Definición Llamaremos hipótesis a una proposición lógica.1. cuando afirmamos que los hombres pesan más que las mujeres. Desde esta perspectiva una hipótesis constituye una afirmación cuya validez o certeza es desconocida. pero en general.74 VI. pero no ambas.. por ejemplo si se afirma que los hombres pesan más que las mujeres.. . en términos estadísticos paramétricos afirmamos que el promedio poblacional del peso masculino es mayor que el femenino. En este sentido las hipótesis en términos estadísticos se refieren a parámetros. Bajo esta definición es claro que toda la estrategia estadística está destinada al rechazo de Ho.

7 0. obteniéndose para varios valores de éste: θ 0. Entonces la idea es encontrar un valor crítico “Co” para el promedio muestral xB sobre el cual rechazar Ho (y por tanto sostener H1).8 0. llamada función de potencia de la dócima (K(θ)). encontrar una regla que permita tomar una decisión adecuada no es fácil como podemos ver en el siguiente ejemplo. conservando su varianza pero con un promedio poblacional distinto (θ).2) = K(θ) es la función de potencia de la dócima. Esto establece un conjunto de valores Rc =[xB / xB > Co] que permiten rechazar Ho (zona de rechazo de Ho).0668 0.9 1.0. 2) y que se afirma que un animal B pesa más que el animal A.1587 0. Esta depende del valor crítico Co.6915 0. Supongamos que tomamos una muestra de 100 individuos del ave B.2) y entonces P(xB > Co) = P((xB-θ)/0. es decir rechazaremos Ho ( y aceptaremos que B pesa más que A) si en la muestra xB > 1.. Ahora bien. la probabilidad de pertenecer a la zona de rechazo es P(xB > Co).¿cómo elegir este valor crítico? Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio poblacional del peso de B (θ). La función de potencia K(θ) = P(Z>(1θ)/0.2) = = P(Z >(Co-θ)/0.2 1.75 Sin embargo. Entonces.2) entonces xB es N(θ. H1: µB> µA .9332 Ho V V V V F F F .5 0..0 1. Así el peso de B sigue una N(θ.2) depende de θ. seguimos el procedimiento habitual y planteamos: Ho: µB ≤ µA vs.1 1. Probemos con un valor crítico Co = 1. Esperamos que la variable peso del animal B tenga una distribución normal similar al ave A. Además sabemos que si el peso es N(θ.8413 0.. Supongamos que el peso de un animal A tiene una distribución normal N(1.3085 0. 2/√100) = N(θ. 2).3 K(θ) 0. Pero.2 > (Co-θ)/0.

Esto produce una disociación entre estos dos eventos.9 1.3 a 0. el máximo error de tipo I que se está dispuesto a tolerar. Entonces no parece adecuado escoger Co = 1. recién tenemos probabilidades de 0.5 de rechazarla.76 En esta tabla observamos que la probabilidad de rechazar Ho (K(θ)) cuando Ho es verdadera es muy alta.1587 0. cuando Ho es falsa. Si escogemos Co = 1. Así notamos que la validez de Ho es una característica poblacional y que la toma de decisión se realiza en base a la muestra. Su medida es β = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) = 1-K(θ1). se le denomina . El valor C establece la confianza de la dócima.3 (30%) y para θ = 1 una probabilidad de 0.5!!.6915 0.9 hay una probabilidad de 0.2 1. La situación se puede expresar en la siguiente tabla: VALOR DECISIÓN Rechazo Ho Acepto Ho V (H1F) ERROR I (α) C = 1-α DE VERDAD de Ho F (H1V) K = 1-β ERROR II (β) En esta tabla se describen dos tipos de errores estadísticos: error de tipo I. y a α. Observamos que C = P(AHo/HoV) = 1-α.8413 Ho V V V F F F F En este caso en cambio. la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera cercano a 0.5000 0. aquel que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV).0668 0.8 0.1 1.2 obtenemos: θ 0. Entonces lo ideal sería tener un valor crítico Co sobre el cual la probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que bajo este.3085 0. y el error de tipo II es el que se comete cuando se acepta Ho (AHo) y esta es falsa. originando dos clases posibles de errores. por ejemplo para θ = 0.3 1.0228 0. Su medida es α = Pmax(RHo/HoV). Sin embargo esto no es posible y sólo es posible encontrar valores críticos de compromiso entre los posibles errores.4 K(θ) 0.0 1.

Dicotomía de la hipótesis: Ho vs H1. y por tanto sostener H1 con una probabilidad de error I = p. 99%). Elección de la dócima apropiada (ver más adelante). rechazar Ho si la probabilidad de error I es p < 0. Del mismo modo a K(θ1). pero ¡ojo! Si aceptamos Ho podemos estar cayendo en el error II por lo que deberíamos medir β o alternativamente la potencia de la dócima(K)).01 (o confianzas mayores que 90%.05. 95%. 0. Elección del nivel de significación.05. Interpretación estadística de los resultados. El más aceptado es lejos α = 0. O sea en ciencias parece aceptable cometer errores de tipo I con probabilidades menores o a lo sumo iguales a 0. En esta etapa se define a priori el nivel de significación con que se va a trabajar.1.77 nivel de significación cuando se encuentra previamente especificado. y b. La docimasia o prueba de hipótesis debe cumplir varias etapas: i) ii) iii) Planteamiento de la Hipótesis. rechazar Ho si el valor del estadígrafo que se usó como dócima se encuentra en la zona de rechazo (Rc) definida por un cierto valor crítico (Co). tomar una decisión estadística por una de dos vías equivalentes: a. el valor de la función de potencia en θ1 . se le conoce como potencia de la dócima. En base al resultado de la dócima. 0. De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho. En general en ciencias se consideran como adecuados niveles menores que α = 0. iv) v) vi) . Sólo hay dos posibles: a.05. o b.05. De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar Ho (y por tanto en general aceptamos Ho.o simplemente K.

64 (zona de rechazo Rc). pero en la localidad en que vivo yo lo veo en casi todas.3 y P > 0.96 o si Z > 1. Observación importante Si la hipótesis H1 hubiera sido P ≠ 0.2.025 en cada extremo. En realidad con una confianza a posteriori de un 99.96 y Co = +1.3 vs: H1: P > 0.520.7/25)) = P(Z > 2.3)/√(0. En este caso hay dos puntos críticos simétricos Co = -1.96.008.2%.3. Entonces como la probabilidad de rechazar Ho con este valor dado que Ho es verdadera es menor que 0..64. entonces cae en la zona de rechazo de Ho. Supongamos además que examiné 25 viviendas (muestra de tamaño n = 25) y encontré 13 con el insecto. y en el caso . rechazo Ho y acepto H1: la proporción de viviendas infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30% (p0) de las viviendas.78 VI.52 en una muestra de 25 viviendas bajo el supuesto que Ho es V es: P (Z > (0.5 o que la prevalencia de una cierta enfermedad sea menor que una prevalencia dada etc. En este caso se habla de una prueba de dos colas. En términos estadísticos Ho: P ≤ 0.Dócimas para una muestra Dócima para una proporción (P) Una pregunta muy habitual en ciencias de cualquier tipo es si cierta proporción P corresponde o no a un valor dado.008. es decir rechazaré la hipótesis Ho para todo valor calculado de z > 1.3·0. rechazando Ho si Z <-1. entonces uso el estadígrafo Z = (p-p0)/√(p0q0/n) como dócima.41) = 0.05. entonces la zona de rechazo se divide en los dos extremos de la distribución dejando una probabilidad 0. Una segunda manera de ver esto es buscando el valor crítico Co tal que P(Z>Co) = 0.3 existirían dos situaciones que la verifican: P< 0.. Como ya sabemos que Z = (p-P)/√(PQ/n) es N(0.. Este es Co = 1.05.96.41. Por ejemplo es habitual pensar que la proporción de mujeres es mayor que 0. Entonces planteo la hipótesis: la proporción de casas infestadas por este insecto es mayor que un 30%.3. Esto es porque la probabilidad de encontrar una proporción p > 13/25 = 0.05. Voy a trabajar con un nivel de significación de α = 0.1). Como el valor calculado de Z = 2. ya que hemos calculado la probabilidad de error I como p = 0.

128 − 0.05 y el problema es de una cola. Trabajaremos con α = 0. Además.48) es mayor que 1. = 2.64.92 196 Como el valor calculado de Z a partir de la muestra (2. y por tanto debo aceptar H1. Así.79 anterior. Dócima para el promedio (µ) En este caso la afirmación se refiere a una variable continua distinta de una proporción.08. Aplico el estadígrafo Z: Z= 0. en caso contrario es de una cola. Sin embargo en una localidad se examinaron 196 personas.128.48 . En otras palabras. entonces cae en la zona de rechazo de Ho.- La prevalencia histórica de una cierta enfermedad infecciosa es de un 8%.08 0.64. en resumen la prueba adecuada para una muestra en el caso de una proporción es: ˆ p − p0 p0 q0 n Z= Ejemplo 1. por lo que el valor crítico de rechazo es Zc = 1. H1: P > 0. puedo afirmar que en dicha localidad existe una mayor prevalencia de esta enfermedad.08 ⋅ 0. ¿Habrá en esta localidad una mayor prevalencia o sólo será un hecho fortuito? Planteamos estadísticamente: Ho: P ≤ 0.08 vs. de las cuales 25 estaban infectadas. por ejemplo se afirma que el peso promedio de los hombres es más de 70 kg. En la práctica cada vez que en H1 aparece el símbolo ≠ se trata de una prueba de dos colas. de una cola. p = 25/196 = 0. con una probabilidad de error de tipo I menor que un 5%. en la muestra.

con una desviación estándar de 1Kg. b) µ<µo (una cola) o c) µ ≠µo (dos colas). si se afirma que en la ciudad A hay más prevalencia de cáncer que en la ciudad B. VI. que si la conocemos.- Supongamos que se ha propuesto que el peso promedio de un hombre es 70 Kg. Tomamos una muestra de 60 individuos y encontramos un peso promedio de 73 Kg. y que nosotros pensamos que es mayor. es necesario tomar una muestra en A y otra en B. 59 grados de libertad y una 1 60 máxima probabilidad de error de tipo I α = 0. Por ejemplo. Por un razonamiento completamente análogo al anterior se esperaría que el estadígrafo adecuado fuera Z = (x -µo)/(σ/√n).64. sin embargo en general no conocemos σ.Dócimas para dos muestras En este caso se trata de hipótesis que comparan dos situaciones y por tanto para probarlas es necesario tomar dos muestras. es 1. entonces rechazamos H0 y afirmamos que efectivamente el peso promedio de los hombres es mayor que 70 Kg..3. Entonces planteamos las hipótesis en términos estadísticos: H0: µ ≤ 70 vs µ > 70 y usamos el test: 73 − 70 t 59 = = 23. Afortunadamente por los teoremas anteriores sabemos que tn-1 = (x -µo)/(s/√n) donde s es la desviación estándar calculada en la muestra.80 Aquí la hipótesis H1 es de una de las siguientes formas: a) µ >µo (una cola). Como el valor crítico de t para una cola. .2 >>1.64.05. y además 23.2 . Entonces la prueba adecuada es : t n −1 = x − µ0 s n Ejemplo 2. El razonamiento estadístico y la forma en que se toma la decisión son enteramente análogos a las anteriores por lo que nos limitaremos a escribir las hipótesis Ho y H1 de dos colas y los test o dócimas apropiadas.

Se examinan 52 insectos A.96. Dócimas para dos promedios En el caso de hipótesis referidas a dos promedios. las hipótesis H0 y H1 se pueden escribir como: H0: (P1-P2) = P0 vs. En nuestro caso -2. en este caso afirmando que existe suficiente evidencia para sostener que la proporción de insectos parasitados es mayor en el insecto B que en A. A y B.192 ⋅ 52 + 0. se encuentran parasitados en diferente proporción.14 . La prueba habría sido de una cola. es necesario distinguir dos situaciones. Este último caso es muy habitual en medicina donde se estudia la misma muestra con y . H1: PA≠PB (P0 = 0).192 y p2 = 36 / 100 = 0.192 − 0. El 1 1 0. Lo habitual es que P0 = 0. y nuevamente habríamos rechazado H0. Entonces calculo Z: 52 + 100 0. Entonces ahora se debe tomar la decisión.303 . Entonces se plantea: H0: PA=PB vs.697( + ) 52 100 valor crítico de rechazo para un máximo error de tipo I α = 0.303 ⋅ 0. de los cuales 10 estaban parasitados. por lo Entonces 0. 36 lo estaban.36 .- Interesa saber si dos insectos. a) dos muestras independientes y la segunda en que es.81 Dócimas para dos proporciones En este caso. y como es una prueba de dos colas rechazaremos H0.36 Z= = −2.64. cuando el valor calculado de Z sea < -1. La primera en que son. el valor crítico habría sido 1. b) la misma muestras o muestras relacionadas en dos situaciones experimentales. H0: (P1-P2) ≠ P0. Podemos observar además que si nuestra hipótesis H1 hubiera sido que el insecto B tiene una mayor proporción de parasitismo que A.05 es 1.96 o > +1. ˆ ˆ p1 = 10 / 52 = 0.96 y entonces rechazo H0 y puedo afirmar que existe suficiente evidencia para sostener que la proporción de insectos parasitados es diferente.96 . para una prueba de dos colas. pues en general interesa la pregunta P1 = P2 o P1≠ P2? La prueba a usar en este caso es: Z= ˆ ˆ ˆ ˆ ( p1 − p 2 ) − P0 p n + p 2 n2 donde p0 = 1 1 n1 + n2 1 1 p0 q0 ( + ) n1 n2 Ejemplo 3. y de 100 insectos B.36 ⋅ 100 que p0 = = 0.14 < -1.

44. el valor crítico de t es 1. es decir A pesa más que B.µ2≠ µ0 y al igual que en el caso de las proporciones lo habitual es que µ0 = 0.05 y una cola. Así como el cuociente entre las varianzas es 62/52 = 1.64. a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos: t n +n −2 1 2 x1 − x2 − µ 0 (n1 − 1) s12 + (n2 − 1) s 22 2 = donde sc = n1 + n2 − 2 1 2 1 sc ( + ) n1 n2 Ejemplo 4. son diferentes. .64. Una estimación razonable para decidir esto es hacer el cuociente s2M/s2m. usando nuestra regla simple. o bien situaciones del tipo antes-después.67 > 1. idéntico al valor crítico para Z en el caso de una cola. Ahora podemos usar nuestro test: 46 + 50 − 2 36 − 33 t 94 = = 2. la distribución t se aproxima a la normal N(0. Las hipótesis para dos colas son H0:µ1 . En este último caso se habla de muestras pareadas o dependientes Muestras independientes Por razones estadísticas la prueba a usar depende de si las varianzas muestrales se pueden considerar iguales (homocedasticidad) o bien son diferentes. Supongamos que en 46 individuos de A el peso promedio fue 36g con una desviación estándar de 6g y que en 50 individuos de B el peso promedio fue 33 g con una desviación estándar de 5g. y si es mayor que 4. rechazamos H0 y podemos sostener H1. 1 1 30. Observamos que el valor crítico de t con 94 grados de libertad es 1.- Se afirma que la especie A pesa más que la especie B.82 sin un cierto fármaco.1) (Z). Además podemos estimar la “varianza común s2c como: 45 ⋅ 36 + 49 ⋅ 25 sc2 = = 30.µ2= µ0 vs H1: µ1.µB ≤ 0 y se toman muestras de A y de B. es decir es menor que 4. Esto no debe extrañarnos. Sin embargo es posible docimar directamente la homocedasticidad (ver más adelante). pues como hemos enunciado en un teorema anterior. Entonces se plantean las hipótesis H0:µA – µB > 0 vs H1: µA.64. podemos suponer homocedasticidad.27 . donde s2M es la varianza mayor y s2m es la varianza menor. Para α = 0.67 . si el tamaño muestral aumenta.27 ⋅ ( + ) 46 50 entonces como 2.

15 ≈ 55 (36 / 46) 2 (4 / 50) 2 36 4 + ( + ) 46 − 1 50 − 1 46 50 Entonces con α = 0.05 y una cola el valor crítico de t es aproximadamente 2. Por ejemplo.83 b) si no hay homocedasticidad. pero ahora las desviaciones estándar son: para A 6g y para B 2g. Entonces el test de hipótesis a usar es: t n −1 = d sd / n . Como 3.µ2. entonces usamos: t gl = x1 − x2 − µ 0 s12 s22 ( + ) n1 n2 pero los grados de libertad “gl” los estimamos mediante 2  s12 s2  +   n n gl =  12 2  2 2  s12   s2       n1  +  n2  n1 − 1 n2 − 1 2 Ejemplo 5.23 y los grados de libertad: gl = = 54. proponer que H1: µ1> µ2. es equivalente a H1: D > 0. t gl = Muestras dependientes (pareadas) Este caso es equivalente a una dócima para promedio de una muestra.- Usando el mismo caso anterior. En este caso: 36 − 33 (36 / 46 + 4 / 50) 2 = 3. entonces nuevamente rechazamos H0 y la interpretación es la misma. Entonces no podemos suponer varianzas iguales. Se crea la variable auxiliar d = x1-x2.23 > 2. se calcula su promedio d y su desviación estándar sd . Entonces la razón entre las varianzas es 36/4=9. Las hipótesis en este caso son referidas al parámetro D = µ1.

1 d = x1-x2 5 0 -5 10 8 10 15 8 10 17 78 d =7.5 Después (x2) 95 95 85 80 90 95 95 92 80 93 900 90 6. Las dócimas para una y dos muestras deben cumplir algunos o todos los siguientes supuestos: i) ii) iii) independencia normalidad homocedasticidad .5 / 10 calculado de t (3. VI..Supuestos de las dócimas Para que las dócimas tengan real validez. se deben cumplir ciertos supuestos básicos que provienen del uso de ciertas distribuciones como una t de Student o una normal estandarizada Z = N(0.5 Entonces se pueden plantear las hipótesis de una cola: H0: D ≤ 0 vs H1: D > 0.8 9.84 Ejemplo 6. Entonces se estudian 10 individuos.- Se piensa que un fármaco baja la presión arterial.79) es mayor que el valor crítico de t. ya que pensamos que la presión antes debe ser mayor que después (µ1> µ2 .8 sd= 6. rechazamos H0 y entonces podemos afirmar que efectivamente el fármaco baja la presión arterial. o D = µ1.83). tomándole la presión diastólica antes y después de la administración del fármaco obteniendo: Individuos 1 2 3 4 5 6 7 8 9 10 Total Promedio Desviación estándar Antes (x1) 100 95 80 90 98 105 110 100 90 110 978 97. 7.1). para α = 0.79 .05 el valor Calculamos el valor del estadígrafo: t 9 = 6. Como.µ2 > 0).4.8 = 3. con 9 grados de libertad y una cola (1.

Homocedasticidad Este supuesto consiste en la suposición de igualdad de varianzas.85 Independencia Es el requisito fundamental de todas las dócimas. por ejemplo en el caso de las plantas de un prado. En párrafos anteriores habíamos dado una regla simple: si el cuociente entre las varianzas era mayor que 4. no parece conveniente incluir hermanos en la misma muestra porque sus fisiologías pueden ser semejantes violando el supuesto de independencia. mas que por el hecho de pertenecer a la misma situación experimental. Por ejemplo.3 m 1. En este capítulo sólo mencionaremos tres y en los siguientes describiremos dos de ellas. Esto proviene de los supuestos en que se fundamentan las distribuciones que se usan como estadígrafos. Es decir los elementos de una muestra no deben estar relacionados entre sí. H1: σ21 ≠σ22 . el supuesto de independencia lo debe asegurar el investigador.26 m .5 m 0. Para tomar la decisión se usa el test F de Snedecor (F en honor a Fisher): F( n −1). Aunque no siempre es fácil decidir si los elementos son realmente independientes.- Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una especie de árbol: Población Número de árboles Altura promedio Desviación estándar A 46 3. Normalidad Este supuesto se refiere a que se espera que las variables consideradas en las muestras tengan distribución normal. ii) Bondad de ajuste de Kolmogorov-Smirnov e iii) Bondad de ajuste χ2. Cuando existen dudas es posible realizar un estudio de correlación de los errores a través de una dócima de Durbin-Watson (que no se tratará en este libro). sm Ejemplo 7. Existen varias pruebas para probar la normalidad de los datos de una muestra. donde SM2 representa la varianza mayor y Sm2 la menor. Cada elemento de la muestra debe ser independiente del resto.( n −1) 1 2 2 sM = 2 . Estas son i) Prueba de Lilliefors que consiste en una prueba gráfica utilizando una distribución normal acumulada. En este caso los elementos de la muestra no constituyen réplicas sino seudo réplicas. si estamos estudiando un parámetro fisiológico.6 m B 68 4. En esta ocasión vamos a ser más rigurosos y plantearemos las hipótesis Ho: σ21 = σ22 (homocedasticidad) vs. que es necesario sólo para comparar promedios con suposición de la existencia de una varianza común. entonces las suponíamos distintas.

de una cola. H1: σ21 ≠σ22 y aplico el test: F67.53 con gl = t gl = (1.62.53 > 1. Como 4.41 y comparo este valor con el valor crítico de la distribución F. Ahora nos preocupamos de la hipótesis principal y aplicamos el test adecuado: (1.36 / 46) 2 1.26)2/(0.45 =(1. entonces rechazo H0 y afirmo que efectivamente los árboles de B son más altos que los de A. planteo las hipótesis: Ho: σ21 = σ22 (homocedasticidad) vs.3 ≈ 103 = 4.36 / 46) 2 4.62.64 (valor crítico). con 67 grados de libertad en el numerador y 45 grados de libertad en el denominador: 1.41 > 1.36 + ( + ) 68 − 1 46 − 1 68 46 Como 4.86 Planteamos la hipótesis H1 que los árboles de la población B son más altos que los de la población A. en términos estadísticos H0:µB ≤ µA vs H1: µB > µA. antes de preocuparme por mi hipótesis principal.3 − 3. . Entonces. entonces rechazo la homocedasticidad (H0) y deberé considerar las varianzas como diferentes. por lo que es una hipótesis de promedios.59 0.5 = 102. para dos muestras.6)2 = 4.59 / 68 + 0.59 / 68) 2 (0. Surge entonces la pregunta ¿puedo considerar las varianzas iguales? Entonces.

3.19 d) Saque conclusiones. No hay evidencias de variaciones de concentración. ¿Qué puede decir usted sobre la eficiencia de la droga? a) Señale la hipótesis de trabajo. ¿Puede aceptarse que esta distribución es mendeliana? R: Z = -1. y en células no tratadas (controles). Habitualmente la ictericia fisiológica del recién nacido dura 3. Un cierto tipo de cáncer tiene habitualmente una letalidad (número de muertos por cada cien enfermos) de 30. el período ictérico dura 2. 2. dando los siguientes resultados (en ng/mL): Que puede Ud. la fototerapia es efectiva. ¿Es la fototerapia un tratamiento efectivo contra la ictericia?. R: La droga disminuye la letalidad.8 días. Al tratar a 100 niños con fototerapia. Se experimenta una nueva droga en 80 casos. en los cuales se producen 15 defunciones. si es mendeliana. 4.8 días con una desviación estándar de 2. b) Señale el nivel de significación. Se ha medido la concentración de una sustancia en células tratadas con un compuesto que se cree sedimenta dicha sustancia.7 días.55.89.87 Ejercicios de Pruebas de Hipótesis para una y dos muestras 1. R: t99 = -3. decir? Controles Tratadas 68 66 21 29 100 50 48 77 46 110 7 55 5 91 57 90 96 114 138 50 R: t9 = 0. el cruzamiento de heterocigotos produce una descendencia formada por dos tipos de individuos: aquellos con carácter dominante que representan el 75% y el resto presenta el carácter recesivo.7. De acuerdo con las leyes de Mendel. c) Realice la prueba de significación estadística. R: Z = -2. . En un experimento con 500 semillas se obtienen 360 semillas amarillas (dominante) y 140 verdes.

no hay evidencias de efecto para el nivel 1%.88 5. a) Si el número de pacientes es de 30 para ambos grupos. De 23 felinos sureños. se observó trombosis sólo en el 50% de los casos.06 [ml O2 kg-1 m-1]. b) Z = -2. la aspirina reduce el riesgo de trombosis. La contracción (en mm) de los úteros de 8 ratas usando dos hormonas distintas (A y B) es la siguiente: Útero 1 2 3 4 5 6 7 8 Hormona A 28 30 25 34 35 26 31 32 Hormona B 24 29 28 30 25 19 32 32 ¿Existe efecto diferencial entre las dos hormonas? Use nivel de significación del 1%. Se ha observado que la administración de dosis bajas de aspirina en pacientes sometidos a diálisis renal disminuye la frecuencia de trombosis.24. De 15 felinos nortinos medidos. Los resultados (en kg) son los siguientes: Individuo 1 2 Antes 95 90 Después 85 85 .12±0. ¿cuál sería ahora su conclusión? R: a) Z = -1. no hay evidencia. t28 =-2. en pacientes a los que se les administró un placebo presentaron trombosis en un 70% de los casos y en aquellos que recibieron aspirina.22.79. Así. Se desea saber si una determinada dieta produce o no aumento de peso. Se han realizado mediciones de metabolismo en carrera en felinos provenientes de dos zonas (norte y sur). los cuales son pesados antes de iniciar la dieta y después de 3 meses de seguirla rigurosamente. si existe diferencia. se obtuvo un metabolismo de 0. Para ello se toma una muestra de 7 individuos. 6. 8.58. ¿cuál sería su conclusión respecto al efecto de la aspirina? b) Si el número de pacientes es 60.02 [ml O2 kg-1 m-1] (promedio±SD). ¿Existe diferencia entre los metabolismos?. R: t7 = 1. R: No hay homocedasticidad.15±0. se obtuvo un metabolismo de 0. 7.

11. 12.63. R: t6 = 3. 10. resultados que fueron tabulados en la siguiente tabla. p = 0.059. LARGO [MM] 10-12 12-14 14-16 16-18 18-20 20-22 22-24 DEL PELAJE fcosta fcordillera 1 3 6 6 2 1 1 2 5 8 3 2 0 0 ¿Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los supuestos y elija la dócima adecuada). R: t38 = 1. se encontró que los valores de concentración de coliformes fecales presentaban mayor variabilidad cuando eran tomados durante la mañana que durante la tarde. Hombres: 1-1-2-2-2-3-3-3-3-4-4-6-9 Mujeres: 1-1-1-2-2-2-2-2-2-3-3–5 Suponiendo que los datos son normales. determine si existe diferencia en el número de perros sacados a pasear entre hombres y mujeres R: t23 = 1.89 3 4 5 6 7 110 104 80 78 95 94 83 75 91 91 ¿Existirán evidencias para suponer que esta dieta produce una disminución significativa del peso? (Use nivel de significación del 1%). separando hombres de mujeres. un señor se puso a contar el número de perros que eran sacados a pasear por sus dueños. Se les midió el largo del pelo a 20 individuos de cada población. Los siguientes datos corresponden al número de perros por persona. En un análisis químico de las aguas del río Mapocho.24. no hay evidencias de diferencias.77. Se realizó un estudio sobre dos poblaciones de Spalacopus cianus (Cururo) provenientes de la costa y de la cordillera. obtenidos en esta productiva tarde de ocio. Mientras paseaba por el parque. La muestra tomada en la mañana . si hay evidencias de reducción de peso.

¿Tienen razón los investigadores?. . R: no.90 presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde. una varianza de 20 mg2/mL2 (N=20).

Una distribución muy útil en éstos casos es la distribución χ2.1). En un ejemplo numérico supongamos que se tienen 35 hombres y 46 mujeres en una muestra de 81 personas. se pueden escoger libremente tres números.5 usamos el estadígrafo Z = = (p. entonces acepto Ho.P)/√(PQ/N) = (35/81.5/81) = 1. .1.ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS VII.0.. o2 = N2.222 y como el valor crítico de Z para dos colas es Z = 1. N(0. Si en esta última variable estimamos µ directamente de la muestra restringimos en uno los grados de libertad.1). e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) = = (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N –1/2)2/[√((1/2·1/2)/N)]2 = [(p. por ejemplo número de enfermos. Entonces esperamos que la variable: X2 = ∑(o-e)2/e .La distribución χ2 Muchas veces en ciencias las hipótesis se refieren a diferencias en cantidades o frecuencias entre diferentes poblaciones. que como recordamos proviene de una variable aleatoria x con distribución normal estandarizada. entonces o1 = N1.5)/√(0.P)/√(PQ/N)]2 = Z2. H1: P ≠ 0. Veamos esto de otra forma. entonces sólo se pueden escoger dos libremente pues el último queda determinado por la condición (se ha restringido en uno los grados de libertad). Si sumamos n variables de este tipo se obtiene una nueva variable X = ∑x2 con distribución χ2n . pero si se los somete a la condición de que el promedio es un número determinado. tenga distribución χ2n-1. es obvio que Z2 tiene distribución χ21 y entonces Ζ2n = ∑[(x-µ)/σ]2 tiene distribución χ2n. Este estadígrafo es conocido como Chi-cuadrado.91 VII. Bástenos observar que si nos lo proponemos.. Supongamos que en una muestra de N individuos hay N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres. elevada al cuadrado. Si recordamos que Z = (x-µ)/σ tiene distribución N(0.5·0. población animal. Supongamos que µ no es muy diferente de σ2 (como en una distribución de Poisson) y que ambos los estimamos por un valor esperado “e” a partir de la muestra. Entonces si probamos Ho: P = 0. etc. donde o es un valor observado de x y e su esperado.96.5 vs. es decir una distribución cuya forma depende de un parámetro n llamado “grados de libertad”.

. Estas son la manera habitual de presentar datos enumerativos.92 Si ahora calculo X2 considerando que ambos valores esperados son e = 0..5)2/40. Rr Nr.... marginal N1..2 N2.0 Es fácil darse cuenta que si todos los N se comportan en forma homogénea en las distintas columnas (C).2222 = 1.j = (Ni...0 Nr. B y C y en cada una de ellas el número de enfermos y no enfermos.t N0.o/ No.o/No.5·81=40..0 N2..2 N0......5 = 1..4938.t N2.0 N0... Es fácil ver que Z2 =1.. .o)No. entonces se cumple que las proporciones en cada columna deben ser semejantes a las proporciones en los totales marginales. Por ejemplo tres poblaciones A. .t Nr..j.5 + (46-40.2 Nr.t T.. Existen dos tipos de diseños experimentales que conducen a una tabla de doble entrada..2 .1 ≈ N1..... marginal N0.o. obtengo X2 = (35-40. .5)2/40. Tablas de contingencia La distribución χ2 cobra su mayor importancia en las tablas de doble entrada o tablas de contingencia.1 C2 N1.1 N2. …… . A Enfermos No enfermos Total marginal Gran total B C Total marginal En general una tabla de doble entrada se puede escribir así: R1 R2 ….1 T. En el primero se tomas muestras aleatorias sin regular los totales marginales de ninguna de las dos entradas y lo que interesa es saber si existe asociación entre las .5.1/ No..1 C1 N1.4938= X2. Ct N1. Entonces si la respuesta es homogénea los valores esperados para cada celda se pueden determinar como: ei... Por ejemplo debería ocurrir que N1..

En este caso Ho: homogeneidad vs.o·(m-1)). H1: asociación.93 variables de clasificación (entradas) o independencia. En ambos casos el estadígrafo adecuado es: χ 2 ( r −1)( c −1) (o − e) 2 =∑ donde r es el número de filas y c el número de columnas. y en cada una se determina el número que se encuentra en cada nivel de la segunda entrada. Cuando se realiza una prueba de independencia vs. cuando no se cumple con Ni. j Observaciones importantes i) ii) iii) Por su derivación la prueba Chi-cuadrado en general se debe usar cuando los valores esperados son ≥ 5. Se realiza un estudio y se obtiene: . El rechazo de la hipótesis Ho en una prueba de homogeneidad indica diferente respuesta el algún nivel (C) de la primera variable clasificatoria. Las columnas que queden serán homogéneas. H1: diferencia. una buena medida de la asociación es: X2/(No. e i. La prueba de hipótesis es siempre de 2 colas. (Comparaciones múltiples en χ2) En el caso de una tabla de contingencia de 2x2. asociación. donde m es el menor valor entre r y c. En caso que esto sea relevante se debe ir sacando en forma iterada la columna que más contribuye al valor del X2 y recalculando el valor de X2 hasta que este deje de ser significativo. dentro de la primera.- Supongamos que se desea saber si existe asociación entre el color de las flores y la presencia de abejas. En cambio en el segundo se escoge una muestra de un mismo tamaño determinado para cada nivel de una primera entrada (total marginal regulado). pero no informa cual nivel es el diferente.j> 5. En este último caso interesa la homogeneidad de la repuesta de la segunda variable de clasificación. se debe realizar la prueba exacta de Fisher que proviene de una distribución hipergeométrica iv) iv) Ejemplo 1. En este caso Ho: independencia vs.

...7 83 107 (esperadas) Amarillas 47..9 60 59. se espera que una proporción (129/288) de ellas sea visitada por abejas.05 es 5...3 + 44.94 Con abejas Sin abejas Total Blancas 45 36 81 Rojas 24 83 107 Amarillas 60 40 100 Total 129 159 288 Entonces planteamos las hipótesis H0: independencia u homogeneidad de proporciones vs... Así se puede proseguir el cálculo para cada celda.8 129 55. Si queremos avanzar más.3.7. que tiene una proporción menor de visitas de abejas que la esperada.2 159 288 Ahora entonces podemos calcular el valor del X2: (45 − 36.3) 2 (36 − 44. rechazamos H0 y afirmamos que existe una asociación entre el color de las flores y la presencia de abejas. observamos que la columna que más contribuye al valor del estadígrafo es la de las flores rojas..7) 2 (24 − 47. obteniendo: Con abejas Sin abejas Total Blancas 45 36 81 (esperadas) Rojas 36.9) 2 χ = + + + .0 76 181 .. Notamos enseguida que 36.1 40 100 (esperadas) Total 44..7 47. = 34.9 2 2 El valor crítico de Chi-cuadrado para 2 grados de libertad y α = 0. o sea de el total de 81 flores blancas.99.7>>5. H1: asociación entre el color de las flores y la presencia de abejas..0 60 34 40 100 (esperadas) Total 58.3 44. y como 34. A continuación hay que calcular los valores esperados para cada celda. si a la abeja no le importa el color de la flor (independencia).0 105 42. Entonces retiramos la columna y recalculamos los valores esperados obteniendo: Con abejas Sin abejas Total Blancas 45 36 81 (esperadas) Amarillas 47.. Entonces e = 36.3 24 44. Para la segunda celda e = 81(159/288) = 44.99. Por ejemplo para la primera celda e = 81(129/288)..7 = 81.7 36.....

Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble entrada: FACTOR 1 + A C A+C FACTOR 2 (+) FACTOR 2 (-) TOTAL B D B+D TOTAL A+B C+D N Observamos que la probabilidad de que haya A asociaciones (+.36 47 34 58 42 2 1 Como el valor crítico es ahora 3.95 Planteamos una nueva hipótesis de independencia versus asociación y calculamos el valor de X2: (45 − 47) 2 (36 − 34) 2 (60 − 58) 2 (40 − 42) 2 χ = + + + = 0. . pero evitan en cierta medida las flores rojas. x ≥ A.84 y 0.36 < 3. ahora acepto H0 y puedo concluir que las abejas prefieren igualmente las flores blancas y amarillas.+) dados los totales marginales es:  A + C  B + D    A  B  P ( X = A) = N     A+ B Desarrollando los números combinatorios se llega a: P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.84. dados los totales marginales es P = ∑ P(X=x). Entonces la probabilidad de obtener una asociación igual o mayor.

la hipótesis de nulidad es que la probabilidad de intoxicación es la misma entre los que comieron y no comieron mayonesa (P = 10/16 = 0.2. dondeP( X = x) = N1. como PF va a dar un valor mayor que 0. la prueba exacta de Fisher para una tabla de contingencia de 2x2 es: PF = x ≥ N1 .084. Es decir.625).05 = α.1! N 2 . Es decir. VII.05. Hacemos un estudio de los casos obteniendo: Intoxicados Comieron mayonesa 8 No comieron 2 mayonesa 10 No intoxicados 2 4 6 Total 10 6 16 Planteamos la hipótesis de una asociación positiva entre la mayonesa y la intoxicación.. 0 ! N 0. en términos generales. 2 ! N 0 .96 De esta manera entonces.1! N1. 0 ! La hipótesis de nulidad es la independencia (es decir la asociación es la esperable por simple azar) vs. que a su vez es mayor que 0. 2 ! N 2. H1: existe una asociación mayor (una cola) o distinta (dos colas) que la esperada por azar.084 8!⋅2!⋅2!⋅4!⋅16! Ahora deberíamos sumarle P(X=9) y P(X=10). Si agrupamos en n intervalos los valores de una variable aleatoria X. Sin embargo. no existe suficiente evidencia para afirmar que existe una asociación entre la mayonesa y la intoxicación.Bondad de ajuste de χ2 Cuando es necesario saber si una determinada variable tiene una cierta distribución. Rechazamos Ho si p < 0. debemos aceptar H0.- Supongamos que hubo una intoxicación en una comida y pensamos que la mayonesa estaba contaminada. se realiza la prueba de bondad de ajuste.1! N1. 0 !⋅N 2 .1! N 0 . Ejemplo 2. En el caso de una cola la probabilidad de error I es p = P y en el caso de dos colas p = 2P. Calculamos P( X = 8) = 10!⋅6!⋅10!⋅6! = 0. para calcular finalmente PF = P(X=8) + P(X=9) +P(X=10). 1 ∑ P ( X = x). siempre será posible establecer una tabla del tipo: .

µ y σ (p = 2). Sin embargo para calcular estas probabilidades es siempre necesario estimar una cantidad p de parámetros.y2) . Mediante las técnicas aprendidas en estadística descriptiva podemos calcular el promedio (6.. por ejemplo. N (ni) Frecuencia esperada (ei) E1 E2 ...y1) (y1.74).. El caso más habitual es esperar una distribución normal.. Ejemplo 3.. A continuación debemos calcular las probabilidades de que un valor de la variable pertenezca a cada intervalo. donde las probabilidades son calculadas de acuerdo a la función de densidad de probabilidades o la función de cuantía de la distribución esperada..... a partir de la muestra. Entonces debemos calcular las frecuencias esperadas suponiendo una distribución normal...- Supongamos que estamos interesados en saber si cierta variable tiene una distribución normal y se tiene la serie agrupada de la siguiente forma: Intervalo 2-4 4-6 6-8 8-10 10-12 12-14 Total ni 20 25 30 10 12 3 100 Aquí las frecuencias relativas (ni) corresponden a las frecuencias observadas (o)... N Las frecuencias esperadas corresponden a ek = N·P(yk-1≤ x ≤ yk). Por ejemplo .. Es por esto que la distribución χ2 usada para probar la bondad de ajuste es: χ n2− p −1 = ∑ (o − e) 2 e Observamos que en este caso el número de grados de libertad es igual al número de intervalos menos 1 y menos el número de parámetros estimados a partir de la muestra.....97 Intervalo (yo.56) y la desviación estándar (2. Total Frecuencia observada n1 n2 ...

1277.8 19.0 y 2.98 P(2≤x≤4) = P((2-6.0 2.8) 2 = + + + . Entonces podemos calcular X2: χ 2 6 − 2 −1 (20 − 12.74 ≤ z ≤ (4-6.2445.1227x100 = 12. = 12.3. En el caso de más de dos proporciones puede usarse: χ 2 n −1 = ∑n ( p 1 i n i − p) pq en donde p = ∑ ni p1 / n i Observamos que este caso es enteramente equivalente al χ2 para una tabla de contingencia.5 27. P(10 ≤x≤12) = 0. 24. . Entonces las frecuencias esperadas son respectivamente:0.8 Entonces como el valor crítico para tres grados de libertad y α = 0.0 . lo cuál puede hacerse con una prueba de χ2. Ya hemos visto que cuando la hipótesis es de dos colas es posible comparar 2 proporciones a través de Z = N(0. 8.3.. VII.0204. P(8≤x≤10) = 0. 27.2778.1) o bien con un χ2.8 8.81. 19.74) = 0.. Es decir esta variable no tiene distribución normal.8.56)/2.0 La hipótesis de nulidad H0 corresponde a un ajuste a una distribución normal sujeta a dos condiciones (p = 2): Promedio 6...8.5 27.0799 y P(12 ≤x≤14) = 0.59 y desviación estándar 2.36 12.56)/2.3 24.5) 2 (30 − 27.3) 2 (25 − 24. Intervalo 2-4 4-6 6-8 8-10 10-12 12-14 Total Observado s 20 25 30 10 12 3 100 Esperados 12.74. P(4≤x≤6) =0. rechazamos la hipótesis de nulidad.5.3 24..81... El χ2 para proporciones En ocasiones es necesario comparar dos o más proporciones. P(6≤x≤8) = 0.05 es 7..1977..36 > 7. y el valor calculado 12.

por ejemplo si están en relación a:b. Entonces la probabilidad de obtener f1 éxitos basados en la hipótesis de nulidad es: p =   p f 1 q f 2 y la probabilidad de obtener f1 éxitos basados en lo observado es: f   1 n p =   p f 1 q f 2 . L) es:  f ˆ ˆ  1 n  p q L =   ⋅   p q  ˆ  ˆ f  f L =  1  ⋅ 2 f  f ˆ ˆ  1  2 f1 f1 f2 y considerando que las frecuencias fi = npi se obtiene:     f2 . . y sacando logaritmo natural: a ˆ ˆ ˆ ln( L) = f1 ln( f1 / f1 ) + f 2 ln( f 2 / f 2 ) = .99 VII. Si fuera así la probabilidad de un éxito sería p = a/(a+b) y de fracaso q = ˆ ˆ b/(a+b). prueba 2I. o prueba G.4. Así el cuociente entre estas probabilidades (verosimilitud. Por otra parte s ha demostrado que G = 2I = 2ln(L) sigue una distribución χ2a-1. q = f 2 /( f1 + f 2 ) ..La prueba G Una aproximación alternativa a la prueba de χ2 para bondad de ajuste y tablas de contingencia es la prueba del logaritmo del cuociente de verosimilitudes (loglikelihood ratio). las proporciones observadas son: p = f1 /( f1 + f 2 ).. Sin embargo.. Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli se obtuvieron f1 éxitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden a las frecuencias esperadas de acuerdo a un cierto criterio. = ∑ f i ⋅ ln( f i / f i ) En esta expresión se puede reconocer la definición de información (I) de Shannon.

en este caso con 1 grado de libertad.5 90 0.5 1.44 -8. Y podemos calcular: Resultados Observados Propoción observada Con el 80 carácter Sin el 10 carcácter Total 90 8/9 1/9 1 Proporción Frecuencia Razón Producto esperada Esperada f obs/f esp fr x ln(razón) 3/4 67.01 y entonces rechazamos H0.48 Entonces G = 2x5.18 13.11 lnL=5. . es fácil ver que p << 0.59 1/4 1 22.48 = 10. En tonces se propone H0: las frecuencias se encuentran en relación 3:1.96 y como sigue una distribución χ2..100 Ejemplo 4.Supongamos que en un experimento genético se espera una relación 3:1 para un cierto carácter y se ha obtenido: 80 con el carácter y 10 sin el carácter.

101

Ejercicios de análisis de datos enumerativos

1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. ¿Qué le diría usted al peluquero?.
SEXO\COLOR Negro
PELO

Castaño

Rubio

Colorín

Masculino Femenino

32 55

43 65

16 64

9 16

R: χ23 = 8.99; p < 0.05. Existe asociación entre el color del pelo y el sexo. 2. La Secretaría de Estudios de la facultad necesita saber si existe alguna relación entre el nivel de deserción de los alumnos de primer año y el hecho que hayan tomado determinado curso. Por eso, la secretaria acudió a un estadístico con los datos presentados en la siguiente tabla, y le pidió que le diera una respuesta. ¿Qué cree que le respondió a la secretaria?
Se va Se queda Toma el curso 37 26 No toma el curso 31 40

R: χ21 = 3.03; p > 0.05. No hay evidencias que así sea. 3. Se desea averiguar si existe alguna relación entre el biotipo de un individuo y la probabilidad de que tenga alguna lesión gástrica. Para eso se analizó el grupo sanguíneo de individuos sanos (control), con cáncer gástrico y con úlcera gástrica, obteniéndose los siguientes resultados:
Biotipo Ectomórfico Mesomórfico Endomesomórfico Endomórfico Total Cáncer 383 416 84 25 908 Úlcera 983 679 134 43 1839 Control 2892 2625 570 226 6313 Total 4258 3720 788 294 9060

102

¿Son eventos independientes el grupo sanguíneo y la lesión gástrica? R: No son independientes. χ26 = 48.61; p << 0.05. 4. En un experimento para determinar el modo de herencia de un mutante, se obtuvieron 146 descendientes del tipo normal y 30 mutantes cuando se cruzaron las moscas de la generación F1. Comprobar si los datos concuerdan con la hipótesis de que la proporción de individuos normales y mutantes es 3: 1. R: χ21 = 5.94; p > 0.05. No concuerdan. 5. En un estudio sobre polimorfismo de inversiones cromosómicas en el saltamontes Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la composición de una población en Royalla ‘B’ en 1958. ¿Están las frecuencias de las tres combinaciones del cromosoma EF asociadas a las frecuencias de las tres combinaciones del cromosoma CD?
Cromosoma CD St/St St/B1 B1/B1 22 96 75 8 56 64 0 6 6

Cromosoma EF

R: No. Son independientes. χ24 = 6.3; p > 0.05

Td/Td St/Td St/St

6. En la localidad A se ha realizado una captura exhaustiva de serpientes de la especie S. Un examen de los 167 machos adultos que han sido recogidos revela que 35 de éstos presentan bandas pálidas alrededor del cuello. De la localidad B, a 30 kilómetros de distancia de la A, se obtuvo una muestra de 27 machos adultos de la misma especie, 6 de los cuales presentaban bandas. ¿Cuál es la probabilidad de que ambas muestras procedan de la misma población estadística con respecto a la frecuencia de bandas? R: p = 0.88.

103

VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA

Las dócimas que hemos mencionado hasta ahora, siempre presuponen distribuciones particulares de la variable aleatoria, o bien sus hipótesis especifican parámetros o distribuciones. Por esto la estadística que las usa se denomina estadística paramétrica. Pero, ¿qué sucede cuando no se cumplen los supuestos necesarios para tales dócimas? Existe un conjunto de dócimas denominadas no-paramétricas o de distribución libre que vienen a constituirse en alternativas para éstos casos o para ser usadas directamente. Sin embargo es interesante notar que es diferente no especificar parámetros que no suponer una cierta distribución. Si se clasifican las dócimas se puede establecer el siguiente cuadro: Supuestos Distribución Especifica parámetro Ej: t de Student No especifica parámetro Ej: Wilcoxon de Sin supuestos de Distribución Ej: Dócima Binomial Ej: KolmogorovSmirnov

Esta estadística se utiliza fundamentalmente cuando no se cumplen los supuestos de la estadística paramétrica y, lo que en general va ligado, cuando el número muestral es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para números bajos y la falta de supuestos acerca de distribuciones o parámetros. Sin embargo, tiene algunas críticas: i) con n > 10 en general se usan las distribuciones asintóticas de los estadígrafos y no sus propias distribuciones, y éstas son paramétricas, ii) son dócimas con menor potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el nivel de significación, e iv) en general se basan en la transformación de los valores a “rangos”, siendo ésta última transformación irreversible y anisométrica (no conserva las distancias). Existen alternativas no-paramétricas para una muestra (Pruebas de Mediana, Dócimas Binomiales), pero las más usadas son las alternativas a las pruebas para 2 muestras o las alternativas para el análisis de la varianza (ver más adelante).

n.n.n. El estadígrafo es: B = ∑ bi Observamos inmediatamente que B corresponde al número de ocasiones de un total de “n” en que xi > yi.0.. b) Ho: θ ≤ 0 vs.0.n.0.- Estamos interesados en el efecto de cierto fármacos sobre la presión arterial como en el ejemplo VI.0. H1: θ > 0 o c) Ho:θ ≥.Alternativas no paramétricas a las dócimas para dos muestras Se pueden resumir en el siguiente cuadro: Muestras pareadas. Si Ho es del tipo a). que al azar se esperaría que fuera el 50%. el tamaño muestral (n) y la probabilidad (p) que en nuestro caso es p = 0. donde εi representa el error de muestreo. H1: θ < 0.n.5 (50%): b(α.5) y si es del tipo c) entonces rechazamos Ho si B ≤ n . y. Ejemplo 1. rechazamos Ho si el valor calculado de B ≥ b(α. Afortunadamente no hay que hacer ningún cálculo y éstas probabilidades se encuentran tabuladas para el nivel de significación (α). Obteniendo la tabla: . Se define además di como la diferencia muestral di = xi-yi y una variable auxiliar bi que es 0 si di ≤ 0 y 1 si di > 0.1.0 vs. Entonces las hipótesis pueden ser a) Ho: θ = 0 vs H1: θ ≠ 0.5) .5) . distribución simétrica RANGOS SIGNADOS DE WILCOXON Muestras independientes SUMA DE RANGOS DE WILCOXONMANN-WHITNEY Datos enumerativos McNEMAR Prueba de los signos de Fisher En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia poblacional δi = xi-yi = θ + εi.0.5) o B ≤ n -b(α.5) . distribución asimétrica SIGNOS DE FISHER Muestras pareadas.b(α.104 VIII.6. rechazamos Ho si B ≥ b(α. Entonces es posible calcular directamente la probabilidad de calcular esto mediante una distribución binomial (de aquí es que se denomina B). si es del tipo b).

Si se es riguroso. por lo que deberíamos aceptar H0. B = ∑bi = 8. El valor crítico para n = 10 es 8 con α = 0. entonces aceptando H0 con toda seguridad estaríamos cayendo en el error estadístico de tipo II.054. Prueba de los rangos signados de Wilcoxon En esta prueba se considera la misma situación anterior y las mismas hipótesis.05. las dócimas binomiales son de baja potencia y. por lo que rechazamos H0 y afirmamos que el fármaco baja la presión.05 para α. p = 0. y en cierta medida queda a criterio del investigador la aceptación o rechazo de H0 (esto ocurre en general en toda la estadística no-paramétrica). Sin embargo.054 y este valor es mayor que 0. es decir Ho: θ ≤ 0 vs.105 Individuos 1 2 3 4 5 6 7 8 9 10 Antes (x1) 100 95 80 90 98 105 110 100 90 110 Después (x2) 95 95 85 80 90 95 95 92 80 93 Se propone que el fármaco baja la presión. Observamos que como la distribución binomial es discreta no se encuentra exactamente el nivel 0. Entonces creamos las variables auxiliares d = x1-x2 y b. Obteniendo: Individuos 1 2 3 4 5 6 7 8 9 10 Antes (x1) 100 95 80 90 98 105 110 100 90 110 Después (x2) 95 95 85 80 90 95 95 92 80 93 D 5 0 -5 10 8 10 15 8 10 17 B 1 0 0 1 1 1 1 1 1 1 Entonces. para B = 8. pero esta prueba requiere una distribución simétrica de di lo que se puede apreciar . H1: θ > 0.

si es del tipo b) rechazamos Ho si T ≥ Tc(α.Tc(α.Tc(α. 7 y 8.106 observando su histograma de frecuencias (o bien realizando una prueba de simetría de GUPTA. como por ejemplo.n). y si es del tipo c) cuendo T ≤ n(n+1)/2 . en la siguiente tabla: di -5 3 0 -1 4 Ri 5 3 1 2 4 En esta dócima se define el estadígrafo T = ∑biRi. Ejemplo 2. Si Ho es del tipo a) rechazamos Ho si T ≥ Tc(α.5 7 9 4. fuera del alcance de este libro). se ordenan de menor a mayor los valores absolutos de di (|di|) y se les asigna un orden (rango: Ri).- Usaremos el mismo caso anterior.n). por lo que a los tres se les asigna (6+7+8)/3 = 7.n) o s T ≤ n(n+1)/2 . .n).5 7 10 B 1 0 0 1 1 1 1 1 1 1 Observamos que en el caso de empates se les asigna el rango promedio. Por ejemplo hay tres valores 10.5 7 4. En esta prueba además de considerar la variable bi.5 1 2.n). que deberían ocupar los rangos 6. Este valor se compara con un valor crítico tabulado Tc(α. Ahora agregamos la asignación de rangos a las diferencias “d”: Individuos 1 2 3 4 5 6 7 8 9 10 Antes (x1) 100 95 80 90 98 105 110 100 90 110 Después (x2) 95 95 85 80 90 95 95 92 80 93 D 5 0 -5 10 8 10 15 8 10 17 Rangos(R) 2.

H1: ∆ < 0..n1.0 vs.5 + 7 + 9 + 4. se ordenan todos los valores juntos ( de las dos muestras) y se les asigna un rango (Ri) y se consigna el estadígrafo: T1 = ∑ Ri 1 no Aquí es importante indicar que la suma se realiza sobre aquella muestra de tamaño no que tiene el menor rango promedio. Como antes. Se realiza un estudio obteniendo: .5 + 7 + 10 = 51.n2) o s T1 ≤ no(N+1) . Prueba de la suma de rangos de Wilcoxon. Si Ho es del tipo a) rechazamos Ho si T1 ≥ w(α.w(α. En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadígrafos diferentes. pero después se demostró que la U de Mann-Whitney era U = T1-no(no+1)/2 y por tanto ambas dócimas son equivalentes. donde εi es el error experimental y ∆ da cuenta de las diferencias (efecto del tratamiento).- Supongamos que se quieren comparar los pesos de dos especies A y B y se plantea la hipótesis que A pesa más que B. b) Ho: ∆ ≤ 0 vs.107 Ahora se puede calcular T = ∑Ribi = 2.n1.n2) donde n1 es el número muestral menor (no necesariamente igual a no) y n2 el mayor.n1. las hipótesis pueden ser a) Ho: ∆ = 0 vs H1: ∆ ≠ 0. Se propone que xi = εi y que yi = εi + ∆. H1: ∆ > 0 o c) Ho:∆ ≥. Como este valor es mayor al valor crítico………. Ejemplo 3. En este caso.n2).Mann-Whitney En este caso tenemos dos muestras independientes [xi] e [yi] de tamaños n1 y n2. y si es del tipo c) cuando T1 ≤ no(N+1) . Llegamos a la misma conclusión anterior.w(α.n1.5 + 7 + 4.5.n1. si es del tipo b) rechazamos Ho si T1 ≥ w(α.n2).n2). Este valor se compara con un valor crítico tabulado w(α.

5 82.5 3. por lo que rechazamos H0.5 9.5 5.5 11. H1: ∆ > 0 y asignamos los rangos: Rango 13. y entonces T = 53. Es decir.5 13.5 9.5 2 1 3. afirmamos que la especie A pesa más que la especie B.5 9. A este valor le corresponde una probabilidad de error de tipo I < 0. n2 = 9 y que no = 9.01. En este caso es útil la tabla de doble entrada: ANTES (+) ANTES (-) DESPUÉS (+) A C DESPUÉS (-) B D .5 7 15 12 16 9. Dócima de McNemar Esta prueba está específicamente diseñada para situaciones antes-después cuando la variable respuesta es un dato enunerativo.5 5.8 Especie B (masa: g) 26 28 30 25 24 22 25 26 28 Rango 5.9 Especie A (masa: g) 30 28 27 32 29 33 28 Suma de rangos Rango promedio Observamos que n1 = 7.108 Especie A (masa: g) 30 28 27 32 29 33 28 Especie B (masa: g) 26 28 30 25 24 22 25 26 28 Planteamos la hipótesis Ho: ∆ ≤ 0 vs. como por ejemplo ver el efecto de una campaña anti-cigarrillo .5.5 53.

05 es (8 + 2) 3. Es decir la campaña no tuvo éxito.5 y como el valor crítico para α = 0. Por lo que con estos valores esperados para éstas celdas se puede realizar un prueba χ21 que después de algún trabajo algebraico se reduce a: ( B − C − 1) 2 (B − C)2 2 χ = o χ1 = si se quiere corregir la distorsión provocada por (B + C) (B + C) aplicar una distribución continua a una variable discreta. Calculamos: 2 1 χ = ( 8 − 2 − 1) 2 .5 < 3. aceptamos H0.84 y 2. Y bajo la hipótesis de nulidad de efecto se espera que C = B = (B+C)/2. 2 1 Ejemplo 4.84. = 2.109 Como vemos en esta tabla sólo las celdas C y B muestran el cambio (efecto) producido por el factor de estudio.- Se realizó una campaña antidrogas a un grupo de jóvenes obteniendo el siguiente resultado: (+) después de la (-) después de la Total campaña campaña la 15 8 23 la 2 17 35 43 37 50 (+) antes campaña (-) antes campaña de de Se plantea H0: No hay efecto (B = C) vs H1: Si se produjo efecto.

25 mg. Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. B = 5.2. Se obtuvieron los siguientes datos (suponga simetría): Sujeto 1 2 3 4 5 6 7 8 Antes 48 25 46 40 43 42 23 30 Después 40 26 57 30 50 55 25 55 ¿Existe diferencia en el oxígeno consumido luego del entrenamiento? R: No hay evidencia. Se comparan dos grupos: las . degu. En un estudio sobre empleo de Sildenafil en pacientes hipertensos se utiliza una dosis de 6. midiendo el máximo de oxígeno consumido por cada paciente antes de comenzar el entrenamiento y después de seis meses de régimen. Se realiza una investigación sobre los efectos del ejercicio físico sobre pacientes cardiópatas. 3. En este estudio se consideró el efecto de la privación de la sustancia sobre el contenido proteínico total de las raíces nerviosas de O. 2.05. p = 0. ¿Altera la presión arterial el uso del Sildenafil? X (antes) 175 179 165 170 160 180 177 Y (después) di 140 143 135 133 162 150 182 bi R: No hay evidencia.110 Ejercicios de estadística no-paramétrica 1. T = 9. p > 0. Se anota la presión arterial sistólica de cada paciente antes que reciba el fármaco (X) y setenta minutos después de que haya sido administrado (Y).

21 0. p < 0.23 0.111 nacidas de hembras deficientes en la sustancia (en el útero) y las nacidas de hembras normales. T1 = 33. .05. pero amamantadas por hembras deficientes en la sustancia (en la leche).12 0.19 0. que el contenido proteínico total tiende a ser menor entre las ratas privadas de la sustancia X en el útero que entre las privadas de ella en la leche? R: Si.13 0.21 En la leche 0.22 ¿Indican estos datos. Se obtienen los siguientes datos: Contenido proteínico total (mg de proteína por raíz de ganglio dorsal) EN EL ÚTERO 0. a un nivel α=0.20 0.21 0.20 0.05.09 0.17 0.19 0.

CORRELACION Y REGRESION .112 IV UNIDAD: ANALISIS DE LA VARIANZA.

.[1-kα + (k!/(k2)!2!)α2-. el número de pruebas que se deben hacer es: N k =  2  Sin embargo...05.113 IX.0125. con 4 muestras k = 6 y p = 0. Analicemos lo siguiente: Si realizamos una vez la prueba. o bajo 4 o 5 condiciones experimentales reguladas. como αn≈ 0 para n ≥ 2.. En este caso.05 1 en Ek) 2 0. como por ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones...1.14 5 0. Si la prueba se realiza k veces entonces la probabilidad de no cometer ningún error I es P(noEk) = (1-α)k y entonces la probabilidad de cometer al menos un error I en k repeticiones de una prueba es P(al menos 1 Ek) = 1-(1-α)k = 1 . Sin embargo Bonferroni nos da una solución en el caso de pocas muestras: Si se quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel α = 0.05. Y..-El Problema de Bonferroni Muchas veces en ciencias es necesario comparar más de dos muestras. este no es el único problema. porque α es pequeño. Aunque este sistema es muy restrictivo pues restringe mucho α. la probabilidad de cometer error de tipo I es P(E1) = α.05/4 = 0. entonces en cada comparación se debería permitir a lo sumo un error p = 0. . es decir la probabilidad de no cometer error de tipo I es P(noE1) = 1-α.14 (14%). En la siguiente tabla vemos lo que puede significar esto para α = 0.23 10 0.3 (30%) etc.. entonces P(al menos 1 Ek) ≈ kα.. la primera tentación es hacer varias pruebas tomando de a pares. pues si hay N muestras. Sin embargo inmediatamente vemos que este puede ser un número elevado de comparaciones.09 3 0. si se van a realizar 4 comparaciones y se quiere una error de tipo I de 0. Por ejemplo. puede ser muy útil para bajo número de muestras (hasta 4 aproximadamente).05: K 1 P(al menos 0. entonces podemos asegurar esto trabajando en cada una de las pruebas con un nivel de significación α* = α/k.ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) IX.]. Esto se conoce como la corrección de Bonferroni.4 Observamos que si tenemos 3 muestras k = 3 y tendríamos probabilidad de error I p = 0.

puede ser interesante estudiar el efecto de las estaciones del año (factor) sobre el metabolismo (variable respuesta). entonces es un modelo de tipo I. si nos interesa el efecto de la altitud sobre el metabolismo. es un modelo mixto. . 2 (2 factores o 2 vías) o 3 o más. Las categorías en que se divide cada factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de los factores se denominan tratamientos. Los factores pueden ser 1 (1 factor o 1 vía).Diseño experimental El diseño experimental en términos estadísticos se refiere al acoplamiento entre la lógica de un diseño experimental científico y el método estadístico de análisis de este diseño. Cuando los niveles de un factor son todos los posibles. El factor temperatura tiene tres niveles: baja. Así por ejemplo. Por ejemplo en la siguiente tabla se muestra una cierta variable respuesta X frente a diferentes condiciones: BAJA ------------TEMPERATURA MEDIA ALTA --------------------------- HUMEDAD ALTA BAJA En este caso la variable respuesta es X. y escogemos tres localidades a diferentes alturas. media y alta. Es muy habitual que en ciencias encontremos muy buenos diseños científicos con malos análisis desde la perspectiva estadística. pues las localidades son sólo una muestra de todas las posibles alturas. en general fijados por el experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos. y el factor humedad tiene dos: alta y baja. y variables cualitativas independientes que denominamos factores o vías. Si en cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el investigador. y se trata de un diseño de dos factores: temperatura y humedad. En un experimento en general tenemos una o varias variables respuesta o dependientes. se trata de un modelo de tipo II.2. A las unidades muestrales dentro de cada tratamiento se les denomina réplicas. o simplemente diseños para los cuales la estadística actual es insuficiente o parcial. Por ejemplo.. hablando en este caso de diseño multifactorial. El número de tratamientos es 6 (2x3).114 IX. cuando los niveles son sólo una muestra de las categorías posibles se dice que es un modelo II o de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro.

... los niveles coinciden con los tratamientos.. Tt yt1 yt2 .. mide el efecto provocado sobre yij por el tratamiento... y1n TOTALES Y1o PROMEDIOS y1o FACTOR T2 y21 y22 . En este caso. ........ Modelo El modelo que se plantea es que cada valor de la variable repuesta yij se puede expresar como la suma entre un promedio paramétrico poblacional µ.... De esta manera τi = µi -µ... al contrario que la notación habitual de matrices donde el subíndice i indica la fila en este caso indica el tratamiento que va en las columnas.. ytn Yto yto TOTAL Yoo yoo Observamos que....... se tiene un factor con varios niveles y una variable respuesta. y2n Y2o y2o .... Supuestos Los supuestos son normalidad de la variable respuesta. . Habiltualmente al término Yoo se le denomina gran total. el más simple.. El modelo se escribe: yij = µ + τi +εij Notación Es habitual en el ANOVA usar la notación de la siguiente tabla: T1 y11 y12 . independencia que debe asegurarla el investigador mediante un muestreo adecuado. Observamos además que se usan las minúsculas para los promedios y las mayúsculas para los totales.3.. .115 IX.. .. un efecto provocado por el tratamiento (τi ) y el error experimental o residual (εij) Esto se conoce como el supuesto de aditividad.... y homocedasticidad que se puede probar mediante una dócima de Bartlett o bien una dócima de Hartley.. Como sólo hay un factor. . habitualmente disponibles en los programas estadísticos computacionales. que se puede probar mediante una prueba de bondad de ajuste de χ2 o bien Kolmogorov-Smirnov.. Partición de la varianza Trabajemos algebraicamente el término ∑(yij-yoo)2 que corresponde a la suma de desviaciones cuadráticas en torno al promedio (yoo) llamado simplemente suma de cuadrados total (SCT) y que corresponde al numerador de la varianza (s2): . ...Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía)....

se necesitan tres cálculos sencillos: . En un ANOVA de una vía. ésta es: FV T (entre) SC 2 ∑ (Yi 02 / n) − Y00 / nt i Gl t-1 t(n-1) nt-1 2 2 ε (dentro o ∆ = ∑ yij − ∑ Yi 0 / n ij i error) 2 TOTAL ∑ yij2 − Y00 / nt ij CM=SC/gl F P F = CME/CMD Como dato práctico.116 ∑(yij-yoo)2 = ∑(yij-yio+yio.yoo)2 = ∑(yij-yio)2 + ∑(yio-yoo)2+ 2∑(yij-yio)(yio-yoo) ∑(yij-yoo)2 = ∑(yij-yio)2 + ∑(yio-yoo)2. las sumas de cuadrados (SC). balanceado (igual tamaño muestral en cada tratamiento). Hay que hacer notar que esta partición y aditividad se produce a nivel de la suma de cuadrados y no de la varianza. la varianza dentro de tratamientos es CMD= ∑(yij-yio)2/(t(n-1)) (intravarianza) y la varianza entre tratamientos es CME = ∑(yio-yoo)2/(t-1) (intervarianza). Esquema general del ANOVA Definición Llamaremos Fuente de variación a las fuentes que originan variabilidad en la variable respuesta. el valor del estadígrafo F y la probabilidad de error I (p). pues la varianza total es: S2 = ∑(yij-yoo)2/(nt-1). Estas en general corresponden a la variabilidad originada en el error experimental (ε) y a aquella provocada por los niveles de los factores y sus interacciones. las varianzas. En palabras. El esquema general del ANOVA es una tabla que incluye sucesivamente las fuentes de variación (FV). los grados de libertad (que corresponden a los denominadores de las varianzas). cuadrados medios o medias cuadráticas (CM). Esto es lo que se conoce como partición de la varianza y es la base de todo el análisis de la varianza. la suma de las desviaciones cuadráticas en torno al promedio general (SCT) se puede descomponer aditivamente en la suma de las desviaciones cuadráticas de cada valor individual al promedio de su tratamiento (suma de cuadrados dentro de tratamiento: SCD) y la suma de las desviaciones cuadráticas de cada promedio de tratamiento al promedio general (suma de cuadrados entre tratamientos: SCE): SCT = SCD + SCE. pues el último término es 0. observamos que para los cálculos en una tabla de ANOVA.

sino que se obtiene por la diferencia ∆ = SCT – SCE Esperanza de los cuadrados medios y la dócima F. H1: τi ≠τj para algún par i. Es posible demostrar que el valor esperado o esperanza del cuadrado medio del error (dentro) es E[CMD] = σ2. Así. Además si el modelo del diseño es de tipo I E[CME] = σ2 + n ∑(τi-τ)2/(t-1) = σ2+φ(τ) y si es de tipo II E[CME] =σ2+nσ2τ . B y C sobre la presión arterial diastólica probándolos en tres grupos de individuos.j vs.t(n-1). es posible docimar Ho: τi= τj ∀ i. es decir es la varianza poblacional. En forma natural surge la idea de realizar el cuociente F = CME/CMD.La interpretación de esto es que se espera que la desviación cuadrática entre tratamientos sea similar a la desviación cuadrática dentro de tratamientos más un componente añadido por los tratamientos (efecto del tratamiento). Se construye la tabla básica: . j 2 ij 2 Y00 / nt También observamos que ∆ no se calcula.- Se quiere saber el efecto de ciertos tratamientos A.117 ∑ (Y i 2 i0 / n) ∑y i. lo que estadísticamente tiene gran sentido por cuanto CMD/σ2 tiene distribución χ2t(n-1) y CME/σ2 tiene distribución χ2t-1 por lo que F = CME/CMD tiene distribución de Snedecor Ft-1. Ejemplo 1.j mediante el valor de F. obteniendo: A 110 100 90 85 90 100 B 100 90 86 97 100 96 C 80 76 82 88 84 78 Se plantean las hipótesis H0: µA= µB = µC vs H1: al menos un par de promedios distintos.

5/45 = 787 = 8.118 Total (Yi0) Promedio (yi0) A 110 100 90 85 90 100 575 95. a continuación habría que hacer comparaciones múltiples a posteriori... mirando los datos. + 100 2 + 90 2 + .68.78 2 = 149430 2 Y00 / nt = 1632 2 / 6 ⋅ 3 = 147968 Entonces construimos la tabla de ANOVA: FV T (entre) CM=SC/gl F2.74 2 2 ε (dentro o ∆ = ∑ yij − ∑ Yi 0 / n t(n-1) = 675/15 = ij i 15 = 45 error) = 1462 – 787 = 675 2 nt-1 = 1462/17 = TOTAL ∑ yij2 − Y00 / nt ij 17 = 86 =149430-147968 = 1462 El valor crítico de F2. SC 2 ∑ (Yi 02 / n) − Y00 / nt Gl t-1 = 2 . j i 2 i0 / n) = (575 2 + 569 2 + 488 2 ) / 6 = 148755 2 ij = 110 2 + 100 2 + . el grupo C tiene presiones claramente diferentes de los otros dos..05 es 3. y como el valor calculado 8. Siguiendo el rigor estadístico.3 Calculamos: Y00 = 575 + 569 + 488 = 1632.80 2 + 76 2 + .15 con α = 0.74 > 3.. ∑ (Y ∑y i. entonces rechazo H0 y al menos un par de promedios es diferente.5 CME/CMD =148755-147968 = = 393.68.8 B 100 90 86 97 100 96 569 94.....8 C 80 76 82 88 84 78 488 81... Obviamente.15 P 787/2 = F = i = 393.

El resultado es una Φ( y ) nueva variable.. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e . en ciencias siempre interesa tener el mínimo de violaciones posibles de los supuestos por lo que a veces es necesario transformar la variable. De esta manera si una variable tiene distribución de Poisson. con distribución normal. Por ejemplo en una distribución de Poisson V = E y entonces. es útil el siguiente teorema: En cualquier distribución de una variable aleatoria “y” tal que su varianza V se puede expresar como una función de la esperanza E: V = Φ(E). entonces existe una transformación: T = f ( y) = ∫ dy cuya varianza y esperanza son independientes. En este caso es necesario realizar comparaciones múltiples. conviene aplicarle una transformación “raíz cuadrada” para su análisis con ANOVA.119 Transformaciones El análisis de la varianza es un análisis muy poderoso y que conduce a resultados confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad lo que es especialmente válido para números de replicas iguales en cada tratamiento (modelos balanceados) y números muestrales grandes. Por esto se dice que el ANOVA y en general toda la estadística paramétrica. De esta manera surgen algunas transformaciones recomendadas: Distribución Normal Binomial (proporciones) Poisson (sucesos raros) Sin homocedasticidad Binomial negativa Decreciente IX4. son robustos. f(y) = ∫dy/√y = 2√y. Cuando existe violación de la normalidad. Con esto sólo sabemos que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a menudo (sobre todo en modelo de efectos fijos) interesa saber cuál o cuales de los tratamientos produce el efecto. Sin embargo.Comparaciones múltiples Φ(y) C = constante y(1-y) Y y2 y4 Transformación f(y) Y arcsen√(y) √y ln(y) o ln(y+1) 1/y o 1/(y+1) arcsen(y) y2 En general el ANOVA no termina con el rechazo de Ho.

Dos contrastes Lj y Lk son ortogonales o independientes si ∑cij. En cambio otras veces nos interesan todas las comparaciones para interpretar después (a posteriori). En este caso el estadígrafo adecuado es td(t. Es un contraste porque c11 + c31 = 1-1= 0. sino al diseño experimental. o sólo realizar las comparaciones relevantes (a priori).α) de Dunnet (existen tablas especiales): . Aquí es importante notar que a priori o a posteriori no se refiere a si se ha hecho o no primero el ANOVA. A veces por diseño sólo interesa comparar los tratamientos contra un control (a priori). por ejemplo si se tienen 4 tratamientos y se quiere evaluar tendencia lineal.gle. Entonces un contraste independiente del anterior es L2 = y2o-y4o porque c11 = 1. Entonces un estimador de Λj es Lj =∑cijyio. c31 = 0 y c41= -1 y entonces ∑cij. c21 = 0. Para esto se define un contraste Λj =∑cijτi. c21 = 1.cik = 1·0+0·1+(-1)·0+0·(-1) = 0. Una de las utilidades mayores de los contrastes ortogonales es la posibilidad de comparar tendencias. c31 = -1 y c41= 0 y entonces L1 = y1o-y3o (la diferencia de los promedios entre el tratamiento 1 y el 3.cik = 0. La hipótesis de nulidad para un contraste es Ho: Λj = 0. donde cij son constantes que definen el contraste de tal manera que ∑cij= 0.120 ii) definidas a posteriori. cuadrática o cúbica. Comparaciones a priori Contrastes ortogonales La idea en este caso es realizar sólo comparaciones independientes entre sí (ortogonales). c21 = 0. Por ejemplo si se tienen cuatro tratamientos y se quiere comparar el primero con el tercero se puede elegir c11 = 1. basta elegir los cij de acuerdo a la siguiente tabla: cij Lineal Cuadrática Cúbica -1 -1 -1 -1 1 1 1 1 -1 1 -1 1 El estadígrafo adecuado para probar la hipótesis es una t de Student con los grados de libertad del error (tgle): t gle = Lj CMD ∑ ci2 / ni Prueba de Dunnet Muchas veces la idea del diseño es comparar los tratamientos contra un tratamiento control. c31 = -1 y c41= 0 y c11 = 0.

como un variable. si tenemos cuatro tratamientos (t = 4) y se obtuvo: y1o = 27. pero considera el número de tratamientos “t”. pero si se realizan todas las comparaciones.t. pero al comparar y1o con y3o sólo participan 3. Como están ordenadas en forma decreciente al comparar y1o con y4o participan 4 medias adyacentes (t=4).t-1. Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles. sin embargo son dos las más utilizadas. Ambas están basadas en la distribución del rango “Studentizado”: Q = (xmax-xmin)/sx. y así sucesivamente. Prueba de Scheffé Esta prueba se basa en el concepto de contrastes. es una prueba a priori. gle Comparaciones a posteriori L2 = (t − 1) ⋅ CMD ⋅ ∑ ci2 / ni Existen muchas pruebas para hacer comparaciones múltiples. Sin embargo en este caso no es necesario que los contrastes sean ortogonales. gle = yi 0 − y j 0 (CMD / 2) ⋅ ( 1 1 + ) ni n j Prueba de Student-Newman-Keuls (SNK) Esta prueba tiene la misma estructura que la prueba de Tukey. entonces t = 3 para esta comparación. es a posteriori. se recomienda la corrección de Bonferroni. . y2o = 19 y3o = 15 y4o = 13. definidos de igual manera que antes: Λj = ∑ciτi. La prueba de hipótesis (Ho: Λj = 0) se realiza con una distribución F1-α. Por ejemplo.gle: Ft −1.121 td = yi 0 − ycontrol 2CMD / n En este caso ycontrol representa el promedio en el tratamiento control.gle: Qt . Como es posible ejecutar múltiples contrastes. Si los contrastes son sugeridos por el diseño. usando la distribución del rango “Studentizado” Q1-α.

8 − 81. por lo que no es posible rechazar H0 en ninguno de los tres casos.15 = 95. también aumenta su probabilidad de error de tipo I.15 = 95.122 Las pruebas a posteriori.8 − 94. Por ejemplo es posible que el factor 1 haga aumentar el valor de la variable respuesta. o. Ejemplo 2.. cuando existen dos factores. Para comparar A con B: Q3. En este se puede probar en forma independiente el efecto de cada factor sobre la variable respuesta. Tukey y Scheffé. existe la posibilidad de que éstos provoquen un efecto conjunto sobre la variable respuesta. en la medida que aumenta su potencia. pero que al incorporar el factor 2 este efecto se potencie.67.ANOVA de dos vías: la interacción El análisis de la varianza de dos factores (o vías) es conceptualmente similar. El modelo se puede expresar como: yijk = µ + τi + βj + εk(ij) Sin embargo.15 es 3.8 − 81.15 = 94.3 = 2. Usaremos la prueba de Tukey. a la inversa se inhiba.8 = 0. Para cada comparación se establece la hipótesis H0: µi = µj vs H1: µi ≠ µj y se realizan los cálculos.3 = 2. se recomienda una prueba intermedia (Tukey).149 45 Para comparar A con C: Q3.- Considerando los datos del ejemplo 1 vamos a realizar las comparaciones correspondientes.01 45 El valor crítico de Q3. por lo que en general. En este caso se habla de la existencia . se pueden ordenar según su potencia en forma decreciente: SNK.16 45 Y para comparar B con C: Q3. IX.5. Sin embargo.

En el gráfico de la derecha. En el caso de la izquierda existe efecto de ambos factores A y B sobre y. pero este aumento se potencia en presencia del segundo nivel del factor 2 (B). En los gráficos inferiores si existe interacción. En esta figura se muestra la variable respuesta (y) frente a dos factores. pero sí efecto de interacción. pero ocurre lo contrario en el nivel a2 (en este último caso lo más probable es que el test no arroje significación ni en el factor 1. La variabilidad proveniente de la interacción (τβ) puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe: yijk = µ + τi + βj +τβij + εk(ij) La interpretación de la interacción queda clara en la siguiente figura. ni en el factor 2. En los gráficos superiores no existe interacción. pues la respuesta es paralela. En el gráfico de la izquierda existe interacción que podríamos llamar “paradojal”: en el nivel a1 el factor 2 disminuye y.123 de interacción entre los factores. en el de la derecha sólo del segundo factor (B). El factor 1 (A) con los niveles a1 y a2. existe un aumento de y a causa de cada factor. y el factor 2 (B) con los niveles b1 y b2. .

0 B 7.001 << 0.7 P << 0.001 << 0. con interacción.05)) en las comparaciones múltiples con prueba de Tukey muestra: . existen diferencias entre las localidades y este efecto no es parejo en cada especie (existe interacción).0 43.7 0.001 Del análisis se desprende que existen diferencias entre las especies. Obteniendo: W Z A 3 4 5 4 3 2 3 2 1 2 Valores promedio: B 7 8 9 8 7 4 3 4 3 2 C 2 3 1 3 3 1 2 2 2 1 W Z A 3. B y C a dos especies W y Z.4 1.8 3.2 19.6 Se desea saber si existen diferencias en “x” entre las especies y el efecto de la localidad sobre ésta..1 15.8 2.4 14. obteniendo: F de V Localidad Especie Interacción Error Total SC 66.2 C 2.8 143.62 F 53.2 9. Se realiza ANOVA de dos vías: Localidad y Especie.124 Ejemplo 3.Se ha medido una variable fisiológica “x” en tres localidades A.5 Gl 2 1 2 24 29 CM 33.6 70. El valor de la probabilidad de error I (p: en negritas los valores significativos (< 0.1 43.

828719 . reduciendo la probabilidad de rechazar Ho. por ejemplo el uso de tres fertilizantes en tres lugares.125 {1} A A B B C C W Z W Z W Z {1} {2} {3} {4} {5} {6} x {2} . Diseños factoriales Un diseño es factorial. Así. Diseño de bloques aleatorizados Muchas veces un experimento exige que los tratamientos (T) se repitan en distintas parcelas o bloques (B).963783 .000138 . por ejemplo..963783 . y el efecto del lugar es irrelevante. pero incorpora cada vez más posibilidades de interacción. Si E = 1. pero no alcanza a ser significativo en C. conociendo que existe una estadística para analizar un diseño.000138 . la variabilidad de dichas fuentes será incorporada a la variabilidad residual (aumenta CMD) y por tanto. En este caso los tratamientos se distribuyen aleatoriamente en cada uno de los lugares. La especie Z tiende a tener valores más bajos de x que la especie W. existe una estadística adecuada para analizarlo (ANOVA factorial anidado).002275 . Sin embargo. La eficiencia del modelo se puede medir a través de E = (CMD sin el modelo)/(CMD con el modelo).000138 x {4} .599784 x {6} . Al analizar un experimento. esto se manifiesta claramente en las localidades A y especialmente en B donde la diferencia es muy grande.6. es importante usar el modelo adecuado a tal diseño. para un diseño que considere tres factores y que en uno de ellos tenga sub-muestras.015196 x {3} . Un ejemplo de este diseño se puede resumir en la siguiente tabla: . Si éstas no son identificadas. sino también establece una forma de compatibilizar el análisis con el diseño del experimento. como ocurre por ejemplo con el diseño de cuadrados latinos. el uso del modelo es irrelevante. Conceptualmente es igual a los anteriores. tendrá un valor inferior. IX. como esta última se encuentra en el denominador de la F de Snedecor.037791 .599784 x La interpretación es la siguiente: En la localidad B se encuentran valores más altos de x. si tiene más de 2 vías. se puede adecuar el experimento a tal diseño. A la inversa.000138 .Otros diseños El análisis de la varianza no sólo es un método de análisis de la información.000138 x {5} . y por tanto aumentando el error de tipo II. identificando adecuadamente las fuentes de variación.190434 .088555 .

Si el primer factor es de tipo fijo (modelo I). N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. encajados o jerárquicos Para entender este modelo conviene definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad de muestreo como aquella que constituye una réplica. Por ejemplo si estamos estudiando las diferencias en cierta característica de individuos de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N): T1 N1 T2 N1 T3 N1 T2 T3 N2 N2 N2 Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son sólo referenciales. En los diseños jerárquicos se consideran sub-niveles dentro de cada tratamiento. Por ejemplo 4 individuos (I) expuestos a tres estímulos (T): T1 I1 I2 I3 I4 Observamos que es el mismo individuo el que recibe los tres tratamientos.126 B1 B2 B3 T1 T3 T2 T3 T2 T1 T2 T1 T3 Diseño de medidas repetidas A veces es necesario que los tratamientos los reciba el mismo individuo u otra unidad de análisis dependiente de la anterior. Diseños anidados. se habla de un diseño anidado puro. En este tipo de diseño es necesario excluir a los individuos de respuesta extraña (out-group) pues violan un supuesto de este diseño: la simetría compuesta. entonces las unidades experimentales son los niveles del factor encajado y las réplicas constituyen sub-muestras. Si el primer factor es de tipo aleatorio. Esta última junto a la homocedasticidad constituyen el supuesto de esfericidad. por ejemplo. .

especialmente el ANOVA es muy robusto. con sus respectivos niveles: B1 B2 B3 b1 T1 T2 T3 b2 T2 T3 T1 b3 T3 T1 T2 El diseño de parcela dividida corresponde a un diseño de bloques incompleto (no incorpora todas las combinaciones posibles) en que se mezclan dos tratamientos (T y t) y un bloque (B): B1 B2 B3 T1 T3 T2 t1 t2 t1 t2 t1 t2 T3 T2 T1 t1 t2 t1 t2 t1 t2 T2 T1 T3 t1 t2 t1 t2 t1 t2 IX. utilizar estadística no paramétrica.. si estas no resultan.Alternativas no paramétricas al ANOVA Afortunadamente la estadística paramétrica. Esta en general se restringe a diseños con bajo número de observaciones. Sin embargo las comparaciones múltiples no son tan robustas. El cuadrado latino considera un doble bloque (B y b). En esta. de tal manera que es posible tolerar algunas violaciones a los supuestos. Prueba de Kruskall-Wallis Es la alternativa no-paramétrica de un ANOVA de una vía. por lo que a veces es necesario primero usar transformaciones y. especialmente en modelos balanceados (n iguales en cada celda) y con número grande de observaciones. se transforman todos los valores a rangos y luego se calcula el estadígrafo: t R 12 0j H= ∑ n − 3(n + 1) N ( N + 1) 1 j 2 .127 Cuadrados latinos y parcelas divididas (split-plot) Estos son dos diseños especiales que a veces es necesario usar y se pueden representar en las siguientes tablas.7.

En esta se “rankea” entre los tratamientos dentro de cada bloque o individuo y después se calcula el estadígrafo: χ t2 = 12 ∑ R02 j − 3b(t + 1) bt (t + 1) j También es posible hacer comparaciones múltiples a posteriori.e: H1: t1 <t2 < t3 ). Cuando se tiene un diseño más complejo se realiza un ANOVA sobre rangos.∞ . entonces la F obtenida se relaciona con la H a través de: F= N −t H ( N − 1 − H )(t − 1) Es posible realizar pruebas a porteriori. Además si se realiza un ANOVA sobre rangos. entre ellas la prueba de Dunn y la de Nemenyi. En este caso se usa: Qα .t = R0 j − R0 k b(t )(t + 1) 12 Otras alternativas Existen algunas alternativas no paramétricas para una y dos vías cuando la hipótesis H1 incorpora una tendencia u ordenación (i.t = R0 j − R0 k n(nt )(nt + 1) 12 Prueba de Friedman Es la alternativa no paramétrica para el ANOVA en bloques y el ANOVA de medidas repetidas.∞ .128 Se puede demostrar que esta prueba es exactamente equivalente a un ANOVA aplicado sobre los rangos (ANOVA sobre Rangos). . En este caso se usa para el caso de una vía la prueba de Jonckheere y para dos vías la prueba de Page. Escribiremos esta última por su simplicidad y usar la misma distribución que el estadígrafo de Tukey: Qα .

El canto de cada especie tiene un conjunto de rasgos distintivos que permite reconocerla.90 2. 2.0 44.30 1.00 1.2 33. p << 0.05.6 42.70 1.6 29.129 Ejercicios de análisis de la varianza ANÁLISIS DE VARIANZA (ANOVA) DE 1 VÍA 1. Se realizó un estudio de diversas especies de pájaros que son de similar naturaleza y comparten un medio común.00 1.7 60.1 59.1 43.3 Promedio .11 1.3 58.50 0. Según los datos obtenidos.40 ¿Qué se puede decir respecto a la duración de los cantos de las distintas especies? R: Son diferentes.1 46. existen diferencias en la concentración de copépodos dependiendo de su procedencia?.8 37.4 34.1 43.24 = 122.78 0.50 0.1 44.50 0.62 0.68 0. Se obtuvieron los siguientes datos: A 1.2 36.54 1.1 Lago 2 39. Un grupo de investigadores analizaron 6 muestras provenientes de 5 lagos distintos para poder determinar la concentración de rotíferos (individuos por mL).4 62. Los datos son presentados en la tabla de abajo.6 36.0 32.3 41.1 Lago 5 56.2 Lago 3 46.9 37. Una característica investigada es la duración del canto en segundos.23 0.0 57.90 2.2 38.4 40.88 1.70 C 0.6.1 Lago 4 41. Se estudian tres especies: A.20 1.3 42.7 40.10 1.1 31.8 43.6 40.05 1.4 40.20 1.90 0. B y C.95 1.94 0.5 48.10 B 2.38 0. F2.3 54. Lago 1 28.

22 Comparaciones Múltiples (Test de Tukey.0 3.28 1. obteniendo: A 2 3 2 4 5 B 6 7 8 7 8 C 1 2 2 3 6 Que puede decir acerca del comportamiento de “x” en las tres situaciones? R: Existen diferencias.28 1. Las diferencias significativas se presenta en negritas.166 4.8 Promedio 32.31 5.28 1.31 5.28 1.31 5.95E-12 FC 2.41 3.5 246.31 5.31 5.166 4.28 1.40 9.6 349. Comparaciones Diferencia (∆) 5-1 5-2 5-4 5-3 3-1 3-2 3-4 4-1 4-2 2-1 26.49 13.1 17. pero es mayor en la situación B.28 Tk 20.08 40.4 264.57 gl 4 25 29 CM 548.166 4.06 No es necesario 7.44 9. F2.759 Cuenta 6 6 6 6 6 Suma 192.35 Tk crítico 4. La variable x responde igual en las situaciones A y C.10 58.166 4.36 9.0 8. .31 5.77 F 56.166 4.5 241.31 3.12 = 14.05).6.2 14.05 No es necesario 6.23 44.44 244.05.2 12.13 9.13 2437.08 41.55 14.16 13.130 Análisis de varianza de un factor RESUMEN Grupos Lago 1 Lago 2 Lago 3 Lago 4 Lago 5 ANÁLISIS DE VARIANZA Origen de las variaciones Entre grupos Dentro de los grupos Total SC 2193.1 SE 1.31 5.30 Varianza 10.166 4. Se estudió una variable “x” en tres situaciones A.2 18.166 4.9 9.27 6.28 1. α = 0.166 ∆ crítica 5.48 11. p < 0.15 P 3. B y C.28 1.

131 4. KW = 8. La variable x responde igual en las situaciones A y C. pero con estadística no-paramétrica. R: Existen diferencias.05..Analice de nuevo el ejercicio anterior. . p < 0.57. pero es mayor en la situación B.

Aprovechando éstas propiedades podemos definir correlación entre dos variables X e Y como la covarianza estandarizada: ρ= COV [ X .Correlación A menudo en ciencias nos encontramos interesados en la relación o asociación entre dos variables cuantitativas.Y) = 0. será el coeficiente de correlación (r) de Pearson: r= ∑ ( x − x )( y − y ) ∑ ( x − x ) ∑ ( y − y) i i 2 i i 2 = (∑ xi2 − nx 2 )(∑ yi2 − ny 2 ) ∑x y i i − nx y Entonces tanto ρ como su estimador (r) varían entre –1 y 1. ρ y su estimador (r) son 0. . En este caso. Y ] V [ X ] ⋅ V [Y ] Naturalmente.132 X.Y)max = √(V[X]·V[Y]).. tratándose de dos variables aleatorias X e Y. sabemos que si son independientes la variación conjunta o covarianza es cero: COV(X.. un buen estimador de ρ. Además el valor máximo que puede tener la covarianza es COV(X.1.CORRELACIÓN Y REGRESIÓN X. Además si X e Y son independientes.

2. En este caso no sólo buscamos la asociación sino que pre-suponemos una relación funcional entre las variables. H1: ρ ≠ 0. lo contrario. o una parábola y = ax2 + bx +c o una exponencial y = a·ebx o una potencial y = axb. Lo más habitual es el análisis de regresión lineal. o r ≈ -1 como en la situación C. Cuando no existe asociación.Regresión r n−2 1− r2 Muchas veces en la búsqueda de asociación entre dos variables X e Y. Este es el objetivo del análisis de regresión sea este lineal. Es importante decidir si existe asociación o independencia por lo que se debe realizar la dócima Ho: ρ = 0 vs. por ejemplo una línea recta: y = mx + c. intentamos establecer una relación funcional entre ambas. siendo máxima si r ≈ 1 como en la situación A de la figura. La diferencia entre éstos últimos dos valores es que un valor positivo indica asociación positiva y un valor negativo. es decir Y es independiente de X como en la situación B. Y en este caso se usa el estadígrafo: t n−2 = X. cuadrático. . es decir aumentos en la primera variable implican disminuciones en la segunda. exponencial o potencial.133 El coeficiente de correlación mide el grado de asociación entre dos variables X e Y.. r ≈ 0.

134

sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son reductibles al modelo lineal a través de logaritmos. Por ejemplo si a una relación potencial del tipo Y = aXb le aplicamos logaritmo, se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la recta w = c + bz. En el caso de una exponencial Y = C(ebX), tomando logaritmo natural se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.
Regresión lineal mínimo cuadrática

El problema básico consiste en buscar una recta que minimice las desviaciones desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B1 y un intercepto Bo, entonces tendremos para cada xi un y’i = B1xi+Bo que estima el valor real de yi (ver figura). A la diferencia entre yi e y’i: ei = yi-y’i la llamamos residuo. Observamos que la raíz de la suma sobre i del residuo elevado al cuadrado: D = ∑ ( yi − yi' ) 2 tiene la estructura de una distancia y entonces interesa la pregunta: ¿ para que valores de B1 y Bo es mínima D, o, lo que es lo mismo, D2?

Estableciendo las ecuaciones: ∂D/∂B1= 0 y ∂D/∂Bo = 0 (ecuaciones normales), se obtiene:

135

B1 = Y además:

∑ x y / n − xy ∑x /n − x
i i 2 i 2

B0 = y − B1 x

En términos estadísticos, lo mencionado es equivalente a plantear el modelo: yi = βo + β1xi + ei, con los supuestos de independencia e igual distribución de los errores ei Entonces, la pendiente B1 y el intercepto Bo, son estimadores de los parámetros poblacionales β1 = COV(X,Y)/V[X] y βo = y - β1x. Estos estimadores son “meli”. Además las varianzas de B1 y Bo se pueden estimar a través de: V [ B1 ] =
2 S yx

∑ (x

i

− x)2

1 y V [ B0 ] = S ( + n
2 yx

ei2 x 2 ) donde S yx = ∑ n−2 ∑ ( xi − x ) 2

Así, es posible probar las hipótesis Ho: β* = 0, vs H1: β* ≠ 0 (donde β* representa a β1 o a βo) mediante: t n−2 = B* V [ B* ]

Observamos que es posible relacionar la pendiente y el coeficiente de correlación, ya sea en términos poblacionales (β1 y ρ) o muestrales (B1 y r) a través de: β1·(√V[X]/√V[Y]) = ρ. Esto implica que a altos valores del coeficiente de correlación le corresponden altos valores de la pendiente B1 y a la inversa.
X.3.- Regresión y ANOVA

Observemos el siguiente desarrollo algebraico:
= ∑ ( yi − yi' ) 2 = ∑ ( yi − y + y − yi' ) 2 = ∑ ( yi − y ) 2 − ∑ ( yi' − y ) 2 , lo que ordenado de otra forma queda:
2 i

∑e

∑(y

i

− y ) 2 = ∑ ( yi − yi' ) 2 + ∑ ( yi' − y ) 2

136

Esto se puede leer de la siguiente forma: La variabilidad total (desde cada yi al promedio y) es igual a la suma de la variabilidad residual (desde cada yi al predicho y’i) mas la variabilidad debida a la regresión (desde los predichos al promedio y). En otras palabras, la variación total es la suma de la variación no explicada por la regresión (residuo) mas la variación explicada por la regresión. Como vemos, es posible la partición aditiva de la varianza y entonces establecer una tabla de ANOVA: Fuente de SC Gl variación Modelo ∑ ( yi' − y ) 2 = B12 (∑ xi2 − nx 2 ) 1 (Regresión) Residuo n-2 ∆ (por diferencia) Total CM SC/gl SC/gl = Syx2 F1,n-2 CMmodelo/CMresiduo P

∑(y

i

− y ) 2 = ∑ yi2 − ny 2

n-1

Es decir a través de un ANOVA se puede docimar Ho: β1 = 0 vs H1: β1≠ 0. Al cuociente entre la suma de cuadrados explicada (regresión) dividida por la suma de cuadrados totales se le denomina coeficiente de determinación (R2): R2 = SCregresión SCTotal

Este coeficiente representa la proporción de la variabilidad total que es explicada por la regresión. Además R2 = r2, de ahí su notación. Además al valor Syx = √(Syx2) se le denomina error típico de la estima y representa la desviación media de los valores en torno a la recta de regresión.
Ejemplo 1.-

Supongamos que se quiere estudiar la relación entre dos variables X e Y y se tiene la siguiente tabla: X Y 1 2 2 5 3 6 4 7 5 9 6 13 7 15 8 15 9 19 10 20

93 X + 0. Sin embargo se prefiere el ANOVA porque aporta mayor información como se observa a continuación. Por razones prácticas conviene inmediatamente hacer la siguiente tabla: X 1 2 3 4 5 6 7 8 9 10 55 5.1 − 1. por lo que se hará un análisis de regresión. es decir si la asociación que se obtiene en la muestra es realmente inferible a la población.137 El primer problema es decidir si se hará un análisis de correlación o uno de regresión.5 − 5.485 .485 38.5 ⋅ 11. Supongamos en este caso que la variable es continua.93 ⋅ 5. Esto es enteramente equivalente a realizar una prueba de “t” para la pendiente.0 − 5. y por tanto no hay recta.5 XY 2 10 18 21 45 78 105 120 171 200 770 77. donde entre punto y punto no existe nada.5 2 Así. Pero interesa saber si esta pendiente B1 es efectivamente diferente de 0. la recta que mejor representa la relación entre X e Y es Y = 1. En este último caso debemos pensar además si la recta de regresión que se obtenga tiene sentido. y que presuponemos una relación funcional de tipo lineal.93 y B0 = 11.1 = 1. Entonces estudiaremos las hipótesis H0: β = 0 vs β ≠ 0 mediante el ANOVA. o si buscamos o presuponemos una relación lineal que permita algún grado de predicción del fenómeno y realizar análisis de regresión.5 = 0. .5 Y 2 5 6 7 9 13 15 15 19 20 111 11. especialmente en el caso de variables discretas. Esta duda se resuelve pensando si el objetivo del estudio es simplemente la búsqueda de una asociación. y en este caso usar sólo correlación.0 Total Promedio A partir de esta tabla se puede calcular directamente la pendiente B1 y el intercepto B0: B1 = 77.1 X2 1 4 9 16 25 36 49 64 81 100 385 38.5 Y2 4 25 36 49 81 169 225 225 361 400 1575 157.

01 1.9 10-2= 8 10-1= 9 Entonces efectivamente la pendiente es diferente de 0. Fuente de variación Modelo (Regresión) Residuo Total SC Gl CM 307. X.8 69. este es simplemente r = √(0.4%.12 = 342. Además el coeficiente de determinación (R2) es: R2 = 307.6 % de la variabilidad de Y es efectivamente explicada por el modelo lineal. Si además queremos el coeficiente de correlación.30 1 ∆ = 342.Predicciones Muchas veces el sentido de una regresión es predecir un valor o valores de y para algún valor o valores de x. Por otra parte debemos observar que a partir del valor de F = 69. para un valor xk (y/xk) En este caso el intervalo de confianza del nivel (1-α) está dado por: IC1-α : y k' ± t n − 2 ⋅ S yx 1 + 1 + n ( xk − x ) 2 ∑ xi2 −(∑ xi ) 2 / n por: Predicción del valor y para xk En este caso el intervalo de confianza está dado . lo que es muy bueno pus la variabilidad residual representa sólo un 10.896) = 0.45 = 2.3/342. Esta es simplemente: t = √69.6 1575 − 10 ⋅ 11. y conduce exactamente al mismo valor de probabilidad de error I (p). Este último valor nos permite calcular las varianzas y errores estándar de la pendiente e intercepto.3.138 Observamos además que todos los valores para la tabla de ANOVA ya se encuentran calculados. y la asociación mediada por la relación lineal es real.1.3 = 35.45 F1.3 Syx2= 4. El error típico de la estima es Syx = √4.932 (385 − 10 ⋅ 5.1 se puede deducir el valor que habría tenido la “t” de Student si la hubiésemos usado para probar la misma hipótesis.5 2 ) = 307.9-307. Es decir el 89.947.4.9 = 0.. Predicción de un valor y.1 P << 0.896.1 = 8.

interesara calcular a) el valor predicho para x = 12 y b) el valor promedio de y para x = 15.96 10 385 − (55) 2 / 10 Para el caso b) el valor predicho sería y = 1. En este caso se habla de modelo II.94 10 385 − (55) 2 / 10 Es importante observar que en le medida que xk se aleja del promedio. o. como análisis de series temporales en el caso de que la variable independiente sea el tiempo.435 ± 1. En otras ocasiones la variable x no controla la variable y. el supuesto básico de la regresión es la independencia e idéntica distribución de los errores. Independiente del modelo.1 1 + + = 23.Supuestos y alternativas no paramétricas En algunas ocasiones la variable independiente (x) es fija y se miden muchos valores de la variable dependiente (y) para cada valor de x. En caso de no cumplirse los supuestos.93(12) + 0.y). y el intervalo de confianza para el promedio de los valores de y cuando x = 15 sería: 1 (15 − 5.- Si en el caso del ejemplo1. la precisión de la predicción va disminuyendo.86 ⋅ 2.645 ± 1. se pueden usar otros métodos.1 + = 29.435 ± 10. y su intervalo del 95% de confianza sería: 1 (12 − 5.93(15) + 0.86 ⋅ 2. En este caso se habla de modelo de tipo I.435.5) 2 23. lo que es equivalente. X.645. y se hace un muestreo aleatorio de pares (x. Esta se puede probar con el estadígrafo de DurbinWatson.65 ± 4. Esto es especialmente relevante cuando las variables independientes son el tiempo o el espacio y puede existir autocorrelación (espacial o temporal).. o .485 = 29. univariada o bivariada.485 = 23. el intervalo de confianza se va haciendo más amplio. La distribución esperada de los errores es una Normal.139 IC1-α : y ± t n − 2 ⋅ S yx ' k 1 + n ( xk − x ) 2 ∑ xi2 −(∑ xi ) 2 / n Ejemplo 2.5) 2 29. según sea modelo I o II.4. tendríamos: Para el caso a) el valor predicho para x = 12 sería: y = 1.

En su . Este simplemente corresponde a un coeficiente de correlación de Pearson (r) aplicado sobre las variables previamente transformadas a rangos. La variable respuesta es Y y el co-variado es X.5. Se puede demostrar que si di es la diferencia entre los rangos de xi e yi: di = xi-yi. el interés se encuentra en las variaciones de la respuesta funcional. El modelo de ANCOVA se puede escribir: yij = µ + τ i + β1 ( xij − x ) + ε ij Se observa que en este modelo se contempla una relación funcional entre la variable respuesta y su covariado mediada por un modelo de regresión. las pendientes de regresión.140 método de las semi-medias en otros casos.Análisis de la covarianza (ANCOVA) n −n 3 En el análisis de la covarianza se tiene un diseño donde la variable respuesta varía en función de otra variable llamada co-variado. frente a los distintos tratamientos (Homogeneidad de pendientes. con tres tratamientos. En el caso de un análisis de correlación. se puede usar el coeficiente de correlación no-paramétrico de Spearman (rs). Por ejemplo si se mide una variable “y” que varía en función de “x” frente a tres niveles de un factor “A” se tiene la tabla: Factor A1 Y X Y A2 X Y A A3 X En este caso es un ANCOVA de una vía o factor. entonces: 6 ⋅ ∑ d i2 i =1 i =n rs = 1 − X. es posible la partición de la suma de cuadrado y docimar por separado cada uno de los efectos. En su expresión original el interés del ACOVA está centrado en el efecto de los tratamientos y la regresión sobre la variable respuesta Sin embargo a menudo el interés se centra en la variable respuesta descartando el efecto del covariado y más habitualmente.. En el ANCOVA al igual que en el ANOVA y en la regresión.

una variable respuesta “y” con su respectivo co-variado. En este caso la homogeneidad de pendientes se puede probar alternativamente con una t de Student: t n1+ n 2− 4 = 2 S yxc ( β11 − β12 1 + x12i ∑ 1 ) x22i ∑ 2 donde S yxc = SCresiduo1 + SCresiduo2 n1 + n2 − 4 .141 forma más simple el ANCOVA consta de dos tratamientos.

Efectivamente. d) Que puede decir finalmente de su hipótesis? R: Correlación.64 1. Se realiza un estudio y se obtiene: Edad 26 34 45 48 57 62 70 72 76 78 80 87 GC 10 8 10 9 7 10 5 4 4 3 1 2 a) ¿Qué tipo de análisis corresponde a la pregunta? b) Plantée la hipótesis correspondiente. 2. 1.70 1.58 1.53 cm al nacimiento? Y ¿su intervalo de confianza? R: Es buena.72 1.65 1. F1. r = -0.26.833. el IC95% = {1.5 m.82 1.05. menor grado de conciencia después de un TEC.90 1. Se piensa que los grados de conciencia (GC: del 1 al 10) después de un TEC están relacionados con la edad del paciente accidentado.72 1.86 1.70 1. EF = 1.12 = 65.88 final (m) ¿Qué puede decir de la capacidad predictiva de la talla de nacimiento sobre la estatura final? ¿ Que estatura final esperaría de un individuo con una talla de 30.33.611}. p < 0. están asociados negativamente.9.65 1. c) Utilice estadística paramétrica y después no-paramétrica. Se realiza un estudio para predecir la estatura final de un individuo a partir de la talla al nacer obteniendo: Talla al 36 38 42 44 45 48 50 51 52 53 54 55 56 58 nacer (cm) Estatura 1.80 1. t10 = -5.142 Ejercicios de correlación y regresión 1.093 + 0. t10 = -6.89. p < 0.05. R2 = 0.05.389.86. . R =-0. Se esperaría una EF = 1. a mayor edad.76 1.0133xTN. p < 0.

Richardson WS. McGraw-Hill. Rosenberg W & Haynes RB (2001) Medicina Basada En La Evidencia. New Jork. John Wiley & Sons. Tatham RL & Black WC (1999) Análisis Multivariante . Escuela de Salud Pública. Universidad de Chile. Feller W (1968) An Introduction To Probability Theory And Its Applications. Instituto de Matemáticas (Apunte). Chapmann & Hall. . Hair JF. WH Freeman. New Jork. Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. Brown D & Rothery P (1993) Models in Biology: Mathematics. The Iowa University Press. Universidad Católica de Chile. Statistics and Computing. Anderson RE. New Jork. Aguilar SA. Sackett DL. Snedecor GW & Cochran WG (1980) Statistical Methods. Cramer (1966) Elementos de la Teoría de Probabilidades. Iowa. London. Aguilar SA. John Wiley & Sons. Madrid. Cochran WG (1980) Técnicas de Muestreo.143 BIBLIOGRAFIA Azocar MR (1974) Probabilidad Matemática. Silva C & Cumsille F (1984) Calculo de Probabilidades. Harcourt. Compañía editorial Continental SA. A Primer. Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences. Strauss SS. Cramer H (1945) Métodos Matemáticos en Estadística. Manley FJ (1986) Multivariate Statistical Methods. Prentice Hall. Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In Biology Research. New Jork. Madrid. Madrid. New York. Madrid. Mexico. (apunte). John Wiley & Sons.

Bogotá. New Jersey.144 Steel RGD & Torrie JH (1980) Bioestadística: Principios Y Procedimientos. Editorial Universitaria. Santiago. Chile. . Prentice Hall. McGrawHill Latinoamericana SA. Taucher E (1997) Bioestadística. Zar JH (1996) Biostatistical Análisis.

.FORMULAS UTILES II.145 ANEXO I.ESTADÍSTICA DESCRIPTIVA Frecuencia relativa hi = ni / n Frecuencia acumulada N j = ∑ ni i =1 i= j Frecuencia acumulada relativa H j = ∑ hi i =1 i= j Promedio x = ∑x n i Promedio si la serie ha sido agrupada y = c L (n / 2 − N L −1 ) nL ∑n y i i n = ∑ hi yi Mediana Me = y ' L −1 + Percentil de orden p Pp = y ' L −1 + xi2 Varianza s = ∑ − x 2 n 2 c L (np / 100 − N L −1 ) nL ni yi2 − y 2 = ∑ hi yi2 − y 2 Varianza en una serie agrupada s = ∑ n 2 Desviación estándar s = s 2 Coeficiente de Variación CV = s / x Error estándar (Es): Es = s / n ..

146

III.- PROBABILIDADES Probabilidad P( A) =
casosfavorables casosposibles

Aditividad finita: Si Ai ∩ Bi = ∅, para cualquier i, j, entonces P (∪ Ai) = Σ P (Ai) Probabilidad Compuesta: P(A ∪ B) = P(A) + P(B) – P(A ∩ B) Probabilidad de que ocurra al menos un evento: P(∪ Ai)= 1 –P(∩ AiC), lo que se interpreta como P(alguno) = 1 – P (ninguno) Probabilidad condicional P( A / B ) =
P( A ∩ B) P( B)

Probabilidad conjunta Si A y B son independientes, entonces P(A ∩ B) = P(A) P(B) (teorema de la y) Probabilidad total P( A) = ∑ P( A / Bi ) ⋅ P( Bi )
i

Teorema de Bayes P( Bi / A) = p 1− p

P( A / Bi ) ⋅ P ( Bi ) ∑ j P( A / B j ) ⋅ P( B j )

Chance u “odds” O =

Sensibilidad S = P (+ / E ) =

a a+b d c+d a a+c

Especificidad Sp = P(− / noE ) =

Valor predictivo positivo VPP = P( E / + ) =

147

Valor predictivo negativo VPN = P (noE / −) = a+d n

d b+d

Certeza diagnóstica P(C ) =

Razón de verosimilitud (+) LR = P (+ / E ) / P (+ / noE ) = P (+ / E ) /(1 − P (− / noE )) = Razón de verosimilitud (-) LR = (1 − S ) / Sp IC1−α = [log LR ± Z α / 2 ⋅ 1 1 1 1 + − − ] a d a+b c+d

S 1 − Sp

Chance a posteriori Op = LR ⋅ Oo Tasa de evento en el control CER = P(evento / control ) = a a+c b b+d

Tasa de evento en el grupo experimental EER = P(evento / ex) =

Riesgo relativo RR = EER / CER

IC1−α = [log RR ± Z α / 2 ⋅

1 1 1 1 + − − ] a b a+c b+d

Reducción absoluta del riesgo ARR = CER − EER Número necesario a tratar para un beneficio NNT = 1 / ARR Reducción relativa del riesgo RRR = (CER − EER ) / CER Aumento absoluto del riesgo ARA = EER − CER Aumento relativo del riesgo RRA = ( EER − CER ) / CER Número necesario de expuestos para un daño NNH = 1 / ARA

148

Razón de disparidades de la chance (“Odds ratio”) OR = 1 1 1 1 + − − ] a b c d

a / c ad = b / d bc

IC1−α = [log OR ± Z α / 2 ⋅

IV.- VARIABLES ALEATORIAS Distribución de Bernoulli E[X] = p, V[X] = pq. n Distribución binomial P( X = k ) =   p k ⋅ (1 − p) n − k k    E[X] = np, V[X] = npq.  N − Np  Np    n − k  k       Distribución Hiergeométrica P( X = k ) = N   n    E[X] = np, V[X] = npq(N-n)/(N-1). Distribución de Poisson P( X = k ) = e ⋅
−λ

λk
k!

E[X] = V[X] = λ Distribución exponencial f ( x) = λ ⋅ e − λx E[X] = 1/λ y V[X] = 1/λ2 DISTRIBUCIÓN NORMAL f ( x) = (1 / σ 2π ) ⋅ e E[X] = µ y V[X] = σ2 V.- ESTIMACIÓN Intervalo de confianza para una proporción P y para la diferencia P1-P2
IC1−α = [ p ± Z α / 2 ⋅ pq / n ] IC1−α = [( p1 − p 2 ) ± Z α / 2 ⋅ ( p1q1 / n1 + p 2 q2 / n2 ]
− (1 / 2 )⋅[

x−µ

σ

]2

Valores predictivos. Especificidad. por lo que en estos casos. CER y EER Reducción y aumento absoluto del riesgo: ARR y ARA (n1 − 1) s12 + (n2 − 1) s 22 ⋅ (1 / n1 + 1 / n2 ) n1 + n2 − 2 Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de ARR y ARA respectivamente. Riesgo relativo (RR). se calculan los límites de confianza para ARR y ARA y se calcula su inverso. certeza diagnóstica.149 Intervalo de confianza para el promedio x y para la diferencia x1-x2 Si se conoce la varianza poblacional IC1−α = [ x ± Z α / 2 ⋅ σ / n ] Si no se conoce IC1−α = [ x ± t (1−α / 2 ) ⋅ s / n ] Para la diferencia de promedios IC1−α = [( x1 − x2 ) ± t (1−α / 2 ) ⋅ Es ] donde Es = Estimadores en Medicina Proporciones Diferencia de proporciones Sensibilidad. Odds ratio (OR) y cuocientes de verosimilitud (LR) Para log RR: IC1−α = [log RR ± Z α / 2 ⋅ 1 1 1 1 + − − ] a b a+c b+d 1 1 1 1 + − − ] a b c d 1 1 1 1 + − − ] a d a+b c+d Para log OR: IC1−α = [log OR ± Z α / 2 ⋅ Para log LR: IC1−α = [log LR ± Z α / 2 ⋅ Z α2 / 2 PQ Tamaño muestral para estimar una proporción n = d2 .

VI..150 t12−α / 2 s 2 Z α2 / 2 s 2 ≈ Tamaño muestral para estimar un promedio n = d2 d2 Para confianzas del 95% se suele aproximar z2α/2 = 4.DOCIMASIA O PRUEBA DE HIPÓTESIS VALOR DECISIÓN Rechazo Ho Acepto Ho V (H1F) ERROR I (α) C = 1-α ˆ p − p0 p0 q0 n DE VERDAD de Ho F (H1V) K = 1-β ERROR II (β) Dócimas para una muestra Dócima para una proporción (P) Z = Dócima para un promedio t n −1 = x − µ0 s n Dócimas para dos muestras Dos proporciones Z = ˆ ˆ ˆ ˆ ( p1 − p 2 ) − P0 p n + p 2 n2 donde p0 = 1 1 n1 + n2 1 1 p0 q0 ( + ) n1 n2 Dócimas para dos promedios Muestras independientes c) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos: t n +n −2 1 2 x1 − x2 − µ 0 (n1 − 1) s12 + (n2 − 1) s 22 2 = donde sc = n1 + n2 − 2 1 2 1 sc ( + ) n1 n2 .

entonces usamos: t gl = x1 − x2 − µ 0 s12 s22 ( + ) n1 n2 pero los grados de libertad “gl” los estimamos mediante 2  s12 s2  +   n n gl =  12 2  2 2  s12   s2       n1  +  n2  n1 − 1 n2 − 1 2 Muestras dependientes (pareadas) t n −1 = 2 sM = 2 sm d sd / n Dócima de Homocedasticidad F( n −1).1! N 0 . dondeP( X = x) = La distribución χ para bondad de ajuste χ n2− p −1 = ∑ 2 (o − e) 2 e − p) La distribución χ para proporciones χ 2 2 n −1 = ∑n ( p 1 i n i pq en donde p = ∑ ni p1 / n i . 1 ∑ P ( X = x).( n −1) 1 2 VII.. 0 ! N 0.1! N1. 0 ! Prueba exacta de Fisher PF = x ≥ N1 .ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS La distribución χ para tablas de contingencia χ 2 2 ( r −1)( c −1) (o − e) 2 =∑ e i. j N1.151 d) si no hay homocedasticidad.1! N 2 . 2 ! N 2. 0 !⋅N 2 .1! N1. 2 ! N 0 .

ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía).. FV T (entre) SC 2 ∑ (Yi 02 / n) − Y00 / nt i Gl t-1 t(n-1) nt-1 2 2 ε (dentro o ∆ = ∑ yij − ∑ Yi 0 / n ij i error) 2 TOTAL ∑ yij2 − Y00 / nt ij CM=SC/gl F P F = CME/CMD Transformaciones Distribución Normal Binomial (proporciones) Poisson (sucesos raros) Sin homocedasticidad Binomial negativa Decreciente Contrastes ortogonales t gle = Φ(y) C = constante y(1-y) Y y2 y4 Transformación f(y) Y arcsen√(y) √y ln(y) o ln(y+1) 1/y o 1/(y+1) arcsen(y) y2 Lj CMD ∑ ci2 / ni .152 VIII.Mann-Whitney T1 = ∑ Ri 1 no ( B − C − 1) 2 (B − C)2 2 o χ1 = Dócima de McNemar χ = (B + C) (B + C) 2 1 IX.ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA Prueba de los signos de Fisher B = ∑ bi Prueba de los rangos signados de Wilcoxon T = ∑ bi Ri Prueba de la suma de rangos de Wilcoxon..

gle = Diseño de bloques aleatorizados B1 T1 B2 T3 B3 T2 Diseño de medidas repetidas T1 I1 I2 I3 I4 T3 T2 T1 T2 T2 T1 T3 T3 Diseños anidados. encajados o jerárquicos T1 N1 N2 T2 N1 N2 T3 N1 N2 Cuadrado latino B1 B2 B3 b1 T1 T2 T3 B2 T2 T3 T1 B3 T3 T1 T2 . gle Prueba de Tukey Qt .153 Prueba de Dunnet t d = yi 0 − ycontrol 2CMD / n L2 = (t − 1) ⋅ CMD ⋅ ∑ ci2 / ni yi 0 − y j 0 (CMD / 2) ⋅ ( 1 1 + ) ni n j Prueba de Scheffé Ft −1.

t = Prueba de Friedman χ t2 = 12 ∑ R02 j − 3b(t + 1) bt (t + 1) j R0 j − R0 k b(t )(t + 1) 12 Comparaciones múltiples post-Friedman Qα .∞ .∞ .154 Parcelas divididas (split-plot) B1 T1 t1 t2 B2 T3 t1 t2 B3 T2 t1 t2 T3 T2 T1 T1 T2 T1 T2 T1 T2 2 T2 T1 T3 t1 t2 t1 t2 t1 t2 t R 12 0j Prueba de Kruskall-Wallis: H = ∑ n − 3(n + 1) N ( N + 1) 1 j Relación entre Kruskall-Wallis y ANOVA sobre rangos F = N −t H ( N − 1 − H )(t − 1) R0 j − R0 k n(nt )(nt + 1) 12 Comparaciones múltiples de Nemenyi (post.t = X.CORRELACIÓN Y REGRESIÓN Coeficiente de correlación r = ∑ ( x − x )( y − y ) ∑ ( x − x ) ∑ ( y − y) i i 2 i i 2 = (∑ xi2 − nx 2 )(∑ yi2 − ny 2 ) ∑x y i i − nx y Prueba de Hipótesis t n − 2 = r n−2 1− r2 Regresión: Pendiente e Intercepto B1 = ∑ x y / n − xy ∑x /n − x i i 2 i 2 B0 = y − B1 x .K-W) Qα ..

n-2 CMmodelo/CMresiduo P ∑(y i − y ) 2 = ∑ yi2 − ny 2 n-1 SCregresión SCTotal Coeficiente de determinación (R2) R 2 = ei2 2 = S yx Error típico de la estima S yx = ∑ n−2 Predicción de un valor y para un valor xk (y/xk) IC1-α : y k' ± t n − 2 ⋅ S yx 1 + 1 + n ( xk − x ) 2 ∑ xi2 −(∑ xi ) 2 / n Predicción del valor y para xk IC1-α : y ± t n − 2 ⋅ S yx ' k 1 + n ( xk − x ) 2 ∑ xi2 −(∑ xi ) 2 / n 6 ⋅ ∑ d i2 i =1 i =n Correlación no-paramétrico de Spearman (rs) rs = 1 − n −n 3 .155 Varianzas de la pendiente e intercepto V [ B1 ] = 2 S yx ∑ (x i − x)2 1 y V [ B0 ] = S ( + n 2 yx ei2 x 2 ) donde S yx = ∑ n−2 ∑ ( xi − x ) 2 Pruebas de Hipótesis t n − 2 = B* V [ B* ] ANOVA de la regresión Fuente de SC Gl variación Modelo ∑ ( yi' − y ) 2 = B12 (∑ xi2 − nx 2 ) 1 (Regresión) Residuo n-2 ∆ (por diferencia) Total CM SC/gl SC/gl = Syx2 F1.

156 ANCOVA Factor A1 Y X Y A2 X Y A A3 X Comparación de dos pendientes: t n1+ n 2− 4 = 2 S yxc ( β11 − β12 1 + ∑ x12i 1 ) ∑ x22i 2 donde S yxc = SCresiduo1 + SCresiduo2 n1 + n2 − 4 .

96 (°°) 2.05) Z 0 0..2 1. Valores críticos para 1 cola (°) (α = 0.1)) Área desde z a ∞.7 1.1 1.0013 .0287 0.0668 0..DISTRIBUCION NORMAL (N(0.0228 0.3821 0.64 (°) 1.4207 0.1151 0.3085 0.7 0.1841 0.0548 0.8 0.0250 0.0968 0.0 Area 0.1587 0.5 3.8 1.5 0.5000 0.5 1.157 ANEXO II.3 1.4 1.TABLAS SIMPLIFICADAS A.05) y dos colas (°°) (α = 0.4602 0.3 0.0500 0.4 0.0 2.2743 0.6 0.0808 0.0446 0.3446 0.1357 0.0062 0.2420 0.9 1.1 0.2119 0.0359 0.2 0.6 1.0 1.9 1.

36 2.83 1.09 2.04 1.31 2.23 2.025) Grados de libertad 5 6 7 8 9 10 15 20 25 30 ∞ Α= 0.72 1.01 1.96 .45 2.13 2.05) y dos colas (α = 0.158 B.94 1.26 2.06 2.75 1.90 1.81 1.05 2..70 1.025 2.86 1.DISTRIBUCION t DE STUDENT Valores críticos para una (α = 0.57 2.64 α = 0.71 1.

81 9.0 26.5 16..84 5.6 28.7 25.9 18.6 14.1 12.0 22.4 37.DISTRIBUCION χ2 Valores críticos para α = 0.3 19.99 7.9 30.8 .3 27.7 43.1 31.4 23.1 15.159 C.49 11.7 21.05 Grados de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 Valor crítico 3.

00 3.DISTRIBUCION F Valores críticos para α = 0.13 9.87 2.64 2.53 4.21 8.78 5.24 2.32 4.05.23 50 4.07 1.63 4.60 2.92 2.06 3.05 Grados De Gr. lo que es lo habitual.17 3.23 2.99 1.35 4.02 1.05 4.84 2.82 4.06 2.10 1.76 4.69 2.73 3.61 2.35 3.54 2. .01 6.27 2.84 2.12 3.76 2. libertad 1 2 denominador 3 10.14 7 5. entonces cualquier valor calculado de F mayor que 10 permite rechazar H0 para α = 0.79 6 5.39 3.94 10 8.69 3.12 4.63 3.99 5.93 2.97 3.39 1.83 ∞ 8.44 3.55 4 7.36 3.46 9 5.37 Numerador 5 8 9.160 D.71 2.26 5.16 2.07 3.15 3.35 2.39 5.18 60 4.53 5.68 20 4.84 1.03 3.52 2.23 3.13 2.37 2.26 10 4.53 2.79 2.97 2.00 Observación: Si el número de grados de libertad del denominador es mayor que 3.40 2.71 6.99 2.08 3.61 5.10 2.45 2.24 3.12 6.96 4.55 2.86 3.59 4.07 2.62 1.96 4.63 3.71 1.56 2.38 30 4.15 ∞ 3.84 3.41 4.10 15 4.45 2.71 2.84 6.90 2.74 8 5.71 3.76 2.04 4.94 5 6.48 3.34 2.19 4.28 6.07 2.67 3.44 1.99 Libertad Del 3 4 9.32 40 4.51 1.29 3.13 2..18 2.60 9.74 4.49 25 4. sin necesidad de mirar ninguna tabla.34 3.48 3.54 3.33 2.59 5.

15 3.67 3.161 E.64 3.63 5 5..95 2.31 T 4 5.30 4.47 .01 2.58 5.58 3.88 3.65 4.22 4. libertad 5 10 15 20 ∞ 2 3.29 10 6.37 4.96 3.94 4.77 4.86 8 6.05 para diferentes números de tratamientos (t) Gr.23 3.77 3 4.01 4.60 3.20 5.67 4.08 3.DISTRIBUCION DEL RANGO “STUDENTIZADO”: Q Valores críticos para α = 0.60 5.33 4.99 5.

vs n N 4 5 6 7 8 9 10 15 Valor crítico 10 14 19 24 30 37 44 89 .DISTRIBUCION de WILCOXON (Rangos signados) Valor crítico para α = 0.162 F..05.

05) para diferentes valores de n1 y n2 n1 = 3 4 5 6 7 8 9 10 n2=2 10 12 13 15 16 18 20 22 3 15 17 20 23 24 27 29 32 4 24 27 30 33 36 39 42 5 36 40 43 47 50 54 10 127 ..163 G.DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos) Valores críticos (α = 0.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->