You are on page 1of 486

Universidad de Salamanca Departamento de Estadstica

INTRODUCCIN A LA ESTADSTICA
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Coordinadora del Proyecto:

M.P. Galindo Villardn.


(Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca)

Autores por orden alfabtico:

I. Barrera Mellado
(Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca)

M.S. Benito Maestre


(Instituto de Bachillerato "Torres Villarroel". Salamanca)

M.S. Daz Leno

(Instituto de Bachillerato "Torres Villarroel". Salamanca)

M.J. Fernndez Gmez


(Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca)

M.P. Galindo Villardn


(Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca)

J. Martn Rodrguez
(Instituto de Bachillerato "Francisco Salinas". Salamanca)

P. Tardguila Garca
(Instituto de Bachillerato "Francisco Salinas". Salamanca)

J,L. Vicente Villardn


(Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca)

"NDICE"

II

pg.

Primera Unidad Didctica


Estadstica Descriptiva 1.1. Parte bsica
1.1.1 Introduccin a la Estadstica
1.1.1.1 1.1.1.2 1.1.1.3 1.1.1.4 1.1.1.5 Concepto de Estadstica y estadsticas Etapas del anlisis estadstico Poblacin y muestra Caracteres de una poblacin Tipos de escalas

1
2 2 2 3 3 3 5 5 6 10 10 24 24 28 29 31 32 36 42 44 44 50 50 50 51 53 53 56 57 57 60

1.1.2 Variables estadsticas unidimensionales


1.1.2.1 Distribucin de frecuencias. Clases 1.1.2.2 Propiedades de las frecuencias

1.1.3 Representaciones grficas


1.1.3.1 Tipos de representaciones grficas

1.1.4 Medidas de tendencia central


1.1.4.1 Media aritmtica 1.1.4.2 Media aritmtica ponderada 1.1.4.3 Media geomtrica 1.1.4.4 Media armnica 1.1.4.5 Mediana 1.1.4.6 Moda

1.1.5 Medidas de posicin no centrales 1.1.6 Medidas de dispersin


1.1.6.1 Medidas de dispersin absolutas 1.1.6.2 Medidas de dispersin relativas

1.1.7 Momentos
1.1.7.1 Momentos centrales (respecto a la media aritmtica) 1.1.7.2 Momentos con respecto al origen

1.1.8 Medidas de forma


1.1.8.1 Medidas de asimetra 1.1.8.2 Medidas de curtosis o apuntamiento

1.1.9 Medidas de concentracin


1.1.9.1 Curva de Lorenz 1.1.9.2 ndice de Gini

Representaciones grficas 1.2. Ampliacin


1.2.1 El lenguaje grfico
1.2.1.1 El lenguaje grfico en la vida cotidiana 1.2.1.2 El lenguaje grfico como herramienta de comunicacin social

62 63 63 64 66 67 67

1.2.2 El poder de los mtodos grficos


1.2.2.1 Los riesgos del anlisis de datos sin la utilizacin de grficos 1.2.2.2 Los grficos como herramienta de engao

III

1.2.3 Representaciones grficas ms usuales


1.2.3.1 Introduccin 1.2.3.2 Clasificacin 1.2.3.3 Representaciones grficas en el anlisis multivariante

70 70 70 70 98 99 99 100 101 102 105

1.3. Trabajo de investigacin


1.3.1 Objetivo 1.3.2 Planteamiento del trabajo 1.3.3 Desarrollo del trabajo
1.3.3.1 Tabulacin de los resultados 1.3.3.2 Representaciones grficas 1.3.3.3 Resumen de la informacin

IV

Segunda Unidad Didctica


Experimentos aleatorios Clculo de Probabilidades 2.1. Parte bsica
2.1.1 Experimentos aleatorios 2.1.2 Operaciones con sucesos 2.1.3 Frecuencia y probabilidad
2.1.3.1 2.1.3.2 2.1.3.3 2.1.3.4 2.1.3.5 Probabilidad de Laplace Propiedades de la probabilidad Dependencia e independencia de sucesos Probabilidad condicionada Probabilidad de la unin de sucesos en el caso de que su interseccin no sea el vaco.

109 110 111 114 114 115 115 113 117 120 123 124

2.1.4 Probabilidad conjunta, marginal y condicional 2.1.5 Teorema de la probabilidad total 2.1.6 Teorema de Bayes

El teorema de la probabilidad total y el teorema de Bayes en el contexto del anlisis de decisiones clnicas 2.2. Ampliacin
2.2.1 Toma de decisiones en Medicina 2.2.2 rbol de decisiones

2.3. Trabajo de investigacin


2.3.1 Planteamiento del problema 2.3.2. Anlisis de la estrategia ptima

127 128 125 133 134 135

Tercera Unidad Didctica


Distribuciones de probabilidad discretas 3.1. Parte dedicada al alumno
3.1.1 Variables aleatorias 3.1.2 Esperanza, varianza y desviacin tpica de una variable aleatoria 3.1.3 Distribucin Binomial
3.1.3.1 Manejo de tablas 3.1.3.2 Media y desviacin tpica de una distribucin Binomial

3.1.4 Distribucin de Poisson 3.1.5 Distribucin Hipergeomtrica

143 144 146 149 181 155 158 164

Distribuciones de probabilidad continuas 3.2. Parte dedicada al alumno


3.2.1 Distribucin Normal
3.2.1.1 Introduccin 3.2.1.2 Definicin 3.2.1.3 La distribucin Normal estndar N(0,1) 3.2.1.4 Manejo de las tablas de la normal estndar 3.2.1.5 Tipificacin de la variable 3.2.1.6 Propiedades de la distribucin Normal

3.2.2 Modelo Chi-cuadrado (de Pearson)


3.2.2.1 Definicin 3.2.2.2 Propiedades de la distribucin Chi-cuadrado 3.2.2.3 Manejo de las tablas de la Chi-cuadrado

3.2.3 Distribucin t de Student


3.2.3.1 Definicin 3.2.3.2 Propiedades de la distribucin "t" 3.2.3.3 Manejo de las tablas de la distribucin "t"

3.2.4 Distribucin "F" de Fisher-Snedecor


3.2.4.1 Definicin 3.2.4.2 Propiedades de la distribucin F de Snedecor 3.2.4.3 Utilizacin de las tablas de la distribucin F de Snedecor

173 174 174 175 179 181 183 184 186 186 187 188 190 190 191 192 194 194 195 196

Distribucin Normal 3.3. Ampliacin


3.3.1 Algunos casos de inters en el manejo de las tablas de la Normal

198 199 207 208

3.4. Trabajo de investigacin


3.4.1 Aplicacin del manejo de las tablas de la Normal a un ejemplo de investigacin

VI

Cuarta Unidad Didctica


Estadstica Inferencial 4.1. Parte bsica
4.1.1 Introduccin y motivacin 4.1.2 Estadsticos y distribuciones muestrales 4.1.3 Distribuciones muestrales de la media y la desviacin tpica 4.1.4 El teorema central del lmite 4.1.5 Estimacin puntual
4.1.5.1 Ideas generales 4.1.5.2 Estimadores y propiedades deseables de los estimadores 4.1.5.3 Mtodos de estimacin 4.1.5.4 Principales estimadores puntuales

4.1.6 Estimacin por intervalos


4.1.6.1 Ideas generales

4.1.7 Obtencin de los intervalos de confianza ms utilizados


4.1.7.1 Intervalo de confianza para la media de una distribucin Normal de varianza conocida 4.1.7.2 Intervalo de confianza para la media de una distribucin Normal de varianza desconocida 4.1.7.3 Intervalo de confianza para la varianza y la desviacin tpica de una poblacin Normal 4.1.7.4 Intervalo de confianza para el parmetro p de una distribucin Binomial B(n,p) 4.1.7.5 Intervalo de confianza para el parmetro p de una distribucin Hipergeomtrica H(N,n,p)

213 214 225 228 230 231 231 231 234 236 239 239 241 241 244 246 247 248 249

4.1.8 Clculo del tamao muestral para estimar la media de una poblacin con una determinada precisin

Diseo y anlisis estadstico de encuestas 4.2. Ampliacin


4.2.1 Introduccin 4.2.2 Mtodos de recoleccin de datos
4.2.2.1 El cuestionario 4.2.2.2 Diseo del cuestionario 4.2.2.3 Tipos de preguntas

4.2.3 Fuentes de error en las encuestas


4.2.3.1 Los cuestionarios no cumplimentados: la no respuesta 4.2.3.2 Respuesta inexacta 4.2.3.3 Sesgo de seleccin

4.2.4 Seleccin de la muestra: muestreo y tamao


4.2.4.1 Muestreo aleatorio simple 4.2.4.2 Muestreo aleatorio sistemtico 4.2.4.3 Muestreo aleatorio estratificado 4.2.4.4 Muestreo por conglomerados 4.2.4.5 Muestreo polietpico 4.2.4.6 Otros tipos de muestreo

251 252 253 255 224 256 259 260 260 261 261 261 262 262 264 264 265

VII

4.2.5 Determinacin del tamao de la muestra en una encuesta

265 267 268 269 271 272 273 243

4.3. Trabajo de investigacin


4.3.1 determinacin del tamao de la muestra en una encuesta
4.3.1.1 4.3.1.2 4.3.1.3 4.3.1.4 4.3.1.5 Estimacin del tamao de la muestra adecuado Estimacin del tamao de cada estrato Estimacin del verdadero error en cada estrato Clculo del intervalo de confianza para cada estrato Estimacin de los errores en funcin de los valores de p y q

Contrastes de hiptesis 4.4. Parte bsica


4.4.1 Introduccin a los contrastes de hiptesis 4.4.2 Conceptos bsicos
4.4.2.1 4.4.2.2 4.4.2.3 4.4.2.4 4.4.2.5 4.4.2.6 4.4.2.7 Hiptesis nula e Hiptesis alternativa Estadgrafo de contraste Regin crtica y regin de aceptacin Error tipo I y error tipo II Nivel de significacin y potencia de un contraste Tipo de contraste Pasos en un contraste de hiptesis

4.4.3 Contraste para la media de una poblacin normal


4.4.3.1 Contraste para la media de una poblacin normal, con varianza poblacional conocida 4.4.3.2 Contraste para la media de una poblacin normal, con varianza poblacional desconocida

276 277 278 278 278 279 279 280 282 282 283 283 285 287 287 288 290

4.4.4 Contraste para la igualdad de medias de dos poblaciones normales


4.4.4.1 Contraste para la igualdad de medias de dos poblaciones normales con varianzas poblacionales conocidas 4.4.4.2 Contraste para la igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales

4.4.5 Contraste para distribuciones Binomiales

4.4.5.1 Contraste para el parmetro p de una distribucin Binomial 290 4.4.5.2 Contraste para la igualdad de los parmetros de dos distribuciones binomiales 291

4.5. Ampliacin
4.5.1 Introduccin y motivacin 4.5.2 Contraste para la media de una poblacin normal
4.5.2.1 Planteamiento general 4.5.2.2 Varianza (desviacin tpica conocida) 4.5.2.3 La potencia de un contraste 4.5.2.4 El p-valor del contraste 4.5.2.5 Los contrastes unilaterales 4.5.2.6 Varianza desconocida 4.5.2.7 Contrastes para muestras grandes

293 294 294 294 296 301 303 304 308 311 312

4.5.3 Contraste para la diferencia de medias de dos poblaciones normales con datos independientes

VIII

4.5.3.1 Planteamiento general 4.5.3.2 Varianzas conocidas 4.5.3.3 Varianzas desconocidas pero iguales 4.5.3.4 Varianzas desconocidas y distintas 4.5.3.5 Contrastes de comparacin de medias para muestras grandes 4.5.3.6 Obtencin de datos para la comparacin de medias 4.5.3.7 Contraste para datos apareados 4.5.3.8 rbol de decisiones para la comparacin de medias de dos poblaciones normales 4.5.3.9 Contraste para la comparacin de la tendencia central cuando las poblaciones no son normales 4.5.3.10 Comparacin de varias poblaciones. Introduccin al problema de las comparaciones mltiples 4.5.3.11 Validacin de las hiptesis de partida

312 314 316 319 320 320 322 324 325 328 330

IX

Quinta Unidad Didctica


Tablas de Contingencia 5.1. Parte bsica
5.1.1 Introduccin 5.1.2 Nociones generales tiles para su resolucin 5.1.3 Test de asociacin en tablas de contingencia 333 334 335 337 342 343 343 343 343 344 344 344 348

5.2. Ampliacin
5.2.1 Aspectos de inters
5.2.1.1 Tipo de contraste 5.2.1.2 Tablas poco ocupadas 5.2.1.3 Causas de la significacin

5.2.2 Bsqueda de las causas de la significacin


5.2.2.1 Propiedad aditiva de la Ji-cuadrado 5.2.2.2 Bsqueda de las causas de la significacin

5.2.3 Paradoja de Simpson

Sexta Unidad Didctica


Regresin y correlacin 6.1. Parte bsica
6.1.1 Introduccin 6.1.2 Cundo existe regresin? 6.1.3 Tipos de regresin
6.1.3.1 Consideraciones previas 6.1.3.2 Regresin lineal simple 6.1.3.3 Regresin no lineal

6.1.4 Correlacin
6.1.4.1 Prueba de independencia de dos caracteres cuantitativos 6.1.4.2 Relacin entre r 2 y R 2 6.1.4.3 Distribucin del coeficiente de correlacin muestral

352 353 354 356 357 359 367 370 370 371 371

El modelo lineal general 6.2. Ampliacin

373 374 375 376 378 6.2.4.1 Interpretacin de la ecuacin de regresin 378 6.2.4.2 Descomposicin de los valores observados en sus dos componentes 379 6.2.4.3 Criterio de los mnimos cuadrados 380 6.2.5 Estimadores de los parmetros: mtodo de mxima verosimilitud 381 6.2.6 Propiedades de los estimadores mnimo-cuadrticos 382 6.2.7 Contraste de significacin del modelo global: anlisis de la varianza en los modelos lineales 384 6.2.8 Medida de la bondad del ajuste: el coeficiente de determinacin 388 6.2.9 Suma de cuadrados explicada por un grupo de variables: contrate para un grupo de parmetros 389 6.2.10 El coeficiente de correlacin parcial 390 6.2.11 Contrastes e intervalos de confianza para cada uno de los parmetros por separado 391 6.2.12 Ajuste de un modelo: los programas de ordenador 392 6.2.13 Seleccin de subconjuntos de variables (mtodos paso a paso) 394 6.2.13.1 Seleccin ascendente (forward selection) 394 6.2.13.2 Seleccin descendente (backward selection) 394 6.2.13.3 Regresin paso a paso 395 6.2.14 Prediccin en el modelo lineal general 395 6.2.15 Introduccin de variables cualitativas en un modelo de regresin mltiple 396 6.2.15.1 Variables ficticias (dummy) 397 6.2.15.2 Interpretacin del modelo con variables ficticias 398 6.2.15.3 Variables ficticias para ms de dos grupos 399 6.2.15.4 Variables ficticias en presencia de interaccin 400 6.2.16 Validacin de las hiptesis bsicas del modelo 404 6.2.1 Introduccin 6.2.2 Forma muestral del modelo 6.2.3 Hiptesis del modelo 6.2.4 Estimadores de los parmetros: mtodo de los mnimos cuadrados

XI

6.2.16.1 Los grficos de residuales como herramienta de diagnstico 6.2.16.2 Linealidad de la relacin 6.2.16.3 Homocedasticidad (igualdad de varianzas) 6.2.16.4 Autocorrelacin

406 407 409 411

El problema de la colinealidad 6.3. Parte dedicada al profesor


6.3.1 El problema de la colinealidad 6.3.2 Formulacin matemtica y grfica del problema 6.3.3 Sintomatologa 6.3.4 Diagnstico 6.3.5 Tratamiento
6.3.5.1 Anlisis del origen de la colinealidad 6.3.5.2 Seleccin de variables en regresin

413 414 414 417 418 421 421 422

Colinealidad 6.4. Trabajo de investigacin


6.4.1 Modelo establecido "a priori" 6.4.2 Sintomatologa
6.4.2.1 Estimacin de los coeficientes de regresin

6.4.3 Diagnstico
6.4.3.1 Clculo de los valores propios de la matriz de correlaciones 6.4.3.2 Estudio de los vectores propios de la matriz de correlaciones entre las regresoras 6.4.3.3 Clculo del "Condition index" y del "Condition number" 6.4.3.4 Factores de inflacin de la varianza (VIF) 6.4.3.5 Incremento en el error de cada regresora 6.4.3.6 Identificacin de las variables involucradas en el problema de la colinealidad

432 433 433 433 435 435 435 436 437 437 438 438 438 439 440

6.4.4 Conclusiones 6.4.5 Tratamiento de la colinealidad


6.4.5.1 Mtodo de seleccin ascendente 6.4.5.2 Mtodo de eliminacin descendente

"ESTADSTICA DESCRIPTIVA"

1.1 Parte bsica

1.1.1 Introduccin a la Estadstica


1.1.1.1 Concepto de Estadstica y Estadsticas
La primera acepcin del trmino "Estadstica", que tiene origen histrico, hace referencia a una determinada informacin numrica; esta acepcin se encuentra cada da ms arraigada en nuestra sociedad debido al abultado conjunto de nmeros y cifras en el que se encuentra inmersa: P. I. B., ndices de precios, tasas de inflacin, evolucin del paro, cotizaciones burstiles, accidentes de circulacin, porcentajes de votantes, porcentajes de personas que padecen una determinada enfermedad, etc. Una segunda acepcin entiende la estadstica como una ciencia que facilita los mtodos precisos para la obtencin de informacin numrica, y que tambin proporciona mtodos de anlisis de esa informacin recogida y mtodos de investigacin aplicables al resto de las Ciencias. La primera se corresponde bsicamente con la estadstica descriptiva y la segunda con la estadstica inferencial.

1.1.1.2 Etapas del anlisis estadstico


Las diversas fases por las que atraviesa el anlisis estadstico son: a) Recogida de datos, que no por ser elemental, est exenta de dificultades e indicaciones que hay que observar, ya que una recogida mal efectuada puede ocasionar un sesgo de la informacin y del posterior anlisis, por lo que el objeto de la investigacin debe plantearse de una manera minuciosa, as como la organizacin del trabajo de campo necesario para la recogida de datos. b) Ordenacin y presentacin de los datos, y que suele presentarse mediante unas tablas de simple o de doble entrada. c) Resumen de la informacin, para tratar de describir las caractersticas ms relevantes que pueden tener los datos, y que se realiza mediante la determinacin de parmetros estadsticos que intentan resumir toda la informacin que aporte el conjunto de datos.

d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden detectarse en las etapas previas.

1.1.1.3 Poblacin y muestra


Recibe el nombre de Poblacin, Colectivo o Universo, todo conjunto de individuos o elementos que tienen unas caractersticas comunes. Dado que no siempre es posible estudiar todos los elementos de la poblacin, ya sea por razones econmicas, de rapidez de obtencin de la informacin, o porque los elementos se destruyen en el proceso de la investigacin, con frecuencia es necesario examinar slo una parte de la poblacin, que se denomina muestra; para que una muestra sea vlida como objeto de estudio, ha de ser representativa de la poblacin, es decir ha de tener las mismas caractersticas, en los caracteres estudiados, que la poblacin.

1.1.1.4 Caracteres de una poblacin


Llamaremos variable al carcter objeto de estudio, que puede tomar distintos valores. Las variables pueden ser cuantitativa o cualitativas, segn que tomen, o no, valores cuantificables. Las variables de tipo cuantitativo, que estudian caracteres cuantificables, pueden clasificarse de diversas formas: variables discretas o continuas, segn que slo puedan tomar valores aislados o, por el contrario, todos los valores de un intervalo.

1.1.1.5 Tipos de escalas


En determinado tipo de estudios, quiz tenga mayor relevancia diferenciar las variables segn el tipo de escala utilizada, distinguiendo: Escala nominal: el carcter estudiado se clasifica en categoras no

numricas, sin que puedan establecerse ninguna relacin de orden entre ellas,

por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el sexo, etc. Escala ordinal: el carcter estudiado es de tipo no numrico, pero se

pueden establecer algn tipo de orden entre las distintas categoras. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc. Escala de intervalo: puede establecerse alguna unidad de medida y

cuantificar numricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrndose en este caso gran nmero de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc. Escala de proporcin: son aquellas variables en las que adems de una

unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el nmero de unidades en stock en un inventario, etc.

1.1.2 Variables estadsticas unidimensionales


1.1.2.1 Distribucin de frecuencias. Clases.
Vamos a tratar ahora de estructurar y ordenar los conjuntos numricos de los datos obtenidos en la observacin de una muestra o poblacin para as poder proceder con ms facilidad a su estudio. Empezaremos estudiando las frecuencias en sus diversas clases: Frecuencia absoluta: es el nmero de veces que se repite cada valor de la

variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por f i Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmero

total de datos u observaciones. El nmero total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de

los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la muestra. Se verifica pues:
F i = !f j
j=1 i

Frecuencia relativa acumulada: es el cociente entre la frecuencia absoluta

acumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numrica o, al menos, ordinal.

La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica:

Hi =

F i j=1 = n n

!f j

1.1.2.2 Propiedades de las frecuencias


1 La suma de las frecuencias absolutas coincide con tamao de la muestra:

! fi = n
i

2 Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 fi n 3 La suma de las frecuencias relativas es 1:

! hi = 1
i

4 Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 hi n 5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato.

DISTRIBUCIN DE FRECUENCIAS Llamaremos distribucin de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. As pues, para determinar una distribucin de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato).

Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribucin de frecuencias no est agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el nmero de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin. En la agrupacin en intervalos hay que tener en cuenta tres aspectos: a) Que el mximo de informacin se obtiene en la recogida de datos y que sta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente as, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo isimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1 Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es ms cmodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1.- Cmo se debe tomar la amplitud, constante o variable? 2.- Cuntos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultar estriles.

Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li1,Li),

es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo

inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms que los de los datos, siendo, normalmente este decimal un 5. Por ltimo cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca de clase del intervalo [Li-1,Li) ser:

ci =
EJEMPLO 1.1:

L i!1 + Li 2

Investigados los precios por habitacin de 50 hoteles de una ciudad, se han obtenido los siguientes resultados: 7000 8000 5000 10000 7000 7000 12000 3000 5000 7500 3000 4000 8000 8000 5000 5000 12000 4000 7000 7500 4000 500 8000 5000 5000 7000 5000 3000 4000 7000 4000 7500 7000 7000 5000 5000 7000 8000 4000 10000 3000 3000 10000 7000 7500 15000 5000 4000 7500 7000

Determinar la distribucin de precios: a) Sin agrupar en intervalos. b) Agrupadas en 5 intervalos de amplitud constante. Solucin: a) Precio (xi) en miles N de hoteles (fi) 3 5 4 7 5 10 7 11 7.5 8 6 5 10 3 12 2 15 1

b) Precio en intervalos [3000, 5500) [5500, 8000) [8000, 10500) [10500, 13000) [13000, 15500) marca de clase (xi) 4250 6750 9250 11750 14250 N de hoteles (fi) 22 17 8 2 1

10

1.1.3 Representaciones grficas


La informacin proporcionada por las tablas de distribucin de frecuencias es bastante completa, pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparacin para relativizar la informacin de unas clases respecto de las otras. Adems, en la experiencia del lector, al comenzar a leer un determinado artculo (cientfico o no), su vista se dirige primero al ttulo, luego a los grficos y, finalmente, a las tablas. As pues, las representaciones grficas constituyen uno de los principales y ms sencillos mtodos de exponer la informacin, por su capacidad de impactar al lector con muy poco esfuerzo por su parte, dando una informacin rpida y global de los datos, siendo tiles incluso al investigador, pues le permiten tener una idea general de los resultados y, a veces, sugerir nuevas hiptesis.

1.1.3.1 Tipos de representaciones grficas


Los diversos tipos de grficos utilizados son: 1 DIAGRAMAS DE BARRAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS: En un sistema de ejes de coordenadas cartesianas, se representan en el eje de abscisas los valores de la variable, y en el de ordenadas las frecuencias. Posteriormente, sobre cada valor de la variable se levanta una barra vertical de altura proporcional a la frecuencia, ya sea absoluta o relativa. Sobre el eje de abscisas la escala de medida puede ser cualquiera y no coincidir con la escala del eje de ordenadas. Incluso el cero del eje de abscisas no tiene porque coincidir con el cero de la medida utilizada.

EJEMPLO 1.2: Supongamos una variable X que presenta los siguientes valores : xi = { a, e, i, o, u } con las siguientes frecuencias: f1 = 1 f2 = 2 f3 =1 f4 = 3 correspondientes a las veces que aparecen dichas vocales en una frase. f5 = 3,

11

Construya el diagrama de barras correspondiente y el diagrama de barras acumulado, o diagrama de escalera.

Solucin: Podemos presentar entonces la siguiente tabla: xi a e i o u fi 1 2 1 3 3 Fi 1 3 4 7 10 hi 0,1 0,2 0,1 0,3 0,3 Hi 0,1 0,3 0,4 0,7 1

El diagrama de barras correspondiente aparece en la figura 1.1:

FRECUENCIAS

i
VOCALES

Figura 1.1: Diagrama de brarras

Si lo que queremos representar son las frecuencias acumuladas, se procede igual que en el caso anterior con los ejes cartesianos y levantando sobre cada valor de la variable, una altura proporcional (igual) a la frecuencia acumulada, uniendo mediante trazos horizontales el extremo de cada coordenada con el siguiente; este diagrama recibe el nombre de diagrama de escalera (ver figura 1.2).

12

Figura 1.2: Diagrama de barras acumulado. (Diagrama de escalera)

Los grficos de diagrama de barras y de escalera suelen utilizarse en variables de tipo cualitativo, o en las de tipo cuantitativo discretas. 2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS: Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los anteriores. Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3):

13

Figura 1.3: Polgono de frecuencias.

Anlogamente se procedera con las frecuencias acumuladas (ver figura 1.4).

FRECUENCIAS ACUMULADAS

10

i VOCALES

Figura 1.4.: Polgono de frecuencias acumulado.

Estos polgonos de frecuencias se utilizan cuando la variable es de tipo cualitativo o cuando es de tipo cuantitativo discreta.

3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EN INTERVALOS Se construyen levantando, sobre cada intervalo de la variable, un rectngulo de rea proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas respectivas, pues al ser las bases iguales las reas son proporcionales a las alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de los rectngulos deben calcularse dividiendo la frecuencia absoluta por la longitud del intervalo; sta se puede representar por ai y vale pues:
f ai = i ci

y de esta forma, el rea del rectngulo coincide con la frecuencia:


f Si = a i c i = i ci = f i ci

14

La altura ai correspondera a la frecuencia correspondiente a cada unidad de medida de la variable en cada intervalo, y se le conoce a veces, con el nombre de densidad de frecuencia del intervalo.

EJEMPLO 1.3: La distribucin del saldo de imposiciones en las Cajas de Ahorros viene dada en la tabla siguiente: Saldo 4-6,9 7-8,9 9-14,9 15-29,9 30-59,9 60-99,9 100 Representar el histograma correspondiente Solucin: Como los intervalos son de amplitud no constante, hay que calcular las alturas de los mismos, obtenindose la siguiente tabla: intervalos 4 -6.9 7 -8.9 9 -14.9 15 -29.9 30 -59.9 60 -99.9 100 Total fi 6 7 17 13 4 2 1 50 alturas 2 3.5 2.8 0.8 0.1 0.05 0 Fi 6 13 30 43 47 49 50 hi 0.12 0.14 0.34 0.26 0.08 0.04 0.02 1.00 Hi 0.12 0.26 0.60 0.86 0.94 0.98 1.00 Grados 43.2 50.4 122.4 93.6 28.8 14.4 7.2 360.0 N provincias 6 7 17 13 4 2 1

que da lugar al histograma de la figura 1.5:

15

Figura 1.5: Histograma. (Saldo de imposiciones en Cajas de Ahorros).

4 POLGONO DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS Para construir este grfico se levanta en el extremo superior de cada intervalo una ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas. La primera ordenada se une al extremo inferior del primer intervalo, prolongando el polgono desde ese punto a la izquierda sobre el eje x, y prolongando tambin por la derecha a partir del extremo superior del ltimo intervalo, con una recta paralela al eje de abscisas. Suele utilizarse esta representacin sobre todo en el caso de que las frecuencias sean acumuladas. En este caso la altura correspondiente al extremo superior del ltimo intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si las frecuencias son relativas.

EJEMPLO 1.4: El polgono de frecuencias acumuladas para el ejemplo estudiado de las distribuciones del saldo de las Cajas de Ahorros viene dado por el grfico que aparece en la figura 1.6:

16

Figura 1.6: Polgono de frecuencias acumuladas. (Saldo de imposiciones en Cajas de Ahorros).

En el caso de representar las frecuencias no acumuladas se procede de diferente forma, uniendo los puntos medios de los lados superiores de los rectngulos del histograma y prolongando por los extremos hasta cortar al eje X en los puntos medios de las bases del primer y del ltimo rectngulo (ver figura 1.7).

Alturas

1 x 10 20 30 40 50 60 70 80 90 100 i

Figura 1.7: Polgono de frecuencias. (Saldo de imposiciones en Cajas de Ahorros).

El rea del polgono cerrado resultante es igual al rea de los rectngulos formados mediante el histograma.

17

A veces se representan en el mismo grfico el histograma y el polgono de frecuencias.

5 DIAGRAMA DE SECTORES Este caso, en una circunferencia se representan sectores circulares cuyo ngulo central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o relativa del elemento, representando, mediante colores o incluyendo dentro de dicho sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias agrupadas, como no agrupadas. Previamente hay que calcular los grados que corresponde a cada elemento multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el total de datos:

gi = f i

360 n

EJEMPLO 1.5: Obtener el grfico de sectores correspondiente a los datos anteriores de las cajas de ahorros: Solucin: intervalos 4 -6.9 7 -8.9 9 -14.9 15 -29.9 30 -59.9 60 -99.9 100 Total fi 6 7 17 13 4 2 1 50 alturas 2 3.5 2.8 0.8 0.1 0.05 0 Fi 6 13 30 43 47 49 50 hi 0.12 0.14 0.34 0.26 0.08 0.04 0.02 1.00 Hi 0.12 0.26 0.60 0.86 0.94 0.98 1.00 Grados 43.2 50.4 122.4 93.6 28.8 14.4 7.2 360.0

y su representacin en sectores en la figura 1.8:

18

Figura 1.8: Diagrama de sectores. (Saldo de imposiciones en Cajas de Ahorros).

EJEMPLO 1.6: Los datos siguientes corresponden a gastos de inversin publicitaria en los pases de la C.E.E. durante el ao 1.986 PASES R.F.A INGLATERRA FRANCIA ESPAA HOLANDA ITALIA DINAMARCA BLGICA GRECIA IRLANDA INVERSIN (MILLONES $) 8.234 6.915 4.663 3.000 2.970 2.846 1.084 464 164 127

No se poseen datos de Portugal y Luxemburgo Representar el correspondiente diagrama de sectores Solucin: El grfico de sectores aparece en la figura 1.9:

19

R.F.A INGLATERRA FRANCIA ESPA A HOLANDA ITALIA DINAMARCA IRLANDA BELGICA GRECIA

Figura 1.9: Diagrama de Sectores. Inversin publicitaria en la C.E. (datos de 1.986)

En este grfico se observa que cuando ciertos datos presentan una frecuencia baja, en relacin con los dems, su sector circular seria no detectable visualmente, por lo que se une con otros de frecuencias tambin bajas, dndole el nombre de "otros", o bien, si es posible, indicando todos los elementos que lo forman.

6 PICTOGRAMAS Son dibujos alusivos a la distribucin que se pretende estudiar y que mediante su forma, tamao, etc., ofrecen una descripcin, lo ms expresiva posible, de la misma. Consideremos el siguiente ejemplo: EJEMPLO 1.7: Representar el pictograma correspondiente a la tabla de datos siuiente:
PASES BRASIL MJICO ARGENTINA VENEZUELA CHILE PERU COLOMBIA ECUADOR URUGUAY BOLIVIA PARAGUAY INVERSIN (MILLONES $) 101.750 100.000 50.300 35.880 20.690 14.300 13.430 7.540 4.990 3.340 1.890

20

Solucin:

DEUDA EXTERNA DE AMERICA LATINA (Diciembre 1986)

BRASIL

MEXICO

ARGENTINA

VENEZUELA

CHILE PERU ECUADOR BOLIVIA COLOMBIA URUGUAU PARAGUAY

Figura 1.10: Pictograma (Deuda externa de Amrica Latina)

En el caso anterior, el rea de la figura debe de ser proporcional a la frecuencia, aunque existe tambin la posibilidad de que una figura represente un nmero determinado de frecuencias, y entonces contenga este dato. Este tipo de representacin suele utilizarse en las distribuciones cualitativas, como por ejemplo en la siguiente:

EJEMPLO 1.8: El censo ganadero espaol, en el mes de Septiembre de 1.977, segn fuentes del Ministerio de Agricultura, era: GANADO BOVINO OVINO CAPRINO PORCINO EQUINO TOTAL Represente el correspondiente pictograma N DE CABEZAS
(EN MILES)

4.538 14.539 2.206 9.804 762 31.846

21

Solucin: El correspondiente pictograma sera de la forma que aparece en la figura 1.11:

Figura 1.11: Pictograma (Censo ganadero espaol)

7 CARTOGRAMAS Son los grficos realizados sobre mapas, representando el carcter estudiado en ciertas regiones, sealando las zonas con distintos colores o tramas, poniendo de manifiesto las diferencias existentes entre las regiones del plano. Se suelen utilizar para representar densidades demogrficas de una nacin, la renta per capita, ndices de lluvia, etc.

8 DIAGRAMAS DE PERFIL RADIAL: Se toma un punto de partida y se trazan tantos radios como modalidades tenga la variable estudiada y despus, sobre estos radios, se toma una distancia al centro proporcional a la frecuencia de cada modalidad. Uniendo los puntos extremos de cada radio se obtiene un polgono cerrado, que es el perfil radial. En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura 1.12):

22

Caprino Bovino

Equino 0 5000 10000

Porcino

Ovino
Figura 1.12: Perfil radial (Censo ganadero espaol)

9 DIAGRAMAS LINEALES Se utilizan para mostrar las fluctuaciones de un determinado carcter estadstico con el paso del tiempo. Interesa nicamente la altura de la lnea, referida a la base del diagrama, que se levanta con una longitud proporcional al valor del carcter estudiado en dicho mes. Con frecuencia se aprovecha para representar sobre la misma escala varios diagramas lineales muy relacionados entre s. Por ejemplo, ingresos y gastos, nacimientos y defunciones, etc.

EVOLUCION DEL IPC


(Acumulado en 1987)
2'9 2 1'7 ABRIL 0'7 ENERO 6'0 1'1 FEBRERO 6'0 MARZO 6'3 6'2 5'8 4'9 4'9 4'4 1'9 2'9 SEPTIEMBRE 3'8

1'9

MAYO

JUNIO

JULIO

AGOSTO

EVOLUCION DE LA TASA DE INFLACION

4'5

Figura 1.13: Diagrama lineal

23

El grfico anterior (figura 1.13) reproduce un diagrama aparecido en DIARIO 16, que expresa la evolucin del IPC y la tasa de inflacin durante los nueve primeros meses del ao 1.987. A veces se unen en un mismo grfico varios grupos para considerarlos conjuntamente, compararles y observar donde las distribuciones coinciden o se separan, permitiendo as un anlisis grfico comparativo.

As, el grfico siguiente (figura 1.14) muestra los polgonos de frecuencias porcentuales correspondientes a las distribuciones de ingresos en familias de poblacin blanca y negra en los Estados Unidos.

% 14'0

12'0 Poblacin blanca Poblacin negra

10'0 8'0 6'0

4'0 Indice de integracin=0'71

2'0 0 1000$

2000$

5000$

10000$

15000$

25000$

50000$

Figura 1.14: Polgonos de frecuencias porcentuales

24

1.1.4 Medidas de tendencia central


Las tablas de distribuciones de frecuencia ofrecen toda la informacin disponible, pero a veces, debido a su extensin nos encontramos con dificultades a la hora de su interpretacin, por lo que interesa resumirla con el fin de facilitar, tanto su anlisis como la comparacin entre distintas muestras o poblaciones. En este proceso de sntesis se buscan valores que determinen el comportamiento global del fenmeno estudiado Las medidas de sntesis de la distribucin se consideran operativas cuando: a) Intervienen todos y cada uno de los elementos en su formacin. b) Es siempre calculable. c) Es nica para cada distribucin de frecuencias. Estos valores se denominan medidas de posicin, en general son promedios de los valores y pueden ser de tendencia central o no. Slo tienen sentido si la variable es cuantitativa. Entre las ms importantes estn la media aritmtica, la mediana, la moda y los cuantiles; adems de stos, tambin estudiaremos la media geomtrica, la media armnica, la media cuadrtica y la media aritmtica ponderada.

1.1.4.1 Media aritmtica


Se define como la suma de todos los valores de la distribucin, dividida por el n total de datos. Si designamos por xi al valor de la variable X, que se repite fi veces, la media aritmtica ser:

! xif i n k x1 x2 xk xf i=1 x = f1 + f 2 +!+ fk = = ! i i = ! x ih i n n n n i=1 n i =1

25

EJEMPLO 1.9: Por ejemplo, sea la variable X que representa los pesos en kilogramos de 10 estudiantes y que presenta los valores: xi={ 54, 59, 63, 64 } con las siguientes frecuencias fi={ 2, 3, 4, 1 }. Calcular la media aritmtica. Solucin: La media aritmtica vendr dada por:

x=

54.2 + 59.3 + 63.4 + 64.1 108 + 177 + 252 + 64 601 = = = 60.1 Kg 10 10 10

En el caso de que las variables estuvieran agrupadas en intervalos no se podra utilizar dicha expresin, por no saber el valor exacto de la variable, usndose en este caso como xi la marca de clase del intervalo. Vemoslo con el siguiente ejemplo:

EJEMPLO 1.10: Consideraremos la siguiente tabla de distribucin de frecuencias: Intervalo 30-40 40-50 50-60 Total fi 3 2 5 10 Marca de clase 35 45 55

Calcular la media aritmtica de los datos Solucin: Resultar, segn la definicin dada, que
xf 35.3 + 45.2 + 55.5 x=! i i = = 47 n 10

26

No obstante, y dado que la media aritmtica est muy influenciada por los valores extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada una de stas, tal y como puede observarse en el siguiente ejemplo:

EJEMPLO 1.11: La tabla siguiente recoge el nmero total de goles marcados en los ocho primeros campeonatos de liga de primera divisin correspondientes a las temporadas en que han participado en el mismo 20 equipos: Temporada 87-88 88-89 89-90 90-91 91-92 92-93 93-94 94-95 Calcular e interpretar la media aritmtica. Solucin: Calculada la media aritmtica se observa que es 917,75; no obstante, este valor es poco representativo de lo ocurrido en cada temporada, puesto que solamente en los aos 89-90 y 91-92 se obtuvo un nmero de goles prximo a dicho valor, mientras que en el resto de temporadas se obtuvieron bastantes ms ( 92-93, 93-94 y 94-95 ) o bastantes menos ( 87- 88, 88-89, 90-91). Por otro lado qu sentido tiene decir que se marcaron 917,75 goles?, acaso hubo alguna ocasin en la que solamente penetr en la portera el 75% del baln?. Nmero de goles 909 868 921 822 913 954 989 966

27

PROPIEDADES DE LA MEDIA ARITMTICA: 1. La suma de las desviaciones de los valores de la variable respecto a su media es 0.

" (x i ! x)f i = " x if i ! x " f i = n i =1 n i =1 i =1 i =1

" x if i

! xn = nx ! xn = 0

2. Si a todos los valores de la variable les sumamos una constante k, la media aritmtica queda aumentada en esa constante. Si consideramos la distribucin ( xi + k, fi ) su media ser:

x' =

' ! xi i=1

fi = n

! (x i
i=1

+ k)

fi = n

! xi
i=1

k f fi + k! i = x + k n i=1 n

3. Si a todos los valores de la variable los multiplicamos por una constante k, su media aritmtica queda multiplicada por esa constante. Para demostrar esta propiedad basta considerar la distribucin ( xik , fi ), su media ser:
k k k f f f x' ' = ! x'i' i = ! ( xi k ) i = k ! xi i = kx n i =1 n i=1 i=1 n

4. Si a una variable X le efectuamos una transformacin lineal de la forma Y = aX + b, con a y b constantes, la media de la nueva variable queda afectada por dicha transformacin lineal:
y = ax + b

La demostracin es consecuencia inmediata de las propiedades 2 y 3 de la media.

28

VENTAJAS E INCONVENIENTES Como ventajas de utilizar la media aritmtica como un promedio para sintetizar los valores de la variable podemos citar las siguientes: - Considera todos los valores de la distribucin. - Es siempre calculable (en variable cuantitativa). - Es nica.

Como inconvenientes de la utilizacin de la media aritmtica cabe citar que, a veces, puede dar lugar a conclusiones errneas, cuando la variable presenta valores muy extremos, que influyen mucho en la media, hacindola poco representativa.

1.1.4.2 Media aritmtica ponderada


Se calcula esta media aritmtica cuando cada valor de la variable tiene asociado una ponderacin o un peso, distinto de la frecuencia, y que le haga tener ms o menos importancia en la distribucin. En este caso si el dato xi tiene un peso wi, su media ponderada sera:

xp = i=1 k

! xi wi
i=1

! wi

Si cada dato presenta una frecuencia fi, la media ponderada sera:

xp = i=1 k

! xi f iwi ! f iw i
i=1

29

EJEMPLO 1.12 Veamos un ejemplo de un estudiante que realiza tres exmenes de media hora, una hora y una hora y media respectivamente, obteniendo unas puntuaciones de 50, 80 y70. Por la duracin de los exmenes cabra atribuirles las ponderaciones de 1, 2 y 3 respectivamente. xi Ponderacin 50 1 80 2 70 3

Calcular la puntuacin media del alunno. Solucin: Obtendramos la siguiente media aritmtica ponderada:

x=

50.1 + 80.2 + 70.3 420 = = 70 1+2+3 6

1.1.4.3 Media geomtrica


Se define como la raz n-sima del producto de todos los n valores de la distribucin:

G = n x11 x 22 !x kk
Tomando logaritmos quedara: log G =
1" k $ ! f logx % i' n # i=1 i &

Es decir, el logaritmo de la media geomtrica es la media aritmtica de los logaritmos de los valores. En su clculo se suele utilizar esta propiedad. Veamos, por ejemplo, cmo calcular la renta media durante varios periodos de tiempo.

30

EJEMPLO 1.13 Si invertimos 100.000 pts al 3% durante un ao, al 5% durante otro ao y al 8% durante un tercero, cul es la renta media a la que est invertido el dinero durante los tres aos?. Solucin: Cabra esperar que la solucin fuera la media aritmtica de las tres rentas, es decir el 5%, pero la realidad es otra; en efecto: Teniendo en cuenta que:

C(1 + r m ) =C(1 + r1 )(1 + r 2 )(1 + r 3 )


3

Se verificar que

1 + r m = 3 (1 + r1)(1 + r 2 )(1+ r3 )
Es decir, que 1+rm es la media geomtrica de las rentas de cada anuales, expresadas en tanto por uno, ms uno. En nuestro problema: 1 + r m = 3 1.03!1.05!1.08 = 1.0497 es decir, el rdito medio es del 4,97% ( media geomtrica de los rditos anuales ), y no el 5% como pareca ser. Veamos otro ejemplo en el que interese utilizar logaritmos. EJEMPLO 1.14 Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente: Talla en cm. Frecuencia Calcular la talla media Solucin: La media geomtrica sera:
G=
22

100 10

120 5

125 4

140 3

100

10

!120 !125 !140

31

Para calcular el valor de G tomaremos logaritmos, de manera que:

log G =

1 (10 log100 + 5 log120 + 4 log125 + 3 log140) = 22 1 = 45.22193 = 2.05554 22


G = anti log 2.05554 = 113.6cm

La media geomtrica tiene una ventaja sobre la media aritmtica y es que es menos sensible a los valores extremos. Como inconvenientes principales sealar que tiene un significado estadstico menos intuitivo que la media aritmtica, su clculo es difcil y a veces no se puede calcular (si un valor de la variable es 0).

1.1.4.4 Media armnica


Se define como el inverso de la media aritmtica de los inversos de los valores de la variable. Es decir:

n A= k 1 ! fi i=1xi
Como ventajas podemos mencionar que intervienen todos los valores de la variable y que, en ciertos casos, es ms representativa que la media aritmtica. Como inconvenientes hay que citar la gran influencia de los valores pequeos y que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para promediar velocidades, tiempos, etc.

EJEMPLO 1.15: Supongamos un mvil que efecta un recorrido de 100 km, en dos sentidos. En un sentido va a una velocidad constante v1 = 60 Km/h y en el otro tambin circula a una velocidad constante v2=70 Km/h y, por tanto, diferente de la anterior.

32

Calcular la velocidad media del recorrido total debemos calcular la media armnica. Solucin: En este caso, si queremos calcular la velocidad media debemos calcular la media armnica.
v= espacio 2s = timpo t1 + t 2

Pero

s 100Km = v1 60 Km h s 100 Km t2 = = v 2 70Km h t1 =


Luego, sustituyendo, obtenemos que:
v= 2s 200Km 2Km = 100 Km = 1 100Km 1 = 64.62Km h t1 + t 2 + + 60 Km h 70 Km h 60 h 70h

RELACION ENTRE LAS MEDIAS La relacin existente entre estas tres medias es:

H ! G ! x cuando las tres medias existen.

1.1.4.5 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la variable de menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor cuya frecuencia absoluta acumulada es n/2.

33

DATOS SIN AGRUPAR N impar de trminos

Si la distribucin est sin agrupar, y hay un n impar de trminos, la mediana ser el que ocupa la posicin central. Por ejemplo, si los valores de la variable son {1,2,3,4,5} la mediana sera Me = 3 N par de trminos

Pero si hay un n par de trminos habra dos trminos centrales y se toma como mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14} La mediana seria: M e =

7+9 =8 2

DATOS CON FRECUENCIAS Variable discreta Si los datos presentan diferentes frecuencias, el mtodo ms prctico es buscar en la columna de frecuencias acumuladas n/2.

EJEMPLO 1.16: Si la distribucin es: xi 1 2 5 7 10 13 Total Calcular la mediana fi 3 4 9 10 7 2 35 Fi 3 7 16 26 33 35

34

Solucin:

n 35 = = 17.5 2 2
La mediana es Me = 7, puesto que desde el que ocupa el lugar 17 hasta el de lugar 26 todos los valores son 7. Es decir, si Fi-1 < n/2 < Fi, entonces, Me = xi

Variable continua o datos agrupados en intervalos En el caso de estar la distribucin agrupada en intervalos (sean o no de la misma amplitud) al buscar el valor que ocupa el lugar n/2 nos encontramos con un intervalo, el intervalo mediano, y no con un dato. Para determinar un nico representante de dicho intervalo como mediana, determinaremos el elemento que en el polgono de frecuencias acumuladas toma de frecuencia n/2.

Figura 1.15: Polgono acumulativo de frecuencias para el clculo de la Mediana

35

En el grfico de la figura 1.15 se observa la forma de determinar la mediana. La mediana vale: Me = Li-1 + m Como los tringulos ABC Y AB'C' son semejantes, resulta que:

AC BC = AC' B' C'


es decir:

n m 2 ! F i!1 = c i Fi ! Fi!1
por lo tanto:

n ! Fi !1 2 m= ci fi
De lo anterior se deduce que la Mediana se calcula de la siguiente forma:

n ! Fi !1 Me = L i !1 + 2 ci fi

VENTAJAS E INCONVENIENTES Como ventajas de la mediana podemos citar que no est influida por los valores extremos como en el caso de la media, y adems tiene sentido en casos de distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms representativa de estos por describir la tendencia central de los mismos. Como inconvenientes puede ser la determinacin de sta en los casos de variables agrupadas en intervalos.

36

EJEMPLO 1.17: Sea la siguiente distribucin de salarios y calculemos el salario mediano.

Clase 1 2 3 4 5

Salario anual 20000 a 25000 25000 a 30000 30000 a 35000 35000 a 40000 40000 a 45000

N de obreros 100 150 200 180 41 ------671

N acumulado de obreros 100 250 450 630 671

Solucin:

n 671 = = 335.5 , valor que nos indica que el salario anual mediano 2 2 pertenece a la tercera clase.
Tenemos que La amplitud del tercer intervalo es ci = 5000, luego:

Me = 30000 +
es decir, Me = 321375

335.5 ! 250 5000 = 3000 + 2137.5 200

1.1.4.6 Moda
Es el valor de la variable que ms veces se repite en una distribucin de frecuencias, es decir, el que tiene mayor frecuencia absoluta. Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en intervalos, se procede de forma diferente:

DISTRIBUCIN SIN AGRUPAR EN INTERVALOS DE CLASE La moda es el valor ( o valores ) que presenten mayor frecuencia absoluta.

37

EJEMPLO 1.18: Consideremos la siguiente distribucin: xi fi 1 3 2 4 5 9 7 10 10 7 13 2

Observando la fila de frecuencias, se ve que Mo = 7 Puede ocurrir que una distribucin presente ms de una moda (bimodal, trimodal, etc.), e incluso que presente una moda absoluta y alguna moda relativa. Las representaciones serian (ver figuras 1.16 y 1.17):

Figura 1.16: Representacin de una distribucin con una nica moda y otra bimodal

Figura 1.17: Modas en una distribucin bimodal

38

DISTRIBUCIN AGRUPADA EN INTERVALOS DE CLASE Si la distribucin est agrupada en intervalos, se proceder de forma diferente segn que la amplitud sea constante o no. Amplitud constante Si la amplitud es constante, la mxima frecuencia nos determina un intervalo, el intervalo modal, pero hay que seleccionar un valor de ese intervalo que haga el papel de moda. En este caso hay varios criterios: unos seleccionan el extremo inferior del intervalo, otros el extremo superior y otros la marca de clase, pero habr que tener en cuenta que la moda estar ms cerca del intervalo contiguo de mayor frecuencia.

Figura 1.18: Histograma para el clculo de la Moda

Es claro que Mo = Li-1 + m . Veamos la determinacin de "m". Dado que los tringulos OAA' y OBB' son semejantes por tener los ngulos iguales, se puede establecer la proporcin:

OQ BB' OQ BB' OQ + PO BB' +AA' = ! +1 = +1 ! = PO AA' PO AA' PO AA'


invirtindola resulta:

39

PO AA' m d1 = ! = OQ + PO BB' +AA' ( c i " m ) + m d1 + d2 siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los

intervalos anterior y posterior respectivamente. Por lo tanto la moda valdra:


Mo = L i!1 + d1 c d1 + d 2 i

EJEMPLO 1.19: Calculemos la Moda de la siguiente distribucin: Intervalo 0 - 25 25 - 30 50 - 75 75 - 100 Total Frecuencia 20 40 100 60 220

Solucin: El intervalo modal es el 50 - 75, y como d1 = 100 - 40 = 60 , d2 = 100 - 60 = 40 resulta que Mo = 50 +

60 25 = 50 + 15 = 65 60 + 40

Amplitud no constante Si la amplitud de los intervalos es variable, teniendo en cuenta que la altura del rectngulo indica la densidad de frecuencia, el intervalo modal ser el que tenga mayor densidad de frecuencia, es decir mayor altura.

EJEMPLO 1.20: Calculemos la Moda de la siguiente distribucin:

40

Intervalo 4 -7 7-9 9 - 15 15 - 30 30 - 60 60 - 100 ms de 100 Total

fi 6 7 17 13 4 2 1 50

ci 3 2 6 15 30 40 --

ai 2 3,5 2,8 0,8 0,1 0,05 ---

Solucin: Primero se procede a buscar la mayor altura: ai = fi / ci Se contina como en el caso anterior sustituyendo la frecuencia por la altura. El intervalo modal es el 7-9, y por lo tanto: d1 = 3,5 - 2 = 1,5 d2 = 3,5 - 2,8 = 0,7 As la moda ser:

Mo = 7 +

1.5 25 = 7 + 1.36 = 8.36 1.5 + 0.7

VENTAJAS E INCONVENIENTES Como ventajas de la moda cabe citar que cuando la distribucin es de escala nominal (no susceptible de ordenacin) es la medida ms representativa, pues no es posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las otras medidas. Adems igual que la mediana, no viene influida por los valores extremos de la variable. Como inconveniente cabe citar el modo de calcularla en los casos de variables agrupadas en intervalos y el hecho de que utiliza un nico dato de la distribucin.

41

Calculemos en un ejemplo la media aritmtica, la moda y la mediana de una distribucin para hacernos una idea de cul de ellas es la medida de centralizacin ms representativa en la situacin estudiada.

EJEMPLO 1.21: El sueldo anual de los 25 trabajadores de una empresa viene expresado en la tabla siguiente: Director Gerente Dos ingenieros Tres peritos Cinco encargados Contable Resto plantilla 10.000.000 pts. 6.000.000 pts. 4.000.000 pts. cada uno. 2.500.000 pts. cada uno. 2.000.000 pts. cada uno. 1.800.000 pts. cada uno. 1.300.000 pts. cada uno.

Calcular la media, la moda y la media y efectuar un estudio comparativo de los resultados. Solucin: Calculando la media aritmtica de los sueldos vemos que es de 2.356.000 pts. cantidad que, adems de no ser el sueldo de ningn empleado de la compaa, da una idea poco aproximada de la realidad, toda vez que la mayora de los trabajadores ganan bastante menos de esa cantidad. La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es 1.800.000 pts. Estas dos medidas indican ms claramente la situacin en la empresa, siendo la moda la que mejor resume la situacin.

42

1.1.5 Medidas de posicin no centrales


Estos valores no reflejan ninguna tendencia central, sino una posicin de la distribucin, dividindola a sta en partes iguales. Cabe citar entre los de uso ms frecuente: cuartiles, deciles y percentiles. 1) Los cuartiles son tres valores que dividen a la distribucin en cuatro partes iguales, estando en cada una de ellas el 25% de sus observaciones. Se indican con Qi. 2) Los deciles son nueve valores que dividen a la distribucin en diez partes iguales, estando en cada una de ellas el 10% de las observaciones. Se indican por Di. 3) Los percentiles son noventa y nueve valores que dividen a la distribucin en cien partes iguales, dejando un 1% de las observaciones entre cada dos de ellos consecutivos. Se nombran por Pi. Hay que tener en cuenta algunas relaciones entre ellos, como son: Me = Q2 = D5 = P50 Q1 = P25 ; Q3 = P75 D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60 Para el clculo de todos los cuantiles el proceso es anlogo al clculo de la mediana, sustituyendo n/2 por r.n/k, siendo r el orden del cuantil y k las partes en que dicho cuantil divide a la distribucin. As en los cuartiles k = 4 y r = 1, 2, 3 ; en los deciles k = 10 y r = 1, 2,....., 9, y en los percentiles k = 100 y r = 1, 2, 3,....., 99.

Se procede pues buscando en las frecuencias acumuladas el valor de rn/k, y si la distribucin est agrupada, el cuantil r/k ser:

n ! F i!1 C r k = L i !1 + k ci fi r

43

VENTAJAS E INCONVENIENTES Las ventajas e inconvenientes son las mismas que los de la mediana.

EJEMPLO 1.22: En el ejercicio de la distribucin de salarios, calculemos Q1, Q3, D4, P88 Solucin: Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000

671 ! 100 Q1 = 25000 + 4 5000 = 25000 + 2258.3 = 27258.3 150


Para Q3: como 3.671/4 = 503,25 ,el intervalo del tercer cuartil es el 35000 - 40000

671 ! 450 Q3 = 35000 + 4 5000 = 35000 + 1479.16 = 36479.16 180 3


Para D4: como 4.671/10 = 2684 , el intervalo del cuarto decil es el 30000 - 35000

671 ! 2500 D4 = 30000 + 4 5000 = 30000 + 460 = 30460 200 4


Para P88: como 88.671/4 = 590,48, el intervalo del percentil ochenta y ocho es el 35000 - 40000

P88 = 35000 +

88

671 ! 450 4 5000 = 35000 + 3902.2 = 38902.2 180

44

1.1.6 Medidas de dispersin


En el apartado anterior hemos definido una serie de medidas de tendencia central, cuyo objetivo era tratar de sintetizar toda la informacin disponible, pero cabe preguntarse posteriormente si esa medida es o no representativa de la distribucin de frecuencias.

Si consideramos dos variables X e Y con distribuciones: xi fi 0 1 500 1 1000 1 yi fi 499 1 501 1

Las medias son :

x=

0 + 500 + 1000 = 500 3

y=

499 + 501 = 500 2

Las dos medias son iguales y sin embargo las dos distribuciones son muy diferentes pues los valores de X estn mucho ms dispersa que los de Y. As pues, para intentar medir la representatividad de una determinada medida debemos de cuantificar la separacin de los valores de la distribucin respecto de dicha medida. As pues, resulta necesario que, para completar la informacin de un promedio (por ejemplo media aritmtica), ste vaya acompaado de uno o varios coeficientes que nos midan el grado de dispersin de la distribucin de la variable con respecto a l. Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.

1.1.6.1 Medidas de dispersin absoluta


Cabe citar entre stas el recorrido, el recorrido intercuartlico, la desviacin media, la varianza y la desviacin tpica. Todas son referidas en general a un promedio.

45

RECORRIDO O RANGO: Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor de la distribucin:

Re = Max (xi) - Min (xi) Si este recorrido es pequeo respecto al nmero de datos puede entenderse que existe poca dispersin. Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que se calcula).

RECORRIDO INTERCUARTLICO: Es la diferencia existente entre el tercer y el primer cuartil RI = Q3 - Q1 En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo tanto no se ve influenciado por los valores extremos, y nos indica la longitud del intervalo en el que estn el 50% central de los valores En algunos casos se utiliza el recorrido semiintercuartlico que se define como la mitad del recorrido intercuartlico. RSI = (Q3 -Q1)/2 DESVIACIN MEDIA: Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las anteriores; puede entenderse como la media de las desviaciones de los datos de la variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviacin media resulte igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la desviacin de los datos respecto del promedio. As se definir la desviacin media respecto de la media como:

46

k f D x = " xi ! x i n i=1

Tambin se puede utilizar la desviacin media respecto de la mediana como:


k f DMe = " x i ! Me i n i=1

Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado, en el caso de que sta fuera grande el promedio sera poco representativo.

VARIANZA: Se define como la media de los cuadrados de las desviaciones de los valores de la variable respecto de la media aritmtica, es decir:
k k 2f 2 s2 = " ( xi ! x ) i = " (x i ! x) h i n i =1 i=1

Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o menor dispersin de los valores de la variable respecto de la media aritmtica, y por lo tanto, su representatividad. Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el cuadrado de las mismas, por ello se utiliza ms la siguiente.

DESVIACIN TPICA O ESTNDAR: Se define como la raz cuadrada positiva de la varianza, es decir:
s=

i =1

" ( x i ! x)

2 fi =

i =1

" (x i ! x) hi
2

Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo en la actualidad la ms utilizada.

47

A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1, obtenindose la llamada cuasivarianza:

2 = " ( xi ! x )2 s
i=1

fi n !1

y cuasidesviacin tpica:
= s

i=1

" ( xi ! x )

2 fi

n !1

Siendo la relacin entre la varianza y la cuasivarianza la siguiente:

2 = s

n 2 s n !1

PROPIEDADES DE LA VARIANZA Y DE LA DESVIACIN TPICA:

La varianza y la desviacin tpica no pueden ser negativas, por ser suma de

cuadrados: s2 0, s0

Si en una distribucin le sumamos a todos los valores de la variable una

constante, la varianza y la desviacin tpica no varan. Si en la distribucin (xi fi) de media


k f x = ! xi i , y de varianza i=1 n

sumamos a todos los elementos una constante k, obtenemos otra n distribucin de variable x'i = xi + k .
i=1

s2 = " ( xi ! x )

2 fi

Como, x' = x + k resulta que la varianza de la nueva distribucin ser:

48

s' 2 = " x'i ! x'

( i=1
k

)2 fni = i"[( xi + k ) ! (x ! k )]2 fni = =1


k

k f = " ( xi ! x )2 i = s2 n i=1

es decir, que la varianza no varia, y por lo tanto, la desviacin tpica tampoco.

Si en una distribucin multiplicamos a todos los valores de la variable por

una constante, la varianza queda multiplicada por el cuadrado de la constante y la desviacin tpica queda multiplicada por la constante. En efecto: Si tomamos la distribucin x'' = kx i teniendo en cuenta que x' = kx , resulta que i la varianza de la nueva distribucin vale:
k k 2 fi f s' ' 2 = " x'i' ! x' ' = " ( kx i + kx) i = n i=1 n i =1 k f = " k2 (xi ! x )2 i = k2 s2 n i =1

y por ser la desviacin tpica la raz cuadrada de la varianza queda:


s' ' = s'' 2 = k 2s2 = ks

CLCULO PRCTICO DE LA VARIANZA* En la prctica, al calcular la varianza conviene tener en cuenta la siguiente expresin:

La media, la varianza y la desviacin tpica las proporciona directamente cualquier calculadora de bolsillo, luego nomerece la pena hacer perder tiempo al alumno escribiendo tablas con xifi etc.

49

s 2 = " ( xi ! x )

k f 2 fi = " x 2 ! 2xi x + x 2 i = i n i =1 n i=1 k k k f k f f f = " x2 i ! 2x " x i i + x 2 " i = " x 2 i ! 2x 2 + x 2 = x 2 ! x 2 i i n n i=1 i=1 n i =1 n i =1

Veamos el clculo de la varianza y desviacin tpica en los ejemplos 1.9 y 1.10: xi 54 59 63 64 fi 2 3 4 1 10

f x = ! x i i = 60.1 Kg n i k 2 2f s2 = s = ! xi i " x = 36247/10 -(60,1)2 = 3624,7 - 3612,01 = 12,69 Kg2 n i=1


s = 12.69 = 3,5623 Kg.

En el ejemplo de datos agrupados en intervalos es: Intervalo 30-40 40-50 50-60 marca de clase 35 45 55 fi 3 2 5 10

x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76 S = 76 = 8,718

50

1.1.6.2 Medidas de dispersin relativas


En el caso de intentar comparar la dispersin de dos distribuciones mediante alguna de las medidas de dispersin halladas antes, no podramos efectuar tal comparacin porque las distribuciones, en general, no vendrn dadas en las mismas unidades y tampoco porque los promedios en general tambin sern diferentes. Por ello, para poder comparar las dispersiones, es preciso definir medidas de dispersin adimensionales. Entre stas se encuentra el coeficiente de variacin de Pearson.

COEFICIENTE DE VARIACIN DE PEARSON: Es el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica.
CV = s x

Este coeficiente es adimensional luego permite comparar las dispersiones de dos distribuciones diferentes. A menudo se le suele utilizar en forma de porcentaje, empleando CV =
s 100 x

Obviamente, a mayor CV menor es la representatividad de x , pues la desviacin tpica ser mayor comparada con la media.

1.1.7 Momentos
Existen dos tipos de momentos:

1.1.7.1 Momentos centrales (respecto a la media aritmtica)

51

Se define el momento central de orden r respecto de la media aritmtica x como la media aritmtica de las potencias de orden r de las desviaciones de los datos respecto de la media:

m r = " (xi ! x )
i=1

r fi

En particular, se verifica que: - El momento central de orden 0 vale 1:


k k f n 0f m 0 = " (x i ! x) i = " i = = 1 n i=1 n n i =1

- El momento central de orden 1 vale 0:


k k k f f n 1f m1 = " (x i ! x) i = " x i i ! x " i = x ! x = 0 n i =1 n n i =1 i =1 n

- El momento de orden 2 es la varianza.

1.1.7.2 Momentos con respecto al origen


Se define el momento de orden r con respecto al origen como la media aritmtica de las potencias de orden r de los datos de la variable:

r f a r = ! xr i i i=1 n

Como casos particulares cabe destacar: - El momento de orden 0 vale 1:


k k f f a0 = ! x 0 i " x ! i = 1 i n i=1 i =1 n

- El momento de orden 1 es la media aritmtica

52

Existe una relacin entre los dos momentos, que nos da una forma reducida de calcular la varianza:

s = m 2 = " (x i ! x)
2 i =1

2 fi

k 2f 2 2 = " x i i ! x = a 2 ! a1 n i =1 n

53

1.1.8 Medidas de forma


Para tratar de conocer una distribucin no basta con conocer sus medidas de dispersin y de posicin, sino que es necesario, en general, conocer algunos aspectos ms de la misma. Dado que la diversidad de comportamientos de las xi de la distribucin se haca ms patente al realizar la representacin grfica, vamos a tratar de determinar a continuacin ms medidas, segn la "forma" de la representacin; clasificaremos estas medidas en dos grupos: medidas de asimetra y medidas de curtosis o apuntamiento.

1.1.8.1 Medidas de asimetra


Tienen por objeto establecer el grado de simetra (o asimetra) de una distribucin sin necesidad de realizar la representacin grfica. Entenderemos la simetra respecto al eje determinado por la media aritmtica, de tal forma que diremos que una distribucin es simtrica cuando los valores de la variable equidistantes de este valor central tengan la misma frecuencia, en caso contrario diremos que es asimtrica, siendo esta asimetra negativa o a izquierda si es ms larga la rama de la izquierda, es decir, las frecuencias descienden ms lentamente por la izquierda que por la derecha; analogamente llamaremos asimetra positiva o a derechas aquella en que la rama de la derecha es ms larga, es decir las frecuencias descienden ms lentamente por la derecha que por la izquierda.

COEFICIENTE DE ASIMETRA DE FISHER Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas de los valores respecto de la media. La figura 1.19 nos muestra las distintas distribuciones:

54

g =0
1

g >0
1

_ x

Distribucin simtrica

Distribucin asimtrica a la derecha

Mo

g <0
1

Distribucin asimtrica a la izquierda


Figura 1.19: Distintos tipos e distribuciones segn su simetria

Mo

Dado que

i =1

" (x i ! x)

fi =0 n

hay que buscar una medida que venga influida por el signo; sta ser:

m 3 = " (x i ! x)
i =1

3 fi

ya que si la curva es simtrica m3 = 0 si la curva tiene asimetra positiva o a derechas, m3 > 0 si la curva tiene asimetra negativa o a izquierdas, m3 < 0 Para que no tenga dimensin debemos dividirla por una medida con las mismas unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.

55

m g1 = 33 = s

" (x i ! x) ni i =1

3f

#k 2 f &2 " (x i ! x ) i ( % n' $ i=1

Siendo su interpretacin: Si g1 > 0 la distribucin es asimtrica positiva o a derecha. Si g1 = 0 la distribucin es simtrica. Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.

COEFICIENTE DE ASIMETRA DE PEARSON Otra medida de asimetra es el coeficiente de asimetra de Pearson definido por:

Ap =

x ! Mo s

Teniendo en cuenta que si la curva es simtrica, x = Me = Mo, si la distribucin es asimtrica positiva o a derechas x > Mo y si la distribucin es asimtrica negativa o a izquierdas x < Mo, su interpretacin ser: Ap = 0 la distribucin es simtrica. Ap > 0 la distribucin es asimtrica positiva (derechas) Ap < 0 la distribuciones asimtrica negativa (izquierdas) Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson demostr empricamente que

x ! Mo " 3( x ! Me)
por lo que algunos autores utilizan como coeficiente de asimetra de Pearson

Ap =

3( x ! Me) s

Existen otros tipos de coeficientes de asimetra, pero son menos utilizados.

56

1.1.8.2 Medidas de curtosis o apuntamiento


Estas medidas, aplicadas a distribuciones unimodales simtricas o con ligera asimetra, tratan de estudiar la distribucin de frecuencias en la zona central, dando lugar a distribuciones muy apuntadas, o poco apuntadas. Para estudiar el apuntamiento, debemos hacer referencia a una distribucin tipo que consideraremos la distribucin "Normal"; sta corresponde a fenmenos muy corrientes en la naturaleza cuya representacin grfica es la campana de Gauss. Si una distribucin tiene mayor apuntamiento que la normal diremos que es "leptocrtica", si tiene menor apuntamiento que la normal la llamaremos "platicrtica", y a las que tengan igual apuntamiento que la normal las llamaremos "mesocrticas". Veamos esto en unas figuras 1.20a y b:

Figura 1.20: Diferentes distribuciones segn su apuntamiento. Comparacin con la Normal

En la distribucin normal m4 = 3.s4, por lo tanto utilizaremos como coeficiente de apuntamiento o curtosis.
4f " ( xi ! x ) i k

m g 2 = 44 = i=1 s #k 2 " (x i ! x) %i =1 $

fi & n( '

siendo la interpretacin la siguiente:

57

Si g2 > 3 la curva es ms apuntada que la normal (leptocrtica). Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocrtica). Si g2 < 3 la curva es menos apuntada que la normal (platicrtica). A veces se utiliza como coeficiente de curtosis:

m g 2 = 44 ! 3 s
y la comparacin ser con 0, obtenindose: g2 = 0 (mesocrtica). g2 > 0 (leptocrtica). g2 < 0 (platicrtica)

NOTA: El clculo de m3 y m4 es ms prctico utilizando las frmulas: m3 = a3 - 3a2a1 + 2a13 m4 = a4 - 4a3a1 + 6a2a12 - 3a14 siendo a1 = x .

1.1.9 Medidas de concentracin


Aunque "dispersin" y "concentracin" tengan significados opuestos en el lenguaje coloquial, en estadstica no coincide el concepto de concentracin con la acepcin normal del vocablo. La "dispersin" hace referencia a la variabilidad de los datos, a las diferencias existentes entre ellos y la representatividad de los promedios. La "concentracin", por su parte, se refiere al mayor o menor grado de igualdad en el reparto de todos los valores de la variable. Estas medidas de concentracin tienen especial aplicacin a variables econmicas (rentas, salarios, etc.), pues lo que interesa es la mayor o menor igualdad en el reparto entre los componentes de la poblacin, es decir, que est equitativamente repartida.

58

Llamaremos, pues, concentracin al grado de equidad en el reparto de la suma total de la variable considerada. La concentracin es mxima si uno solo de los elementos recibe el total de la variable, mientras que la concentracin ser mnima o equidistribuida si todos los elementos perciben la misma cantidad. Entre los ndices de concentracin que estudiaremos se encuentran el ndice de Gini y la curva de Lorenz.

1.1.9.1 Curva de Lorenz


Es una representacin grfica de la concentracin. Llamando

u r = ! xif i ,
i=1

pr =

Fr u 100 , q r = r 100 n n

Si representamos los valores pr en el eje de abscisas y los valores qi en el eje de ordenadas, dibujando en el cuadrado de lado 100 los puntos pi y qi, y unindolos, queda determinada una poligonal llamada "curva de Lorenz". Vemoslo en un ejemplo econmico (tengamos en cuenta que lo anterior no es aplicable a todo tipo de variables): Supongamos que tenemos k trabajadores, con salarios x1 x2 ... xk ordenados en sentido creciente. Queremos saber como se reparte la suma total de salarios

S = ! xi
i=1

entre los k trabajadores. La concentracin es mxima si x1 = x2 = ........= xk-1 = 0; xk = S es decir, un solo trabajador recibe todo y el resto nada.

59

La concentracin es mnima si x1 = x2 = .........= xk, es decir, todos los trabajadores reciben lo mismo. Para determinar el ndice de concentracin se forman las columnas siguientes: 1- xifi que denota el salario recibido por los ni trabajadores. 2- Fi columna de frecuencia absolutas acumuladas. 3- ur, acumulador de la primera columna que denota el salario total recibido por los Fr primeros trabajadores, siendo su valor u r = ! xif i
i=1 r

4- pr, que es la frecuencia relativa acumulada en tantos por 100:

F pr = r 100 n
5- qr, que es el porcentaje del salario total que reciben los Ni primeros trabajadores:

u q r = r 100 n
Si la concentracin fuese mnima, pr = qr igualmente repartida. Si la concentracin fuese mxima, q1 = q2 =..........= qk-1 = 0, qk = 100 La representacin de la curva de Lorenz sera:

60

Figura 1.21: Curva de Lorenz

Los casos extremos nos daran las siguientes grficas (figura 1.22 y b):

qi %

qi %

Distribucin de concentracin mnima

(a)

pi %

Distribucin de concentracin mxima

(b)

pi %

Figura 1.22: Casos extremos de concetracin

Como propiedades de esta curva de Lorenz pueden citarse las siguientes: - La curva es siempre creciente, pues la ordenacin de salarios es de menor a mayor. - La curva empezar en el origen O = (0,0) y terminar en el (100,100)B - La curva est siempre situada por debajo de la diagonal. - La concentracin ser menor cuanto ms prxima est la curva de Lorenz a la diagonal.

1.1.9.2 ndice de Gini


Se define el ndice de concentracin de Gini por :

" (p i ! q i ) i =1 IG = k !1 " pi i =1

k !1

61

Si la concentracin es mnima (pi = qi) vale 0 y si la concentracin es mxima (q1 = q2 =........= qk-1 = 0) vale 1. As pues el ndice de Gini varia de 0 a 1, siendo menor la concentracin y en consecuencia ms justa y equitativa la distribucin cuanto ms prximo est a cero, mientras que la concentracin ser mayor cuanto ms prximo est a 1 (Ver figura 1.23). Por ltimo cabe sealar, que aunque el ndice de Gini tiene la ventaja de resumir en un solo nmero lo recogido en la curva de Lorenz, a veces, dos distribuciones de aspectos muy diferentes pueden tener dos ndices de concentracin de Gini iguales, como indican las curvas de la figura 1.23.

Figura 1.23: Diferentes curvas de Lorenz

62

"REPRESENTACIONES GRAFICAS" 1.2 Ampliacin

63

Quizs fuese interesante, presentar el tema de las representaciones grficas al alumno, mediante una introduccin desde la perspectiva del lenguaje grfico y de su utilidad y difusin en el mundo que nos rodea. Sera una buena forma de motivarle para que prestase atencin sobre la importancia de saber leer de forma correcta los grficos ms usuales.

1.2.1 El lenguaje grfico


El lenguaje grfico es el "conjunto de smbolos y convenios que permiten comunicar una informacin cuantitativa de la manera ms eficiente posible" (GETE-ALONSO y del BARRIO, 1990). Este lenguaje se sirve de numerosos signos y smbolos que han evolucionado con el tiempo y que encontramos en casi todas las manifestaciones de la actividad humana, emplendose para expresar de manera rpida y sucinta ideas, objetos y situaciones, en muchas ocasiones con significado universal.

1.2.1.1 El lenguaje grfico en la vida cotidiana


Si nos detenemos un momento a pensar en el mundo que nos rodea vemos como el lenguaje grfico se utiliza en absolutamente todo nuestro entorno (figura 1.24). Lo encontramos en las instrucciones de lavado de cualquier prenda de vestir, en la informacin sobre los transportes metropolitanos de cualquier ciudad, en las teclas que hacen funcionar los electrodomsticos, en los mapas de carreteras, en la informacin acerca de la calidad y categora de restaurantes y hoteles, en las seales que regulan el trfico, en el parte diario acerca del estado del tiempo, en los emblemas y distintivos de organizaciones y sociedades, etc. etc.

64

Figura 1.24.- Importancia y actualidad del lenguaje grfico (Tomada de AVILA-ZARZA, 1993)

1.2.1.2 El lenguaje grfico como herramienta de comunicacin social


Hace ya tiempo que las representaciones grficas abandonaron las publicaciones especializadas, en las que se utilizan como herramienta de comunicacin y anlisis de datos estadsticos, para pasar a formar parte de las herramientas de comunicacin social (televisin, prensa, propaganda...). La generalizada utilizacin de las representaciones grficas es sin duda sorprendente. Podemos encontrarlas en billetes, como el de diez Marcos alemanes de la figura 1.25, en el que aparece representada la curva normal de Gauss.

65

Figura 1.25: Billete de diez marcos alemanes, en el que est impresa la Curva Normal de Gauss

Tambin es posible encontrarlas ya en obras dirigidas al gran pblico, cuya nica intencin es entretener. As ocurre, por ejemplo, con la conocida novela de ficcin "Parque Jursico" (CRICHTON, M. 1990-92) en la que un Diagrama de perfil - (ver figura 1.26) sirve de base argumental.

Figura 1.26.

Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos inmersos en una "sociedad estadstica", entendiendo como tal aqulla en la que los ciudadanos piensan, razonan y toman decisiones en base a anlisis estadsticos de datos.

66

Aunque en Espaa la Estadstica dista an de ocupar un lugar como el que, por ejemplo, tiene en un pas como Japn, donde los peridicos de mayor difusin e importancia incluyen los viernes una seccin dedicada al control estadstico de calidad y en el que, por ejemplo, el diagrama horario del tren de Tokio se presenta mediante un clsico Steam and Leaf (ROMERO, 1991)* , somos en la actualidad espectadores de un cambio significativo. Cada vez en mayor medida se recurre a datos y anlisis estadsticos para transmitir la informacin, siendo los Mtodos Grficos de carcter descriptivo la herramienta de la que no se puede prescindir** . Un claro ejemplo de esta situacin de transicin, se produjo a raz de las elecciones generales realizadas en los dos ltimos comicios en nuestro pas, donde no slo los resultados de las encuestas, sino tambin los aspectos relacionados con aqullas eran objeto de anlisis estadstico, siendo los mtodos grficos las autnticas estrellas en la transmisin de la informacin.

1.2.2 El poder de los mtodos grficos


"Una imagen vale ms que mil palabras"*** . No slo el lenguaje grfico es importante; el poder de las representaciones grficas es un hecho. La visin es la modalidad sensorial dominante del ser humano; nuestro cerebro est altamente capacitado para el manejo de informacin visual, siendo capaz de reconocer y procesar imgenes grficas con una simple inspeccin ocular. As, est comnmente aceptado por la comunidad cientfica que, en general, una representacin grfica proporciona mayor informacin acerca de las caractersticas y patrones de los datos, que un texto o una presentacin tabular de los mismos.

Nos preguntamos, cuntos lectores en Espaa, sin y con conocimientos estadsticos bsicos podran ser capaces de interpretar uno similar...?. ** Todo ello ha motivado no sacrificar en el apartado de mtodos grficos la inclusin de aqullos, que an no siendo histricamente recientes, son an "grandes desconocidos". *** Provervio Chino

67

1.2.2.1 Los riesgos del Anlisis de Datos sin la utilizacin de grficos


LOS DIAGRAMAS DE ANSCOMBE El peligro de llevar a cabo anlisis de datos sin la utilizacin de grficos puede ponerse de manifiesto con los conocidos Diagramas de Anscombe (ANSCOMBE, 1973) (ver figura 6.19), los cuales evidencian cmo cuatro grupos de datos que producen idnticas rectas de Regresin (incluida la ordenada en el origen y la pendiente), idnticos coeficientes de correlacin e idnticos errores estndar, corresponden en realidad a casos muy diferentes. Como seala TUKEY (1962), gran parte del poder e importancia de los Mtodos Grficos, es que nos permiten percibir aquello que nunca esperbamos ver.

1.2.2.2 Los grficos como herramienta de engao


ESPACIO PERCEPTIVO Y ESPACIO MATEMTICO EUCLDEO A pesar de la reconocida importancia y poder del lenguaje grfico, el proceso perceptivo y cognoscitivo que se produce durante la inspeccin de un grfico no es del todo conocido. En las Matemticas los espacios se construyen a partir de unos axiomas, y se describen y definen por una geometra. Hay varios tipos de espacios matemticos, definidos por sus correspondientes geometras (topolgico, proyectivo, afn, eucldeo...). El ms conocido y utilizado, es el Espacio Eucldeo. El espacio fsico en el que vivimos, puede considerarse aproximadamente, y teniendo en cuenta el alcance de nuestra percepcin, como un espacio matemtico eucldeo. Admitir que el espacio fsico es eucldeo no equivale a que el perceptual lo sea, y as, aun no est claro que la idea subjetiva de distancia, por ejemplo, coincida con la distancia fsica definida en relacin con las coordenadas rectangulares. Segn VURPILLOT (1979), el espacio visual binocular es un espacio de curvatura negativa al que la geometra hiperblica de Lobatchefsky describra de forma ms adecuada.

68

Sin embargo, y a pesar de esta controversia acerca de si el espacio perceptivo coincide con en el espacio matemtico eucldeo, es ste -por aproximacin al espacio fsico- el que generalmente utilizamos para representar el mundo. No obstante, representadas en un espacio Eucldeo, las cosas no son siempre aquello que parecen ser. Como seala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente humana funciona como una totalidad, y no son los sentidos, sino el sujeto, quien percibe".

ILUSIONES GEOMTRICAS Lo que acabamos de comentar se pone especialmente de manifiesto en las conocidas distorsiones perceptivas o ilusiones geomtricas. (Ver figura 1.27a y b)

Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud, parecen de diferente tamao (b): Ilusin de PoggendorfLas lneas oblicuas son colineales

Estas distorsiones perceptivas, conocidas ya a principios de siglo, deberan ser tenidas en cuenta en el contexto de los Mtodos Grficos. Son sin embargo pocos los estudios experimentales realizados que examinan el papel de las distorsiones perceptivas (ilusiones geomtricas) en relacin con la utilizacin de los grficos, y la mayora de ellos no son conocidos por el usuario medio, como afirman SPENCE & LEWANDOWSKY (1990). POULTON (1985) ha investigado ilusiones similares a la clsica de Poggendorf, mediante experimentos que sugieren que las relaciones de lneas inclinadas sobre los ejes vertical y horizontal de los grficos pueden producir errores de lectura, que se incrementan a medida que aumenta la distancia a los ejes.

69

SOLUCIONES PARA MITIGAR LAS ILUSIONES GEOMETRICAS POULTON (1985) propone: que los todos los grficos muestren los cuatro ejes. que todos los ejes estn graduados. INCONVENIENTES DE LAS REPRESENTACIONES GRFICAS Las representaciones grficas tienen ventajas, pero tambin sus inconvenientes. La frase "una imagen vale ms que mil palabras" podra cambiarse por esta otra "una imagen miente ms que 1000 nmeros" (SWOBODA, 1975). Las representaciones grficas deberan proporcionar con una sola mirada aquella idea del material estadstico que vena dada por la comparacin de muchos nmeros y datos. Pero... no siempre es as. Los errores y malentendidos surgen cuando el lector es distrado o no est suficientemente preparado y adquiere una idea que no se corresponde con los datos originales.
10000 9000 8000 7000 6000 9500

9000 I 9% 8% 7% 7500 6% I 5% I/II II/III II III (b) IV 8000 II (a) III IV 8500

III/IV (c) Figura 1.28: La ascensin lenta de la curva (a) pone de manifiesto un crecimiento moderado. Los mismos datos pueden expresar un crecimiento explosivo y optimista (b). Se puede obtener una curva ascendente primero, y descendente despus si se toman los ndices de crecimiento de uno a otro perodo en lugar de los nmeros absolutos (c). (Adaptada de SWOBODA, 1975).

70

No se pueden juzgar nunca las imgenes solas, sino que siempre deben considerarse tambin los nmeros y las escalas.

1.2.3 Representaciones grficas ms usuales


1.2.3.1 Introduccin
El artculo publicado por TUKEY en 1962, "The Future of Data Analysis", fue el germen que proporcion un inusitado auge de Mtodos Grficos en la Estadstica, inaugurando una nueva era en este campo, al otorgarles un papel central en anlisis exploratorios. Sin embargo, la importancia y protagonismo que entonces se prevea, no lleg a hacerse realidad hasta ms tarde. Fue en la dcada de los 70 cuando aparecen publicaciones sobre el tema, tanto histricas (ROYSTON, 1970), como de recapitulacin (FIENBERG, 1977), o de carcter novedoso (CHERNOFF, 1973; TUKEY, 1977). Incluso tiene lugar un Simposio sobre el tema (WANG & LAKE,1978). La aparicin, desarrollo y generalizada utilizacin de los ordenadores fue y es, sin duda, la causa fundamental.

1.2.3.2 Clasificacin
Existen diversos criterios para clasificar los mtodos de representacin grfica: SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo, realizan una clasificacin de los distintos mtodos grficos en tres grandes grupos: -Grficos utilizados en Anlisis Exploratorios. -Grficos usados en Anlisis Confirmatorios. -Grficos para la Comunicacin y/o Presentacin de los resultados.

71

Esta clasificacin de los Mtodos Grficos, resulta de un gran atractivo por su sencillez y didctica. En la figura 1.29 podemos ver un esquema sobre de las fases del mtodo cientfico en donde tienen cabida las representaciones grficas.

Figura 1.29: Posible implementacin de los mtodos grficos en el proceso del Anlisis de Datos, segn NAGEL & DOBBERKAU (1988)

ALONSO (1982) realiza una clasificacin en funcin de la finalidad estadstica y las caractersticas tcnicas de los distintos mtodos grficos. En ella, stos son clasificados en cuatro grupos de tcnicas. -Tcnicas de Representacin Grfica de la distribucin de Probabilidad, para una o varias variables. -Tcnicas que proporcionan el Perfil (o evolucin) a lo largo del tiempo, o del espacio, etc., de una o varias variables, bien para individuos, bien para poblaciones. -Tcnicas que presentan las proximidades entre individuos y poblaciones, de acuerdo con los valores que toman para varias variables. -Tcnicas que permiten obtener grupos jerarquizados de individuos o poblaciones, en base a los valores que toman para varias variables.

72

En base al procedimiento grfico y la tcnica estadstica subyacente, en el Anlisis Multivariante pueden distinguirse claramente dos grandes grupos de tcnicas grficas: Mtodos Multivariantes Grficos (MMG). Mtodos Grficos Multivariantes (MGM). Los Mtodos Multivariantes Grficos son potentes herramientas de diagnosis basadas en el anlisis de grandes matrices de datos, que mediante complejos procesos algebraicos asentados sobre mtodos numricos, permiten representar la informacin del hiperespacio de partida en un subespacio de dimensiones reducidas. Evidentemente se trata de procedimientos sumamente interesantes, pero que escapan al contenido del presente captulo. Los Mtodos Grficos Multivariantes slo exigen efectuar una transcripcin geomtrica de los datos correspondientes a un conjunto de variables, en una representacin grfica. Este tipo de mtodos permiten resumir la informacin, y constituyen directamente un procedimiento grfico descriptivo. Entre ellos tenemos: Diagramas de Dispersin Mltiple. Figuras de Representacin (Grficos Pictoriales o Iconos). Curvas de Andrews. Estos mtodos sern tratados con mayor profundidad ms adelante. (Ver figura 1.30)

1.2.3.3 Representaciones grficas en el anlisis multivariante


MTODOS GRFICOS UNIVARIANTES MULTIPLES Muchas de las representaciones utilizadas en anlisis multivariante no son en s mismas multidimensionales ya que, a pesar de ser un conjunto de grficas que forman una representacin unitaria, cada una de ellas por separado slo muestra una dimensin (o a lo sumo dos) de los datos referidos a varias variables o dimensiones. Desde ellas no

73

se puede mostrar una variacin comn. Son por ello Mtodos Grficos Univariantes Mltiples, ms que multivariantes. Evidentemente, son muchas las posibilidades que permiten las representaciones univariantes en el anlisis de los datos correspondientes a varias variables. Sin embargo, estas representaciones no difieren en sus caractersticas de los mtodos grficos univariantes pero debido a su importancia, popularidad y utilizacin en todos los mbitos, merece la pena hacer referencia a tres tcnicas: Stem & leaf, Box-plot * Diagrama de dispersin** .


Diagrama de Dispersion Mltiple Grficos Pictoriales o Figurativos

Curvas de Andrews

Mapas Estadsticos

Figura 1.30: Algunos Mtodos Grficos Multivariantes (Tomado de AVILA-ZARZA (1993) con permiso del autor)

Stem & leaf

Ambos son mtodos grficos de gran utilidad en la comparacin de dos o ms series de datos, de ah su importancia dentro del anlisis multivariante ** Mediante esta representacin grfica es como generalmente se presentan los resultados en la mayora de los mtodos multivariantes grficos (MGM).

74

La representacin Stem & Leaf*** es una representacin intermedia entre una tabla y un grfico. Muestra los valores con cifras, aunque su perfil es el de un histograma. Este tipo de representacin se debe a TUKEY (1977). (Ver figura 1.31). Construccin de un diagrama Steam & Leaf 1.- Se debe escribir a la izquierda de una lnea vertical, de arriba hacia abajo, todos los posibles dgitos principales del conjunto de datos. 2.- Luego se representa cada dato a la derecha de la lnea, escribiendo sus dgitos secundarios en la fila apropiada. Lectura del grfico La longitud de cada fila nos muestra el nmero de valores en cada intervalo, por lo que representa esencialmente un histograma lateral, solventando una limitacin del histograma, ya que permite identificar los valores originales de cada intervalo.

La figura siguiente (figura 1.31) muestra el grfico Stem & leaf de los 50 estados de Estados Unidos ordenados segn la variable "voto medioambiental", cuyos datos aparecen en la tabla 1.1. Esta variable mide cmo la delegacin congresista de cada estado vot en relacin a temas de medioambiente durante el ao 1984. Refleja el porcentaje de veces que sus votos estuvieron de acuerdo con las recomendaciones del grupo "The League of Conservation Voters". As el valor de Idaho, 12, significa que el voto de sus representantes estuvo de acuerdo con la liga en el 12% de las ocasiones.

1 2 3 4 5 6 7 8 9

267 6 33345699 01477779 123456667799 224999 02222499 26 6

Figura 1.31: Representacin Stem & leaf de la tabla 1.1

***

Literalmente traducido, diagrama de tallo y hojas

75

Se observa claramente cmo el rango del porcentaje vara desde 12 hasta 96. Tambin puede apreciarse como la distribucin es aproximadamente simtrica de modo que el valor mediano (siendo este valor 55%) se encuentra en el intervalo de 50 a 60
(opcionalmente puede indicarse poniendo entre parntesis el tallo correspondiente).

76

Estado Idaho Utah Alaska Wyoming Alabama Mississippi Virinia Nebraska Arizona Arkansas Texas Kansas Louisiana Kentucky N. Carolina Tennessee New Mexido Nevada S. Carolina Colorado Georgia Florida Oclahoma Oregon Indiana

Porcentaje de voto medioamb. 12 16 17 26 33 33 33 34 35 36 39 39 40 41 47 45 47 47 47 47 49 51 52 53 54

Estado S. Dakota Illinois Montana Missouri Ohio Washington California N. Dakota Maryland Pnnsylvania Hawaii Delaware Michigan W. Virginia Minnesota New York Wisconsin New Hampsh. New Jersey Iowa Maine Connecticut Massachusetts Rhode Island Vermont

Porcentaje de voto medioamb. 55 56 56 56 57 57 59 59 62 62 64 69 69 69 70 72 72 72 72 74 79 79 82 86 96

Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de EE.UU. en 1984: Porcentaje de acuerdo con "The League of Conservation Voters". (Tomado de HAMILTON, 1990)

Este mtodo tambin es de gran utilidad para la comparacin de dos o ms series de datos, como hemos dicho con anterioridad, representando un diagrama steam & leaf para cada serie. Box-plot Esta representacin grfica, tambin debida a TUKEY (1977), puede ser traducida como Caja con Bigotes o Representacin Caja, aunque se conoce usualmente con el nombre de Box-plot o bien Box and Whiskers plot. Es un mtodo grfico simple para resumir la informacin, proporcionando una rpida impresin de las caractersticas ms importantes de una distribucin.

77

Figura 1.32: Diagrama que muestra un Box-plot, en el que se indican los percentiles que son representados en el grfico

Esta representacin (Figura 1.32), consiste bsicamente en una caja dispuesta verticalmente que 'encierra' el recorrido intercuartlico; es decir, la lnea inferior indica el primer cuartil (25 percentil), y la lnea superior seala el tercer cuartil (75 percentil). Otra lnea intermedia marca el 50 percentil o Mediana as como su posicin relativa en relacin al rango intercuartlico. Los Whiskers (bigotes), o lneas que se prolongan verticalmente, marcan los valores extremos en algunos casos. En grandes conjuntos de datos, marcan el 10 y 90 e incluso 5 y 95 percentil. Usualmente, los 'bigotes' indican el 10 y 90 percentil, siendo sealados los puntos extremos o aberrantes ("Outliers"), con pequeos crculos o estrellas* . Una variante del mtodo anterior es la que se conoce con el nombre de Notched Box-plot (McGILL et al, 1978), y que puede observarse en la Figura 1.33; dicha variante no es ms que un 'Box-plot con muescas', siendo las muescas la indicacin del intervalo de confianza para la medida de tendencia central usada, es decir, la Mediana. Ambos mtodos son especialmente convenientes para comparar dos o ms conjuntos de datos.
*

Usualmente aparece as implementado en la mayora de los programas de ordenador, por ejemplo en el programa Stat-View 4.01 (ABACUS, 1993)

78

Figura 1.33: Diagrama de un Notched Box-plot, en el que se indica el nuevo valor que es representado.

En el grfico de la figura 1.34 podemos comparar la presencia (en porcentaje) una especie de lagartija (Podarcis muralis) en tres hbitats diferentes en la Sierra de Guadarrama (tomado de MARTIN-VALLEJO, 1990).

Figura 1.34: Comparacin, mediante Box Plot, del porcentaje que Podarcis muralis presenta en la ocupacin de tres tipos de hbitat en la Sierra de Guadarrama: Talud, Roquedo y Muro (A partir de los datos de MARTN VALLEJO, 1990).

79

Incluso en algunos programas combinan informacin en un mismo grfico, como puede observarse en el siguiente (figura 1.35) realizado con el JMP (SAS Institute Inc. 1989-94), en el cual adems de un Box-plot aparece la informacin sobre la media y su intervalo de confianza.*

Figura 1.35: Grfico obtenido con el programa JMP. Adems de un Box-plot aparece informacin sobre la media aritmtica y su intervalo de confianza.

Diagramas de dispersin Un Diagrama de puntos, ms conocido como Diagrama de Dispersin, es un mtodo simple pero eficiente para ilustrar un determinado comportamiento o bien analizar una distribucin en particular; su finalidad puede ser la de poner de manifiesto una relacin entre variables, analizar proximidades entre individuos y/o poblaciones, localizar outliers... Por ser un mtodo suficientemente conocido, no se realizar un estudio detallado de dicha representacin, si bien -dada su importancia- se comentarn algunas de las posibilidades que permite en el estudio de datos multivariantes. La informacin visual de un diagrama de dispersin puede ser incrementada mediante varias herramientas adicionales (CHAMBERS & KLEINER, 1982); por ejemplo, mediante un Box-plot paralelo marginal para cada variable. (Ver figura 1.36).

Ver el apartado 4.1.3 relativo a intervalos de confianza

80

25 SA 20
.

AV

PASTIZAL

15 LE 10 BU 5 VA 0 0 10 SO

SG ZA P

20 BARBECHO

30

Figura 1.36: Diagrama de Dispersin, con Box Plot paralelo marginal, de la superficie de cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)

Para representar las relaciones entre ms de dos variables, una posibilidad es aadir una tercera, obteniendo as un Diagrama de Dispersin Tridimensional, como se muestra en la figura 1.37.

Figura 1.37: Diagrama de Dispersin Tridimensional, de la superficie de cultivo dedicada a Barbecho, Prado y Herbceo en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)

81

Existen sistemas grficos de ordenador (SYSTAT, JMP, SPSS), que permiten mediante la opcin denominada 'SPIN'- la 'exploracin multivariante' de estas representaciones tridimensionales, al rotar la nube de puntos alrededor de cualquier eje en la pantalla, y visualizar de este modo todos los puntos, y sus posiciones relativas. El resultado puede llegar a ser realmente espectacular con el uso del color en la representacin. De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre otros), esta importante innovacin grfica constituye una de las ms potentes tcnicas de anlisis visual de datos multivariantes existentes en la actualidad. Quizs sea sta la razn por la cual todos los nuevos 'paquetes grficos' que salen al mercado, incluyan esta opcin. Opcin, por otra parte, que ha sido posible por el desarrollo que en los ltimos tiempos han sufrido los ordenadores; el movimiento en tiempo real de la nube tridimensional exige operar con una gran cantidad de datos con potencia y rapidez.

Matriz de Diagramas de Dispersin Otra forma de representar relaciones entre ms de dos variables, es dibujando pares de variables mediante diagramas de dispersin, que son ordenados en una Scatterplot Matrix , o Matriz de Diagramas de Dispersin (figura 1.38), proporcionando de este modo, en una nica imagen visual, todos los pares posibles; todas las variables. Aunque cada diagrama por separado muestra tan slo dos dimensiones de los datos (no es posible detectar una variacin comn), en ocasiones esta representacin univariante mltiple puede ser efectiva en la deteccin de 'outliers', o patrones de los datos. Los Diagramas de Dispersin Mltiples, nombre con el cual tambin se conoce a este tipo de representacin, son anlogos grficos de las matrices de covarianzas o correlaciones utilizadas en la mayor parte de las tcnicas grficas multivariantes. En este sentido podran considerarse tcnicas grficas multivariantes.

82

Figura 1.38: Matriz de diagramas de dispersin de la superficie de cultivo dedicada a Barbecho, Prado, Herbceo y Pastizal en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)

MTODOS GRFICOS MULTIVARIANTES (MGM) Los Mtodos Grficos Multivariantes, como hemos apuntado con anterioridad, son mtodos que simplemente exigen efectuar una transcripcin geomtrica de los datos (correspondientes a un conjunto de n variables, n>2 ), en una representacin grfica. Constituyen directamente por ello un procedimiento descriptivo. Cmo podemos representar grficamente valores de ms de tres variables en una representacin grfica? Cuando los datos tienen ms de dos o tres dimensiones, la representacin grfica se hace complicada: las dimensiones del plano no son capaces de acoger un mayor nmero de variables que los que acoge la representacin cartesiana convencional, o la tridimensional; por lo tanto se requiere otro tipo de representacin. Existen diferentes mtodos para representar datos multivariantes, prcticamente tantos como autores se han ocupado del tema. No se realizar por ello una revisin exhaustiva ni una descripcin detallada de los MGM; solamente se enumerarn algunas de las tcnicas existentes en la actualidad, y nicamente se expondrn con cierto detalle las ms importantes y actuales que permiten la representacin grfica de entidades definidas por varias variables, como son las Caras de Chernoff (CHERNOFF, 1973), y las Curvas de Andrews (ANDREWS, 1972), o las Gotas de Fourier.

83

Como en todo Anlisis Multivariante, se parte de una matriz de datos que contiene la informacin de los valores que los individuos toman para cada una de las variables a estudiar, que ser la que se representar de forma grfica. Antes de representar dicha matriz pictricamente, debe cuestionarse cual ser el uso que se dar a dicha representacin, y el objetivo final de la misma; teniendo en cuenta, adems, que por lo general sern los individuos las entidades representadas. Todo ello en base a elegir el mtodo de representacin ms adecuado. La prctica totalidad de los Mtodos Grficos Multivariantes que se conocen, no son otra cosa que 'constructos pictricos', (tambin conocidos como grficos pictoriales o figurativos, o simplemente 'Iconos'), formados por elementos geomtricos (puntos, rectas, curvas, tringulos, crculos...) que varan en funcin de los valores que toman las variables en los individuos a los que representan. Algunos de los muchos MGM existentes, son los que aparecen esquematizados en la figura 1.39. (Tomada de AVILA-ZARZA, 1993). Entre los mtodos representados en esta figura, unos se caracterizan porque las variables se representan como longitudes de las componentes grficas; es el caso de los Polgonos o Estrellas (rayos circulares emanando de un origen comn), o los Glifos, (segmentos
que se extienden desde un crculo); la inclinacin de los ojos...),

otros -es el caso de las Caras de Chernoff- representan

las variables mediante caractersticas faciales (excentricidad de la cara, la curvatura de la boca o etc..

La mayora de las tcnicas se encuentran ya informatizadas, de modo que el investigador tan slo deber determinar el orden de asignacin de las variables para su construccin.

84

Grficos de veleta

Polgonos o estrellas

Glifos

Gotas de Fourier

Caras de Chernoff

Figura 1.39: Algunos tipos de Mtodos Grficos Multivariantes (tomada de AVILA-ZARZA, 1993)

Interpretacin de las representaciones grficas multivariantes Cada elemento de un icono no puede ser convertido al valor numrico; las transformaciones que en general suelen realizarse, son lo suficientemente complejas para que nosotros podamos interpretar esos valores mentalmente con la simple observacin visual de los mismos. La correcta interpretacin de estos mtodos consiste, fundamentalmente, en buscar grficos similares. Entidades con similares valores para las variables tendrn formas parecidas; y entidades con diferentes valores, presentaran formas diferentes. Esto nos permitir encontrar patrones de variacin similares, en contraposicin con otros tipos de patrn, y por tanto, por ejemplo, establecer grupos o 'Clusters'. Si se desea obtener informacin acerca de los valores de partida, deber volverse sobre los datos originales y examinar los valores correspondientes, y cmo estos determinan los grficos.

85

Veamos, de manera simplificada, alguno de estos mtodos.

Polgonos o Estrellas Determinan perfiles configurados por segmentos que parten de un origen comn, y cuya longitud corresponde al valor que -para cada entidad- toma la variable a la cual dicho segmento representa. Las figuras 1.40 y 1.41, son un ejemplo de este tipo de representacin

ASESINATOS ROBOS DE COCHES

VIOLACIONES ROBOS

ASALTOS HURTOS ALLANAMIENTOS DE MORADA

Figura 1.40: Icono de estrella para la ciudad de New York mostrando la asignacin de las variables a cada segmento, para el ejemplo de la figura 1.41

Figura 1.41: Iconos de estrella representando los datos de la criminalidad en diversas ciudades de EE.UU. (datos originales de EVERITT, 1993).

86

Para hacer la representacin ms visible, los extremos de los segmentos pueden ser conectados entre si. El programa de ordenador SYSTAT (WILKINSON & EVANSTON, 1988), presenta los resultados (tras la aplicacin de este mtodo), mediante los polgonos que resultan de la conexin de estos segmentos, pero sin que los mismos aparezcan. Como en otros grficos figurativos, es conveniente ordenar las variables de tal manera que aquellas que estn correlacionadas aparezcan prximas.

Gotas o Manchas de Fourier Se trata de otro mtodo de representacin grfica multivariante (Ver figura. 1.42) Esta est determinada por la funcin de Fourier:

y f(t) = 1 + y 2sen(t) + y3 cos(t) + y 4sen(2t) + y5 cos(2t) 2


donde y es una variable p-dimensional y t vara desde -3,14 hasta 3,14.

El resultado de esta transformacin es un conjunto de formas onduladas hechas a partir del seno y el coseno, que trasladadas a coordenadas polares, toman el parecido de manchas, gotas o amebas. Cada individuo vendr representado por una gota, de modo que podremos encontrar clusters de individuos "parecidos" cuando las gotas que los representan tengan una forma similar. La forma de las gotas dependen del orden de introduccin de las variables en la funcin de Fourier. La informacin contenida en las gotas de Fourier es la misma que la de las curva de Andrews (que veremos al final del captulo) pero con la ventaja de que no se solapan y pueden ser utilizadas como smbolos en otro tipo de representaciones grficas.

87

Avila

Burgos

Leon

Palencia

Salamanca

Segovia

Soria

Valladolid

Zamora

Figura 1.42: Gotas de Fourier representando las provincias de Castilla Len en cuanto a diferentes variables de produccin agraria. (A partir de los datos del Anuario de Estadstica Agraria, 1990)

Caras de Chernoff No se ra!. Estas son las primeras palabras con las que se presenta a los lectores este mtodo de representacin de datos multivariantes en el manual SYGRAPH, que trata de las representaciones grficas que el programa estadstico para ordenador SYSTAT permite realizar. Quizs porque sta suele ser la primera reaccin de los que desconociendo el mtodo, se encuentran de pronto con caras de rasgos caricaturizados en una ponencia o en un trabajo de investigacin; quizs para contrarrestar la aparente falta de seriedad (argumento esgrimido por sus detractores), que puede inducir a ms de uno a descartarlo sin haberlo tomado en consideracin.

Figura 1.43: Caras de Chernoff correspondientes a las provincias de Salamanca y Valladolid, epresentando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols., 1993)

88

El mtodo original, aparecido en el trabajo "Using faces to represent points in k-dimensional space graphically", que fue publicado en 1973 en Journal of the American Statistical Association, se debe a H. CHERNOFF, al que no le caus trauma alguno enfrentarse al reparo psicolgico que los investigadores pronto tuvieron con el mismo (ALONSO, 1982). CHERNOFF (1982) comenta, que buscaba un mtodo grfico sencillo que representara, de forma compacta, un nmero importante de variables, de forma que causase el mximo impacto en el observador, y permitiese un buen contraste y clasificacin de las entidades representadas. De entre todas las posibilidades, eligi las caras para aprovechar la capacidad de reconocimiento del observador humano, que puede discriminar muchas caras diariamente, y por el impacto o reaccin emocional que dichas caras provocan, lo que acenta su poder de captacin de atencin y su carcter nemotcnico. El principio heurstico de las caras de Chernoff est basado, pues, en la capacidad del hombre para reconocer, comparar y agrupar caras. Este procedimiento grfico, que requiere la utilizacin de un programa de ordenador para ser realizado, concentra la informacin de cada individuo en un rostro humano caricaturizado, cuyos rasgos reflejan cada una de las variables o "descriptores" (Figura 1.43). Originalmente, las caras estaban determinadas por 18 parmetros tales como la longitud de la nariz, el tamao de los ojos o la curvatura de la boca (CHERNOFF, 1973.). Los 18 parmetros o facciones que originalmente determinaban el dibujo de las Caras de CHERNOFF, son los que aparecen en la figura 1.44. Estos 18 parmetros son los que se hacen variar, reflejando as el comportamiento de cada una de las variables en todas las entidades o individuos (caras) representados. En la figura 1.45 se esquematiza la serie de parmetros que se hacen variar, lo que permite representar hasta 18 variables.

89

1. Anchura de la cara. 2. Nivel de la oreja. 3. Altura de la cara. 4. Excentricidad de la elipse superior cara. 5. Excentricidad de la elipse inferior cara . 6. Longitud de la nariz . 7. Posicin centro de la boca. 8. Curvatura de la boca. 9. Longitud de la boca. 10. Altura del centro de los ojos. 11. Separacin de los ojos. 12. Inclinacin de los ojos. 13. Excentricidad de los ojos . 14. Longitud ojo. 15. Posicin de las pupilas. 16. Altura de la ceja. 17. ngulo de la ceja. 18. Longitud de las cejas.

Figura 1.44: parmetros de las caras de Chernoff

Figura 1.45: Parmetros de los Rasgos faciales de las Caras de Chernoff, segn BRUCKNER (1978). A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988), que incluye nariz y oreja

Las variaciones de los rasgos caricaturizados dan una apariencia concreta a la cara, que representa un punto en un espacio de 18 dimensiones. En espacios de dimensin menor, es decir, cuando el nmero de variables es menor que el de facciones, se asignan las variables a los primeros rasgos, tomando los rasgos restantes un valor constante para mantener la imagen facial completa (participan en las figuras sin variar), por ejemplo.

90

Cada variable estudiada se asigna a uno de los parmetros que controlan los rasgos, de forma que el valor del parmetro facial sea proporcional al valor que toma la variable en el individuo a representar. Para ello se deja variar el parmetro dentro de un rango de variabilidad preestablecido, de manera que la estructura global mantenga las caractersticas bsicas de una cara. Algunos parmetros faciales varan libremente (dimetro de la oreja), pero la mayora quedan supeditados a la exigencia anterior y dependen de otras caractersticas faciales. La asignacin de cada variable a cada parmetro facial es optativa. Hay usuarios del mtodo que prefieren efectuar una asignacin al azar, mientras que otros establecen una correspondencia intencionada.
Existen otras variantes de caras. La variante de Davis (BRUCKNER, 1978) aade dos variables ms (anchura de nariz y dimetro de orejas). (Ver figura 1.45). EVERITT, en 1978 introduce pelo y boca bidimensional, quizs con la intencin de que resulten menos caricaturescas. NEWTON (1978), dibuja sus caras con ojos rmbicos y nariz ganchuda, etc.

Un programa que permite representar la variante de Davis, es el programa CHER, implementado por ALONSO en colaboracin con M.A. Campos. Otros programas que implementan las Caras son: ASYM: Programa en Fortran. SCHPBACH (1984): Versin para IBM. PC. SAS-Macro con caras asimtricas. Aplicaciones Algunas aplicaciones que se pueden encontrar en la literatura, abarcan casos tan diversos como* :
* Caracterizacin de presas del Guadiana por sus variables ecolgicas (ALONSO, 1982). * Estudio de los resultados de las elecciones municipales en 27 poblaciones catalanas (ALONSO, 1982). * Estudio sobre la poltica sovitica en frica (WANG & LAKE, 1978).
*

Nos ha parecido apropiado incluir estas referencias para que el profesor tenga acceso a un material complementario al que se ofrece en este trabajo

91

* Estudio econmico de las grandes compaas petrolferas (BRUCKNER, 1978). * Clasificacin de tipos de enfermos mentales caracterizados por diversos test (MEZZICH & WORTHINGTON, op. cit.). * Asignacin de caras con distintas actitudes faciales a enfermedades mentales (JACOB, 78). * Agrupacin de distintas ciudades caracterizadas por variables demogrficas y ambientales (HUFF & BLACK, 1978). * Estudio de la polica secreta sovitica (WANG & LAKE 1978). * Estudio de los crteres de la Luna (PIKE, 1974) * Perfiles de la personalidad psiquitrica (MEZZICH & WORTHINGTON, op. cit.) * Variabilidad de Cultivos en la comunidad Castellano-Leonesa (VICENTE TAVERA y col., 1993). (Ver figura 1.46).

ASTURIAS CANTABRIA

VIZ CAYA

ALAVA LUGO LEON RIOJA ORENSE

PALENCIA BURGOS

VALLA DOLID

SORIA

ZAMORA

SALAMANCA SEGOV IA AVILA MADRID

GUADAL AJARA

CACE RE S

TOL EDO

Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las provincias de Castilla-Len, representando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols. 1993).

92

Ventajas e inconvenientes. Ventajas 1.- Facilidad de reconocimiento global de la informacin contenida en las caras; se trata de una caracterstica de la percepcin humana confirmada por diversos estudios experimentales. JACOB (1978) demostr que los sujetos sin preparacin o conocimiento de las variables representadas, pueden juzgar con caras con razonable exactitud 2.- Los datos representados pueden ser heterogneos y no se exige ninguna condicin estadstica. 3.- Con este mtodo resulta sencillo efectuar agrupaciones por similitudes de rasgos. 4.- Es una Tcnica que permite concentrar la informacin de todas las variables en una figura muy compacta. Tanto la asignacin intencionada de rasgos, como la subjetividad al seleccionar determinadas facciones para identificar similitudes, puede constituir una ventaja o una desventaja segn las exigencias del trabajo y del observador, ya que otros mtodos aparentemente neutros- tambin presentan riesgos de subjetividad. Diversos autores abogan por una estricta aleatoriedad en la asignacin de rasgos (ALONSO, 1982), as como efectuar diversas asignaciones para corroborar las agrupaciones, evitando as los posibles efectos subjetivos de la clasificacin. Otros, por el contrario, defienden la asignacin intencionada y aprovechar dichos factores subjetivos (HUFF & BLACK; 1978). Inconvenientes 1.- Necesidad de un dispositivo grfico y un programa. 2.- Prdida de informacin directa de los valores concretos de las variables (comn a la prctica totalidad de los MGM). 3.- Dificultad de reconocimiento, cuando se tiene un grupo muy numeroso de caras, o cuando existe un nmero elevado de variables. 4.- Interdependencia de los rasgos que hace que, cuando uno de ellos adopta un valor muy alto, puede modificar otros (que en principio deberan ser iguales a los presentados por otra cara no deformada por dicha interdependencia).

93

BRUCKNER (1978) sugiere la normalizacin de los rasgos (reducirlos a reas limitadas) para evitarlo. 5.- Existencia de rasgos que destacan ms que otros en la discriminacin, por lo que HUFF & BLACK (1978) recomiendan efectuar un anlisis de la varianza y asignar a los rasgos ms significativos (boca, ojos, anchura cara, etc.) las variables con mayor varianza. Una variable puede ser portadora de mayor informacin, si se representa por la curvatura de la boca, que por el tamao de las cejas. 6.- Debe tenerse precaucin a la hora de asignar los rangos de los parmetros faciales, pues si se eligen muy amplios y las variables tienen poca variabilidad no se obtiene discriminacin alguna . En cambio, si no se determinan correctamente los rangos de variabilidad de las variables, puede suceder que los rasgos se salgan de la cara. Curvas de Andrews. ANDREWS (1972) propone un tcnica muy simple, conocida como "Curvas de Andrews", para obtener una representacin visual de datos multivariantes, donde cada punto es representado en una suma de funciones trigonomtricas. Este mtodo, a caballo entre el perfil y la reduccin de la dimensin, consiste en representar a cada individuo, que presenta los valores muestrales (x1, ..., xk) de las variables consideradas, mediante un grafo de la funcin peridica:

f(t) =

x1 + x 2 sen(t) + x3 cos(t) + x 4 sen(2t) + x 5 cos(2t) 2

para valores de t comprendidos entre - < t < . Este tipo de funciones son fcilmente trazables mediante un dispositivo grfico y un sencillo programa, obtenindose, para los individuos considerados, series de curvas que permiten la interpretacin posterior (Figura 1.47 y 1.48). Los clusters y puntos aberrantes, son revelados por el hecho de que las distancias entre dos funciones son concebidas proporcionales a la distancia eucldea de los objetos en el espacio p dimensional original, por la preservacin de la media y la desviacin. Interpretacin.

94

ANDREWS (1972), destaca el hecho de que cada curva recoge y resume informacin de todas las variables que afectan al individuo, de manera que las diferencias entre individuos para alguna de ellas debe resultar manifiesta en alguna parte de las respectivas curvas.

Figura 1.47: Curvas de Andrews de los porcentajes de nutrientes en distintos productos alimenticios. Recogidos por el Departamento de Agricultura de E.E. U.U.

4000 3000
COMPONENTE DE FOURIER

2000 1000 0 -1000 -2000 -180

-90

0 GRADOS

90

180

Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la criminalidad de diecisis ciudades diferentes de EE.UU.

La conservacin de las distancias eucldeas originales para las curvas permite, segn el autor, afirmar que dos curvas similares a lo largo del recorrido de t corresponden a individuos prximos.

95

Por ello, al analizar un conjunto de curvas se deben buscar aquellos valores de t que permiten identificar o discriminar al mximo algunos grupos de ellos y efectuar, si se cumplen las condiciones necesarias, un contraste para la significacin de la agrupacin. Dado que la primera impresin de un conjunto numeroso de curvas (el autor desaconseja superar las 10) puede resultar desconcertante (figura 1.48), suele realizarse una representacin previa de varias curvas por separado (mejor si se tienen grupos de referencia), de forma que pueden identificarse dichos valores de t que permitan interpretar las proximidades de nuevas curvas que se vayan aadiendo. Como hay variables que estn asociadas a elementos cclicos de la funcin con distinta frecuencia y se discrimina mejor en las curvas las bajas frecuencias, es aconsejable colocar en los valores iniciales (x1, x2, ... ) aquellos correspondientes a las variables ms importantes en la discriminacin, es decir, las que reflejan ms variabilidad. Sin embargo, se carece de informacin acerca de la relacin concreta de las distintas crestas de la curva con los valores de las variables, al perderse toda la informacin directa.

BIBLIOGRAFIA CITADA ABACUS (1993). StatView 4.01. Berkeley. ALONSO, G. (1982). 'Nuevos mtodos de representacin grfica de datos multivariantes. Publicaciones de Bioestadstica y Biomatemtica. 5. Eunibar. Universidad de Barcelona. ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28: 125-136. ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American Statistician, 27: 17-21. ANUARIO DE ESTADISTICA AGRARIA (1990). Publicado por el Ministerio de Agricultura, Pesca y Alimentacin. Datos correspondientes a 1987. AVILA-ZARZA, C. (1993). Mtodos Grficos Multivariantes y su Aplicacin en las Ciencias de la Vida. Trabajo de Grado. Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca. BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation of Multivariate Data. (P.C.C. Wang, ed.). pp.: 93-121. Academic Press. CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for multivariate data & clustering'. In Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) Nort-Holland P.C.

96

CHERNOFF, H. (1973). 'The use of faces to represent points in k-dimensional space graphically'. Journal of the American Statistical Association, 68: 361-368. CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical Sciences. I: 436-438. John Wiley & Sons. New York. CRICHTON, M. (1990-92). Parque Jursico. Ed. Plaza y Jans. DAVIS, F. (1988). La Comunicacin no Vergal. Alianza Editorial. Madrid. EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New York. EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data. Heinemann Educational Books. London. FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report, 304. Dep. Appl. Statistics. University of Minnessota, 44. GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with applications to principal component analysis'. Biometrika, 58: 453-467. GETE-ALONSO, J.C. y BARRIO, V. del (1990). Lenguaje Grfico. Alhambra. Madrid. HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied Statiscs. Brooks/Cole Publishing Company. California. HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for regional analysis'. In Graphical Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York. JACOB, R.J.K. (1978). 'Facial representation of multivariate data'. In Graphical Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York. JMP. (1989-94). SAS Institute Inc. MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies Simptridas del Genero Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de Salamanca. MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical representation of multidimensional psychiatric diagnostic data'. In Graphical Representation of Multivariate Data (P.C.C Wang, ed.) pp.: 123-142. Academic Press. New York. McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots' Amer. Stat., 32: 12-36. NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory data analysis: An overview'. In Classification and Related Methods of Data Analysis. Elsevier Science P.B.V. Holland. NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data. (Wang, ed.) Academic Press. New York. PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate clasification and mode of origin'. Earth and Planetary Science Letters, 22: 245-255. PINILLOS, J.L. (1973). La Mente Humana. Salvat. Pamplona. POULTON, E.C. (1985). 'Geometric illusions in reading graphs'. Perceptions and Psichophisics. 37: 543548. ROMERO-VILLAFRANCA, R. (1991). Estadstica: Proyecto de Innovacin Educativa. Dpto. de Estadstica e Investigacin Operativa. Universidad Politcnica de Valencia.

97

ROYSTON, E. (1970). 'Studies in the history of probability and Statistics. A note on the history of the graphical presentation of data'. Biometrika, 43 (3,4): 241; 247. SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In Encyclopedia of Statistical Sciences. John Wiley & Sons. New York. SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern Methods of Data Analysis (J. Fox & J. Scott Long, eds.). Sage Publications. Newbury. SWOBODA, H. (1975). El Libro de la Estadstica Moderna. Ediciones Omega. Barcelona. TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist. 33: 1. TUKEY, J.W. (1977). Exploratory Data Analysis. M.A. Adisson-Wesley. Reading. VICENTE,S.; GALINDO, M.P.; VICENTE-VILLARDON, J.L.; MARTIN, A.; BARRERA, I. y FERNANDEZ-GOMEZ, M.J. (1993). 'Anlisis grfico y descripcin estructural de la variabilidad de cultivos en Castilla-Len'. Investigacin Agraria, Vol 8(3):315-329. VURPILLOT, E. (1979). 'Percepcin del espacio'. En La Percepcin (Fraisse & Piaget Eds.). Paids. Buenos Aires. WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate techniques in poligy sciences'. In Graphical representation of multivariate data (P.C.C. Wang, ed.) pp: 15-38. Academic Press. New York. WILKISON, & EVANSTON (1988-91). SYSTAT. SYSTAT Inc.

98

"REPRESENTACIONES GRFICAS"

1.3 Trabajo de investigacin

99

1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta unidad temtica, utilizando para ello datos reales tomados de la evaluacin del profesorado universitario durante el curso acadmico 1991-92. Est planteado de forma que pueda ser utilizado como ejercicio de prcticas para los alumnos, como recapitulacin de las ideas de esta unidad.

1.3.2 Planteamiento del trabajo


Durante el curso acadmico 1991-92 las autoridades de la Universidad de Salamanca llevaron a cabo un estudio sobre la calidad de la docencia. Para ello se prepar un cuestionario con 28 preguntas relacionadas con seis reas diferentes de la tarea del Profesor: Apartado 1.- Consta de tres preguntas relativas al cumplimiento de las obligaciones docentes del Profesor. Apartado 2.programa. Tres preguntas relativas a la calidad y desarrollo del

Apartado 3.- Cinco preguntas relativas al dominio de la asignatura por parte del profesor que la imparte. Apartado 4.- Seis preguntas relativas a la interaccin del profesor con los alumnos. Apartado 5.- Tres preguntas relativas a los exmenes. Apartado 6.profesor. Tres preguntas relativas a la valoracin global del

Para cada uno de los profesores que imparte la asignatura, los alumnos deben rellenar un cuestionario en el que a cada una de las preguntas se le debe asignar una valoracin cuyo rango oscila entre 1 y 5; la puntuacin 1 indica que el profesor no satisface en modo alguno el supuesto de la pregunta y la puntuacin 5 que el profesor satisface plenamente el supuesto. La evaluacin se realiza en horas de clase normal, pasando el cuestionario a los alumnos que en dicho momento se encuentren en clase.

100

Trabajaremos sobre tres preguntas que consideramos importantes: La n 3 del cuestionario: "El profesor est accesible para sus alumnos fuera del horario de clase?" La n 7: "El profesor parece dominar la asignatura que imparte" La n 26: "Piensa que el Profesor que imparte esta asignatura es un buen Profesor" En este caso, vamos a trabajar sobre los resultados de la evaluacin docente obtenidos por un Profesor del Departamento de Estadstica y Matemtica Aplicadas de la Universidad de Salamanca, en las diferentes asignaturas que imparti durante el citado curso acadmico. A este profesor, le llamaremos de ahora en adelante "Mrs. X".

1.3.3 Desarrollo del trabajo


Cuando se realiza un trabajo de investigacin, deberemos tener en cuenta, en primer lugar, cul es la poblacin en estudio. En este caso, podemos considerar 4 poblaciones. Cada poblacin estar formada por los alumnos de cada una de las 4 asignaturas que imparti Mrs. X durante dicho curso. Generalmente, no se analiza la poblacin completa, sino que se elige un subconjunto de la misma sobre la que se realiza el estudio, y que se denomina muestra. Obviamente la muestra elegida deber ser representativa de la poblacin de la que es extrada, es decir, los individuos de la muestra han de contener todas las caractersticas relevantes de la poblacin, lo que podemos conseguir por ejemplo tomando una muestra aleatoria de la poblacin (ver para ms informacin, el captulo sobre muestreo). En el estudio de la universidad se pasa el cuestionario a los alumnos que un da determinado se encuentran en clase. La caracterstica que se pretende estudiar -que se denomina variable- es en este caso la opinin de los alumnos acerca de cada uno de los items que hemos citado con anterioridad. La variable en este caso es una variable ordinal, siendo los valores que puede tomar 1, 2, 3, 4 y 5. Obviamente, la eleccin de la escala no garantiza que dos alumnos que otorguen la misma puntuacin al profesor, en una determinada pregunta, estn realmente realizando la misma valoracin.

101

1.3.3.1 Tabulacin de los resultados


Generalmente, al llevar a cabo un estudio estadstico, solemos encontrarnos con una gran cantidad de datos, cuya interpretacin, y ni siquiera su presentacin, es fcil. Es lo que ocurre en este caso. Por ello, en primer lugar necesitamos realizar un proceso que nos permita condensar la informacin de manera que podamos obtener los rasgos ms sobresalientes. Por ello dispondremos los datos de manera ordenada y sistemtica en una tabla de distribucin de frecuencias. A partir de los resultados obtenidos por "Mrs. X", en las asignaturas que imparti durante el citado curso acadmico, se construyeron las correspondientes tablas de distribucin de frecuencias. As, para evitar presentar los datos brutos obtenidos en el anlisis presentamos a continuacin las tablas de distribucin de frecuencias para cada uno de los tems (variables) analizadas y para cada muestra (tablas 1.2, 1.3 y 1.4): a) "El profesor est accesible para los alumnos"

Frecuencia
Valor de la variable 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos

4 6 2 4 0 16

17 23 19 18 26 103
Tabla 1.2

11 14 29 17 30 101

0 3 5 7 8 23

b) "Domina la asignatura que imparte?"

Frecuencia
Valor 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
(Libre dispos.)

0 0 0 4 12 16

2 3 3 10 85 103
Tabla 1.3

1 3 3 11 83 101

0 0 0 0 23 23

102

c) "Es un buen Profesor?"

Frecuencia
Valor 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos

1 0 4 4 7 16

12 8 25 31 27 103
Tabla 1.4

2 7 21 35 36 101

0 0 1 7 15 23

A partir de la informacin suministrada por las tablas anteriores vemos cules han sido los tamaos de las muestras extradas de cada una de las 4 poblaciones en estudio (denotadas con ni (i=1,...,4)).

1.3.3.2 Representaciones grficas


La informacin proporcionada por las tablas puede ser bastante completa, pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparacin para relativizar la informacin de unas clases respectos de las otras. Las representaciones grficas constituyen uno de los principales mtodos de exponer la informacin, siendo uno de los ms sencillos, por su capacidad de impactar al lector con muy poco esfuerzo por su parte, (de modo que incluso los profanos en la materia pueden entenderlos). Por ejemplo, siempre que el lector se disponga a leer un determinado artculo (cientfico, divulgativo, o simplemente un artculo publicado en un peridico) su vista se dirige en primer trmino al ttulo del mismo, para pasar luego a los grficos y por ltimo a las tablas. Dado que de los grficos obtenemos una informacin rpida y global de los resultados, pasaremos en este punto a realizar diversas representaciones grficas de los resultados anteriores. Por ejemplo, podemos realizar, para la pregunta "El profesor est accesible para los alumnos" el diagrama de barras para la opinin de los alumnos de la asignatura de Bioestadstica sera el que se muestra en la figura 1.49:

103

Figura 1.49: Diagrama de barras para la asignatura Bioestadstica de la Facultad de Biologa

Si quisisemos comparar los resultados para las cuatro asignaturas, podramos presentar el grfico siguiente (figura 1.50):
Est accesible para los alumnos?
40 BIOESTAD. BIOEST. MED. AN. DATOS AMP. BIOEST.

30

frecuencia

20

10

0 1 2 3 PUNTUACION 4 5

Figura 1.50: Diagrama de barras comparativo para las cuatro asignaturas.

A simple vista, parece que es para los alumnos de las asignaturas de Anlisis de

104

Datos y Ampliacin de Bioestadstica, para los que menos disponible est Mrs. X. Sin embargo, los grficos, por dar una informacin ms general que las tablas, son ms susceptibles a alteraciones, conscientes o no, que pueden inducir a error. El lector, debe fijarse atentamente en el grfico, y comprobar que en el eje de ordenadas se ha representado la frecuencia (nmero de alumnos que han dado una determinada puntuacin al profesor en relacin al tem considerado). Esto nos hace observar, con ms detenimiento, y teniendo en cuenta la informacin de las tablas de frecuencias, que el nmero de alumnos de cada muestra no es el mismo, por lo que la representacin de las frecuencias absolutas, no nos permite realizar comparaciones aceptables en dichos casos. Por lo tanto, sera ms conveniente, si lo que quisisemos es comparar las respuestas en las diferentes asignaturas que utilizsemos frecuencias relativas o porcentajes. As, con la utilizacin de stos ltimos, el diagrama de barras correspondiente sera el que se muestra a continuacin (figura 1.51):
Est accesible para los alumnos?
40 BIOESTAD. BIOEST. MED. AN. DATOS AMP. BIOEST.

30

porcentaje

20

10

0 1 2 3 PUNTUACION 4 5

Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada asignatura

Fijmonos por ejemplo, en la puntuacin de 2: En el grfico de la figura 1.50, se observa que el mayor nmero absoluto de alumnos que dan dicha puntuacin son los de Bioestadstica de Biologa. Sin embargo, si nos fijamos en el grfico de la figura 1.51,

105

podemos observar cmo esa interpretacin debe hacerse con cautela, ya que el tamao de la muestra en cada caso es distinto, y as, son los alumnos de Ampliacin de Bioestadstica los que en trminos relativos dan con mayor frecuencia esa puntuacin. (23 de 103 alumnos de Bioestadstica de Biologa, dan una puntuacin de 2, mientras que en ampliacin de Bioestadstica son 6 de 16).

1.3.3.3 Resumen de la informacin


El siguiente paso en un anlisis consiste en encontrar unas cuntas medidas que nos permitan resumir o describir la informacin recogida, proporcionndonos una idea lo ms clara posible- de los resultados. Deberemos, en primer lugar, averiguar la tendencia central, es decir, encontrar un nmero con la propiedad de que la mayora de los datos de la muestra estn agrupados en torno a l (lo cual ya lleva implcita la idea de variacin, pues no tendra sentido promediar un carcter no variable). Esta medida de tendencia central va a sustituir al conjunto de observaciones, por lo tanto deber ser representativa del mismo. Adems deber ir acompaada de una medida que nos indique la dispersin de los datos. En las siguientes tablas (tablas 1.5, 1.6 y 1.7) aparece la descriptiva bsica para cada una de las preguntas analizadas. Se ha anotado, la media, la desviacin tpica (o estndar) el coeficiente de variacin. Tambin se seala cul es el valor ms frecuente (moda). "El profesor est accesible para los alumnos"

Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 2,375 3,126 3,406 3,87 Desviacin estndar 1,147 1,439 1,336 1,058 Tabla 1.5 Coeficiente de variacin 48,314 46,046 39,211 27,332 Moda 2 5 5 5

Vemos cmo el valor medio de las puntuaciones obtenidas por Mrs. X es mayor

106

en la asignatura de anlisis de datos, siendo el valor medio ms pequeo el correspondiente a la asignatura de Ampliacin de Bioestadstica. Por lo tanto, parece que Mrs. X est ms accesible para los alumnos de la asignatura Anlisis de datos que para los de Ampliacin de Bioestadstica. La mayor variabilidad en la respuesta se da en los alumnos de Ampliacin de Bioestadstica (su coeficiente de variacin es 48.314%) y la menor en la de Anlisis de Datos. Excepto en la asignatura de Ampliacin de Bioestadstica, en la que la puntuacin ms frecuente ha sido 2, en el resto la puntuacin modal ha sido 5.

"Domina la asignatura que imparte?"

Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 4,75 4,68 4,703 5 Desviacin estndar 0,447 0,831 0,756 0 Tabla 1.6 Coeficiente de variacin 9,415 17,757 16,066 0 Moda 5 5 5 5

El anlisis de los resultados se hara de igual forma que en el caso anterior. En este caso, cabe destacar la opinin de los alumnos de la asignatura Anlisis de Datos, ya que todos, sin excepcin han dado la mxima puntuacin al profesor Mrs. X. "Es un buen profesor?"

Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 4 3,515 3,95 4,609 Desviacin estndar 1,155 1,282 1,014 0,583 Tabla 1.7 Coeficiente de variacin 28,868 36,486 25,659 12,651 Moda 5 4 5 5

107

En el siguiente grfico (figura 1.52), se han representado las puntuaciones medias para cada asignatura y para cada tem analizado: A la vista de los resultados obtenidos, tras el anlisis descriptivo de los datos, podemos observar cmo los alumnos de las cuatro asignaturas, dan a Mrs. X la mayor puntuacin en el tem de Domina la asignatura? y la menor en el tem Est accesible?.

Figura 1.52

Como hemos apuntado con anterioridad, cualquier paquete estadstico estndar permite realizar una representacin grfica de tipo Box-plot. La figura 1.53 representa los "Box-Plot" para la pregunta "Est accesible para los alumnos?" . Aqu se ha representado un Box-Plot para cada asignatura.

108

5,5 5 4,5 4 3,5 Units 3 2,5 2 1,5 1 ,5 Bioestadstica Bioest Medicina Anlisis datos Ampliacin Bioest.

Figura 1.53: Box plot para los resultados a la pregunta Est accesible a los alumnos?

NOTA: Tal como sealamos, se trata de datos reales, y el Profesor Mrs. X lleva realmente el mismo sistema de atencin para todos los alumnos. Refleja por tanto la "percepcin del alumno", ya que no existan diferencias reales.

109

Segunda Unidad Didctica

"EXPERIMENTOS ALEATORIOS" "CALCULO DE PROBABILIDADES"

2.1 Parte bsica

110

2.1.1 Experimentos aleatorios


Si buscamos en el diccionario la palabra "experimentar", significa percatarse de algo por propia experiencia y llamamos "experimento" al efecto de experimentar. Los experimentos pueden ser aleatorios o deterministas. Aleatorio significa relativo a todo acontecimiento incierto, por depender de la suerte o del azar, mientras que los deterministas son aquellos que se caracterizan por el hecho de que las mismas causas producen los mismos efectos. A nosotros nos interesan los experimentos aleatorios y dejamos los experimentos deterministas para que los estudiis en Fsica. Cada uno de los posibles resultados de un experimento aleatorio se llama "suceso elemental" y al conjunto de todos los sucesos elementales se le llama "espacio muestral" y suele representarse por E.

EJEMPLO 2.1: Sea el experimento "lanzar un dado y observar la puntuacin de su cara superior", Obtener el espacio muestral: Solucin: E={1, 2, 3, 4, 5, 6}

Cualquier parte del espacio muestral se denomina suceso, por ejemplo: "salir nmero par" = {12, 4, 6} "salir nmero impar" = {1, 3, 5}

111

Hay algunos sucesos especialmente importantes que pasamos a enumerar: -"Suceso imposible": es el que no se verifica nunca y lo representamos por . - "Suceso seguro": es el que ocurre siempre, es decir, el espacio muestral. - "Suceso contrario": el suceso contrario de A se verifica siempre que no se de A y suele indicarse como AC. - "Sucesos incompatibles": son dos sucesos que no pueden verificarse al mismo tiempo. - "Sucesos compatibles": son dos sucesos que pueden verificarse al mismo tiempo.

2.1.2 Operaciones con sucesos


Unin de sucesos: si tenemos dos sucesos A y B de un mismo experimento aleatorio, definimos A ! B como el suceso que se verifica siempre que se verifica A
siempre que se verifica B. (Ver figura 2.1).

A !B
Figura 2.1: Representacin grfica de la UNIN

Interseccin de sucesos: dados dos sucesos A y B de un mismo experimento aleatorio, definimos A ! B como el suceso que se verifica siempre que se verifican A
y B al mismo tiempo. (Ver figura 2.2)

112

A!B
Figura 2.2: Representacin grfica de la INTERSECCIN

EJEMPLO 2.2: Un aficionado a los casinos tiene tiempo para jugar a la ruleta cinco veces a lo sumo. Cada apuesta es de 1000 pts. Empieza con 1000 pts. y deja de jugar cuando pierda las 1000 pts. o cuando gane 3000 pts. Obtener el espacio muestral. Solucin:

El espacio muestral sera: E = {P, GG, GPP, GPGG, GPGPG, GPGPP}

113

EJEMPLO 2.3: Se ha observado la distribucin del sexo de los hijos en familias de tres hijos. Sean los sucesos: A: "el hijo mayor es varn" B: "los dos hijos pequeos son varones" Cules son los elementos de A y de B? Solucin A = {VVV, VVH, VHV, VHH} B = {HVV, VVV}

EJEMPLO 2.4: En una encuesta, los resultados del interrogatorio de cada persona se reflejan en una tarjeta. En las tarjetas se consideran el sexo, la edad (mayor o menor de 30 aos), y la respuesta a la pregunta (S, No). Se pide: a) El espacio muestral. b) Formar los siguientes sucesos: A: "Hombre menor de 30 aos" B: "Mujer" C: "Persona mayor de 30 aos que ha respondido s" Solucin:

Para responder a todas las cuestiones, basta tener en cuenta el rbol anterior.

114

2.1.3 Frecuencia y probabilidad


Vamos a tratar de establecer la idea de probabilidad como, lmite de las frecuencias. Lanzamos un dado perfectamente construido y suponemos que obtenemos la siguiente distribucin de frecuencias: N de la cara 1 2 3 4 5 6 frecuencia absoluta 27 25 32 27 33 36 180

Completa la distribucin con las frecuencias relativas. Dobla el nmero de tiradas y observa que las frecuencias relativas tienden a estabilizarse en torno a un cierto nmero. Este hecho es caracterstico de los experimentos aleatorios y suele llamarse "estabilidad de las frecuencias" y el nmero hacia el que tienden se llama probabilidad del suceso. Esta probabilidad ha sido asignada despus de realizar un experimento y se conoce con el nombre de probabilidad "a posteriori".

2.1.3.1 Probabilidad de Laplace


En el supuesto de que todos los sucesos elementales tengan la misma probabilidad (sucesos equiprobables) se define: La probabilidad de un suceso A es el cociente entre el nmero de casos favorables a la verificacin del suceso y el nmero de casos posibles.

P( A) =

N de casos favorables N de casos posibles

Cuando asignamos la probabilidad a un suceso sin necesidad de experimentar, se conoce como probabilidad "a priori".

115

2.1.3.2 Propiedades de la probabilidad


* P ( ) = 0 * P (E ) = 1 * P A ! A c = 1 = P (A ) + P A c * 0 " P( A) " 1

( )

2.1.3.3 Dependencia e independencia de sucesos


Disponemos de una urna con 10 bolas blancas y 10 bolas negras y consideramos el siguiente experimento:

El = "sacar dos bolas, una a continuacin de otra que devolvemos a la urna" E2 = "hacemos lo mismo, pero no devolvemos a la urna". Suponemos los siguientes sucesos: A: "salir negra en la l extraccin". B: "salir negra en la 2 extraccin" En ambos experimentos, queremos calcular el suceso A ! B y calcular P( A ! B) : a) Veamos qu ocurre cuando consideramos el experimento E1:
P( A) = 10 20 P(B) = 10 20

P( A ! B) =

VR10, 2 102 1 = = VR 20, 2 20 2 4

Podemos observar que:

P( A ! B) = P( A)P(B)

Diremos que los sucesos A y B son independientes.

116

b) En el caso de considerar el experimento E2:

C 45 P( A ! B) = 10,2 = C 20,2 190


Puesto que las bolas no vuelven a la urna, no podemos sacar una repetida. En este caso la 2 extraccin est condicionada al resultado de la l.

P( A ! B) = P( A)P B A

( )

Diremos que los sucesos A y B son dependientes.

2.1.3.4 Probabilidad condicionada


Veamos un ejemplo: Los resultados de una encuesta sociolgica acerca de la actitud poltica progresista o conservadora realizada sobre 334 universitarios de ambos sexos, con edades comprendidas entre 18 y 21 aos, estn registradas en la siguiente tabla: A: varones B: actitud progresista BC: actitud conservadora Total 145 51 196 Ac: mujeres 42 96 138 Total 18 147 334

145 ! P BA = # 196 "P(A % B) = P(A )P B = 145 A 196 334 P( A) = # $ 334

( )

( )

Se llama probabilidad condicionada de B/A:


P( A ! B) P BA = P( A)

( )

si P( A) " 0

Anlogamente:
P( A ! B) P AB = P(B)

( )

si P( B) " 0

117

2.1.3.5 Probabilidad de la unin de sucesos en el caso de que A ! B "


A B

A !B
Figura 2.3: Unin de sucesos

A ! B = (A " B) ! ( A # B) ! ( B " A) A = (A " B) ! (A # B) B = (B " A) ! (A # B) P(A) = P(A " B) + P(A # B) P(B) = P( B " A) + P( A # B)

P( A ! B) = P(A " B) + P(A # B) + P(B " A) P( A ! B) = P( A) " P( A # B) + P(A # B) + P(B) " P( A # B)

P( A ! B) = P( A) + P( B) " P(A # B)

EJEMPLO 2.5: Se ha comprobado que en una ciudad estn enfermos con diarrea el 60% de los nios; con sarampin el 50% y el 20% con ambas enfermedades. a) Calcular la probabilidad de que elegido un nio al azar est enfermo con diarrea, sarampin o ambas enfermedades. b) En un colegio con 500 alumnos Cuntos cabe esperar que estn enfermos con diarrea o sarampin?. Solucin: Sean los sucesos: A: "estar enfermo con diarrea". B: "estar enfermo con sarampin".

118

a)

P( A ! B) = P( A) + P( B) " P(A # B) = = 0, 6 + 0, 5 " 0, 2 = 0, 9

El 90% de los nios tienen alguna de las dos enfermedades. b) 500 x 0,9 = 450 nios que estn enfermos.

EJEMPLO 2.6: Un producto est formado por tres partes A, B y C. El proceso de fabricacin es tal que la probabilidad de un defecto en A es 0,03, de un defecto en B es 0,04 y de un defecto en C es 0,08. Cul es la probabilidad de que el producto no sea defectuoso?. Solucin: P(no defecto en A ! no defecto en B ! no defecto en C) = = (1-0,03) (1-0,04) (1-0,08) = 0,856 La probabilidad de que el producto no sea defectuoso es del 85,6%.

EJEMPLO 2.7: En un centro escolar, los alumnos de C.O.U. pueden optar por cursar, como lengua extranjera, entre ingls o francs. En un determinado curso, el 90% estudia ingls y el resto francs. El 30% de los que estudian ingls son varones y de los que estudian francs son el 40%. Elegido un alumno al azar, cul es la probabilidad de que sea chica?. Solucin: Sean los sucesos: F: "estudiar francs" I: "estudiar ingls" V: "ser varn" M: "ser mujer" Nos piden la probabilidad:

119

P [(M ! I) " ( M ! F )] = P ( M ! I ) + P (M ! F ) = = P (I )P M I + P (F ) P M F = = 0, 9 0, 7 + 0,1 0, 6 = 0, 69


La probabilidad de que sea chica es del 69%

( )

120

2.1.4 Probabilidad conjunta, marginal y condicional


Consideremos el experimento consistente en elegir a un alumno de C.O.U. de un Centro de Secundaria y anotar el sexo y el grupo al que pertenece (de entre los cinco que hay). Tenemos los siguientes sucesos disjuntos: A1 y A2 "ser chico" o "ser chica" respectivamente y Bj "pertenecer al grupo j" (j=1,...,5). La clasificacin de los N alumnos mediante su sexo y grupo es: B1 A1 A2 f.j f11 f21 f.1 B2 f12 f22 f.2 B3 f13 f23 f.3 B4 f14 f24 f.4 B5 f15 f25 f.5

fi.
f1. f2. N

Designamos por fij el nmero de alumnos del grupo j que tienen el sexo i. Designamos por fi. el total de alumnos del sexo i, y por f.j el total de alumnos del grupo j. Veamos algunos ejemplos de proporciones que podemos utilizar:

f 14 N
f 14 f 1. f 14 f .4

es la proporcin de chicos del grupo 4 que hay en el total de alumnos.

es la proporcin de chicos del grupo 4 que hay en el total de chicos.

es la proporcin de chicos del grupo 4 que hay en el total de alumnos de dicho grupo.

121

Se llama probabilidad conjunta a:

f ij P Ai ! Bj = N
A las probabilidades P( Ai ) y P Bj probabilidades marginales.

( )

se les conoce con el nombre de

f f + f +...+f 15 f 11 f12 f P( A1 ) = 1. = 11 12 = + +...+ 15 N N N N N


P( A1 ) = !
5

f1 j N f ij

j=1 5

P( Ai ) = !

j=1 N

P( Ai ) = " P Ai ! Bj
j=1 2

) )

P Bj = " P A i ! B j
i =1

( )

Podamos interesarnos por conocer la probabilidad de A1 suponiendo que ocurre B2, es decir, la proporcin en la que se encuentran los chicos en el grupo B2. f P( A1 B2 ) = 12 f .2 Este tipo de probabilidades las conocemos con el nombre de probabilidad condicionada.

P Ai B j =

f ij f .j

f ij N f. j N

P Ai ! B j P Bj

( )

P Ai B j =

P A i ! Bj P Bj

( )

Tomando como base lo expuesto anteriormente, definimos la probabilidad condicionada de la siguiente manera:

122

Sean A y B dos sucesos cualesquiera de un espacio muestral y sea P(B)>0


P( A B) = P( A ! B) P( B)

P( A ! B) = P( A B)P(B)
Por simetra:

P( A ! B) = P( B A)P(A )

Diremos que los sucesos A y B son dependientes si P(A/B)=P(A), es decir: P( A ! B) = P( A)P(B) Supongamos que en todos los cursos hay chicos y chicas que practican algn deporte y sea B el suceso "alumno/a que practica algn deporte". Recordamos que B1...B5 son los sucesos relacionados con los grupos. Suponemos conocidas P( B B1)...P( B B5 ) , pretendemos saber la probabilidad de que elegido un alumno/a al azar, sea deportista.

B = (B ! B1) " ( B! B2 ) " ( B! B3 ) " ( B! B4 ) " ( B! B5 )


Puesto que los sucesos son incompatibles:

P(B) = P( B! B1) +...+P ( B! B5 ) P( B) = P(B1 )P(B B1 )+...+ P(B5 )P(B B5 )

123

Acabamos de aplicar el teorema de la probabilidad total que enunciamos a continuacin.

2.1.5 Teorema de la probabilidad total


Sean B1, B2..Bn sucesos incompatibles dos a dos y sea B un suceso compatible con todos ellos. Suponemos conocidas las siguientes probabilidades:
P(B1), P(B2 ), ..., P(Bn ) P( B B1), P(B B2 ), ..., P(B Bn )

Entonces:

P( B) = P(B1 )P(B B1 )+...+ P(Bn )P(B Bn )


Demostracin:
B = ( B1 ! B)"..."(Bn ! B) P( B) = P(B1 ! B)+...+P (Bn ! B)

P( B) = P(B1 )P(B B1 )+...+ P(Bn )P(B Bn )


Es posible que pretendamos conocer la probabilidad de que elegido un alumno al azar y resultando ser deportista, pertenezca al grupo B1.

P( B1 B) =

P(B1 ! B) P(B)

La P(B) la tendramos calculada por el teorema anterior . El "Teorema de Bayes", que enunciaremos a continuacin, es el que nos va a permitir calcular estas probabilidades.

124

2.1.6 Teorema de Bayes


Si B1, B2..Bn son sucesos incompatibles, B es compatible con todos ellos y conocemos P( B B1)...P( B Bn ) , entonces:

P Bj B =

P Bj ! B P Bj P B B j = P(B) P( B)

( )(

siendo

P( B) = P(B1 )P(B B1 )+...+ P(Bn )P(B Bn )

No es ms que una aplicacin de las probabilidades condicionadas. La expresin fue desarrollada por el reverendo Thomas Bayes (1702-1761).

EJEMPLO 2.8: El despertador de Javier no funciona muy bien, pues el 20% de las veces no suena. Cuando suena, Javier llega tarde a clase con probabilidad 0,2, pero si no suena, la probabilidad de que llegue tarde a clase es 0,9. a) Determine la probabilidad de que llegue tarde a clase y haya sonado el despertador. b) Determine la probabilidad de que llegue temprano a clase. c) Javier ha llegado tarde a clase, Cul es la probabilidad de que haya sonado el despertador?. Solucin: Sean los sucesos:

A: "sonar el despertador" P(A) = 0.8 B: "llegar tarde a clase" a)

P( A ! B) = P( A)P(B A ) = 0, 8 0, 2 = 0,16

125

b)

P( B ) = 1! P(B)

B = (B " A ) # (B " A )

P( B) = P(B " A ) + P(B " A)

P( B) = P(A) P( B A) + P( A)P( B A ) P( B) = 0,8 0, 2 + 0, 2 0, 9 = 0,16 + 0,18 = 0, 34


c)

P( A B) =

P( A ! B) P( A)P(B A) 0, 2 0, 8 = = P( B) P(B) 0, 34

P( A B) = 0, 47
EJEMPLO 2.9: De un determinado pas, el porcentaje de declaraciones fiscales que son correctas es del 60%, 40% y 80% segn se trate de industriales, profesionales liberales o asalariados. Se sabe que del total de declaraciones el 10% son de industriales y el 20% de profesionales liberales. Se van a realizar 1500 inspecciones. a) Cuntos industriales, profesionales liberales y asalariados han de ser inspeccionados si se desea que la inspeccin sea proporcional a la probabilidad de declaracin incorrecta en cada categora socio-profesional?. b) Compara esta distribucin de las 1500 inspecciones con la que se tendra en el caso de hacerla proporcional al nmero de declaraciones de cada categora? Solucin: Sean los sucesos: A: "La declaracin corresponde a un industrial" B: "La declaracin corresponde a un profesional liberal" C: "La declaracin corresponde a un asalariado" D: "La declaracin es incorrecta" a)

P( D ! A) = P(A)P( D A) = 0,10 0, 4 = 0, 04 P( D ! B) = P( B)P( D B) = 0, 20 0, 6 = 0,12 P( D ! C) = P( C)P(D C ) = 0, 7 0, 2 = 0,14

Se trata de repartir 1500 entre 4, 12 y 14 por ejemplo.

126

Industriales P. Liberales Asalariados Total

4 12 14 30 1500 / 30 = 50

4 50 = 200 12 50 = 600 14 50 = 700 1500

b) Industriales P. Liberales Asalariados Total 10 20 70 100 Modelo 1 Industriales P. Liberales Asalariados 200 600 700 Modelo 2 150 300 1050 1500 / 100 = 15 10 15 = 150 20 15 = 300 70 15 = 1050 1500

127

"EL TEOREMA DE LA PROBABILIDAD TOTAL Y EL TEOREMA DE BAYES EN EL CONTEXTO DEL ANLISIS DE DECISIONES CLNICAS"

2.2 Ampliacin

128

El anlisis de decisiones clnicas permite a los mdicos examinar decisiones mdicas complejas con la misma precisin y claridad que la resonancia magntica o la tomografa computerizada brindan a las exploraciones anatmicas.
Stefen G. Pauker.
Jefe del Servicio de Decisin clnica, Departamento de Medicina. Centro Mdico de Nueva Inglaterra. Facultad de Medicina de Tufts, Boston. Tiempos Mdicos N403. 1989

2.2.1 Toma de decisiones en Medicina


La toma de decisiones, en Medicina, ha sido y es con frecuencia, un proceso implcito que depende de ciertas inexactitudes que van desde un error de laboratorio hasta la ambigedad de los hallazgos clnicos o la falta de seguridad en el significado de una informacin, an cuando sepamos que es correcta. Este mtodo tcito es tradicional en la prctica mdica, denominndose frecuentemente "el arte de la Medicina". El anlisis formal de las decisiones emplea el lenguaje de la probabilidad para reflejar la inexactitud de los datos clnicos y su relacin con la enfermedad. El anlisis de decisiones no es un mtodo para descubrir verdades cientficas, sino un procedimiento dirigido a la seleccin de la estrategia que maximice las consecuencias favorables o minimice los resultados adversos; es decir, indica el curso de accin ptimo en situaciones de incertidumbre diagnstica. Probablemente, el objetivo ms importante de la actividad asistencial sea mejorar el curso clnico de los pacientes. Para ello es imprescindible un diagnstico y un tratamiento correcto. En la mayora de las situaciones clnicas se dispone de un tratamiento de eleccin que el mdico prescribe rutinariamente. En estas situaciones no hay nada que decidir y el mdico se siente tranquilo porque cree que est haciendo lo mejor. Pero a veces se le plantean situaciones complejas en las que tiene que tomar una decisin para la que no hay respuesta fcil. El mdico puede fiarse de su intuicin y experiencia ante casos similares,

129

consultar con otros compaeros con ms experiencia o revisar la literatura en busca de publicaciones que evalen la eficacia y seguridad de los distintos tratamientos. Generalmente la experiencia personal no es suficiente para valorar

probabilsticamente las ventajas e inconvenientes del tratamiento y lo mismo puede ocurrir con la opinin de otros colegas; es preciso combinar la experiencia con la revisin crtica de la literatura. Un anlisis de decisin exhaustivo, incluyendo la revisin completa de la literatura clnica pertinente, puede llevar mucho tiempo. En todas aquellas situaciones en las que la toma de decisiones es complicada podremos utilizar lo que en epidemiologa, y por supuesto en Estadstica, se conoce como anlisis de decisiones clnicas. En los centros hospitalarios en los que existe una Unidad de Anlisis de Decisiones, aproximadamente en 48 horas, el mdico cuenta con un diagnstico altamente probable; un tiempo de respuesta comparable al de los otros servicios de consulta. Esta tcnica sigue una serie de pasos secuenciales: crear un rbol que recoja la secuencia lgica del problema, asignar probabilidades a las ramas, asignar utilidades a cada curso de accin, combinar las probabilidades de cada consecuencia y analizar si nuestra decisin sigue siendo la ptima aun cuando se produzcan cambios razonables en la probabilidad o en la utilidad de cada rama del rbol (anlisis de sensibilidad).

2.2.2 rbol de decisiones


El anlisis de decisiones fragmenta un problema complejo en una serie de problemas ms pequeos, que se pueden abordar por separado. Despus de obtener soluciones satisfactorias para los pequeos problemas, el formalismo de la teora de la decisin los recombina en un modelo que acomete los problemas ms complejos. El anlisis de decisin clnica consta, como ya sealamos, de varios pasos.

130

El primero es disear un rbol de decisin que especifique explcitamente el conjunto de estrategias disponibles y los resultados ms relevantes. Identificaremos las decisiones, es decir las acciones sobre las que el clnico tiene control, con cuadrados, los sucesos fuera del control del decisor, con crculos, y los resultados con rectngulos. El rbol parte de un nudo del cual salen diversas opciones que conducen a las posibles alternativas de los acontecimientos ajenos a la voluntad del decisor (estados de la naturaleza). El nudo de decisin corresponde al momento en el que el decisor tiene bajo su control elegir una u otra serie de acciones. El curso natural de los acontecimientos transcurrir, en gran parte, sin someterse a la voluntad del decisor. Las distintas posibilidades que emergen de una situacin dada arrancan de un nudo de azar, representado por un crculo. El resultado final correspondiente a cada rama del rbol es representado por un rectngulo o nudo terminal en cuyo interior se representa la realidad pertinente. El valor de cada resultado se conoce como utilidad asignada. La ramificacin del rbol puede ser dicotmica, tricotmica o multicotmica; es decir, de cada nudo de azar pueden partir dos, tres, o ms ramas. Una trayectoria o camino, en un rbol de decisiones, es una secuencia particular de acciones. El segundo paso del anlisis de decisin es concretar la probabilidad de cada suceso en trminos numricos, desde cero hasta uno. En el diagrama, de acuerdo con el postulado de exhaustividad, la suma de probabilidades de cada una de las ramas de los nudos de azar, ser la unidad. De un nudo pueden partir k ramas (sucesos inciertos) A1, A2, ..., Ak, cada una con probabilidades pi y resultado Xi, siendo posible evaluar la utilidad media del nudo.

131

El tercer paso es asignar una utilidad a cada resultado; es decir a cada una de las consecuencias de un curso de accin. La medida de las preferencias del enfermo para cada una de las consecuencias de los cursos de accin, se llama utilidad. Para calcular la utilidad esperada de las diversas alternativas se suman los productos de los valores de los resultados, por la probabilidad de cada una de ellas. (Folding back). La utilidad esperada representa la esperanza matemtica de la utilidad asignada a las ramas parciales del rbol. La estrategia elegida ser aqulla que proporcione el mximo de utilidad esperada.

El ltimo paso debe ser efectuar un "anlisis de sensibilidad" sobre el modelo de decisin, variando una o varias probabilidades. Si la estrategia recomendable cambia conforme vara la probabilidad de un suceso, se dice que la decisin es sensible a dicha probabilidad y por tanto, la estrategia recomendada cambia a un cierto umbral de probabilidad. Si la estrategia recomendada no vara dentro de un rango de incertidumbre razonable, es posible recomendar dicha estrategia con mayor confianza. Una de las ventajas fundamentales de los rboles de decisin es que no se olvida ningn curso de accin relevante y adems se explicitan todas sus consecuencias. Obviamente, no necesariamente hemos de hacer lo que propone el rbol; quin toma las decisiones somos nosotros y no el rbol. Lo que ocurre es que disponemos de una ayuda explcita en la que basar o justificar nuestra conducta, incluso ante posibles demandas legales, tema ste que preocupa hoy da a muchos profesionales de la medicina.

132

Con fines didcticos desarrollaremos un ejemplo tpico tomado de la literatura, convenientemente adaptado. (Para ms detalles, consultar: Weistein, M.C. & Fineberg, H.V. (1980) Clinica Decision Analysis. Ed. Saunders Company.)

133

"EL TEOREMA DE LA PROBABILIDAD TOTAL Y EL TEOREMA DE BAYES EN EL CONTEXTO DEL ANLISIS DE DECISIONES CLNICAS"

2.3 Trabajo de investigacin

134

2.3.1 Planteamiento del problema


Un paciente llega al Servicio de Urgencias de un Hospital aquejado de un fuerte dolor en el abdomen. El mdico de urgencias sabe que puede estar sucediendo uno de los tres sucesos siguientes: A1:Que el paciente tenga apendicitis perforada A2:Que el paciente tenga apendicitis inflamada A3:Que el paciente presente un dolor inespecfico
(Perf) (Inf) (Dines)

El doctor duda entre actuar inmediatamente (Decidir ahora), o mantener 6 horas al paciente en observacin y actuar segn la evolucin (Esperar 6 horas). El doctor sabe por los datos que constan en el Servicio de Urgencias que: p(A1) = 0.03 p(A2) = 0.13 p(A3) = 0.84. Ante cualquiera de las tres posibles soluciones hay un suceso que puede producirse y es que el paciente puede morir (M). El mdico conoce adems que 27 de cada 1000 pacientes que tienen su apendicitis perforada mueren si se opera inmediatamente: P(M/A1)=0.027, y conoce tambin que P(M/A2) = 0.001 y P(M/A3) = 0.0007. P(M/A1)=0.027 P(M/A2) = 0.001 P(M/A3) = 0.0007

En caso de no operar (No Operar) esos valores cambian considerablemente ya que 500 de cada mil mueren tanto si la apendicitis est inflamada, como si est perforada, y ninguno muere si se trata de un dolor inespecfico. El mdico dispone de la informacin similar para el caso en que la decisin sea

135

esperar seis horas, la cual aparece recogida en el rbol que se adjunta, en el cual aparece tambin reflejada la informacin descrita ms arriba. La lectura del resto de la informacin del rbol es sencilla: por ejemplo, cuando se mantiene a los pacientes en observacin se sabe que un 13% empeoran (Empeorar), un 36% permanece con los mismos sntomas (Estable) y un 51% mejoran (Mejorar). En caso de empeorar la probabilidad de que la apendicitis est perforada es de 0.25, la probabilidad de que est inflamada es 0.75, y la probabilidad de que se trate de un dolor inespecfico es cero. El n de individuos que mueren depende, obviamente, de la decisin del mdico. Si tras un periodo de observacin el paciente empeora y la decisin fue no operar, 500 de cada mil de los que tienen apendicitis perforada mueren, pero si la decisin es operar, solo mueren 27 de cada mil. La lectura del resto de las ramas del rbol es similar. (Ver figura 2.4).

2.3.2 Anlisis de la estrategia ptima


Para resolver el problema hemos de tener en cuenta el Teorema de la Probabilidad Total, segn el cual:

P(M) = P(M !A1) + P(M! A2 ) + P(M! A3 ) = = P(M A1 )P(A1 ) + P(M A2 )P(A 2 ) + P(M A3 )P(A3 )

136

Perf Operar Decidir ahora B Inf

(0.03) (0.13)

27 1 0.7 500 500 0 27 1 0.7 500 500 0 27 1 0.7 500 500 0 27 1 0.7 500 500 0

Dines (0.84) 2 No operar Perf C Inf (0.03) (0.13)

Dines (0.84) Perf Operar D Inf (0.25) (0.75)

Dines (0.00 1 Empeorar (0.13) 3 No operar Perf E Inf (0.25) (0.75)

Dines (0.00) Perf Operar Esperar 6 horas Estable (0.36) F Inf (0.017) (0.066)

Dines (0.917) A 4 No operar Perf G Inf (0.017) (0.066)

Dines (0.917) Perf Operar Mejorar (0.51) H Inf (0.00) (0.00)

Dines (1.00) 5 No operar Perf I Inf (0.00) (0.00)

Dines (1.00)

Figura 2.4: rbol de decisin para el ejemplo de la apendicitis. Adaptado de Weistein & Fineberg (1980)

137

Consideremos la rama superior del rbol de decisiones y analicemos la informacin relativa al nudo aleatorio B (ver figura 2.5):
Perf (0.03) Operar Decidir ahora B Inf (0.13)

27 1 0.7

Dines (0.84) 2 No operar

Figura 2.5: Situacin correspondiente al nudo B

En este caso,
P(M) = 0.027 !0.03 + 0.001! 0.13 + 0.0007 ! 0.84 = 0.00153 = 1.53

Por tanto, para el nudo aleatorio

B , la conclusin es:

Si decide ahora, y la decisin es operar, el nmero de muertos esperado es 1.53%

El valor asignado al nudo B es 1.53 (ver figura 2.6)

Figura 2.6: Valor asignado al nudo B

138

Para el nudo

la situacin es la reflejada en la figura 2.7.

1.53 Operar Decidir ahora B

2 No operar

Perf C Inf

(0.03) (0.13)

500 500 0

Dines (0.84)

Figura 2.7: Situacin correspondiente al nudo C

En este caso:

P(A1 ) = 0.03 P(A 2 ) = 0.13 P(A3 ) = 0.84


De donde,

550 P(M A1) = = 0.5 1000 P(M A2 ) = 0.5 P(M A2 ) = 0.0

P(M) = P(M A1 )P(A1 ) + P(M A2 )P(A 2 ) + P(M A3 )P(A3 ) = = 0.5! 0.03 + 0.5! 0.13 + 0.084 !0 ! 0.84 = = 0.015 + 0.065 = 0.08
Por tanto, para el nudo , la conclusin es:

Si decide ahora y la decisin es no operar, el nmero esperado de muertos es 80 de cada 1000

Teniendo en cuenta la informacin para los dos nudos aleatorios de la rama superior del rbol, podemos efectuar la asignacin al nudo decisional 2 (figura 2.8):

139

Figura 2.8: Valor asignado al nudo C

De entre las dos anteriores, la peor estrategia sera la asociada al nudo nmero esperado de muertos es considerablemente ms bajo. Descartamos pues la rama que lleva al nudo

luego

si el mdico decide en el momento, lo ms coherente es decidir operar, ya que el

, en el grfico aparecer tachado


B

, y le asignaremos al nudo 2 el correspondiente a la rama que lleva a decir, el resultado sera (ver figura 2.9):

; es

1.53 1.53 Decidir ahora 2 80 1 No operar C Operar B

Figura 2.9: Situacin y valor asignado correspondientes al nudo 2

La conclusin relativa a la rama superior del rbol es, pues: En caso de "decidir ahora", la decisin ptima es "operar". Los nudos de azar D, E; F, G; H, I, llevan un anlisis idntico, tomando en cada caso los datos del rbol adecuados y los resultados obtenidos son (ver figura 2.10):

140

7.5 7.5 3 No operar Operar D

500 E 1.71

1.71 4

Operar

41.5 No operar G 0.7

0.1 5

Operar

0.1 No operar I

Figura 2.10: Resultados para los nudos D, E; F, G; H, I,

Las conclusiones parciales, correspondientes a los nudos decisionales son, pues: Nudo

Si el mdico decidi esperar y durante las horas de observacin, el paciente empeora, la estrategia ptima es operar.

Nudo Si el mdico decidi esperar y durante las horas de observacin, el paciente permanece con los mismos sntomas, la estrategia ptima es operar.

141

Nudo Si el mdico decidi esperar, y durante las horas de observacin el paciente mejora, la estrategia ptima es no operar.

El ltimo paso es analizar la informacin correspondiente al nudo de azar informacin disponible es la siguiente (figura 2.11):

la

Figura 2.11: Informacin correspondiente al nudo de azar A

= 0.0075! 0.13 + 0.00117! 0.36 + 0 ! 0.51 = 0.001396 " 0.0014


es:

Por tanto, la conclusin para el nudo Nudo

Si decide esperar 6 horas, cabe esperar 1.4 muertos de cada mil

142

Para el nudo decisional 1 la situacin es (figura 2.12)

1.53 Decidir ahora 1.4 1 Esperar 6 horas 1.4 A 2

Figura 2.12: Situacin del nudo decisional 1

Descartamos, pues, la rama superior, y aconsejaremos como estrategia ptima, tras el anlisis:

Estrategia ptima: Esperar 6 horas y valorar la evolucin

143

Tercera Unidad Didctica

"DISTRIBUCIONES DE PROBABILIDAD DISCRETAS"

3.1 Parte bsica

144

3.1.1 Variables aleatorias


En cualquier experimento aleatorio tenemos resultados cualitativos o cuantitativos. Con el objeto de facilitar el estudio matemtico, a cada uno de estos resultados le hacemos corresponder un nmero real. Por ejemplo, el resultado de tomar un espaol al azar y medir su estatura es un nmero; el resultado de tomar una familia al azar y anotar el nmero de hijos es un nmero; el resultado de aplicar un tratamiento a un enfermo y observar si se cura o no, es un dato cualitativo, que puede convertirse en cuantitativo asignando un "1" al enfermo que se cura y un "0" al enfermo que no se cura. En realidad lo que estamos haciendo es asignar a cada suceso del espacio muestral un nmero, pero esta asignacin no tiene por qu ser nica. Pongamos un ejemplo: lanzamos dos dados al aire y a cada suceso elemental le podemos asignar la suma, el producto, etc., de los nmeros que aparecen en las caras superiores. Al igual que los resultados de un fenmeno aleatorio no son predecibles, los resultados de una variable aleatoria tampoco lo son, pero podemos calcular la probabilidad de que ocurra un determinado suceso. A veces puede ocurrir que los valores que toma la variable aleatoria son los mismos, pero no ocurre lo mismo con las probabilidades. Pongamos un ejemplo. Se dispone de dos frmacos A y B distintos para curar una misma enfermedad; los resultados de la variable aleatoria solamente pueden ser 1 0 y uno de ellos puede curar el 20% de los casos y el otro el 70%. Para tener identificada una variable aleatoria no basta con indicar los valores que pueda tomar, hay que indicar tambin sus probabilidades. Una variable aleatoria X es toda funcin que toma diversos valores numricos (dependientes del resultado de un fenmeno aleatorio) con distintas probabilidades.

145

Cuando la variable aleatoria toma un nmero finito o infinito numerable* de valores, diremos que es una "variable aleatoria discreta". Veamos ejemplos: En el caso del lanzamiento de un dado perfecto, la variable aleatoria X= "nmero que sale en la cara superior" puede tomar los valores X={1, 2, 3, 4, 5, 6} con probabilidades P(X)={1/6, 1/6, 1/6, 1/6, 1/6, 1/6}. Si consideramos la variable aleatoria X= "nmero de varones en una familia de dos hijos", X={0, 1, 2} y P(X)={1/4, 1/2, 1/4}.
(Observar el espacio muestral del experimento aleatorio).

En general diremos, que una variable aleatoria discreta estar identificada si conocemos sus posibles valores X = {x1 , x 2 , ..., x n } y sus respectivas probabilidades P(X = x i ) = P i

Observemos que la suma de las probabilidades es 1: ! Pi = 1


i

A toda regla que permita asociar a cada valor xi de la variable aleatoria su probabilidad Pi, la llamaremos "funcin de probabilidad". Tal funcin de probabilidad puede venir dada por una tabla: X P(X) o bien por una frmula matemtica. Tambin podemos definir la variable aleatoria a travs de la "funcin de distribucin".
F(X) = P(X ! x)

0 1/4

1 1/2

2 1/4

Un conjunto infinito A se dice que es numerable si se puede establecer una aplicacin biyectiva f entre el conjunto de los naturales y A.

146

F(X) no es ms que la probabilidad de que la variable X tome valores menores o iguales que x. En el ejemplo anterior:
F(0) = P(X ! 0) = P(X = 0) F(1) = P(X ! 1) = P(X = 0) + P(X = 1) F(2) = P(X ! 2) = P(X = 0) + P(X = 1) + P(X = 2)

De un modo general, a toda tabla, grfica o expresin matemtica que indique los valores que puede tomar una variable aleatoria y las probabilidades con que los toma, se llamar "distribucin de probabilidad de dicha variable aleatoria". El concepto de variable aleatoria proporciona un medio para relacionar cualquier resultado con una medida cuantitativa.

3.1.2 Esperanza, varianza y desviacin tpica de una variable aleatoria


Se llama esperanza de la variable aleatoria discreta X, al nmero:

E [ X] = x1 p1 + x 2 p 2 +... +x n p n

x1 , x2 ,. .., xn son los valores de la variable aleatoria y p1 , p 2 , ..., p n las


probabilidades respectivas.

La esperanza de una variable aleatoria X tambin se representa por , y se llama media de la distribucin. Por tanto, "esperanza de la variable aleatoria" y "media de la distribucin" son expresiones equivalentes.

= ! p ix i = E[ X]
i=1

El conocimiento de la media de la distribucin no es suficiente para caracterizar la distribucin, ya que hay distribuciones con la misma media y distintas unas de otras.

147

Para medir la dispersin de los valores de una variable aleatoria X respecto de su media , se define el siguiente estadstico llamado varianza:

V [X ] = E ( x ! )

]
2

Es decir:
V[X] = (x1 ! ) p1 + ( x2 ! ) p2 +...+ ( xn ! ) p n
2 2

Puesto que la varianza no podra medirse en las mismas unidades que la variable, utilizamos la raz cuadrada de la varianza y a este nmero la llamamos desviacin tpica.

Desv[ X] = V[X]

Desv[ X] =

(x1 ! )2 p1 + ( x2 ! )2 p2 +...+( xn ! )2 p n

EJEMPLO 3.1: Calcular la media y la varianza del nmero de hijos varones de una familia con dos hijos. Solucin: E={VV, VH, HV, HH} X={0, 1, 2}= "nmero de hijos varones de una familia con dos hijos"

P1 = P(X = 0) = 1/ 4

! # P 2 = P(X = 1) = 2 / 4 = 1 / 2 " 1 / 4 + 1 / 2 + 1/ 4 = 1 # P3 = P(X = 2) = 1/ 4 $


En promedio, una familia con dos hijos tiene un hijo varn con una varianza de 1/2.

148

EJEMPLO 3.2: Tras una intervencin quirrgica de un tipo determinado, el equipo mdico mantuvo en el hospital a unos pacientes cinco das y a otros ocho. De stos ltimos no regres ninguno al hospital y el coste de cada uno ascendi a 90.000 pts., mientras que de los dados de alta a los cinco das, las dos terceras partes no regresaron al hospital y el coste por cada individuo fue de 50.000 pts. El otro tercio restante tuvo que regresar al hospital ocasionando unos gastos totales por individuo de 150.000 pts. En trminos puramente econmicos, es preferible dar de alta a los enfermos a los cinco o a los ocho das?. Solucin: Se trata de calcular el coste promedio en ambos casos. En el supuesto de que los pacientes estn ingresados 8 das, el coste promedio es de 90.000 pts., y en el supuesto de que los pacientes estn 5 das, la variable aleatoria se distribuye de la siguiente forma: X P(X) El coste promedio en este caso ser: 50.000 2/3 150.000 1/3

2 1 E[X] = 50.000 + 150.000 = 83.330pts. 3 3


Puesto que 83.333 < 90.000, esto indica que es preferible, desde el punto de vista econmico, tener ingresados a los pacientes cinco das. La varianza la calculamos de la siguiente forma:

V[X] = (50.000 ! 83.000)2

2 1 + (150.000 ! 83.330)2 = 2, 2 109 3 3

149

3.1.3 Distribucin Binomial


Hay muchas situaciones en las que slo interesa conocer si un determinado suceso se produce o no se produce. Si el suceso ocurre, diremos que hemos obtenido un xito y lo simbolizamos por E y si no ocurre diremos que hemos obtenido un fracaso y lo simbolizamos por F. La probabilidad de xito la llamamos p La probabilidad de fracaso la llamamos q Lgicamente p+q=1 Se trata de un experimento aleatorio que no tiene ms que dos resultados posibles E y F tales que P(E)=p y P(F)=q Es interesante el caso en el que se repitan pruebas independientes del mismo experimento y la probabilidad de xito se mantenga constante en todas ellas. Supongamos que el nmero de pruebas es cinco (n=5). Un posible resultado sera: EFFEE Si queremos calcular la probabilidad, teniendo en cuenta que las pruebas son independientes: P(EFFEE) = P(E) P(F) P(F) P(E) P(E) = p q q p p = p3 q2 Responden a este modelo experimentos como los siguientes: - Lanzar una moneda varias veces considerando xito la obtencin de cara. Entonces p=q=1/2 - Lanzar un dado varias veces, considerando xito que salga el 6 y fracaso que no salga el 6. En este caso p=1/6 y q=5/6.

150

- La clasificacin de las piezas fabricadas por una mquina, considerando xito las piezas aceptables y fracaso las piezas defectuosas. En este caso p y q se asignan haciendo un estudio de gran nmero de piezas.

Diremos que un experimento sigue un modelo binomial si, en cada ejecucin, slo hay dos posibles resultados (E y F), las pruebas son independientes y la probabilidad de xito es constante. La idea es la de construir un modelo de asignacin de probabilidades de estas caractersticas. Llamaremos variable aleatoria binomial a: X = "nmero de xitos en n pruebas" Se pueden asignar probabilidades mediante un diagrama en rbol:
COMIENZO 1 PRUEBA 2 PRUEBA 3 PRUEBA RESUL. PROB.

p p p
E

E EE EE F E FE EF F
FEE FEF F FE FF F

p3 p2q p2q pq 2 p2q pq 2 pq 2 q3

q
F

p q
F

q p

F E

p q

q p

F E

151

Construir el rbol puede ser una tarea larga y conviene buscar una frmula general para un experimento binomial. Convengamos en identificar todos aquellos resultados que tienen el mismo nmero de xitos. Tras n pruebas nos encontraramos con:

EE...E ! " p n ! EE...EF ! " np n#1q ! EE...EFF! " n(n # 1)pn#2 q2 ! ............................................. EF...F ! " npq n#1 ! FF... F ! " q n !
Las distintas probabilidades son los sumandos del desarrollo del binomio (p+q)n, por lo que:

! n$ P( X = r ) = # p r q n& r "r%
Convenimos en designar al experimento binomial con n pruebas, siendo p la probabilidad de xito, como B(n,p).

EJEMPLO 3.3: Se lanza un dado 7 veces. Calcular la probabilidad de obtener 3 seises. p = P(E) = 1/6 n=7 q = P(F) =5/6 Solucin: X = "nmero de seises que aparecen al lanzar un dado 7 veces". K=3

! 7$ ! 1 $ 3! 5 $ 4 P(X = 3) = # = 0' 08 " 3% " 6 % " 6 %

152

EJEMPLO 3.4: Calcular la probabilidad de obtener al menos una cara, al lanzar una moneda cinco veces. Solucin: X = "nmero de caras que se obtienen al lanzar una moneda cinco veces" P(x>1) = P(x=2)+P(x=3)+P(x=4)+P(x=5) Utilizando el suceso contrario: P(x>1) = 1-P(x1) = 1-(P(x=0)+P(x=1)) = = 1 - 1/2 1/2 1/2 1/2 1/2 - 1/2 1/2 1/2 1/2 1/2 EJEMPLO 3.5: Supongamos que en un departamento de control de calidad se examinan lotes de cuatro artculos y se sabe que la probabilidad de que un artculo sea defectuoso es P(D)=1/10 (por lo que la probabilidad de que sea aceptable es P(A)=1-P(D)=9/10). Definimos la variable aleatoria de manera que a cada elemento del espacio muestral, le asociamos el nmero de piezas defectuosas. x={0,1,2,3,4}. Calcular la probabilidad asociada a cada valor de la variable. Solucin: Calculamos sus probabilidades:

9 4 P(x = 0) = ! # = 0, 6561 " 4$ P(x = 1) = 1 ! 9 # 3 ! 4# % = 0, 2961 10 " 10 $ " 1$

! 4$ Incluimos el nmero combinatorio # " 1%


posibilidades.

porque se pueden dar cuatro

DAAA, ADAA, AADA, AAAD

153

P(x = 2) =

2 2 ! 1 # ! 9 # ! 4# % = 0, 0486 " 10 $ " 10 $ " 2$

! 1 3 9 ! 4# % = 0, 0036 P(x = 3) = " # 10 $ 10 " 3$ ! 1 #4 P(x = 4) = " $ = 0, 0001 10

EJEMPLO 3.6: Hallar las probabilidades del experimento binomial B(4,1/3). Solucin:

! 4$ ! 1$ 0 ! 2 $ 4 P(x = 0) = # = 0,1975 " 0% " 3% " 3 % !4 1 1 2 3 P(x = 1) = # $ ! $ ! $ = 0, 3951 " 1% " 3% " 3 % ! 4$ ! 1 2 ! 2 2 P(x = 2) = # " $ " $ = 0, 2963 " 2% 3% 3 % ! 4$ ! 1 3 2 P(x = 3) = # " $ = 0, 0988 " 3% 3 % 3 ! 4$ ! 1 4 P(x = 4) = # " $ = 0, 0123 " 4% 3 %
EJEMPLO 3.7: En una empresa de fabricacin de automviles se ha observado que el 2% presenta algn defecto. Calcular la probabilidad de que en una muestra aleatoria de 5 automviles se encuentren a lo sumo dos defectuosos. Solucin: La variable X = "nmero de automviles defectuosos", sigue una B(50,0'02).

P( X ! 2) = P(X = 0 ) + P( X = 1) + P(X = 2) = " 50% " 50 " 50 $ (0, 02) 0 (0, 98)50 + $ % (0, 02)(0, 98)49 + $ % (0, 02)2 (0, 98) 48 # 0& #1& #2&

154

P(X ! 2) = 0' 9216

A medida que aumenta el valor de n se complican los clculos y es conveniente utilizar tablas.

3.1.3.1 Manejo de tablas


Las tablas estn elaboradas con la siguiente estructura (figura 3.1):
n 2 r 0 1 2 0 1 2 3 ... 0 1 ... 10 p 0.01 0.05 ... 0.50

... 10

...

...

...

...

Figura 3.1: Estructura de la tabla de la Distribucin Binomial

Si estamos en una B(5,0'45), buscaremos el 5 en la columna de n y si nos piden P(X=4), dentro del grupo n=5, buscamos r=4. En la fila de p buscamos 0'45 y en la confluencia de la horizontal y la vertical, tendremos el valor de la probabilidad. Podemos encontrarnos con un problema en el caso de ser p>0'5, pues no puede emplearse la tabla directamente, sino que tendremos que tener en cuenta la siguiente propiedad:

! n$ ! n $ n& r r P( X = r ) = # p r q n& r = # p q "r% " n & r%


Funcin de densidad de una variable aleatoria que siga una B(n,p) con n-r xitos. P(X=r) en una B(n,p) = P(X=n-r) en una B(n,q)

155

3.1.3.2 Media y desviacin tpica de una variable Binomial


MEDIA:

= E[ x] = x 0p 0 + x1p1 +...+x n pn = !n !n !n = 0# $ q n + 1# $ pqn &1 +...+n # $ p n = np " 0% " 1% " n%

VARIANZA:

! 2 = V[ x] = # ( x " ) pi = npq
2 i=1

DESVIACIN TPICA:

! = npq

EJEMPLO 3.8: Supongamos que tenemos cinco instrumentos y que sabemos que en promedio un determinado instrumento est averiado uno de cada diez das. Cul es la probabilidad de que en un da ms de tres instrumentos estn averiados?. Cul es el nmero esperado de instrumentos averiados al da?. Solucin: Nuestra variable ser: X = "nmero de instrumento averiados en un da" Slo hay dos posibles sucesos: E: Estar averiado F: No estar averiado. X ~ B(n=5, p=0'1) La funcin de densidad ser:

156

!5 !5 P( x = r) = # $ p r q 5&r = # $ 0,1r 0, 95& r " r% " r% P( x > 3) = P(x = 4 ) + P(x = 5) = 4 ! 5$ ! 5$ = # p 4q + # 0,150, 9 0 = 4, 6 10&4 " 4% " 5% E [x] = np = 5 0,1 = 0, 5
Se avera un instrumento cada dos das.

EJEMPLO 3.9: La probabilidad de que un estudiante obtenga el ttulo de Licenciado en Biologa es 0'3. Hallar la probabilidad de que de un grupo de 7 estudiantes matriculados en primer curso: a) Ninguno de los siete finalice la carrera. b) La finalicen todos. c) Al menos dos acaben la carrera. Asimismo, hallar la media y la desviacin tpica del nmero de alumnos que acaban la carrera. Solucin: Los sucesos son: E(xito): acabar la carrera P(E) = p = 0'3

F(fracaso): no acabar la carrera P(F) = q = 0'7 El nmero de pruebas es siete n=7

Las pruebas son independientes, porque lo que ocurra con un alumno no tiene nada que ver con lo que le ocurra a otro. a)

! n$ P( X = r ) = # p r q n& r "r%

157

! n$ ! 7$ P(x = 0) = # p0 q n = # q 7 = 0, 77 = 0, 0824 " 0% " 0%


b)

! 7$ 7 0 P(x = 7) = # 0, 3 q = 0, 0002 Imposible " 7%


P( X ! 2) = P(X = 2 ) + P( X = 3)+...+ P(X = 7) = 1 " P(X # 1) = 1 " (P(r = 0) + P(r = 1)) = = 1 " 0, 0824 " 0, 2471 = 0, 6705

c)

Parmetros:

E [x] = np = 7 0, 3 = 2,1 V[x] = npq = 2, 1 0, 7 = 1, 47 ! = 1, 47

EJEMPLO 3.10: En recientes estudios realizados sobre pacientes portadores de SIDA, se ha podido determinar que el 70% consume algn tipo de droga. En la sala de espera de una consulta especializada en esta enfermedad se encuentran en un determinado momento seis personas. Cul es la probabilidad de que ninguno haya consumido droga?. Solucin: E: "No consumir droga" F: "Consumir droga" P(E) = 0'3 = p P(F) = 0'7 = q

Cada paciente es un caso distinto n=6

! 6$ P( x = 0 ) = # p 0q 6 = 0, 1176 " 0%

EJEMPLO 3.11: Una poblacin de 20 animales insectvoros se introduce en una zona donde el 14% de los insectos que le sirven de alimento son venenosos. Cada animal devora al da 5 insectos. Calcular la probabilidad de que al cabo de una semana queden, como mnimo, la mitad.

158

Solucin: Suponiendo independencia se tiene: P(no comer insecto venenoso) = 1-0'14 = 0'86 P(un animal no se envenene en un da) = P(comer 5 insectos no venenosos) = = (0'86)5 = 0'47042 P(un animal no se envenene en 7 das) = (0,47042)7=0,005 P(un animal se envenene en 7 das) = 1-0'005 = 0'995 Sea X: "nmero de animales envenenados en una semana. X ~ B(20,0'995)
10 " 20% P( x ! 10) = ' $ 0, 995 k0, 00510( k = 2, 08975 10 (18 # k& k=0

3.1.4 Distribucin de Poisson


En este caso la variable aleatoria representa el nmero de sucesos independientes que ocurren, a una velocidad constante, en el tiempo o en el espacio. Su nombre lo debe al francs Simen Denis Poisson, que fue el primero en describirla en el Siglo XIX. Veamos algunos ejemplos tpicos de esta distribucin:

El nmero de personas que llega a una tienda de autoservicio en un El nmero de solicitudes de seguro procesadas por una compaa en nmero de bacterias en un cultivo.

tiempo determinado.

un perodo especfico.
El

La distribucin de Poisson es el modelo de probabilidad que ms se utiliza para analizar problemas de listas de espera. Podemos hablar de las siguientes caractersticas de una distribucin de Poisson:

159

1- Debemos tener un fenmeno dicotmico (ocurrencia o no de un determinado suceso). 2- Las pruebas que se realicen han de ser independientes y la probabilidad de xito se ha de mantener constante en todas ellas. 3- Los sucesos han de ser poco comunes, por eso se le conoce como "Ley de los sucesos raros". 4- Puesto que la probabilidad de xito ha de ser pequea, entendemos que p<0.05 y puesto que n ha de ser grande, entendemos n>100. 5- Los sucesos ocurren en un intervalo de tiempo. 6- Se caracteriza por un parmetro ! , que es el nmero medio de ocurrencia del suceso aleatorio por unidad de tiempo. 7- Siempre que la media y la varianza sean similares, podemos pensar en un modelo de Poisson. Media:

E [x] = np = ! V[x] = ! = E[ x]

Varianza:

Es importante el hecho de que una distribucin binomial en la que n es grande y p pequeo tiene una aproximacin excelente con la distribucin de Poisson. La funcin de probabilidad ser el lmite de la funcin de densidad de la binomial cuando n ! ", p ! 0 y np ! "

$ n' $ n' lim & pr q n )r = lim & lim p r lim q n )r n !" % r ( n! "% r ( p!0 n! "
p!0 np !# p! 0

Teniendo en cuenta que p =

! n

160

n! %$' r % $ n#r lim 1 # ' = n( n!" r!(n # r)! & n ( n! "& lim = lim n(n # 1)...(n # r + 1) $ r lim r r! n!" n r n!" % $ 1# ' & n(
[1]

% $ 1# ' & n(

% $ n lim 1 # ' $r n(n # 1)...(n # r + 1) n!"& n( = lim r r! n!" n % $'r lim 1 # n( n! "&
Calculamos cada uno de estos lmites:

n n # 1 n # r +1 ... ! 1 n n n!" n lim


n + # . % ' $0 % $'n )1 + 1 * lim 1 # ! lim n * 0 n( n!" & n!" ) -& #$ ( 0 , / #$

! e #$

% $ r lim 1 # ' !1 n( n!" &


Sustituyendo en [1] tenemos:
!r " ! P(!) = e r!

Es la funcin de densidad de la distribucin de Poisson.

EJEMPLO 3.12: Un comprador de grandes cantidades de circuitos integrados ha adoptado un plan para aceptar un envo de stos, que consiste en inspeccionar una muestra de 100 circuitos provenientes del lote. Si el comprador encuentra no ms de dos circuitos defectuosos en la muestra, acepta el lote; de otra forma, lo rechaza. Si se enva al comprador un lote que contiene el 1% de circuitos defectuosos, cul es la probabilidad de que sea aceptado el lote?. Solucin:

161

Nuestra variable es: X: "nmero de circuitos defectuosos en la muestra". X~B(n=100, p=0'01) np=1

Si n50 y p0,1 se comporta aproximadamente como una Poisson.

P(aceptar el lote) = P(x ! 2) = P( x = 0 ) + P( x = 1) + P(x = 2) =


0 1 2 "1 1 + e "1 1 + e "1 1 = 0, 9197 =e

0!

1!

2!

P(aceptar el lote) = 90% EJEMPLO 3.13: Es conocido el hecho de que cierto tipo de bacterias poseen, adems de sus cromosomas, otras estructuras de ADN llamadas factores de resistencia. Estos factores confieren a la bacteria resistencia a uno o varios antibiticos. En un determinado medio el 0,06% de las bacterias no poseen dicha propiedad. Sobre una poblacin de 10.000 se desea saber: a) La probabilidad de que el nmero de bacterias no poseyendo dicha resistencia sea superior a 6, pero inferior a 15. b) La probabilidad de que haya exactamente 5 sin resistencia antibitica. Solucin: Sea X el "nmero de bacterias que no poseen resistencia a los antibiticos". X~B(n=10.000, p=0'0006)~P( ! =np=6) a) P(6 < x < 15) = P(x ! 14 ) " P(x ! 6) = 0, 9986 " 0, 6063 = 0, 3923 b) P( x = 5) = e
!6 6 5

5!

= 0,1606

EJEMPLO 3.14: La probabilidad de que dos aminocidos determinados se combinen para formar un dipptido es muy pequea y, en consecuencia, el nmero de dipptidos de una

162

determinada composicin que puedan observarse al analizar un conjunto de protenas sigue una distribucin de Poisson, que por otras investigaciones sabemos que tiene parmetro ! =0,4. Si denominamos como X el nmero de dipptidos observados en una composicin determinada: a) Calcular la probabilidad de no encontrar ninguno de tales dipptidos en dicha composicin. b) Probabilidad de encontrar dos o ms. Solucin: a)
P( x = 0 ) = e !" "0 = e !0,4 0!

b)

P(x ! 2) = 1" P(x < 1) = 1 " P(x = 0) " P(x = 1) = = 1 " e "0,4 #0 0, 41 1 0, 4 " e "0,4 = 1" 0,4 " 0,4 0! 1! e e

EJEMPLO 3.15: El nmero medio de automviles que llega a una estacin de suministro de gasolina es de 210 por hora. Si dicha estacin puede atender a un mximo de diez automviles por minuto, determinar la probabilidad de que en un minuto dado, lleguen a la estacin de suministro ms automviles de los que puedan atender. Solucin: La variable aleatoria X es el "nmero de automviles que llegan a la estacin de servicio en un minuto ". El suceso xito (1) consiste en que en un instante cualquiera llegue un automvil a la estacin de suministro . p es la probabilidad de xito y es suficientemente pequea, sin embargo , la prueba puede repetirse un nmero suficientemente grande de veces.

163

Ocurre un determinado suceso en un intervalo de tiempo . Cumple las condiciones de Poisson.


P ( x = r) = !r "! e r!

! es el nmero medio de veces que se da el suceso de probabilidad p.


!= 210 = 3, 5 60

La estacin no podr atender si llegan ms de 10 automviles por minuto.

P( X > 10) = " P(x = r ) = 1 # " P(x = r ) =


r=11 r=0

10

$ 3,50 #3,5 3,510 #3,5 ' =1#& e +...+ e ) = 1 # 0, 9991 = 0, 0009 10! % 0! (

EJEMPLO 3.16: El nmero de clientes que llega a un banco es una variable de Poisson. Si el nmero promedio es de 120 por hora, cul es la probabilidad de que en un minuto lleguen por lo menos tres clientes?. Solucin: X: "nmero de clientes que llega a un banco en un minuto". E[x]=120 clientes por hora.

E[X] =

120 = 2=! 60

P( X ! 3) = 1" P(X < 3) = 1 " [P( x = 0 ) + P( x = 1) + P( x = 2 )] = = 1 " 0,1353 " 0, 2707 " 0, 2707 = 0, 3233
La probabilidad es de un 33% aproximadamente.

164

EJEMPLO 3.17: Del volumen de produccin diario en dos plantas diferentes de una fbrica, se sabe que la probabilidad de que resulten r unidades defectuosa es: 4r !4 - en la 1a planta: para r = 0, 1, 2, ... e r! 6r - en la 2a planta: e !6 para r = 0, 1, 2, ... r! Determinar la probabilidad de que, en un da determinado: a) resulten cinco o ms unidades defectuosas en la 1a planta. b) resulten cuatro o menos unidades defectuosas en la 2a planta. c) resulten ocho o ms unidades defectuosas del total de la produccin de la fbrica. Solucin: a) X1: "nmero de unidades defectuosas en la 1a planta". ! P(4)
P( X1 ! 5) = 1" P(X1 < 5) = 1 " [ P( x1 = 0 )+...+ P(x1 = 4)]

b) X2: "nmero de unidades defectuosas en la 2a planta". ! P(6)

P( X1 ! 5) = 0, 3711

P( X2 ! 4 ) = P( x2 = 0)+...+P (x 2 = 4) = 0, 2851
c) X3: "nmero de unidades defectuosas del total de la produccin."

P( X3 ! 8) = 1" P( x3 < 8) = 0, 7797


Da la impresin de que la empresa debera revisar su produccin.

3.1.5 Distribucin Hipergeomtrica


En la distribucin binomial siempre aseguramos la independencia, es decir, el muestreo se realiza con reemplazamiento y la probabilidad de xito es constante en cada

165

una de las pruebas. Supongamos que esto no ocurre, no hay reemplazamiento y la variable aleatoria sigue otro tipo de distribucin. Veamos un ejemplo: Sea N el nmero de profesores de un Centro de Enseanza Secundaria que deben elegir Director entre dos candidatos A y B. Sea n el nmero de profesores que apoyan al candidato A y N-n el nmero de profesores que apoyan al candidato B. Supongamos que queremos hacer un sondeo antes de la votacin final, tomamos una muestra con K profesores y le preguntamos el candidato al que piensan votar. Supongamos que X es la variable aleatoria que nos mide el nmero de profesores de la muestra que piensan votar al candidato A. El inters est en calcular la probabilidad de que X=r, es decir, que en la muestra haya r personas que piensan votar al candidato A. Deduciremos la frmula utilizando la Ley de Laplace. De cuntas maneras puedo elegir muestras de tamao n entre N elementos que tiene la poblacin?.

! N$ # casos posibles "n%


De stos, cules sern favorables a nuestro suceso?. Aquellas que tengan r xitos y N-r fracasos.
EE "# FF"#F E # ! ... $ ! ... $ #
Np Nq (r veces) (n! r veces )

Es preciso conocer la probabilidad de xito y la probabilidad de fracaso en la poblacin. El nmero de casos favorables ser:

! Np$ ! Nq $ # # " r % " n & r%


Por consiguiente:

! Np$ ! Nq $ # # " r % " n & r% P( X = r ) = ; r = 0,1,2,..., n ! N$ # " n%

Media:

E [x] = np

166

Varianza:

V[x] = npq

N !n N !1

Cuando

n ! 0, 05 , la distribucin hipergeomtrica se aproxima a la binomial. N

EJEMPLO 3.18: Un fabricante asegura que slo el 1% de su produccin total se encuentra defectuosa. Supngase que se ordenan 1000 artculos y se seleccionan 25 al azar para inspeccionarlos. Si el fabricante se encuentra en lo correcto, cul es la probabilidad de observar dos o ms artculos defectuosos en la muestra?. Solucin: Tenemos una poblacin de tamao N=1000 X: "nmero de artculos defectuosos en la muestra". P(xito)=0,0 l Tamao de la muestra n=25 Si inspeccionamos uno de los 25, ese no lo volvemos a inspeccionar, luego no hay reemplazamiento, la p de las distintas pruebas no se mantiene constante. Se trata de una distribucin hipergeomtrica.

P( x ! 2) = l " P(x < 2) = l " [P(x = 0 ) + P(x = 1)]


! 1000 0, 01$ ! 1000 0, 99$ & # # ( " 0 %" 25 % P( X = 0 ) = = 0, 7754 ( ! 1000$ # ( " 25 % 'P( X * 2) = 0, 0239 ! 10$ ! 990 $ # # ( " 1 % " 24 % ( P( X = 1) = = 0, 2007 ! 1000$ # ( " 25 % )

167

Puesto que

n 25 = = 0, 025 < 0, 05 N 1000

Podemos aproximar por una binomial:

P( x ! 2) = l " [ P( x = 0) + P( x = 1)] = # 25& # 25& =1"% 0, 010 0, 9925 " % 0, 011 0, 9924 = $0' $1' 1 " 0, 7778 " 0,1964 = 0, 0258

EJEMPLO 3.19: Supngase que se tienen 50 representantes de cierto estado, en una convencin poltica nacional, de los cuales 30 apoyan al candidato A y 20 al candidato B. Si se seleccionan aleatoriamente 5 representantes, cul es la probabilidad de que, entre estos cinco, por lo menos dos apoyen al candidato A?. Solucin: X: "nmero de personas de la muestra que apoyan al candidato A.

N = 50! # 3 & n = 5 "X % H' 50, 5, ( 5) 3 p= # 5$ P( x ! 2) = l " P(x < 2) = 1 " [ P(x = 0) + P( x = 1)] 3 # 2 ) # 50 & 50 & % 5( % 5( + $ 0 '$ 5 ' + P(X = 0) = # 50& % + + $ 5' P( X ! 2) = 0, 9241 3& # 2& * # 50 50 % 5( % 5( + $ 1 '$ 4 ' + P(X = 1) = # 50& + % + $ 5' ,
No hay duda de que al menos dos apoyarn al candidato A. con una probabilidad del 92%.

168

EJEMPLO 3.20: En una clase en la que hay 20 estudiantes, 15 estn insatisfechos con el texto que se utiliza. Si se le pregunta acerca del texto a cuatro estudiantes tomados al azar, determine la probabilidad de que: a) exactamente tres estn insatisfechos con el texto. b) cuando menos tres estn insatisfechos. Solucin: Hay dos sucesos mutuamente excluyentes: P(estar satisfechos) = 5/20 = 1/4 P(no estar satisfecho) = 15/20 = 3/4 Las pruebas son sin reemplazamiento, no tiene sentido volver a preguntar al mismo estudiante que se le pregunt antes. X: "nmero de alumnos que estn insatisfechos con el texto".

3 ! Es una H" 20;4, # 4$


a)

! Np$ ! Nq $ ! 15$ ! 5$ # # # # " r % " n & r% " 3 % " 1% P( X = 3) = = = 0, 469 ! N$ ! 20$ # # " n% " 4%

b)

P( X ! 3) = P(x = 3) + P(x = 4 ) = 0, 75

EJEMPLO 3.21: Un equipo departamental incluye cinco bilogos especialistas en microbiologa y nueve mdicos. Si se eligen al azar cinco personas y se les asigna un proyecto, cul es la probabilidad de que el equipo del proyecto incluya exactamente a dos bilogos?.

169

Solucin: X: "nmero de bilogos incluidos en el proyecto". P(bilogo) = 5/14 P(mdico) = 9/14

5 " X ! H# 14;5, $ 14 %
! 5$ ! 9$ # # " 2% " 3% P( X = 2 ) = = 0, 42 ! 14$ # " 5%

EJEMPLO 3.22: Considrese un fabricante de ordenadores que compra los microprocesadores a una compaa donde se fabrican bajo estrictas especificaciones. El fabricante recibe un lote de 40 microprocesadores. Su plan para aceptar el lote consiste en seleccionar 8, de manera aleatoria y someterlos a prueba. Si encuentra que ninguno de los microprocesadores presenta serios defectos, el fabricante acepta el lote; de otra forma lo rechaza. Suponiendo que el lote contenga dos microprocesadores con serios defectos, cul es la probabilidad de que sea aceptado? Solucin: X: "nmero de microprocesadores defectuosos en la muestra".

20 1 19 " X ! H# 40;8, $ p = q= 40 % 20 20 " 2 $ " 38$ & & # 0% # 8 % P( X = 0) = = 0, 6359 " 40$ & # 8%
Si la persona que vende sabe que le controlarn el producto, procurar que la empresa efecte un control de calidad antes de iniciar las ventas. Aumentar la calidad del producto.

170

EJEMPLO 3.23: Una compaa dedicada a la produccin de artculos electrnicos, utiliza un esquema para la aceptacin de artculos, para su ensamblaje, antes de ser embarcados, que consiste en lo siguiente: Los artculos estn embalados en cajas de 25 unidades y un tcnico de la compaa selecciona aleatoriamente tres artculos, de tal manera que si no encuentra ningn artculo defectuoso, la caja se embarca. a) Cul es la probabilidad de que se embarque una caja que contiene tres artculos defectuosos'?. b) Cul es la probabilidad de que una caja que contiene slo un artculo defectuoso regrese para su verificacin?. Solucin: X: "nmero de artculos defectuosos en la muestra". a) Si la caja contiene tres artculos defectuosos, la distribucin es:

3 22 q= 25 25 ! Np$ ! Nq $ ! 3$ ! 22 $ # # # # " xi % " n & x i % " 0% " 3 & 0% P( X = 0 ) = = = 0, 6696 ! N$ ! 25$ # # "n% " 3% N = 25 N1 = 3 N2 = 22 p=
Hay una probabilidad del 67% de que se embarque la caja. b) La caja slo contiene un articulo defectuoso. 1 24 N = 25 p= q= 25 25 1 $! 24 $ ! 25 25 # &# 25 25 & " 0 %" 3 % P( X = 0 ) = = 0, 88 ! 25$ # "3% Lgicamente la probabilidad de que no embarque es: 1-0,88 = 0,12 Lo ms probable es que las cajas que tengan un artculo defectuoso sean embarcadas.

171

EJEMPLO 3.24: Supongamos que una compaa hace el estudio de la calidad conforme a otro esquema. Se toma un artculo, se inspecciona y se devuelve a la caja; lo mismo ocurre con un 2 y un 3er artculo. La caja no se embarca si cualquiera de los tres artculos es defectuoso. Solucin:

! 3 a) B 3, # " 25 $

! 3$ ! 3 0 ! 22 3 P( x = 0 ) = # " $ " $ = 0, 6815 " 0% 25% 25 %

! 1 b) B 3, # " 25 $

! 3$ ! 1 $ 0 ! 24 $ 3 P( x = 0 ) = # " % " % = 0, 8847 " 0% 25 25

La probabilidad de no embarcar sera: 1 - 0,8847 = 0,1153

EJEMPLO 3.25: Considrese un fabricante de automviles que compra los motores a una compaa donde se fabrican bajo estrictas especificaciones. El fabricante recibe un lote de 40 motores. Su plan para aceptar el lote consiste en seleccionar 8, de manera aleatoria, y someterlos a prueba. Si encuentra que ninguno de los motores presenta serios defectos, el fabricante acepta el lote; contiene dos motores con serios defectos, cul es la probabilidad de que sea aceptado?. Solucin: X: "nmero de motores defectuosos en la muestra".

172

N = 40

2 1 ! H" 40;8, # 40 20 $ ! 2# ! 38# % % " 0$ " 8 $ P(X = 0) = = 0, 6359 ! 40# % " 8$ n=8 p=

173

"DISTRIBUCIONES DE PROBABILIDAD CONTINUAS"

3.2 Parte bsica

174

3.2.1 Distribucin normal.


3.2.1.1 Introduccin
La distribucin Normal es la distribucin continua ms importante del Clculo de Probabilidades y de la Estadstica. Aparece por primera vez en 1733 en los trabajos de DE MOIVRE relativos al clculo de la distribucin lmite de una variable binomial. Posteriormente, en 1809, GAUSS y ms tarde, en 1812, LAPLACE la estudiaron en relacin con la teora de errores de datos experimentales, al tratar de hallar el valor correcto ms probable entre una serie de medidas. Primero, GAUSS, pens que la media aritmtica de los valores sera el valor correcto. Ms tarde, al dibujar la distribucin de frecuencias, observaron cmo los valores extremos eran incorrectos y cada vez las medidas se hacen ms iguales y ms numerosas, hasta concentrarse en un valor medio que es el valor ms frecuente. Por esto, la distribucin normal se conoce tambin con el nombre de distribucin de GAUSS-LAPLACE. Una primera aproximacin de la distribucin normal puede observarse con el experimento que realiz SIR FRANCIS GALTON, que construy un ingenioso aparato, formado por un tablero inclinado, en el que se distribuyen regularmente un sistema de clavos, para acabar finalmente en compartimentos estrechos. Al deslizar muchas bolas desde un depsito superior, estas chocan con los clavos, y se alejan ms o menos de la lnea central de cada. Las alturas alcanzadas por las bolas en los compartimentos estrechos da una idea de la curva de la distribucin normal (ver figura 3.2).

Figura 3.2: Dispositivo de Galton

175

El nombre de distribucin normal se debe al hecho de que una mayora de las variables aleatorias de la Naturaleza siguen esta distribucin, lo que hizo pensar que todas las variables continuas de la Naturaleza eran normales, llamando a las dems distribuciones "anormales". No obstante, hoy en da, ya no se piensa de la misma manera, ya que ningn estadstico dice que una distribucin que no sea normal, es anormal. No obstante, la distribucin normal es la ms importante por sus propiedades sencillas, porque aparece frecuentemente en la Naturaleza, (fenmenos relacionados con psicologa, biologa, etc. ), y por una propiedad de algunos fenmenos que se aproximan asintticamente a la distribucin normal (Teorema Central del Lmite).

3.2.1.2 Definicin
De modo riguroso, se dice que una variable aleatoria sigue una distribucin normal de media , y desviacin tpica , y se designar por N(, ), si se cumplen las siguientes condiciones: La variable recorre toda la recta real, y la funcin de densidad es de la forma:

f(x) =

1 # 1 ( x# ) 2 e 2 ! ! 2"

donde e = 2.71828; = 3.14159; es la media de la distribucin y es la desviacin tpica. Esta funcin de densidad que parece en principio con una expresin matemtica aparentemente complicada, tiene la siguiente representacin (figura 3.3):

0
Figura 3.3: Representacin grfica da la campana de Gauss conocida como campana de Gauss, y con las siguientes propiedades:

176

1.- La curva tiene forma campaniforme y es simtrica respecto a la recta vertical x = . ya que el valor de la densidad es idntico en + c y en - c, para todo valor de c, pues:
# ( +c #2) #c2 1 1 f( + c) = e 2! = e 2! ! 2" ! 2" # 1 f( # c) = e ! 2"
( #c # ) 2 2!2 2 # c2 1 2! = e ! 2" 2 2

2.- La ordenada es mxima en x = . La derivada de la funcin de densidad es:


# 1 f' (x) = e ! 2"
(x# ) 2 2! 2

# 1 $ 1 ' & # 2! 2 (x # )) = # ! 3 2" e % (

(x# ) 2 2! 2

(x # )

como la exponencial es siempre distinta de cero, se verifica que:


f' (x) = 0 ! (x " ) = 0 ! x =

como la derivada segunda es:

f'' (x) = ! 3 e " 2#

! (x!) 2
2"

2 $ 1 ' $ 2(x ! ) ! (x! ) ' 2" 2 + &! 3 (x ! ) ) & ! e )= % " 2# (% 2" 2 (

=! 3 e " 2#
como se verifica que :

! (x !) 2
2"

$ (x ! )2 ' &1 ! "2 ) % (

1 1 f'' () = ! 3 e 0 (1 ! 0) = ! 3 <0 " 2# " 2#


luego en x = la funcin de densidad presenta un mximo de valor

f() =

1 ! 2"

177

3.- El rea del recinto encerrado bajo la campana y el eje x es igual a la unidad. Por tratarse de una funcin de densidad. Y al ser simtrica, deja igual rea, 0,5, a la izquierda y a la derecha de la recta x = . Esto se verifica porque:

! 1 f(x) = e !" !" $ 2%

+"

+"

(x !) 2 2$ 2

dx =

haciendo el cambio de variable

x! = y , entonces dx = dy, y por lo tanto "

2 +$ # y2 1 1 1 # y2 = e !dy = e 2 dy = 2" = 1 2" #$ 2" #$ ! 2"

+$

ya que la ltima integral, conocida como la integral de Gauss vale


I=

2! , ya que:

#!"

+" ! y 2 2

dy = 2

#0

+" ! y 2 2

dy = 2I1

y al multiplicar I1 por s misma, y mediante mtodos de integracin doble, resulta su cuadrado igual a /2.

4.- Presenta puntos de inflexin en los puntos de abscisas + y - , donde cambia de concavidad (lo que determina que cunto mayor sea , ms achatada sea la curva). El punto de inflexin se obtiene al igualar a cero la derivada segunda, por lo tanto:

f'' (x) = 0 ! 1 "

(x " )2 x" = 0! = 1 ! x = # 2 # #

As, pues, presenta puntos de inflexin en los puntos x = + y en x = - , donde las coordenadas de los puntos son: en x = +
# 1 f( + !) = e ! 2"
( +! # )2 2! 2

# !2 1 1 1 #1 = e 2! = e 2= ! 2" ! 2" ! 2"e

y en el punto x = -

178

! 1 f( ! ") = e " 2#

( !" ! )2 2" 2

! "2 1 1 1 !1 = e 2" = e 2= " 2# " 2# " 2#e

5.- Es asinttica al eje de abscisas. Pues como ex tiende a 0 cuando x tiende a infinito, entonces:
% 1 lim f(x) = lim e x!+" x!+" # 2$
(x% ) 2 2# 2

=0

es decir, el eje OX es una asntota horizontal, e igual para x tendiendo a -.

En la figura 3.4 puede observarse que para fijo, el variar tiene el efecto de desplazar la curva hacia la derecha o la izquierda; manteniendo constante, el cambio de tiene por efecto acercar o alargar del valor medio los puntos de inflexin, es decir, un apuntamiento o aplastamiento de la curva (ver figura 3.5).

-a

+a

Figura 3.4: Efecto de la variacin de en la distribucin normal

179

Figura 3.5: Efecto de la variacin de manteniendo constante

3.2.1.3 La distribucin normal estndar N(0,1)


En las familias representadas por las distribuciones normales ocupa un lugar especial la distribucin que tiene de media cero ( = 0) y por desviacin tpica la unidad ( = 1). Esta distribucin se llama la distribucin normal estndar, o reducida. Su funcin de densidad es:
f(x) = 1 " x22 e 2! x #("$, +$)

y su funcin de distribucin es la siguiente:

F( x) = P( ! " x) = 1

2#

$%

&

e$

x2

dx

y cuyas representaciones aparecen en las figura 3.6:

180

1,2 1 ,8 ,6 ,4 ,2 0 -,2 -4 -3 -2 -1 0 1 2 3 4

1 2!

Figura 3.6: Representacin de las funciones de densidad y distribucin de la N(0,1).

La funcin de distribucin de la ley normal estndar proporciona el rea del recinto que encierra la funcin de densidad, hasta el punto x, y con el fin de facilitar el clculo de sta superficie, y no tener que utilizar en todo momento el clculo integral, se han elaborado unas tablas de fcil uso, entre las que se encuentran las que aparecen a continuacin:
x

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9

0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981

0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8655 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982

0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982

0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983

0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984

0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984

0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8870 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985

0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985

0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986

0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986

Tablas de la distribucin normal estndar

181

3.2.1.4 Manejo de las tablas de la normal estndar


Las tablas anteriores nos proporcionan directamente la funcin de distribucin de la variable normal estndar, por lo que ellas nos darn directamente la probabilidad de que la variable tome valores menores o iguales que un determinado valor (P( x)). Veamos su utilizacin con un ejemplo sencillo. Si Z es una variable que sigue una distribucin N(0,1), calcularemos la probabilidad de que la variable Z tome valores menores o iguales a 1.37. La probabilidad pedida es el rea sombreada de la figura 3.7.

Figura 3.7: rea hasta el valor 1.37

y se encuentra directamente en la tabla sin ms que buscar 1.3 en la primera columna, y 0.07 en la primera fila; su interseccin nos da la probabilidad:

Es decir: P(Z 1.37) = 0.9147 que quiere decir que el 91.47% de las observaciones se encuentran distribuidas entre - y 1.37.

182

Existen adems de las tablas anteriores otros tipos de tablas publicadas de la distribucin normal estndar. Quiz las ms importantes sean las siguientes:

1.- Tabla de dos colas : Esta tabla da las reas de las dos colas de la distribucin, es decir, da la siguiente probabilidad P( |Z| a ) = P( - < Z -a ) + P( a Z < + )

-a

Figura 3.8: rea de la tabla de dos colas

2.- Tabla de una cola : Nos da el rea de la cola derecha de la distribucin, es decir, la siguiente probabilidad P( Z a )

3.- Tabla de valores : Que contiene todos los valores entre 0 e infinito.

183

4.- Tabla de reas acumuladas : Nos da la probabilidad de que un valor est comprendido entre - y a, es decir, la siguiente probabilidad P( - < Z -a ) Este ltimo tipo de tablas es el que hemos utilizado anteriormente, pues nos proporciona la funcin de distribucin de la variable.

3.2.1.5 Tipificacin de la variable


Hemos indicado anteriormente que la distribucin normal estndar N(0,1) se encuentra tabulada, lo que nos permite un clculo rpido de las probabilidades asociadas a sta distribucin. Pero no existen tablas para el clculo de las probabilidades de otras distribuciones normales, adems de que tendran que existir infinitas tablas (una para cada posible par de combinaciones de media y desviacin tpica). Aprovechando que el comportamiento de las curva de las distribuciones normales es siempre el mismo, nos hace pensar que podra existir una distribucin normal que permanezca invariable, sea cul sea la variable. Esta es la distribucin normal estndar, y el proceso de pasar de una distribucin normal cualquiera a una distribucin normal estndar se denomina tipificacin de la variable, que equivale a cambiar la escala de partida de los valores de X en una nueva escala patrn. Esto se lleva a cabo en dos pasos: 1 Centrar, es decir, trasladar la media de la distribucin al origen de coordenadas, lo que equivale a hacer = 0. 2 Reducir la desviacin tpica a 1, que equivale a dilatar o contraer la grfica de la distribucin hasta que coincida con la grfica de la funcin normal estndar. Esto se consigue mediante el cambio de variable siguiente:

Z=

X! "

que produce la siguiente transformacin de escala de medidas:

184

Valores de X
-2! -2 -! +! +2!

Valores de Z
-1 0 1 2

3.2.1.6 Propiedades de la distribucin normal


SUMA O RESTA DE VARIABLES NORMALES Si X1 es una variable que se distribuye normalmente N(1, 1), y X2 es otra variable que se distribuye normalmente N(2, 2). Entonces la variable X = X1 X2 sigue tambin una distribucin normal con media = 1 2, y cuya varianza es 2 = 12+ 22. Es decir, la variable X sigue una distribucin
2 N( 1 2 , ! 1 + ! 2 ) 2

TEOREMA DE DE MOIVRE Si X es una variable binomial de parmetros n y p; entonces si n es grande y p, ni pequeo ni grande, (o sea, ni p ni q prximos a cero) podemos considerar que esa variable X sigue una ley normal de media np y varianza npq, y por lo tanto, la variable

Z=

X ! np npq

sigue una distribucin normal N(0,1). En este caso hemos de tener en cuenta que X era una variable aleatoria discreta y queremos tratarle cmo continua, por lo que es preciso hacer una correccin para continuidad. As se verifica que: P(X = 3) = P(2.5 < X 3.5) P(X 3) = P(X 3.5) P(X < 3) = P(X 2.5)

185

Obviamente stas no son igualdades ciertas, pero permiten tratar la variable discreta como continua. Si en lugar de trabajar con una variable aleatoria binomial partisemos de una variable de Poisson o una Hipergeomtrica, la aproximacin sera absolutamente similar.

TEOREMA CENTRAL DEL LMITE Si X es una variable aleatoria (no importa como se distribuya) con media y varianza 2, y tomamos una muestra de n elementos, entonces la distribucin muestral de la media aritmtica de la muestra es aproximadamente normal con media y varianza 2/n, siendo mejor la aproximacin a medida que aumenta el tamao de la muestra. Lgicamente, si X es una variable que se distribuye normalmente, la media muestral se distribuye exactamente como una distribucin normal. Este teorema es importante en posteriores unidades, ya que nos dar pie a resultados fundamentales de la Inferencia Estadstica.

186

3.2.2 Modelo Chi-cuadrado (de Pearson)


3.2.2.1 Definicin
Es otra distribucin de gran importancia en Estadstica, que fue descubierta por HELMET (1876), pero cay en el olvido hasta que en 1900 fue descubierta de nuevo por PEARSON. Es una variable obtenida al sumar los cuadrados de n variables aleatorias normales estndar, independientes entre s. Recibe el nombre de 2 n de PEARSON, con n grados de libertad, o sea, 2 n = Z12 + Z22 + ..... + Zn2

siendo cada Zi una variable normal N(0,1), e independientes. Esta variable depende, pues, del nmero de sumandos que la forman, llamado "grados de libertad", y el rango es el semieje real positivo (ya que es una suma de cuadrados). La funcin de densidad de una variable 2 n es la siguiente:

1 x n $ e " 2 x 2 "1 si n f(x) = % 2 2 !(n 2) 0 si &

x# 0* x<0

Para cada valor de n se tiene una curva distinta, como representacin de su funcin de densidad. La figura 3.9 representa las funciones de densidad de variables Chi-cuadrado para diferentes valores de n.

si n en entero (n) = (n-1)! ; adems (n/2) = .

# n "1 "x e dx (n) es la funcin gamma, que denota la siguiente integral: !( n ) = $ x 0

que verifica, que

187

Figura 3.9: Comparacin entre las funciones de densidad de la variable chi-cuadrado para distintos valores de n.

3.2.2.2 Propiedades de la distribucin chi-cuadrado


1.- La variable solo puede tomar valores positivos. 2.- Es asimtrica. 3.- Depende del parmetro n (grados de libertad). 4.- Su esperanza matemtica es n, y su varianza, 2n. 5.- Propiedad aditiva o reproductiva :Si 2n y 2m son dos variables Chicuadrado con n y m grados de libertad respectivamente, independientes entre s, entonces la suma de las dos variables es una variable Chi-cuadrado con n+m grados de libertad. Esto se puede generalizar a la suma de cualquier nmero de variables Chi-cuadrado, independientes. 6.- Al aumentar el nmero de grados de libertad, la distribucin Chicuadrado se aproxima asintticamente a una distribucin normal. Esta aproximacin es de la siguiente forma: para n > 30, la variable N( 2n ! 1,1) .

2! 2 se aproxima asintticamente a una variable n

7.- En una variable aleatoria normal N(, ), si tomamos una muestra de tamao n se verifica que

188

(n ! 1)s2 "
2

es aproximadamente 2n-1

s2 siendo la cuasivarianza muestral.

3.2.2.3 Manejo de las tablas de la chi-cuadrado


A continuacin aparecen las tablas en las que figuran tabuladas las distribuciones Chi-cuadrado. Dentro de la tabla figura el valor de la variable que en una distribucin Chicuadrado con los grados de libertad que vienen indicados en la primera columna, deja un rea , indicado en la primera fila, a su derecha.

189

g.l \
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

0.9950 0.0000393 0.0100 0.0717 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787

0.9750 0.000982 0.0506 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791

0.950 0.00393 0.103 0.352 0.711 1.]45 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.897 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493

0.900 0.0158 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.047 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.769 20.599

0.200 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 17.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250

0.10 2.706 4.605 6.251 7.779 9.236 10.645 17.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.452 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256

0.050 3.841 5.g91 7.851 9.488 11.070 17.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773

0.025 5.024 2.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.857 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979

0.010 6.631 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.588 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892

0.001 10.828 13.816 16.266 18.467 20.515 22.458 74.327 26.124 77.877 29.588 31.264 32.909 34.528 36.173 37.697 39.752 40.790 42.312 43.820 45.315 46.797 48.268 49.728 51.179 57.620 54.052 55.476 56.892 58.301 59.703

Tabla de la distribucin Chi-cuadrado

EJEMPLO 3.26: Si X sigue una distribucin Chi-cuadrado con 12 grados de libertad. Cul es el valor de la variable que deja a su derecha un rea de 0.05? Solucin: Buscando en la tabla: 21.026

190

3.2.3 Distribucin t de Student


3.2.3.1 Definicin
La distribucin "t" es sumamente importante en Inferencia Estadstica; fue descubierta por GOSSET (1908). El nombre de STUDENT es el seudnimo con el que firm sus publicaciones estadsticas, y puede pensarse de l que es el fundador de la inferencia estadstica exacta, pues hasta 1908 era corriente tratar a la variable

(x ! ) s n
como una variable normal. En su definicin matemtica, sean (, 1, 2, ....., n) n+1 variables aleatorias normales N(0,1) e independientes

Se define la variable "t" de STUDENT con n grados de libertad como

tn =

!
2 !1 + !2 +!+!2 2 n

Tambin puede definirse a travs de una variable Z normal estndar N(0,1), y una variable 2 que siga una distribucin Chi-cuadrado con n grados de libertad; se define entonces la variable "t" de STUDENT con n grados de libertad como

tn =

Z
!2 n n

La funcin de densidad de esta variable es:


) !( n+1 ) # x2 & 2 %1 + ( f(x) = n"!( n ) $ n' 2
n+1 2

191

3.2.3.2 Propiedades de la distribucin "t"


1.- Depende de un nico parmetro, el nmero de grados de libertad. 2.- El rango de la variable es todo el eje real (-, +). 3.- Su grfica es simtrica respecto al eje de ordenadas OY. 4.- El valor x = 0 es la media, mediana y moda de la distribucin. 5.- Al aumentar n, se va haciendo cada vez ms apuntada la grfica de su funcin de densidad, siendo el lmite para n ! la curva normal tipificada.

Distr. Normal

Distr. t de Student

0
Figura 3.10: Funcin de densidad de la distribucin normal y de la "t".

6.- En el muestreo de una poblacin normal N(, ), si tomamos una muestra de tamao n de media x y varianza S2, la variable
(x ! ) t n!1 = s n !1

sigue una distribucin "t" de STUDENT con n-1 grados de libertad. Esta propiedad es muy utilizada en la estimacin y el contraste de hiptesis sobre la media de la poblacin.

192

3.2.3.3 Manejo de las tablas de la distribucin "t"


Existen diferentes tipos de tablas de la distribucin "t", siendo las ms utilizadas las de una cola, y las de dos colas. Nosotros expondremos la utilizacin de las tablas de dos colas que aparecen a continuacin:
gl

0.50
1.000 0.816 0.765 0.741 1.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.682 0.681 0.680 0.679 0.679 0.678 0.677 0.674

0.40
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.852 0.851 0.850 0.849 0.848 0.846 0.845 0.842

0.30
1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.07~ 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.052 1.050 1.049 1.047 1.046 1.043 1.042 1.036

0.20
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.306 1.303 1.301 1.299 1.296 1.292 1.290 1.282

0.10
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.690 1.684 1.679 1.676 1.671 1.664 1.660 1.645

0.05
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.030 2.021 2.014 2.009 2.000 1.990 1.984 1.960

0.02
31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.438 2.423 2.412 2.403 2.390 2.374 2.364 2.326

0.01
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.724 2.705 2.690 2.678 2.660 2.639 2.626 2.576

0.001
636.619 31.598 12.929 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.592 3.551 3.521 3.497 3.461 3.417 3.391 3.291

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 80 100

Tabla de la distribucin t de Student

en ellas aparece el valor de la variable que para los grados de libertad indicados en la primera columna, deja un rea en las dos colas de valor indicado en la primera fila. EJEMPLO 3.27: Si X es una distribucin que sigue una distribucin "t" con 10 grados de libertad, calcular el valor de la variable, tal que a la izquierda de -2.228 y a la derecha de 2.228 deja un rea total de 0.05.

193

Solucin:

194

3.2.4 Distribucin "F" de FisherSnedecor


3.2.4.1 Definicin
Supongamos que X e Y sean dos variables aleatorias independientes, que siguen distribuciones Chi-cuadrado con n y m grados de libertad respectivamente, y tales que

X=

!
i=1

X2 i

Y=

! Yj2
j=1

siendo las variables Xi e Yj que siguen distribuciones normal estndar. Se define la variable F de Snedecor (o de Fisher-Snedecor), la definida por
X F= Yn m

denominada distribucin F de Fisher-Snedecor con n y m grados de libertad. Su funcin de densidad est definida por la funcin: n %!( n + m )( n ) n 2 x 2 #1 ' 2 m " si x > 0 fn,m (x) = & !( n )!( m ) (1 + n x)(n+ m) 2 2 2 m ' 0 si x $ 0 ( Su representacin grfica es de la siguiente forma:

Figura 3.11: Representacin de la funcin de densidad de la distribucin F de Snedecor

195

3.2.4.2 Propiedades de la distribucin F de Snedecor


1.- El recorrido de la variable F es el intervalo (0,). 2.- Depende de dos parmetros, los grados de libertad n y m. 3.- Presenta asimetra positiva, con un grado que depende conjuntamente de los grados de libertad del numerador y del denominador.

s 2 4.- El cociente 1 2 sigue una distribucin con n1-1 y n2-1 grados de s 2


libertad, siendo 1 y 2 las cuasivarianza muestrales de dos muestras de s2 s2 tamaos n1 y n2 respectivamente, provenientes de dos poblaciones normales N(1, 1) y N(2, 2) respectivamente.

Esto es consecuencia de que el teorema de Fisher indica que la variable

2 (n1 ! 1)s1 "2

sigue una distribucin Chi-cuadrado con n1-1 grados de libertad, y anlogamente, la variable

"2 sigue una distribucin Chi-cuadrado con n2-1 grados de libertad. Entonces, el cociente
s2 ( n1 ! 1)1 (n1 ! 1)" 2 2 ( n2 ! 1)s2 (n 2 ! 1)" 2

s2 (n 2 ! 1) 2

sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad, y si las varianzas poblacionales son iguales, se verifica entonces el resultado indicado.

196

5.- La distribucin F juega un papel importante en el anlisis de la varianza (ANOVA) y en el anlisis de la regresin.

3.2.4.3 Utilizacin de las tablas de la distribucin F de Snedecor


Las tablas de la distribucin F de Snedecor contienen los valores F tales que P(F>F ) = , para n y m grados de libertad, y para cada nivel de significacin en cada una de las tablas.
n2\n1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 1 161.4 18.51 10.13 7.71 6.61 S~99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 4.08 4.00 3.92 3.84 2 199.5 19.00 9.55 6.94 5~79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.23 3.15 3.07 3.00 3 215.7 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.84 2.76 2.68 2.60 4 224.6 19.25 9.12 6.39 5.19 4~53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.61 2.53 2.45 2.37 5 230.2 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.45 2.37 2.29 2.21 6 234.0 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.34 2.25 2.18 2.10 7 236.8 19.35 6.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.25 2.17 2.09 2.01 8 238.9 19.37 8.85 6.04 4.82. 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.18 2.10 2.02 1.94 9 240.5 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.12 2.04 1.96 1.88 10 241.9 19.40 8.79 5.97 4.73 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.08 1.99 1.91 1.83 20 248.0 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.10 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 1.84 1.75 1.66 1.57 30 250.1 19.46 8.62 5.74 4.50 3.81 3.38 3.08 2.86 2.70 2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07 2.04 2.01 1.98 1.96 1.94 1.92 1.90 1.88 1.87 1.85 1.84 1.74 1.65 1.55 1.46 40 251.1 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 2.15 2.10 2.06 2.03 1.99 1.96 1.94 1.91 1.89 1.87 1.85 1.84 1.82 1.81 1.79 1.69 1.59 1.50 1.39 60 252.2 19.48 8.57 5.69 4.43 3.74 3.31 3.00 2.79 2.62 2.49 2.38 2.30 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.79 1.77 1.75 1.74 1.64 1.53 1.43 1.32 120 253.3 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 2.06 2.01 1.97 1.93 1.90 1.87 1.84 1.81 1.79 1.77 1.75 1.73 1.71 1.70 1.68 1.58 1.47 1.35 1.22 254.3 19.50 8.53 5.63 4.36 3.67 3.23 2.93 2.71 2.54 2.40 2.30 2.21 2.13 2.07 2.01 1.96 1.92 1.88 1.84 1.81 1.78 1.76 1.73 1.71 1.69 1.67 1.65 1.64 1.62 1.51 1.39 1.25 1.00

Tabla de la distribucin F de Fisher-Snedecor al nivel del 5%

EJEMPLO 3.28: Calcular F para =0.05, y n=5; m=15 grados de libertad. Solucin: Se busca en la tabla correspondiente al nivel del 5%, en la primera fila, los grados de libertad del numerador (5), y en la primera columna los grados de libertad del denominador (15), apareciendo el valor de F en la confluencia de dicha fila y columna:

197

As, se verifica que: F0.05; 5, 15 = 2.90

EJEMPLO 3.29: Calcular F para =0.95, y n=15; m=5 grados de libertad. Solucin: Teniendo en cuenta la siguiente propiedad

F !;n,m =

1 F1"!;m,n

se verifica que
F0.95;15,5 = 1 F1!0.95;5,15 = 1 F0.05;5,15 = 1 = 0.345 2.90

198

"DISTRIBUCIN NORMAL"

3.3 Ampliacin

199

Obviamente al profesor le bastara con tener en cuenta que la representacin grfica de la funcin de densidad es una curva simtrica y que el rea bajo la curva es la unidad, pero entendemos que puede resultarle cmodo disponer de un juego de ejercicios que contemplen distintos casos de uso frecuente. El siguiente apartado est redactado de acuerdo a esta idea.

3.3.1 Algunos casos de inters en el manejo de tablas de la normal


Dada la importancia y el gran uso de la distribucin normal, vamos a analizar en detalle distintos casos que se suelen presentar a la hora de trabajar con esta distribucin.

PRIMER CASO Supondremos como primer caso, el ms trivial: calcular la probabilidad de que la variable aleatoria Z, que sigue una distribucin normal estndar, sea menor o igual que un valor positivo a. Basta con buscar en la tabla directamente el valor de a, teniendo en cuenta que en la primera columna de la tabla aparecen las unidades y las dcimas del valor a y en la primera fila el valor de las centsimas. Como interseccin de la fila y la columna correspondiente aparece el valor

P( Z ! a )

200

Figura 3.12: Representacin grfica de la informacin que nos suministra de manera directa la tabla de la normal con la que vamos a trabajar: P ( Z ! a )

SEGUNDO CASO: En una distribucin

N(0,1)

calcular

P( Z ! "a ) .

Como segundo caso consideraremos, por ejemplo, calcular la probabilidad de que la variable aleatoria Z tome valores menores o iguales que una cierta cantidad a negativa, o sea P( Z ! "a ) La tabla no distingue entre desviaciones positivas y negativas; es decir, en la tabla slo aparecen valores positivos. Analicemos, pues, geomtricamente la situacin.

Figura 3.13.a: El rea rayada de la curva representa representa

P (Z ! " a )

Figura 3.13.b: El rea rayada de la curva

P (Z ! a )

La probabilidad pedida se corresponde con el rea rayada en la figura 3.13a. El rea rayada en la figura de la izquierda (figura 3.13a) es igual al rea rayada en la figura de la derecha (figura 3.13b). A su vez, ese rea es igual al rea total, que vale 1, menos el rea no rayada. El rea de la superficie no rayada en la grfica de la derecha es la que viene en la tabla. Por tanto:

201

P( Z ! "a ) = 1 " P( Z ! a )
EJEMPLO 3.30: Calcular P(Z-2) Solucin:

P( Z ! "2 ) = P (Z # 2) = 1 " P(Z < 2) = 0.9772

TERCER CASO: En una distribucin

N(,!) ,

calcular

P( Z ! a )

Como tercer caso consideraremos la misma situacin que en el caso primero pero suponiendo ahora, que la variable aleatoria sigue una distribucin normal no estndar, de parmetros , .

En este caso, hemos de cambiar previamente de escala de medida; es decir, es x! preciso tipificar primero la variable. El cambio adecuado es z = y por tanto: "

a " & $ x " a " & $ P( X ! a ) = P% ! ' = P% z ! # ' # #


encontrndonos, una vez efectuado el cambio, en la misma situacin del primer caso.

EJEMPLO 3.31: Calcular en una N(2,3) la P(X 2.14): Solucin:

# x " 2 2.14 " 2 % P( X ! 2.14) = P$ ! = P( z ! 0.05) = 0.519 3 3 &


Valor que se obtiene directamente de las tablas, como en el caso anterior.

202

CUARTO CASO: En una distribucin

N(,!) ,

obtener

P( Z ! "a ) .

Se trata, lo mismo que en el caso anterior de dar solucin a uno de los supuestos ya vistos, en concreto al supuesto segundo, pero considerando ahora que trabajamos con una normal no estndar. Lo primero que tenemos que hacer es tipificar ya que si no, la igualdad anterior no se verifica, por tanto:

a " & a " & $ x " "a " & $ $ P( X ! "a ) = P% ! = P% z ! " = 1" P% z < # # ' # ' # '

EJEMPLO 3.32: En una N(5,3) calcular P( X ! "8) Solucin:

13 % 13 % # x " 5 "8 " 5% # # P( X ! "8) = P$ ! & = P$ z ! " 3 & = 1 " P$ z < 3 & = 3 3

= 1 ! P(z " 4.33) = 1 ! 0.9999 = 0.0001

QUINTO CASO: En una distribucin

N (0,1)

calcular

P( Z ! a )

Figura 3.14: El rea rayada de la curva representa P ( Z ! a )

Obviamente P( Z ! a ) = 1 " P(Z < a ) .

203

SEXTO CASO: En una distribucin

N(,!)

Obtener

P( X ! a ) :

a"& $ x " a " & $ P( X ! a ) = P% ! = 1" P% z < # # ' # '

SPTIMO CASO: En una distribucin N(0,1) calcular P(a ! Z ! b)

Figura 3.15. El rea rayada de la curva representa P ( a ! Z ! b )

Observando el grfico de la figura 3.15 y teniendo en cuenta las propiedades de la Normal, tenemos:

P(a ! Z ! b) = P( Z ! b) " P(Z < a )

OCTAVO CASO: En una N(,!) obtener P(a ! X ! b) Si en lugar de trabajar con una N(0,1) trabajsemos con una N(,!) sera preciso, como en casos anteriores, tipificar. Es decir:

b " & a " & $a " x " b " & $ $ P(a ! X ! b) = P% ! ! = P% z ! " P% z < # # # ' # ' # '

204

EJEMPLO 3.33: En una N(0,1) calcular P(1! X ! 1.85) Solucin:

P(1! X ! 1.85) = P(X ! 1.85) " P( X < 1) = 0.9678 " 0.8413 = 0.1265

NOVENO CASO: En una N(0,1)

calcular

P( !a " Z " !b)

Figura 3.16. El rea rayada de la curva representa P ( ! a " Z " ! b)

P( !a " Z " !b) = P(Z " ! b) ! P( Z < !a )


Tal como ya sabemos esto se puede escribir:

P( Z ! "b) " P(Z < "a ) = 1" P( Z < b) " [1 " P(Z ! a )] = = 1 " P (Z < b ) " 1 + P (Z ! a ) = P ( Z ! a ) " P (Z < b )

EJEMPLO 3.34: En una N(0,1) calcular P( !2.3 " Z " !1.8) Solucin:
P( !2.3 " Z " !1.8) = P(Z " !1.8) ! P(Z < !2.3) = = 1! P( Z < 1.8) ! 1 + P( Z " 2.3) = P( Z " 2.3) ! P( Z < 1.8) = = 0.9893 ! 0.9641 = 0.0252

205

Si en lugar de estar en una N(0,1) estuvisemos en una N(,!) , hubisemos seguido el mismo razonamiento pero despus de tipificar.

DCIMO CASO: Clculo del percentil correspondiente a una probabilidad dada. Puede ocurrir que conocida la probabilidad p, se nos pregunte qu valor de a verifica que P( X ! a ) = p Podemos distinguir dos casos: a) La variable aleatoria sigue una N(0,1): En este caso, basta buscar en el interior de la tabla el valor ms aproximado a p y anotar cual es el correspondiente valor de a (en las filas y columnas exteriores de la tabla)

EJEMPLO 3.35: Cul es el valor de a para el que P( Z ! a ) = 0.9251 ? Solucin: Buscamos dentro de la tabla el valor 0.9251 y vemos que el correspondiente valor de a es 1.44. b) La variable aleatoria sigue una normal de parmetros N(,!) En este caso, hemos de tipificar previamente; es decir, expresar a en la escala correspondiente a una N(0,1)

EJEMPLO 3.36: Obtener el valor de a que verifica que P( X ! a ) = 0.8413 en una distribucin N(5,3)

206

Solucin:

a " 5% # P( X ! a ) = P$ Z ! = 0.8413 3 &


Buscando esa probabilidad en las tablas obtenemos el valor 1.0; es decir:

a!5 = 1" a = 3 + 5 = 8 3

207

"DISTRIBUCIN NORMAL"

3.4 Trabajo de investigacin

208

3.4.1 Aplicacin del manejo de tablas de la normal a un ejemplo de investigacin


Se sabe que el dimetro de los hemates de individuos normales sigue un modelo N(7.5, 0.2) y que el dimetro de los hemates de individuos cirrticos sigue un modelo N(8.5 , 0.6). Supongamos que estamos interesados en clasificar a un individuo en uno de dos grupos: normal cirrtico en base a una cierta variable: dimetro de los hemates. En trabajos reales el estudio se lleva a cabo no slo considerando la informacin de una variable sino de varias, y la solucin se obtiene a travs de un anlisis multivariante, pero esto excede el nivel de este trabajo. Para clasificar correctamente a los individuos necesitaramos conocer cul es el mximo valor del dimetro de los hemates en individuos normales. Obviamente ese valor no es conocido ya que slo disponemos de la informacin de que el valor del dimetro es una cantidad aleatoria que se ajusta a una normal de parmetros determinados. Debemos fijar, pues, el valor M para el dimetro como valor mximo de forma que los individuos con dimetro menor sern clasificados como normales y aqullos que tengan dimetro mayor sern clasificados como patolgicos Fijaremos esta cantidad de forma que el 95%, por ejemplo, de los individuos sanos quede correctamente clasificado, es decir, de forma que slo un 5% de los individuos sanos tenga un dimetro mayor de esa cantidad M.

209

La situacin podra representarse grficamente de la siguiente manera (figura 3.17):

NORMALES N(7.5; 0.2)

CIRROTICOS N(8.5; 0.6)

0 6.5

7.5 M=?

8.5

9.5

10

Figura 3.17. Representacin grfica de la distribucin del dimetro de los hemates en individuos sanos y en individuos cirrticos. M ser el punto de corte a partir del cual el individuo ser clasificado en una o en otra categora.

La cantidad M se calcula de forma que se verifique que P (X ! M ) = 0. 95 teniendo en cuenta que la variable X sigue una ley Normal de media 7.5 y desviacin tpica 0.2. El clculo es inmediato: M / P(X<M) = 0.95 en una N(7.5 , 0.2)

P(X<M) = P(Z < (M-7.5)/0.2) = 0.95 (M-7.5)/0.2= 1.645 M = 7.5 + 1.645 . 0.2 = 7.829 Por tanto: Declararemos enfermo (cirrtico) a todo individuo con dimetro de los hemates superior a 7.829

210

Debemos tener en cuenta que, segn este convenio de clasificacin, el 5% de los individuos sanos sern declarados patolgicos errneamente, es decir, el procedimiento propuesto proporciona un 5% de "falsos positivos". Llamaremos a este error, por ejemplo error

! .

Teniendo en cuenta que el dimetro de los hemates en individuos cirrticos se ajusta a una ley Normal de media 8.5 y desviacin 0.6 es evidente que, con este criterio, algn individuo enfermo puede ser declarado errneamente normal. Llamaremos a este error , que nos indica el porcentaje de "falsos negativos." Hemos de determinar qu error cometemos cuando fijamos un riesgo sanos o en patolgicos es de 7.829. Para obtener el porcentaje de personas que declararemos como sanas cuando en realidad son cirrticas basta con determinar en una N (8.5, 0.6) (la de los individuos cirrticos) la probabilidad de que la variable aleatoria tome valores menores al valor prefijado como cota. Es decir: P(X < 7.829) en una normal N(8.5, 0.6)

! del 5%, es decir, cuando

consideramos que el punto de corte para decidirnos en declarar a los individuos en

P(X < 7.829) = P(Z < (7.829 - 8.5)/0.6) = P(Z < -1.12) = P(Z> 1.12) = 1 - P(Z<1.12) = 1 - 0.8686 = 0.1314 Observamos como siguiendo el criterio de partida, de prefijar el porcentaje de falsos positivos en un 5%, obtenemos un 13.14% de malas clasificaciones en individuos enfermos: El 13.14% de los cirrticos sern declarados normales. La regla: DECLARAR CIRRTICO a un individuo con dimetro de hemates superior a 7.829 y NORMAL en caso contrario, da lugar a que: Un 5% de los normales sern declarados cirrticos (falsos positivos) y un 13.14% de los cirrticos sern declarados sanos (falsos negativos) Grficamente la situacin sera (figura 3.18):

211

NORMALES N(7.5; 0.2)

" = 0.1314

! = 0.05(fijado) CIRROTICOS N(8.5; 0.6)

0 6.5

7.5

8 M = 7.8 29

8.5

9.5

10

Figura 3.18: Representacin grfica de la distribucin del dimetro de hemates en las dos poblaciones. Prefijado queda delimitado el valor de M y el valor de

Al observar esta situacin podramos pensar en ser ms restrictivos y prefijar un error ms pequeo, por qu no un 1% por ejemplo. Por qu habramos de arriesgarnos en declarar enfermos a un 5% de los sanos, lo que socialmente podra tener connotaciones negativas (declaramos cirrticos a individuos que no lo son), si podemos prefijar este error tan pequeo como queramos.? Desafortunadamente disminuir el trae consigo aumentar el .

Observemos qu ocurrira si quisiramos disminuir cualquiera de los errores, por ejemplo qu ocurrira si disminuysemos ?: Si disminuye, aumenta En efecto: Si

! disminuye, por ejemplo ! = 1% , M aumenta.

Veamos como esta afirmacin es cierta. Realizar este clculo es idntico al caso anterior slo que ahora la regla de decisin es distinta:

212

Buscamos un M' (dimetro de las hemates) que slo lo superan un 1% de individuos normales. Se trata de localizar en una N(7.5, 0.2) un valor de la variable que verifique que el 1% es mayor que l, o lo que es lo mismo un 99% de los individuos tenga el dimetro de los hemates menor que dicho valor. Sea M / P(X<M)=0.99 en una N(7.5 , 0.2)

P(X<M) = P(Z < (M-7.5)/0.2) = 0.99 (M-7.5)/0.2 = 2.33 M = 7.5 + 2.33 x 0.2 = 7.966 Observamos que segn este criterio el valor de corte es ahora mayor M> M Hemos conseguido disminuir el porcentaje de falsos positivos pero cmo saber cmo se ha modificado el ! . Se trata de buscar en la normal de los cirrticos la probabilidad de encontrarnos valores menores que 7.966 P(X < 7.966) = P(Z < (7.966-8.5)/0.6) = 0.1867 El 18.67% de los cirrticos sern declarados normales. Luego: Si el porcentaje de falsos positivos disminuye hasta el 1%, el porcentaje de falsos negativos sobrepasa el 18%. Nos interesa prefijar los errores pequeos, obviamente a nadie le gusta asumir riesgos grandes, pero hay que tener cuidado al prefijar los riesgos ya que ambos tipos de errores estn claramente relacionados y disminuir uno de ellos trae consigo aumentar el otro considerablemente.

213

Cuarta Unidad Didctica

"ESTADSTICA INFERENCIAL"

4.1 Parte bsica

214

4.1.1 Introduccin y motivacin


La principal razn de que el Mtodo Estadstico se haya desarrollado ampliamente en los ltimos aos dentro de las Ciencias Experimentales es que stas estn sujetas a razonamientos de tipo inductivo que van de lo particular a lo general. Sacaremos conclusiones sobre un grupo de individuos a partir de la informacin que nos proporciona un subconjunto ms o menos amplio de los mismos. De acuerdo con MARTIN ANDRES y LUNA CASTILLO (1990), El nico mtodo cientfico para validar tales extensiones es el Mtodo Estadstico, pues precisamente esa es la causa de su existencia. La expansin del Mtodo Estadstico es tal que, de todas las disciplinas que nuestros alumnos han de estudiar a lo largo de toda la enseanza secundara, la Estadstica es prcticamente la nica que tendrn como asignatura en la mayor parte de las carreras universitarias que puedan elegir en el futuro; desde las tpicamente consideradas experimentales, como la Medicina o la Biologa, hasta carreras consideradas como de letras como la Psicologa, la Sociologa o incluso la Geografa. Aquellos que decidan no tomar el camino de la Universidad se encontrarn cada vez ms frecuentemente con conceptos procedentes de la Ciencia Estadstica como por ejemplo el de error mximo admisible o el de nivel de confianza en cualquier encuesta sociolgica de las que habitualmente aparecen en la prensa. El primer concepto importante que hemos de transmitir a nuestros alumnos es la diferencia existente entre lo que son las estadsticas como meras colecciones de datos y lo que es el Mtodo Estadstico considerado como una disciplina cientfica con entidad propia. Es comn escuchar la frase No creo en las estadsticas, incluso entre profesionales cercanos a la disciplina. Efectivamente las estadsticas como posible ayuda a la toma de decisiones dependen de quin y como se hayan tomado los datos y de si las respuestas que dan los encuestados se ajustan a su opinin real. En este sentido los datos pueden ser susceptibles de creencia puesto que uno puede dudar de la intencin del

215

encuestado. El Mtodo Estadstico, tal y como est concebido en la actualidad, forma parte del saber cientfico y es aceptado lo mismo que lo es, por ejemplo, la Teora de la Relatividad en Fsica; no es, por tanto, terreno de las creencias y seguir siendo aceptado como vlido hasta que alguien proponga una nueva teora que lo modifique. Recapitulando sobre lo expuesto, la Estadstica se configura como la tecnologa del mtodo cientfico que proporciona instrumentos para la toma de decisiones cuando estas se adoptan en ambientes de incertidumbre, siempre que esta incertidumbre pueda ser cuantficada en trminos de probabilidad. (MARTIN PLIEGO, 1994). El procedimiento de toma de decisiones, o de aprendizaje, en el mbito cientfico se resume en la figura 1, y consiste bsicamente en plantear una hiptesis, contrastarla mediante datos experimentales y modificarla si no puede ser aceptada. Es precisamente en el paso de contraste en el que el Mtodo Estadstico juega un papel fundamental y aunque cualquier cientfico puede realizar una investigacin sin estadstica, sin embargo es mucho ms fiable si el resultado est basado en mtodos estadsticos. No se concibe la investigacin aplicada actual sin la utilizacin de la Estadstica en el proceso de induccin.

Figura 1: El proceso de aprendizaje.

El cuadro 1 muestra los pasos fundamentales del mtodo cientfico en relacin con el mtodo estadstico.

216

Figura 4.1: El Mtodo Estadstico es una parte importante de la investigacin cientfica actual.

MTODO CIENTFICO
1.- PLANTEAR UNA IDEA (HIPOTESIS) 2.- CONTRASTAR LA IDEA a) Establecer la poblacin o poblaciones a estudiar. b) Decidir el mtodo para la recoleccin de los datos. c) Suponer un modelo, especificando las distribuciones de las poblaciones en estudio. d) Formular las hiptesis de inters en trminos de los parmetros del modelo. e) Calcular el tamao muestral necesario para conseguir los objetivos tan eficientemente como sea posible. El clculo requiere el conocimiento de la mnima diferencia en la que el investigador est interesado, as como un estimador de la variabilidad subyacente. f) Recoger los datos. g) Revisar si el modelo supuesto puede considerarse una aproximacin razonable. h) Revisin del anlisis si las suposiciones de partida del modelo no son ciertas. i) Analizar los datos. j)Escribir las conclusiones en lenguaje simple (no estadstico). 3.- REVISAR LA IDEA SI NO SE ACEPTA A PARTIR DEL PROCEDIMIENTO EXPERIMENTAL. Cuadro 4.1: El mtodo cientfico y su relacin con la Estadstica.Se han sealado en cursiva los pasos del mtodo directamente relacionados con la Estadstica, que van desde la recogida de los datos hasta el anlisis de los mismos.

217

Estudiaremos cada uno de los apartados mencionados aunque no necesariamente en el orden en el que aparecen en el cuadro anterior. Se plantea ahora un problema que suscita polmica entre los profesionales de las Estadstica, el enfoque que debe darse a la explicacin de los conceptos fundamentales. Trataremos de exponer nuestro punto de vista al respecto antes de comenzar con la explicacin propiamente dicha. Dos son los enfoque predominantes, si bien pueden considerarse posturas intermedias; el primer bloque estara formado por aquellos que consideran la Estadstica como una especialidad ms de las Matemticas sin caractersticas diferenciales claras con respecto al resto de las disciplinas; el segundo bloque estara formado por aquellos que piensan que la Estadstica tiene entidad propia como disciplina cientfica en la que las Matemticas han de entenderse simplemente como una herramienta. Como profesionales de la Estadstica Aplicada, nos inclinamos por la segunda de las posibilidades si bien no se debe olvidar el fondo terico de la disciplina y las herramientas matemticas bsicas, que se entendern como un medio y no como un fin en si mismas. Trataremos de explicar esta postura ms ampliamente en los prrafos que siguen. La Estadstica como disciplina tiene fundamentalmente un carcter inductivo en contraposicin al carcter deductivo de las Matemticas, el objeto ltimo de la misma es sacar conclusiones sobre una poblacin a partir de la informacin que proporciona una muestra de la misma, y no el desarrollo de los teoremas propiamente dichos que sera objeto de la denominada Estadstica Matemtica. Un ejemplo similar sera el de la Fsica, con un campo propio, y el de los mtodos matemticos aplicados a la Fsica que forman parte de las Matemticas. El objeto de la Estadstica Aplicada son los Mtodos Estadsticos, los resultados y su aplicacin en otras disciplinas cientficas; la obtencin terica de dichos mtodos utiliza

218

herramientas matemticas (Clculo, Algebra o Geometra) o conceptos de Clculo de Probabilidades. Siguiendo a WOLFOWITZ (1969)1: Excepto quizs unos pocos de los ms profundos teoremas, y quizs ni siquiera esos, la mayor parte de los teoremas de la Estadstica no sobreviviran en las Matemticas si el sujeto de la propia estadstica (la aplicacin) desapareciera. Para sobrevivir al sujeto deben responder ms a las necesidades de aplicacin. De lo que debemos protegernos es del desarrollo de una teora que, por una parte, tiene poca o ninguna relacin con los problemas reales de la Estadstica, y que, por otra parte, cuando se ve como Matemtica pura, no es lo suficientemente interesante, por si misma, ni para sobrevivir. Tambin en este sentido TUKEY (1962)2, que podra ser considerado como el padre de la aproximacin exploratoria del anlisis de datos, apunta lo siguiente: La mxima ms importante a la que el anlisis de datos debe prestar atencin, y una de las que muchos estadsticos parecen haber olvidado, es sta: Mucho mejor una respuesta aproximada a una pregunta correcta, que es a menudo vaga, que una respuesta exacta a la pregunta errnea, que puede hacerse siempre de forma precisa. El anlisis de datos debe progresar aproximando respuestas, en el mejor de los casos, ya que su conocimiento de lo que es realmente el problema ser en el mejor de los casos aproximado. Todo lo dicho pone de manifiesto que hay distintas formas de entender las cosas probablemente debido a la conjuncin de la parte inductiva en la esencia de la disciplina y la parte deductiva en su desarrollo. Es la parte deductiva (matemticas) la que ha situado a la Estadstica, hasta hace pocos aos, como una especialidad de la licenciatura
1

-WOLFOWITZ, J. (1969): 'Reflections on the future of mathematical statistics'. en R. c. Bose et al. (eds.) "Essays in Probability and Sraristics". University of North Carolina Press. Chapel Hill. 2 -TUKEY, J.W. (1962): 'The future of Data Analysis'. Annals of Mathematical Statistics, 33, 1-67.

219

de Matemticas, y es probablemente la parte inductiva la que ha hecho que en esas mismas facultades fuera considerada como la hermana pobre, o cuando menos, como algo extrao y diferente, por los matemticos tradicionales. El proceso futuro que seguir la Estadstica como disciplina cientfica pasar, sin duda, por la separacin de las Matemticas, como lo hizo en su momento la Fsica, que tiene su propia entidad aunque utilice el mtodo matemtico como herramienta. De hecho, ya es posible cursar estudios de Estadstica (tanto de primer como de segundo ciclo) en Facultades de Estadstica separadas de las de Matemticas. (Aunque desgraciadamente en la mayora de los casos siguen controlados por los matemticos). Es esta misma disyuntiva es la que ha colocado los conceptos de Estadstica necesarios en las Enseanzas Medias dentro de la asignatura de Matemticas, y la que ha hecho que muchos de los profesores, con formacin matemtica tradicional, prefieran relegarla a un segundo plano cuando, en realidad, es la nica parte del programa que prcticamente todos los que tomen el camino universitario van a estudiar. En Facultades Aplicadas (Medicina, Biologa, Economa, Psicologa, Geografa, Derecho, Biblioteconoma, Traduccin y documentacin, etc ... ) enseamos Estadstica Aplicada, es decir, los resultados ms relevantes que permiten al alumno resolver problemas que se encontrar en su ejercicio profesional, aprendiendo el lenguaje y las tcnicas bsicas que le permitan comprender no slo las situaciones que se le plantean en el curso sino tambin posibles situaciones futuras. No es necesario ensear la parte deductiva completamente, ya que se trata de usuarios de los mtodos, y no es preciso profundizar en aspectos meramente tcnicos que pertenecen exclusivamente al mundo de las Matemticas. De alguna manera, el rigor conceptual para transmitir la filosofa bsica de trabajo dentro del mtodo cientfico, sustituye al rigor matemtico en la presentacin de resultados ya que los alumnos han de resolver problemas de investigacin en su propia rama y no en Matemticas.. En Facultades de Matemticas y Estadstica el enfoque estar ms dirigido al aspecto tcnico-matemtico, especialmente en las primeras. En las nuevas facultades de

220

Estadstica tendrn que aprender que el objeto es la aplicacin y que los resultados matemticos necesarios para el desarrollo deductivo de los "Mtodos Estadsticos" son slo una herramienta y no el objeto en si mismos. La mayor parte de nuestros alumnos cursar estudios en Facultades Aplicadas por lo que trataremos de centrar nuestra atencin en el "Mtodo Estadstico" y no en su deduccin tcnica, si bien puede realizarse algn ejercicio para aplicar, en este contexto, los conceptos aprendidos en el resto de la asignatura de Matemticas. Es posible, tambin utilizar ejercicios en conexin con los profesores de otras asignaturas como Biologa, Geografa Econmica, etc.

INFERENCIA Y MUESTRAS La Inferencia Estadstica es aquella rama de la Estadstica mediante la cual se trata de sacar conclusiones de una poblacin en estudio, a partir de la informacin que proporciona una muestra representativa de la misma. Tambin es denominada Estadstica Inductiva o Inferencia Inductiva ya que es un procedimiento para generar nuevo conocimiento cientfico. La muestra se obtiene por observacin o experimentacin. La necesidad de obtener un subconjunto reducido de la poblacin es obvia si tenemos en cuenta los costes econmicos de la experimentacin o el hecho de que muchos de los mtodos de medida son destructivos. Toda inferencia inductiva exacta es imposible ya que disponemos de informacin parcial, sin embargo es posible realizar inferencias inseguras y medir el grado de inseguridad si el experimento se ha realizado de acuerdo con determinados principios. Uno de los propsitos de la inferencia Estadstica es el de conseguir tcnicas para hacer inferencias inductivas y medir el grado de incertidumbre de tales inferencias. La medida de la incertidumbre se realiza en trminos de probabilidad.

221

Figura 4.2: Esquema de Inferencia Estadstica. El primer concepto importante es el de poblacin, que es el conjunto de individuos sobre los que se desea informacin. La poblacin ha de estar perfectamente definida a la hora de comenzar el estudio. (paso 2-a de la descripcin del mtodo cientfico en el Cuadro 1). Por ejemplo, en un ensayo clnico en el que se pretende demostrar la efectividad de un tratamiento han de estar muy claros cuales son los criterios de inclusin de un paciente en la poblacin (muestra) a estudiar. De la poblacin se extrae un subconjunto que se denomina muestra. La muestra ha de ser representativa de la poblacin, en el sentido de que debe tener una composicin similar en cuanto a la proporcin de distintas caractersticas. Por ejemplo, una muestra para un estudio de estaturas no incluir solamente individuos bajos o altos, sino individuos de ambas clases en proporciones similares a las de la poblacin. La representatividad de la muestra queda garantizada con la eleccin correcta del mtodo de muestreo, que se estudiarn en el punto siguiente. Sobre cada uno de los individuos medimos una o varias caractersticas que denominamos variables. As a cada poblacin le corresponde una variable aleatoria que denotaremos con X. En la teora de la Estadstica quedan identificadas Poblacin y variable aleatoria asociada. As en toda la teora de la Inferencia poblacin significar el conjunto de individuos a estudiar, pero tambin la variable aleatoria asociada a la caracterstica que medimos sobre los individuos. En general, trataremos con poblaciones infinitas, entendiendo que en la prctica

222

"poblacin infinita" significa lo mismo que "poblacin muy grande" ya que conceptualmente la mayor parte de las poblaciones no pueden ser consideradas infinitas. En general, supondremos un modelo de distribucin de probabilidad para la variable aleatoria en estudio que resuma las caractersticas de la misma (apartado 2c del mtodo cientfico en el Cuadro 1), aunque desconocemos los parmetros que trataremos de estimar a partir de una muestra. Por ejemplo suponemos que X es N(, ) donde los dos parmetros, o uno de ellos, son desconocidos. En algunos casos no es necesario especificar tales distribuciones y las inferencias se hacen sobre caractersticas de la distribucin que no son necesariamente parmetros. La inferencia Estadstica puede dividirse en dos apartados de acuerdo con el conocimiento sobre la distribucin en la poblacin.

Inferencia Paramtrica: Se conoce la forma de la distribucin (Normal, Binomial, Poisson, etc .... ) pero se desconocen sus parmetros. Se realizan inferencias sobre los parmetros desconocidos de la distribucin conocida. Inferencia No Parmetrica: Forma y parmetros desconocidos. Se realizan inferencias sobre caractersticas que no tienen porque ser parmetros de una distribucin conocida (Mediana, Estadsticos de Orden). De acuerdo con la forma en que se estudian los parmetros o caractersticas desconocidas, la inferencia puede dividirse en dos apartados: Estimacin: Se intenta dar estimaciones de los parmetros desconocidos sin hacer hiptesis previas sobre posibles valores de los mismos. Estimacin puntual: Un nico valor para cada parmetro. Estimacin por intervalos: Intervalo de valores probables para el parmetro. Contraste de Hiptesis: Se realizan hiptesis sobre los parmetros desconocidos y se desarrolla un procedimiento para comprobar la verosimilitud de la hiptesis planteada. Veamos los conceptos con un ejemplo concreto tomado de un estudio de investigacin real. El estudio pertenece a otro ms amplio llevado a cabo en colaboracin por los

223

Departamentos de Qumica Analtica, Nutricin y Bromatologa , y Estadstica y Matemtica Aplicada. El objetivo original del trabajo consiste en estudiar los vinos jvenes embotellados de dos denominaciones de origen, Ribera de Duero y Toro, mediante tcnicas de laboratorio objetivas, con el fin de buscar las caractersticas que los diferencian y evitar los posibles fraudes producidos por el intercambio debido a la proximidad geogrfica de ambas denominaciones. Por el momento nos centraremos en una sola variable, el grado alcohlico, y en una sola de las poblaciones, la de Ribera de Duero. Fijaremos adems un momento del tiempo, la cosecha del ao 1986. El primer paso de cualquier investigacin, la definicin clara de la poblacin en estudio, se obtiene de los propios objetivos del mismo. Estudiaremos vinos jvenes embotellados de la denominacin de origen "Ribera de Duero" en la cosecha de 1986. La variable a medir es el grado alcohlico. Seguramente todos hemos observado que en las botellas de vino aparece el grado alcohlico de las mismas, que suele ser entre 12 y 12,5 grados. Es obvio que este valor no es el contenido exacto de cada una de las botellas, sino que se trata de un contenido medio. Supongamos que desconocemos ese contenido medio para la poblacin y deseamos averiguarlo, para lo cual hemos de seleccionar una muestra de la poblacin. La necesidad de seleccionar una muestra es clara ya que el anlisis del contenido alcohlico implica la destruccin del individuo, la botella de vino. Aunque la poblacin no puede ser infinita supondremos que lo es ya que el nmero de botellas es muy grande y supondremos que la variable aleatoria sigue una distribucin normal. La hiptesis sobre la distribucin de probabilidad ha de hacerse a priori, teniendo en cuenta las caractersticas conocidas de la poblacin en estudio (hay que tener en cuenta que se trata solamente de un modelo para ajustar la realidad.) El ejemplo parece lgico utilizar una distribucin normal ya que es posible suponer que los posibles valores del grado alcohlico se concentran de forma simtrica en torno a un valor medio, y que la probabilidad de encontrar valores decrece a medida que aumenta la distancia a dicho valor medio. (Figura 4).

224

Figura 4.3: Distribucin poblacional del grado alcohlico de los vinos de Ribera de Duero.

Si tuviramos, por ejemplo, la distribucin de los salarios de los empleados de una Empresa dedicada a la fabricacin de automviles, en principio no podemos suponer la distribucin normal ya la distribucin es probablemente asimtrica con una cola hacia los salarios altos determinada por los salarios de los ejecutivos.

Figura 4.4: Distribucin poblacional de los salarios de una empresa.

En la mayor parte de las investigaciones reales suponemos que las variables o transformaciones de las mismas (logaritmos, aproximadamente normales. etc, ...) tienen distribuciones

225

El paso siguiente consiste en determinar posibles valores para los parmetros desconocidos, para lo cual hemos de obtener una muestra representativa de la poblacin. La obtencin de una muestra representativa se trata en el punto siguiente.

4.1.2 Estadisticos y distribuciones muestrales


Todo lo que veremos a continuacin est pensado para poblaciones infinitas (muy grandes) y con muestreo aleatorio simple. El muestreo aleatorio simple garantiza una muestra representativa de la poblacin y la obtencin de observaciones independientes. Dada una poblacin X, el proceso de muestreo consiste en obtener, al azar, un valor de la variable X, x1; El valor obtenido puede ser cualquiera de los de la poblacin, luego los posibles valores para x1 son todos los de X, y por tanto x1 puede considerarse como una realizacin particular (observacin) de una variable aleatoria X1 con la misma distribucin que X. A continuacin obtenemos, independientemente de la primera observacin, un valor x2 que puede considerarse como una realizacin particular de una variable aleatoria X2 con la misma distribucin que X e independiente de X1. Obsrvese que la poblacin no se modifica al extraer uno de sus individuos ya que es infinita. (Si la poblacin es finita podra utilizarse un muestreo con reemplazamiento). El proceso contina hasta obtener una muestra de tamao n, n observaciones x1, x2, ... , xn de n variables aleatorias X1, X2, ... , Xn independientes e idnticamente distribuidas. Definicin: Sea X una variable aleatoria con f.d.p F, y sean X1, X2, ... , Xn , n variables aleatorias independientes con la misma f.d.p F que X. Se dice que X1, X2, ... , Xn , son una muestra aleatoria de tamao n de F o bien n observaciones independientes de X.

Hemos utilizado letras minsculas, como en descriptiva, para denotar las observaciones

226

particulares de una muestra, y letras maysculas para denotar las variables aleatorias de las que se han tomado. A lo largo de la exposicin terica ambas sern intercambiables y sern utilizadas indistintamente para representar a las correspondientes variables aleatorias. Otra forma de ver la muestra es como una variable aleatoria multivariante con funcin de densidad de probabilidad es el producto de las funciones de densidad de cada una de las componentes (ya que son independientes) f(X1, X2, ... , Xn) = f(X1) f(X2) ... f(Xn) donde las funciones de densidad son iguales a la de X. Esta forma de entender la muestra supera el mbito de un curso introductorio. Una vez obtenida la muestra la describimos en trminos de algunas de sus caractersticas fundamentales como la media, la desviacin tpica, etc ... A tales caractersticas las solemos denominar estadsticos.

Definicin: Un estadstico es una funcin de los valores muestrales que no depende de ningn parmetro poblacional desconocido.

Un estadstico es tambin una variable aleatoria ya que es una funcin de variables aleatorias. Por ejemplo la media muestral

X=

!X
i=1

es una variable aleatoria de la que tenemos una sola observacin

x=

!x
i=1

Cuando el contexto est claro, identificaremos la variable con sus observaciones, es decir utilizaremos tambin letras minsculas para la representacin de la variable. A continuacin ilustraremos, con un ejemplo sencillo, el concepto de distribucin

227

muestral de un estadstico. Supongamos que disponemos de una poblacin finita en la que disponemos de 4 individuos que toman los valores {1, 2, 3, 4}. Supongamos que obtenemos una muestra sin reemplazamiento de tamao 2. Las distintas posibilidades son {1, 2} {1, 3} {1, 4} {2, 3} {2, 4} Obtendremos, dependiendo de la muestra elegida, {3, 4} las siguientes medias

respectivamente: 1.5 2 2.5 2.5 3 3.5

Es claro que la media muestral no es un valor fijo sino que puede considerarse tambin como una variable aleatoria de la que tenemos una sola observacin, la media de la muestra concreta seleccionada. Dicha variable tendr una distribucin de probabilidad asociada. (En este caso una distribucin discreta que toma los valores 1.5, 2, 2.5, 3 y 3.5 con probabilidades 1/6, 1/6, 2/6, 1/6, 1/6, respectivamente.

Definicin: A la distribucin de un estadstico calculado a partir de los valores tomados de una muestra se la denomina distribucin muestral del estadstico.

En la mayor parte de los casos supondremos que nuestra poblacin tiene distribucin normal y que los estadsticos que vamos a utilizar son la media y la desviacin tpica (o la cuasi desviacin tpica).

228

4.1.3 Distribuciones muestrales de la media y la desviacin tpica.


Sea X1, X2, ... , Xn , una muestra aleatoria de una poblacin X en la que E(X) = Var(X)= 2 Entonces el valor esperado (media) y la varianza del estadstico "media muestral" son E(X) =

Var(X) = Desv(X) =

!2 n !
n

La comprobacin del resultado es obvia si tenemos en cuenta que la esperanza de la suma de varias variables aleatorias independientes es la suma de las esperanzas, y que la varianza es la suma de las varianzas, y adems que si multiplicamos una variable por una constante, la varianza queda multiplicada por la constante al cuadrado. Entonces
"1 n % 1 n 1 E(X) = E $ ! X i ' = ! E(X i ) = n = n # n i=1 & n i=1
n " n Xi % 1 (2 (2 Var(X) = Var $ ! ' = ! 2 Var X i = n 2 = n n # i=1 n & i=1 n

( )

Si adems, la poblacin es normal, es decir, X ! N( , " ) entonces la media muestral es tambin normal X ! N( , " ) . Basta tener en cuenta las propiedades de la normal que ya se vieron en su momento. El resultado es importante en estimacin ya que, aunque la media poblacional y la media muestral no coincidan, los posibles valores de la media muestral se concentran de forma simtrica alrededor de la media poblacional, adems, la dispersin es menor a medida que aumenta el tamao muestral.

229

Figura 4.5: Distribucin muestral de las medias. La distribucin muestral asociada a varianzas y cuasivarianzas es un poco ms compleja y su obtencin supera los objetivos del curso, de forma que nos limitaremos a exponerlas. Sea X1, X2, ... , Xn , una muestra aleatoria simple de una poblacin X N(, 2), entonces la variable aleatoria

" (X
i=1

! X)2

#2
sigue una ji-cuadrado con n-1 grados de libertad.

Del resultado anterior se deduce que las variables

n S2 !2

(n " 1) S2 !2

donde siguen ambas una ji-cuadrado con n-1 grados de libertad.

230

4.1.4 El teorema central del limite.


Lo que hemos visto hasta el momento parece bastante restrictivo ya que hemos supuesto, de entrada, que la distribucin en la poblacin es normal, pero existen muchos casos en los que no es posible suponer distribucin Normal. El siguiente resultado permite trabajar con la normal para la distribucin muestral de medias aunque la poblacin no lo sea, y es conocido como Teorema Central del Lmite.

Sea X1, X2, ... , Xn , una muestra aleatoria de una poblacin X con una distribucin de probabilidad no especificada para la que la media es E(X) = y la varianza Var(X)= 2 finita. La media muestral tiene una distribucin con media y varianza 2 /n que tiende a una distribucin normal cuando n tiende a infinito. La demostracin del resultado excede los lmites de un curso introductorio. La aproximacin a la distribucin normal es mejor para n grande ya que se trata de una aproximacin y no de una distribucin exacta como en el caso de poblaciones normales. En Estadstica consideramos n grande cuando es mayor de 30. Una consecuencia directa del teorema es que la suma de los valores muestrales sigue una distribucin normal de media n y varianza n2.

El teorema de De Moivre que se explic en el apartado de la normal puede entenderse tambin como un caso particular del Teorema Central del Lmite.

Sea una poblacin en la que se mide una v.a. X con distribucin binomial B(1,p), es decir, toma el valor 1 con probabilidad p y el valor 0 con probabilidad q, tiene una media p y una varianza pq. Una distribucin B(n,p) puede entenderse como la suma de n binomiales B(1,p), luego aplicando el TCL, si n es grande la distribucin B(n,p) se puede aproximar por una normal que tiene como media a np y como varianza npq.

231

4.1.5 Estimacin puntual


4.1.5.1 Ideas generales
Llamaremos Estimacin puntual de un determinado parmetro de una poblacin, al proceso que nos permite, a partir de la informacin suministrada por una muestra aleatoria de la misma, determinar un solo valor numrico que se sea un buen indicador de dicho parmetro poblacional. El estadstico muestral tomado para estimar el parmetro poblacional recibe el nombre de estimador puntual. Por ejemplo, para estimar la media aritmtica de una poblacin se utiliza como estimador puntual la media aritmtica muestral. Dado que el valor del estimador depende de la muestra tomada, pues puede tomar valores diferentes sobre muestras diferentes, es claro que se trata de una variable estadstica aleatoria y como tal, seguir una determinada distribucin en el muestreo, hecho que se utiliza para determinar la bondad de dicho estimador; es decir, para conocer en qu medida sirve para estimar el parmetro poblacional considerado. Todo buen estimador ha de tener dos cualidades bsicas, a saber:

1 Ser insesgado, es decir, la esperanza matemtica del estimador ha de


coincidir con el parmetro a estimar. 2 Ser estable en el muestreo, es decir, tener varianza mnima. Cuando un estimador cumple estas dos condiciones se dice que es eficiente. Por ejemplo, la media muestral x basada en muestras aleatorias de tamao n, de una distribucin Normal, de media y varianza 2, es un estimador eficiente de ; por su parte, la cuasi-varianza muestral s2, lo es de 2.

4.5.1.2 Estimadores y propiedades deseables de los estimadores.


Supongamos ahora que disponemos de una poblacin en la que se mide una variable X con distribucin de forma conocida y parmetros desconocidos, por ejemplo una normal

232

con media y varianzas desconocidas como en el caso prctico que plantebamos anteriormente. De la poblacin se extrae una muestra aleatoria simple de tamao n, X1, X2, ... , Xn. Se trata de calcular, a partir de los valores muestrales, una funcin de los mismos que

proporcione un valor ! = u(X2, ... , Xn) que sustituya al parmetro desconocido de la


poblacin , de forma que ambos sean lo ms parecidos en algn sentido. A tal valor obtenido de la muestra se le denomina estimador. Un estimador es tambin una variable aleatoria. Se trata bsicamente de buscar estimadores centrados alrededor del verdadero valor del parmetro y con la menor varianza posible.

Por ejemplo, por simple analoga, si la distribucin en la poblacin es normal, la media muestral puede considerase como un estimador de la media poblacional. La distancia entre el estimador y el parmetro a estimar puede medirse mediante los que se denomina el error cuadrtico medio, que se define como el valor esperado de la diferencia entre el estimador y el verdadero parmetro. ECM(! ) = E(! " ! ) El ECM es importante ya que puede escribirse como ECM(! ) = Var(! ) + [! " E(! )]2 una es la varianza del estimador y otra el cuadrado del sesgo (concepto que veremos posteriormente). Consideraremos criterios adicionales para seleccionar estimadores. Las propiedades deseables que ha de tener un estimador para considerarse adecuado son las siguientes: -Ausencia de sesgoSe dice que un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parmetro a estimar. E(! ) = ! . En caso contrario se dice que es sesgado y a la cantidad b(! ) = [! " E(! )] se la denomina sesgo. La propiedad es importante ya que los posibles valores del estimador fluctan alrededor del verdadero parmetro. Por ejemplo, si utilizamos la media muestral como estimador

233

de la media poblacional en una distribucin normal, se trata de un estimador insesgado ya que la esperanza de su distribucin muestral es la media poblacional . El hecho de que adems, tenga distribucin normal, es importante en la prctica, ya que aunque la media muestral y la poblacional no coinciden exactamente, los valores de aquella fluctan de forma simtrica alrededor de esta, son valores prximos con probabilidad alta y la dispersin disminuye cuando aumenta el tamao muestral. -Consistencia Se dice que un estimador ! es consistente si se aproxima cada vez ms al verdadero valor del parmetro a medida que se aumenta el tamao muestral. Ms formalmente, un estimador es consistente si Pr $ ! " ! > # & ( 0 cuando n ! " , para ! > 0 . o dicho de % ' otra forma la distribucin del estimador se concentra ms alrededor del verdadero parmetro cuando el tamao muestral aumenta. La media muestral es un estimador consistente de la media poblacional en una !2 distribucin normal, ya que, la varianza de la misma tiende a cero para n ! " , de n forma que la distribucin se concentra alrededor del verdadero valor cuando n crece. -EficienciaEs claro que un estimador ser tanto mejor cuanto menor sea su varianza, ya que se concentra ms alrededor del verdadero valor del parmetro. Se dice que un estimador insesgado es eficiente si tiene varianza mnima. Una cota inferior para la varianza viene dada por la denominada cota de Cramer-Rao. Sea X1, X2, ... , Xn. una muestra aleatoria simple de una distribucin con densidad f(x; ). Sujeto a ciertas condiciones de regularidad en la funcin de densidad, cualquier estimador insesgado verifica que
*$ # ln f (X;! ) ' 2 nE ,& ) / #! ( / ,% + . )# " ln f (X;! ) & 2 , A la cantidad I n (! ) = nE +% ( . se la denomina cantidad de informacin de "! ' . +$ * Var(! ) " 1

Fisher asociada a una muestra aleatoria simple de tamao n.

234

4.1.5.3 Mtodos de estimacin


Mtodo de los Momentos -Consiste en igualar los momentos muestrales y los poblacionales. Prcticamente no se usa en la investigacin actual. Mtodo de los Mnimos Cuadrados -Consiste en minimizar la suma de cuadrados de los errores (diferencias entre valores observados y esperados tras suponer que las observaciones se obtienen como la suma de una parte sistemtica o controlada y una parte aleatoria no controlada o fuente de error). El mtodo es ampliamente utilizado cuando se trabaja con modelos de regresin y tcnicas relacionadas. Ejemplo: Estimacin de la media de una poblacin normal. Cada observacin experimental xi puede suponerse como la suma de una constante (la media ) y un error experimental aleatorio (i) xi = + i con i = xi - con distribucin N(0, ).

El mtodo de los mnimos cuadrados consiste en minimizar la suma de cuadrados de los errores (Diferencias entre valores observados y esperados)
D = " ! i2 = " (x i # )2
i=1 i=1 n n

Derivando con respecto a e igualando la derivada a cero

235

!D n = # 2(x i " )("1) = 0 ! i=1

# (x
i=1

" ) = 0
n i

#x
i=1

=x

obtenemos la media muestral como estimador de la poblacional.

Mtodo de la Mxima Verosimilitud - Consiste en sustituir los parmetros por aquellos valores que maximizan el logaritmo de la funcin de verosimilitud de la muestra (funcin de densidad conjunta de todos los valores muestrales en el supuesto de que son independientes). Ejemplo: Media y varianza de una poblacin normal Los valores muestrales X1, ... , Xn se supone que son variables aleatorias

independientes y todas con distribucin N(, ). La funcin de densidad conjunta ser el producto de las funciones de densidad de cada una de ellas.

L(x1 , , x n / , ! ) = $
i=1

! 2"
1 ( * )
n

1 ( xi # ) 2 !2

=
2 2

% =' &
Tomando logaritmos

! 2"

+#2
i=1

1 ( xi # )

2 1 (x i ! ) ln L = !n ln(" 2# ) + $ ! i=1 2 "2 n

Derivando con respecto a y y resolviendo el sistema se obtienen como estimadores para la media y la varianza

236

=x=

! xi
i=1

" 2 = S2 =

! (x
i=1

# x)2

Propiedades de los estimadores Mximo-verosmiles Los estimadores mximo-verosmiles juegan un papel importante en Estadstica debido a que se obtienen mediante un mtodo simple y tienen buenas propiedades con respecto a sesgo eficiencia y consistencia. Bajo ciertas condiciones de regularidad se verifica: -Si existe un estimador insesgado y de varianza mnima, cuya varianza alcance la cota de Cramer-Rao, este estimador es mximo verosmil y es la nica solucin de la ecuacin de verosimilitud. -Si el estimador es sesgado, su sesgo tiende a cero al aumentar el tamao de la muestra, adems es asintticamente eficiente (Eficiente para n grande). - Existe una solucin de la ecuacin de verosimilitud que proporciona un estimador consistente y asintticamente normal. N(! , mnima o cota de Cramer-Rao.

1 1 ) . Donde I n (! ) I n (! )

es la varianza

4.1.2.2 Principales estimadores puntuales


En la Unidad Didctica n 3 se han estudiado, entre otras, las distribuciones Binomial, de Poisson y Normal. Tal y como se vio entonces, cada una de ellas viene determinada por unos parmetros, as, la Binomial B(n,p) est determinada por n (nmero de pruebas realizadas de un experimento aleatorio con solo dos resultados posibles A y A ), y p (probabilidad de que ocurra el suceso A al llevar a cabo una prueba del experimento); por su parte, la distribucin de Poisson P(), es la forma lmite de la Binomial cuando n ! " y p ! 0 , de parmetro = np, distribuciones -ambas- de

237

variable aleatoria discreta, y la distribucin Normal N(,), de variable aleatoria continua. As pues, y dado que las distribuciones anteriores vienen determinadas por sus parmetros, podremos hacer inferencias sobre la poblacin haciendo inferencias acerca de stos; veamos a continuacin cules son los estimadores , !, y " para los p parmetros p, , y , respectivamente.

ESTIMADOR DEL PARMETRO p DE UNA DISTRIBUCIN BINOMIAL B(n,p) Consideremos un experimento aleatorio cuyos resultados son dos sucesos A, A , mutuamente excluyentes, de probabilidades p y q=1-p, respectivamente. Sabemos que la variable aleatoria ligada a un experimento con las caractersticas anteriores sigue una distribucin Binomial B(n,p); pues bien, como estimador puntual de p, que llamaremos , tomaremos la frecuencia relativa del suceso A, al realizar n p pruebas, es decir: p = (n de veces que ocurre A)/(n de pruebas). Este estimador es eficiente, pues la distribucin de tiene de media p, y su p pq varianza, que vale n es mnima; adems, para un tamao de muestra n ! suficientemente grande, se distribuye segn una distribucin Normal N p, pq n # . p " $

238

ESTIMADOR DEL PARMETRO DE UNA DISTRIBUCIN DE POISSON P() Consideremos una determinada poblacin en la cual estudiamos una caracterstica que sigue una distribucin de Poisson P(), y sea x1, ... , xn una muestra genrica aleatoria de dicha poblacin; en estas condiciones se verifica que un buen n x estimador de es la media muestral ! = " i . i=1 n

El estimador ! es insesgado ya que su distribucin en el muestreo tiene de media , y como su varianza es mnima, resulta ser un estimador eficiente; adems, para n " !% '. suficientemente grande, ! sigue una distribucin Normal N$ !, # n&

ESTIMACIN DE LOS PARMETROS Y DE UNA DISTRIBUCIN NORMAL N(,) Consideremos una poblacin en la que estudiamos una determinada caracterstica que se distribuye segn una distribucin Normal N(,), y sea x1, ... , xn una muestra tomada al azar de dicha poblacin.
n x En estas condiciones se verifica que un estimador eficiente de es = ! i = x i=1 n

(media

!2 = #

n ( x " x )2 i

muestral);

adems,

puesto

que
2

la

cuasi-varianza

muestral:

i=1

n "1

= s2 es un buen estimador de !

como estimador de tomaremos

! = s (cuasi-desviacin tpica muestral).

2 Tanto como ! son estimadores eficientes, verificndose adems, que sigue 2 2 (n ! 1)s " ! $ una distribucin N , y que sigue una distribucin ! con n-1 grados # n% "2
de libertad. Para un estudio ms detallado de estos apartados consultar, por ejemplo, MOOD & GRAYBILL (1978).

239

4.1.6 Estimacin por intervalos


4.1.6.1 Ideas generales
Cuando hacemos una estimacin puntual del valor de un determinado parmetro poblacional nos encontramos con un doble problema: por un lado el valor obtenido solamente da una idea aproximada del verdadero valor del parmetro a estimar, por otro, no sabemos el grado de bondad de la aproximacin, es decir, ignoramos en qu medida el valor obtenido se aproxima al verdadero valor del parmetro estimado. Adems, dado que en ciertas situaciones es prcticamente imposible conocer con exactitud el valor de un determinado parmetro poblacional (cmo conocer con exactitud, por ejemplo, la altura media de los espaoles?), lo que se hace en realidad es determinar su valor aproximadamente, indicando entre qu dos valores reales a y b se encuentra comprendido, con un cierto grado de "seguridad" o "confianza". Los valores a y b, extremos de un intervalo de la recta real, no son sino los valores tomados por dos funciones L1 , L2 que dependen de la muestra x1, ... , xn elegida al azar, es decir, L1 (x1,, x n ) y L 2 (x1,, x n ) toman uno u otro valor dependiendo de cules sean los valores que las variables tomen sobre los n elementos de una muestra aleatoria cualquiera de la poblacin en estudio. As pues, el problema consiste en determinar cules son las funciones L1 (x1,, x n ) y L 2 (x1,, x n ) , que nos permitan afirmar que el parmetro verifica, con una cierta "seguridad" que a b , siendo a y b los valores tomados por las funciones L1 (x1,, x n ) y L 2 (x1,, x n ) sobre la muestra x1, ... , xn. En este sentido podemos afirmar que Intervalo de confianza de un parmetro poblacional es un par ordenado de funciones reales L1 (x1,, x n ) , L 2 ( x1,, xn ) que dependen de las n medidas de una muestra aleatoria de la poblacin en cuestin. Cada muestra concreta dar lugar, a partir de L1 y L2, a un intervalo de confianza, por lo que podemos entender que un estimador por intervalos es una variable aleatoria bidimensional y, en consecuencia, tendr sentido hablar de P( a b ) (probabilidad

240

de que el estimador "cubra" el verdadero valor del parmetro ), probabilidad que recibe el nombre de nivel de confianza y que denotaremos por 1-. Teniendo en cuenta lo anterior tambin podemos definir un intervalo de confianza de un parmetro poblacional , al nivel de confianza 1-, como un intervalo para el que se verifica que la probabilidad de que sus extremos tomen valores a, b tales que el parmetro poblacional est comprendido entre ellos es 1-, es decir: P( a b ) = 1-

se llama nivel de error del intervalo o nivel crtico.


Ntese que lo que afirmamos es que si se repitiera muchas veces el experimento con muestras extradas al azar, se verificara que en el 100(1-)% de las ocasiones obtendramos extremos a y b de los intervalos de confianza correspondientes que contendran al verdadero valor del parmetro , mientras que el 100% restante, no lo contendran, tal y como indica la figura 4.1 siguiente

Figura 4.6: Figura que muestra el concepto de nivel de confianza

241

En consecuencia, y dado que para una muestra en particular obtendramos valores concretos a y b para los que se verifica o no que a b es una clara incorreccin afirmar que "el parmetro pertenece al intervalo de confianza de extremos a, b con probabilidad 1- ", toda vez que la probabilidad de que tal cosa suceda es 1 si se verifica que a b, 0 en caso contrario. Ntese que el valor es fijo, mientras que a y b, por el contrario, son variables aleatorias!. Es claro que, para una muestra concreta, es imposible saber si el intervalo de confianza correspondiente contiene, o, no al parmetro . Veamos ahora cmo obtener intervalos de confianza para los parmetros ms importantes.

4.1.7 Obtencin de los intervalos de confianza ms utilizados


4.1.7.1 Intervalo de confianza para la media de una distribucin Normal de varianza conocida
Sea X una variable aleatoria que sigue una distribucin Normal N(,) de la que conocemos la varianza pero desconocemos la media . Por lo visto anteriormente, podemos estimar a partir de la media muestral x , que como sabemos es una variable aleatoria (depende de cada muestra) que, para n " ! $ suficientemente grande, sigue una distribucin Normal N , independientemente # n% de cmo se distribuya la poblacin de partida. Sabemos tambin que la variable x ! aleatoria tipificada Z = sigue una distribucin N(0,1). " n A partir de lo anterior, para encontrar los lmites entre los que, con probabilidad 1- , se encuentra procederemos de la siguiente manera: Supongamos que Zp es el 100p percentil de la distribucin Normal N(0,1); en

particular, Z ! 2 representar el 100 ! percentil, verificndose que 2

242

% x! ( P' !Z " 2 # # Z " 2 = 1! " & ) $ n

Figura 4.7: Seleccin de los puntos crticos para el clculo del intervalo de confianza. o lo que es igual:
% # # ' P !x ! Z " 2 $ ! $ !x + Z" 2 = 1! " & n n(

es decir:
% # # ' P x ! Z" 2 $ $ x + Z" 2 =1!" & n n(

As pues, el intervalo aleatorio de confianza para la media poblacional es:


# # & $ I1!" = x ! Z" 2 ; x + Z" 2 % n n'

que es un entorno de centro x y radio Z ! 2

" . n

Es conveniente aclarar que, dado que la media muestral x es una variable aleatoria, para una muestra concreta y un valor fijado, obtendramos un intervalo de # # & $ ;x0 + Z " 2 confianza concreto x0 ! Z " 2 que contendr, o no, a , sin que % n n' tengamos medio de saberlo a ciencia cierta; lo que afirmamos es que con un nivel de confianza 1-, dicho intervalo contendr a , es decir, de cada 100 intervalos correspondientes a 100 muestras tomadas, 100- contendrn a , mientras que los restantes no lo contendrn.

243

La importancia del intervalo de confianza para la estimacin est en el hecho de que el intervalo contiene informacin sobre el estimador puntual (valor central del intervalo) y sobre el posible error en la estimacin a travs de la dispersin y de la distribucin muestral del estimador. Una estimacin ser tanto ms precisa cuanto menor sea la amplitud del intervalo de confianza, es decir, cuanto menor sea el error de estimacin. Obsrvese que el error en la estimacin est directamente relacionado con la distribucin muestral del estimador y con la varianza poblacional, e inversamente relacionado con el tamao muestral. El grfico siguiente ilustra la interpretacin del nivel de confianza para el intervalo de confianza para la media de una distribucin normal con varianza conocida. Para los distintos posibles valores de la media, representados mediante su distribucin muestral, obtenemos distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parmetro, pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del 95%. En la prctica disponemos de una nica repeticin del experimento, y por tanto de un nico intervalo de confianza, el sealado en negro en el grfico, por ejemplo. Confiamos en que nuestro intervalo sea de la mayora que con tiene al verdadero valor objetivo aunque no tenemos la seguridad de que sea as, tenemos concretamente un riesgo del 5% de equivocarnos.

95%

2.5%

2.5%

Figura 4.8: Interpretacin del nivel de confianza en el intervalo para la media de una distribucin normal. El procedimiento anterior para determinar el intervalo de confianza para la media poblacional, supuesta conocida la varianza, es vlido an en el caso de que la poblacin

244

de partida no sea Normal, con solo tomar un tamao de la muestra suficientemente grande n30. Es claro que cuanto mayor sea el nivel de confianza, mayor ser la amplitud del intervalo resultante (ntese que el intervalo (!", +") seguro que contiene a , es decir, contiene a , con probabilidad 1), as como que en las condiciones presentes, los intervalos resultantes para cada muestra concreta difieren en su centro x0 , pero tienen " igual amplitud Z ! 2 . n As mismo, cuanto menor sea menor ser la amplitud y cuanto mayor sea n, tamao de la muestra, menor ser la amplitud del intervalo (para n = tamao de la poblacin, el intervalo resultante sera un solo punto , es decir, no tendramos que hacer estimacin alguna ). De acuerdo con lo anterior, para reducir la longitud del intervalo podemos optar por: 1.- Reducir el nivel de confianza. 2.- Reducir la varianza restringiendo la poblacin, eliminando casos extremos. 3.- Aumentar el tamao de la muestra.

4.1.7.2 Intervalo de confianza para la media de una poblacin Normal de varianza desconocida.
En el caso anterior hemos supuesto conocida la varianza poblacin, cosa que no suele ser frecuente, toda vez que en su clculo interviene , y sta es desconocida (por eso se desea estimar!). En el caso de desconocer ! , lo lgico ser sustituirla en el razonamiento anterior 2 s por su estimador (cuasi-varianza muestral), de tal modo que el estadgrafo que x ! usaremos para determinar el intervalo de confianza ser , estadgrafo que, n !1 s como variable aleatoria que es, para muestras pequeas sigue una distribucin t de Student con n-1 grados de libertad (siendo n = tamao de la muestra ).
2

245

La distribucin muestral asociada a la cuasi-varianza es la siguiente: (n ! 1) S 2 # $2 n!1 2 Teniendo en cuenta la distribucin normal asociada a las medias y combinndola con la ji-cuadrado, obtenemos una distribucin t de Student:

"

X " t= N (0,1)

!2 n"1 n "1

# n

(n"1) S 2 #2

X " $ t n"1 S n

n "1

Se verificar, siguiendo los pasos del razonamiento anterior, que

$ x! ' P& !t " # # t = 1! " % n ! 1 "( s


de donde se deduce:

# I1!" = x ! t" $

s s % ;x + t " n !1 n !1 &

Obsrvese la similitud con el intervalo calculado para la distribucin normal, salvo en el valor crtico y en que la varianza ha sido estimada a partir de la muestra.

Figura 4.9: Diferencia entre la distribucin normal y la t de Student. Desde el punto de vista prctico esto implica que los valores crticos son un poco ms grandes y, por tanto el intervalo tiene mayor longitud, este es el precio que debemos pagar a cambio de no conocer la varianza de la poblacin. Si la muestra es grande n>30 sabemos que la distribucin de Student se aproxima a una Normal; en consecuencia, en el caso de muestras grandes, aunque la varianza sea

246

desconocida, podemos considerar que el estadgrafo sigue una distribucin Normal para calcular el intervalo de confianza.

4.1.7.3 Intervalo de confianza para la varianza y la desviacin tpica de una poblacin Normal
s2 Dado que la cuasi-varianza muestral es un estimador eficiente de la varianza poblacional 2, parece lgico estima sta a partir de aqulla.

(n ! 1) 2 s 2 Sabemos que el estadgrafo sigue una distribucin ! con n-1 grados de 2 " libertad, as pues, se verificar que:
$ ' (n " 1) 2 s P& !2 # * * !2 # $ 1" ,n"1' $ ,n "1' ) = 1" # & ) & ) +2 % % 2 ( %2 ((
y dividiendo entre (n-1)s2 obtenemos que

$ !2 ' !2 # $ 1" # ,n"1' $ ,n"1' & ) & )) & % 2 1 ( %2 ( P& 2 * 2 * 2 ) =1"# + (n " 1) ) s & (n " 1)s % (
as pues, tomando los respectivos inversos, se verificar que

$ ' 2 2 ) & (n ! 1)s (n ! 1) s P& 2 * +2 * 2 =1!# ) "$ # "$ # & & ,n!1' ) &1! ,n!1' ) ) % %2 ( % 2 ((

es decir, la expresin del intervalo de confianza para la varianza poblacional ser:

247

% ( 2 (n " 1)s 2 * ' (n " 1) s I1"# = ' 2 2 , 2 ! * $% # ' $% # * ' ,n"1( * ' 1" ,n"1( * & &2 ) & 2 ))
En consecuencia, para la desviacin tpica poblacional, tendremos el siguiente intervalo de confianza:

% ' (n " 1) 2 s (n " 1)2 s I1"# = ' 2 , 2 ! ' $ % # ,n"1( $ %1" # ,n"1( ' * ' * & &2 ) & 2 )

( * * * )

4.1.7.4 Intervalo de confianza para el parmetro p de una distribucin Binomial B(n,p)


Dada una variable aleatoria X que sigue una distribucin Binomial B(n,p), trataremos en este apartado de determinar un intervalo de confianza para p. Como sabemos, en el caso de tamaos de muestras grandes, la distribucin Binomial B(n,p) se aproxima a una Normal N( np, npq ) .
p Como estimador puntual de p tomaremos = f n , siendo f el nmero de veces en las que se obtiene el xito en n pruebas, y como estimador de q tomaremos q = 1 ! f n .

En estas condiciones, si la variable aleatoria X sigue una distribucin Binomial ! pq $ & ; as pues, B(n,p), la variable X/n seguir, aproximadamente, una Normal N# p, " n % X !p x tipificando la variable = obtenemos que Z = n sigue una Normal N(0,1) y p pq n n segn lo visto en puntos anteriores, ser:

248

$ & p !p P !Z " 2 # # Z" & pq % n


Dado que desconocemos p y q, estimaremos intervalo de confianza para p ser de la forma:

' ) 2 = 1! " ) (
pq mediante n

pq , con lo que el n

# pq pq & I1!" = p ! Z " 2 , + Z" 2 p p % n n ( $ '

4.1.7.5 Intervalo de confianza para el parmetro p de una distribucin Hipergeomtrica H(N,n,p)


Dada una variable aleatoria X que sigue una distribucin Hipergeomtrica H(N,n,p), sabemos que se puede obtener una aproximacin mediante el modelo Normal: " N!n% ' , donde N ! n es el trmino de correccin para poblaciones finitas. N$ np, npq # N !1 & N !1 Siguiendo un razonamiento anlogo al caso del intervalo para el parmetro p de la Binomial, obtendremos el correspondiente intervalo para el parmetro p de una poblacin que se distribuye segn un modelo Hipergeomtrico:
# I1! " = % p Z" p % $ pq N ! n & ( n N !1 ( '

249

4.1.8 Clculo del tamao muestral para estimar la media de una poblacin con una determinada precisin
Supngase que un investigador est interesado en estimar la media de una poblacin normal de forma que la diferencia existente entre la media muestral que obtendr del experimento y la media poblacional verdadera, est por debajo de un error prefijado de antemano.

x! "E x!E"" x+E


Teniendo en cuenta el intervalo de confianza

P(x ! z" /2
podemos escribir

# # $ $ x + z" /2 ) =1!" n n
E = z! /2

" n

Despejando n de la igualdad

obtenemos la expresin deseada para el tamao muestral. Obsrvese que n ha sido calculado en el supuesto de que la variabilidad es conocida. Si no es as, la variabilidad aproximada puede obtenerse de trabajos bibliogrficos o experimentos previos o a partir una muestra piloto con unas pocas observaciones. Obsrvese que en el clculo del tamao muestral se han igualado el error fijado a priori con el error en la estimacin obtenido del intervalo de confianza y que este ltimo incluye el nivel de confianza. En este apartado un nivel de confianza del 95%, por ejemplo, implicara que en el 95% de las veces que repitiramos el experimento con el tamao muestral calculado, obtendramos un error por debajo del prefijado, mientras que en el 5% restante obtendramos un error superior.

250

Cuadro-resumen de los intervalos de confianza hallados

1.- Intervalo de confianza para la media de una distribucin Normal de varianza conocida.
# # & $ I1!" = x ! Z" 2 ; x + Z" 2 % n n'

2.- Intervalo de confianza para la media de una distribucin Normal de varianza desconocida.
# I1!" = x ! t" $ s s % ;x + t " n !1 n !1 &

3.- Intervalo de confianza para la varianza y la desviacin tpica de una distribucin Normal.

% ( 2 (n " 1)s 2 * ' (n " 1) s I1"# = ' 2 2 , 2 ! * ' $ % # ,n"1( $ % 1" # ,n"1( * ' * ' * & &2 ) & 2 ))

% ' (n " 1) 2 s (n " 1)2 s 1"# I! = ' 2 , 2 ' $ % # ,n"1( $ %1" # ,n"1( ' * ' * & &2 ) & 2 )

( * * * )

4.- Intervalo de confianza para el parmetro p de una distribucin Binomial B(n,p)

# pq pq & I1!" = p ! Z " 2 , + Z" 2 p p % n n ( $ '


5.- Intervalo de confianza para el parmetro p de una distribucin H(N,n,p)

# q N !n & pq N ! n p I1!" = p ! Z " 2 ;p + Z" 2 p % n N !1 n N !1 ( $ '

251

"DISEO Y ANLISIS ESTADSTICO DE ENCUESTAS"

4.2 Ampliacin

252

4.2.1 Introduccin
El objetivo de una encuesta por muestreo es hacer inferencia acerca de la poblacin, en base a la informacin contenida en una muestra. En la mayora de los casos la inferencia se llevar acabo en forma de estimacin de parmetros de la poblacin (una media, un total, una proporcin, etc.), con un lmite prefijado para el error de estimacin. La informacin obtenida de las encuestas por muestreo afecta a casi todos los aspectos de la vida cotidiana, por ejemplo:
Sirven como base para el clculo del IPC, a partir del cual las empresas calculan las tasas de salarios y las tasas de jubilacin, se actualizan las clusulas de contratos para rentas e hipotecas, etc. Es la base del anlisis de mercado, para decidir qu productos se deben comercializar, donde hacerlo, cmo anunciarlos, etc. Es la base de muchas de las noticias que divulgan los medios de comunicacin y por supuesto, la forma ms comn de obtener datos de inters sociolgico ya que hace posible que la investigacin social se extienda a los aspectos subjetivos de los miembros de la sociedad.

Cada observacin contiene cierta cantidad de informacin en relacin al parmetro poblacional, pero la informacin cuesta dinero. Por esta razn, debemos determinar cuidadosamente la "cantidad de informacin" que hemos de maneja: poca informacin impide buenas estimaciones, y mucha supone un despilfarro de dinero. Para llevar a cabo un estudio fiable es necesario realizar una encuesta a una muestra representativa. Dos son, por tanto los puntos a tratar en adelante: el cuestionario base de la encuesta y la seleccin de la muestra. A su vez, para la seleccin de una muestra representativa tendremos que especificar el tipo de muestreo que se va a llevar a cabo, y el tamao de muestra necesario para conseguir esa representatividad.

253

Desarrollaremos los tres apartados a continuacin: mtodos de recoleccin de datos, tipos de muestreo y tamao de muestra.

4.2.2 Mtodos de recoleccin de datos


Los datos que intervienen en una investigacin pueden ser obtenidos por observacin directa o a travs de respuestas a un cuestionario preestablecido.

4.2.2.1 El cuestionario
El instrumento bsico de la informacin por encuesta es el cuestionario. Este consiste en una serie de preguntas preparadas cuidadosamente, sobre los hechos y aspectos que interesan en la investigacin las cuales deben ser contestadas por la poblacin, o ms generalmente, por la muestra seleccionada para llevar a cabo el estudio. La finalidad del cuestionario es obtener de una forma sistemtica y ordenada, informacin sobre la poblacin objeto de estudio. Traduce los objetivos de la investigacin en preguntas concretas y debe suscitar en los encuestados respuestas sinceras y claras a cada pregunta. Juega, pues, un papel central en la investigacin por encuesta. Hemos de distinguir entre dos tipos de cuestionarios: el cuestionario simple y la entrevista. El cuestionario simple es aqul en el que los encuestados, previa lectura del mismo, contestan por escrito, sin intervencin alguna de las personas que llevan a cabo la investigacin. En las entrevistas, el cuestionario es aplicado por personas especializadas en estas tareas, que son los que formulan las preguntas y los que anotan en l sus respuestas. Una situacin intermedia, tambin muy frecuente, consiste en la contestacin

254

individual, por escrito, de los encuestados los cuales han sido reunidos en un mismo lugar, bajo la supervisin del investigador. Este procedimiento es el que se utiliza para hacer la valoracin de la actividad docente del los profesores universitarios, por parte del alumnado al que imparten docencia. Una forma frecuente consiste en enviar las preguntas por correo. Este procedimiento suele ser barato ya que no precisa entrevistadores, pero generalmente el nivel de respuesta obtenido es muy bajo. La no respuesta puede sesgar la informacin, por lo que generalmente se establece un contacto posterior con los que no respondieron a las cartas, a travs de entrevista telefnica, o personal. Obviamente las preguntas deben estar redactadas de forma que no precisen ningn tipo de aclaracin. Con la instalacin de lneas de servicio telefnico (STAA), el entrevistador puede hacer cualquier nmero de llamadas en reas muy amplias por una cuota fija mensual. este hecho ha facilitado la encuesta telefnica, por su bajo costo y por la rapidez en obtener la respuesta. El inconveniente clave est en conseguir representatividad de la poblacin: muchos nmeros de telfono no pertenecen a hogares, muchos hogares no tienen telfono, etc. Se aconseja marcar los nmeros aleatoriamente para paliar en lo posible este problema: Se selecciona un nmero de rea al azar y los ltimos dgitos son marcados aleatoriamente hasta que se obtienen un nmero determinado de hogares del tipo establecido. La entrevista personal, en la cual el entrevistador realiza preguntas ya preparadas y registra las respuestas es, probablemente, la forma ms interesante de obtener datos sociolgicos, epidemiolgicos, etc. Es obvio que esta forma de recoger informacin aumenta el porcentaje de respuesta y evita interpretaciones incorrectas; los inconvenientes son el costo y la

255

necesidad de que los entrevistadores sean personal convenientemente adiestradas al afecto. Cualquier aseveracin, gesto, etc., puede modificar la respuesta. Evidentemente, no es lo mismo preguntar A qu partido poltico vota?, que preguntar Ud., tampoco vota al PSOE...?

4.2.2.2. Diseo del cuestionario


Dada la importancia central del cuestionario, la construccin del mismo es una operacin muy delicada y difcil, que generalmente es llevada a cabo en equipo. La investigacin por encuesta debe traducir las variables empricas sobre las que se desea obtener informacin, en preguntas concretas sobre la realidad a investigar. Siguiendo a Sierra Bravo* , podemos afirmar que las etapas en las que generalmente se lleva a cabo la elaboracin de un cuestionario son: Formulacin de las hiptesis. Determinacin de las variables a observar. Planificacin del contenido del cuestionario: Deben estar perfectamente especificadas, el tipo de preguntas, sus categoras, el nmero de preguntas, el orden en que se efectuarn, etc., y todas las preguntas sobre un determinado aspecto deben aparecer juntas en el cuestionario, guardando un orden temporal o lgico. No se debe comenzar con preguntas difciles y embarazosas; se debe evitar poner juntas aquellas preguntas que puedan tener influencia, unas en otras, ya que el individuo trata de ser consistente en sus respuestas y esto puede modificar considerablemente el resultado. Si preguntamos, por ejemplo, Es Ud. partidario de que se aumenten los impuestos? Muy probablemente la respuesta ser no.

R. Sierra Bravo. (Tcnicas de investigacin social). 1994. Ed. Paraninfo.

256

Si a continuacin le preguntamos Es partidario de que se aumenten los impuestos para educacin?. Aunque considere que s, la respuesta probablemente ser no, ya que la afirmacin sera inconsistente con la respuesta anterior. No solo es importante el orden de las preguntas sino tambin el orden de las respuestas; est comprobado que tras una larga lista de respuestas, hay una tendencia a marcar las ltimas respuestas propuestas. La redaccin de las preguntas, es el elemento esencial. Es bien conocido que mnimas modificaciones en la redaccin, proporcionan cambios sustanciales en los porcentajes de respuesta.

4.2.2.3. Tipos de preguntas


Las preguntas se pueden clasificar en diferentes categoras, segn estn relacionadas con informacin de tipo personal, datos objetivos, actitudes, motivaciones y sentimientos, nivel de conocimientos, etc. Las respuestas que se ofrecen a las preguntas del cuestionario deben ser exhaustivas y excluyentes; es decir, las posibles respuestas a cada pregunta deben abarcar todos los casos que pueden darse, de modo que ningn encuestado deje de responder por no encontrar su categora. En este sentido resulta prctico aadir la categora "otros" Sern excluyentes siempre que el encuestado no pueda dar dos respuestas a una misma pregunta. Las preguntas se pueden clasificar de distintas formas:

Segn el tipo de respuesta que pueda dar el encuestado, se dividen en preguntas abiertas, preguntas cerradas, y preguntas categorizadas. Segn la naturaleza del contenido de las preguntas.

257

TIPO DE RESPUESTA QUE PUEDE DAR EL ENCUESTADO Las preguntas estrictamente cerradas son las que slo ofrecen dos posibles respuestas; generalmente: SI o NO. Las categorizadas tambin son cerradas pero el encuestado puede elegir entre varias alternativas o categoras. Las preguntas abiertas solo contienen la pregunta y no establecen ningn tipo de respuesta, dejando sta completamente al arbitrio del encuestado. Las preguntas abiertas permiten ms matices en la respuesta, pero dificultan los anlisis posteriores. Se suelen utilizar en las fases previas a la encuesta definitiva, cuando no se tiene un conocimiento exhaustivo del problema en el que se pretende trabajar ya que son esenciales para conocer el marco de referencia del encuestado y para redactar despus las alternativas que deben aparecer en las preguntas categorizadas. En cuanto a las preguntas cerradas, con solo dos alternativas de respuesta, debemos prestar atencin a la influencia que puede tener el presentar la pregunta referida a una sola de las alternativas. Por ejemplo, no es lo mismo preguntar Est Ud. a favor del divorcio? con posibles respuestas (Si , No), que decir Est a favor o en contra del aborto? con posibles respuestas (A favor, En contra)

EN RELACIN A LA NATURALEZA DEL CONTENIDO DE LAS PREGUNTAS: Podemos distinguir: Variables de identificacin, que son las que se refieren a caractersticas bsicas de la unidad de investigacin. Si son personas, este apartado contemplara, edad, sexo, estado civil, residencia, profesin, estudios, ingresos. religin, filiacin poltica, nacionalidad, etc. Preguntas filtro cuya funcin es eliminar un grupo de preguntas del cuestionario en aquellos encuestados que no le afecten. Por ejemplo, piensa comprase un piso? La respuesta puede ser No por

258

varias razones pero una de ellas, es que ya tenga piso. Por eso debe ponerse previamente una pregunta filtro del tipo Tiene piso propio?. Preguntas de control cuya finalidad es asegurarse del inters y buena fe del encuestado, o de la veracidad y fiabilidad de sus respuestas. A veces incluyen preguntas trampa para ver si el encuestado cae en ellas, porque en ese caso debe desestimarse su informacin, o preguntas de control para valorar la consistencia de la respuesta. Preguntas introductoras, cuya finalidad es tomar contacto y ganarse la confianza del entrevistado, o pasar de un tema otro. Preguntas muelle, que anteceden a preguntas escabrosas. etc., etc. A veces las preguntas del cuestionario son tan embarazosas que se sabe de antemano que el resultado va a estar sesgado; si eso ocurre puede hacerse imprescindible el recurrir a preguntas indirectas.

Un curioso ejemplo puede ser el siguiente: Supongamos que una empresa desea conocer la incidencia del consumo de drogas entre sus empleados. Si realizase la pregunta directamente, es posible que muchos empleados se nieguen o no contesten la verdad por miedo a represalias, a pesar de la promesa de que la encuesta es annima. Un mtodo recogido de la literatura consiste en lo siguiente: Se plantean dos preguntas, una inocua, como por ejemplo, Es el helado de vainilla, su favorito?* y otra que es la pregunta en la que estamos realmente interesados, en este caso podra ser Ha tomado marihuana, cocana o herona en los ltimos 15 das?. Se le pide al sujeto que lance una moneda al aire y conteste a la primera cuestin si sali cara y a la segunda si en la moneda sali cruz.
*

Evidentemente cualquier pregunta inocua valdra con tal de que se conoca la proporcin de posibles respuestas afirmativas en la poblacin.

259

De esta forma, an con los cuestionarios marcados, nadie puede saber a cul de las preguntas se ha respondido. De este modo es posible estimar el porcentaje de individuos de la empresa que consumen drogas. Veamos: Consideremos un ejemplo ficticio en el que suponemos que participan 100 empleados, elegidos al azar. Supongamos que conocemos que el 60% de los individuos de la poblacin prefieren el sabor vainilla a cualquier otro sabor de helado y que en 50 cuestionarios apareca la respuesta SI. Suponiendo que las monedas que emplean los empleados no estn trucadas (y que la teora de la probabilidad funciona), aproximadamente el 50% de los encuestados habr respondido a la pregunta del helado de vainilla y la otra mitad a la pregunta sobre el consumo de droga. As, de los 50 que contestaron a la pregunta del helado, el 60%, es decir, 30, contestaran afirmativamente. Si 50 personas contestaron SI a la pregunta conflictiva cabe esperar, pues, que 20 lo estn haciendo a la pregunta sobre las drogas. Por tanto, la estimacin del porcentaje de empleados que consume algn tipo de droga sera: 20/50= 40%

4.2.3 Fuentes de error en las encuestas


Los errores que se pueden producir se pueden clasificar en dos tipos: Errores de muestreo, que son los que se producen debido a la eleccin de un muestreo inadecuado.

260

Errores "No de muestreo", estos ltimos pueden ser debidos a la No respuesta, a respuestas inexactas y a sesgos de seleccin.

4.2.3.1. Los cuestionarios no cumplimentados: la no respuesta


En toda investigacin nos encontraremos con formularios no devuelto si se han enviado por correo, o con preguntas no contestadas si la entrevista es personal. La literatura especializada habla de que aproximadamente el 40% de los cuestionarios enviados por correo nunca son devueltos. El sesgo que introduce este hecho se trata de evitar, a menudo, aumentando considerablemente el tamao de la muestra; pero sta no es una solucin correcta: Los que no contestan son probablemente gente diferente, que si hubiera contestado, es probable que lo hubiese hecho de manera diferente. El nico procedimiento que se considera vlido para solucionar este problema es el envo de nuevos cuestionarios a los que no contestaron, o nuevas visitas a los que se deba entrevistar. "Insistir hasta conseguirlo" El problema de la NO RESPUESTA es diferente. Incluye a los que contestan NO SE y a los que no dan respuesta alguna a la pregunta. Existe una tendencia a pasar por alto la no respuesta y restarle importancia, pero sin duda, el "no contesta" demuestra una actitud de neutralidad o indiferencia hacia el tema que transmite la pregunta, o simplemente, el encuestado prefiere reservarse su opinin.

4.2.3.2 Respuesta inexacta


Este tipo de respuestas se produce frecuentemente por defecto en la definicin de las preguntas de la encuesta. Los aspectos considerados deben ser definidos con precisin y han de ser susceptibles de ser medidos sin ambigedad.

261

En una pregunta sobre empleo Qu significa exactamente desempleado? Incluiremos a los adolescentes que no pueden encontrar trabajo en vacaciones? Debemos incluir a los que trabajan por su cuenta pero estn apuntados al paro?. etc.

4.2.3.3. Sesgo de seleccin


Este tipo de sesgo se produce cuando se produce un cambio arbitrario en los elementos muestrales seleccionados de acuerdo al diseo. Es un error importante sustituir a un individuo por su vecino ms prximo. El primero puede ser un padre con hijos casados y el segundo un padre con hijos en la guardera; es obvio que para determinados contextos, la problemtica no tiene porqu ser similar.

4.2.4 Seleccin de la muestra: muestreo y tamao


Hay muchas formas diferentes de obtener una muestra representativa, El diseo bsico es el muestreo aleatorio simple* en el cual todos los individuos tienen la misma probabilidad de ser elegidos.

4.2.4.1. Muestreo aleatorio simple


La muestra debe ser tpica, es decir a de ser homognea a la poblacin a la que representa, manteniendo las mismas proporciones que sta en todos aquellos caracteres que tengan influencia en el anlisis. Por ejemplo, un estudio de opinin sobre anovulatorios debe tener la misma proporcin hombre/mujer que en la poblacin, sin embargo, para un estudio sobre agudeza visual este punto puede no ser importante.
*

El indice de TV de Nielsen (ITN) es el servicio ms ampliamente usado para medir la audiencia. Se basa en una muestra aleatoria de 1200 hogares que tienen conectado un audimetro de almacenaje automtico al televisor, el cual registra si funciona o no el televisor, qu canal se ve, y los cambios que se producen. * Datos tomados de la Tesis Doctoral: "Estudios sobre el nivel de salud en la poblacin salmantina" del que es autor D. Rafael Gonzalez Celador. Universidad de Salamanca. Facultad de Medicina. Ctedra de medicina Preventiva y Social. 1985.

262

La seleccin aleatoria de los individuos debe llevarse a cabo por un procedimiento riguroso; generalmente se utiliza una tabla de nmeros aleatorios. Debe tenerse en cuenta que este tipo de muestreo requiere disponer de un listado completo de los elementos de la poblacin para poder asignarles, consecutivamente, nmeros desde 1 hasta n.

4.2.4.2. Muestreo aleatorio sistemtico


A veces resulta ms econmico seleccionar un primer individuo al azar y seleccionar el resto de forma sistemtica. Este tipo de muestreo puede tener problemas asociados importantes. La literatura recoge casos curiosos, citaremos algunos de ellos.
El ejercito britnico enviaba a las colonias a los soldados cuyo apellido empezara por una letra determinada. Cuando las letras eran la M o la O, la isla se llenaba de irlandeses o de escoceses (O , Mc) Los resultados de un estudio epidemiolgico sobre condiciones higinicas de las viviendas, en uno de los barrios perifricos de una gran ciudad, tuvieron que ser desechados por haber tomado como procedimiento de muestreo, el seleccionar uno de cada cinco portales de la calle. Coincidi que en una mayor proporcin de lo habitual, uno de cada cinco portales corresponda al extremo de una manzana, por lo que las viviendas daban a dos calles y por tanto tenan mejor orientacin, ms sol, ms ventilacin, etc.

4.2.4.3. Muestreo aleatorio estratificado


Una muestra aleatoria estratificada se obtiene mediante la clasificacin de los elementos de la poblacin en grupos homogneos llamados estratos y seleccionando una muestra aleatoria en cada uno de ellos.

263

La muestra estratificada reduce la variacin de los resultados de la muestra respecto a la poblacin total y proporciona una mayor precisin en las estimaciones. El muestreo estratificado ser constante o proporcional, segn que los estratos tengan, o no, el mismo tamao. La seleccin de los estratos no es siempre sencilla, sin embargo, debe estar perfectamente especificada al comenzar el estudio, ya que cada unidad muestral tiene que pertenecer claramente a un nico estrato. Por ejemplo, los hogares de Santa Marta, o los de Valdelagua, deben ser considerados rurales o urbanos? Si no se puede formar una base de la muestra por estratos, pero sabemos la composicin por estratos del universo en tantos por ciento, y la encuesta se realiza por entrevista, se recurre al muestreo por cuotas el cual consiste en asignar a cada entrevistador un nmero de entrevistas a realizar, indicndole las que tienen que corresponder a cada estrato, y dejando a su arbitrio la eleccin concreta de la poblacin a entrevistar. El error que se comete es mayor que el que se obtendra con un muestreo estratificado; se ha estimado que el tamao de la muestra realizado por cuotas debe ser mayor, en un 50%, al de la muestra elegida al azar, para que los errores sean equivalentes. Los inconvenientes fundamentales de este tipo de muestreo estn en el hecho de que no pueden aplicarse las frmulas estadsticas tpicas para estimar el error, aunque tambin puede ser importante el hecho de que los entrevistadores opten por elegir personas de su entorno ms prximo, hecho ste que contribuir aun ms a incrementar el error de muestreo. Para obviar en cierta medida estos problemas, se ha ideado el muestreo por rutas que consiste en fijar a cada entrevistador un itinerario definido en todos sus detalles, indicndole exactamente en qu puntos debe realizar la entrevista. A veces es necesario estratificar en todos aquellos caracteres con influencia en los resultados de la investigacin: sexo, edad, nivel socioeconmico, etc.

264

4.2.4.4. Muestreo por conglomerados


Un procedimiento similar al muestreo estratificado pero que puede resultar bastante ms econmico es el muestreo por conglomerados. Cada conglomerado debe tener representadas todas las caractersticas de la poblacin. El muestreo consiste en seleccionar al azar determinados conglomerados y analizar a todos y cada uno de los elementos del conglomerado. Resulta muy cmodo cuando se llevan a cabo estudios en reas urbanas donde el procedimiento consiste en seleccionar familias especficas, edificios o manzanas de la ciudad y considerar todos los individuos de la familia, el edificio o la manzana. Conviene tener en cuenta la diferencia fundamental que existe en relacin al muestreo estratificado. En un muestreo estratificado se consideran todos los estratos y en cada uno se considera una muestra de individuos aleatoria. En el muestreo por conglomerados, se seleccionan, al azar los conglomerados que sern considerados y una vez elegidos se estudian todos los individuos de cada conglomerado.

4.2.4.5. Muestreo polietpico


Se refiere al caso en el que las unidades de la muestra no son simples sino colectivas. El muestreo de los conjuntos se puede realizar por cualquiera de los procedimientos bsicos descritos y una vez obtenidos los conjuntos a observar, se seleccionan muestras con referencia a cada colectivo que sern los individuos que representen los respectivos clusters y ser sobre ellos, sobre los que se llevar a cabo el estudio. Por ejemplo, en un estudio clnico multicntrico se seleccionan los hospitales que formarn parte del estudio en una primera etapa y en etapas posteriores se seleccionarn los servicios, plantas, mdicos, camas, etc. que intervendrn en la investigacin.

265

4.2.4.6 Otros tipos de muestreo


Hay muestreos no probabilsticos que en determinadas fases de una investigacin pueden resultar interesantes, aunque no gozan de las propiedades de los muestreos clsicos. Entre estos estn los muestreos estratgicos en los cuales en lugar de realizar la eleccin de las unidades de muestreo al azar, se realiza intencionadamente por los investigadores. Son prcticos, pero menos interesantes desde el punto de vista estadstico.

4.2.5 Determinacin del tamao de la muestra en una encuesta


El otro gran apartado dentro del diseo y anlisis de encuestas es el estudio del tamao de la muestra para que sta sea representativa. Para determinar el tamao de la muestra es necesario que precisemos el error de estimacin E, con el que estamos dispuestos a trabajar; es decir la mxima diferencia admitida entre el verdadero valor del parmetro (media, proporcin, etc.) y el valor estimado, ! .
Error de estimacin = ! " !

Adems debemos especificar la proporcin de veces que, en un muestreo repetido, se requerir que el error de estimacin sea menor que la cantidad prefijada E. Generalmente esta informacin se expresa en trminos probabilsticos, se conoce como nivel de confianza, y se denota como 1 - ; es decir,

P ! " ! < E = 1" #


El valor ms comnmente aceptado por la comunidad cientfica para 1 - es el 95 o el 99%, y el error de estimacin se acostumbra a fijar en aproximadamente dos veces el valor del error estndar del estimador utilizado. Si el parmetro que se pretende estudiar es la media poblacional, el estimador que

266

se utiliza es el correspondiente estimador eficiente (insesgado y de varianza mnima); es decir, la media muestral. Si el parmetro que se pretende estudiar es la proporcin de xitos en la poblacin, el estimador que se utiliza es la proporcin muestral cuyo error estndar es pq N ! n pq en el caso de poblaciones finitas y si la poblacin no es finita. n n !1 n A continuacin se resuelve detalladamente un ejemplo real que ayudar al lector en la comprensin de los conceptos expuestos.

267

"DISEO Y ANLISIS ESTADSTICO DE ENCUESTAS" 4.3 Trabajo de investigacin

268

4.3.1 Determinacin del tamao de la muestra en una encuesta por muestreo


Supongamos que queremos realizar un estudio para valorar el nivel socioeconmico en la ciudad de Salamanca. El censo, segn datos de 1983, es de 48069 familias; se llevar a cabo un muestreo aleatorio estratificado, (cada uno de los 11 barrios ser un estrato) en el cual se entrevistar un determinado nmero de familias salmantinas* . La encuesta, evidentemente, constar de muchas preguntas, composicin familiar, caractersticas de la vivienda, caractersticas laborales etc., pero centraremos nuestra atencin en una cualquiera, por ejemplo: Las familias salmantinas tienen hijos?. Consideremos la respuesta afirmativa como xito y definamos una variable aleatoria X' como el nmero de xitos en n pruebas. Dado que pretendemos hacer un muestreo en una poblacin finita, X' es una variable aleatoria hipergeomtrica
X' = H(N, n, p)

N es el tamao de la poblacin n el nmero de pruebas p la probabilidad de xito. El siguiente problema a resolver ser la estimacin del tamao adecuado de la muestra para que sta sea representativa.

La forma ms rpida y ms frecuente de resolverlo es escribir directamente la expresin matemtica para estimar el tamao en un modelo hipergeomtrico.

269

4.3.1.1 Estimacin del tamao de muestra adecuado


1. El primer problema a resolver ser la estimacin del tamao

adecuado de la muestra para que sta sea representativa.

1.- Cual es la esperanza matemtica de la variable X'= H (N,n,p)?

E[X' ] = n p

2.- Cual es la varianza de esa variable aleatoria?

V[X' ] = n pq

N! n N !1

3.- Teniendo en cuenta el Teorema de De-MOIVRE, X' puede aproximarse por un modelo normal , de qu parmetros?.

X' = N(n p, n pq

N! n ) N !1

4.- Teniendo en cuenta las propiedades de la esperanza matemtica y de la varianza, si definimos una nueva variable aleatoria X=X'/n, podemos asegurar que esta nueva variable sigue un modelo normal, de qu parmetros?.

270

X' pq N" n = p ! N(p , ) n n N "1 X' ( )"p n ! N(0 , 1) pq N " n n N "1 p" p P("z #/ 2 $ $ z #/ 2 ) = 1" # pq N "n n N "1 X=

5.- Teniendo en cuenta la respuesta anterior el intervalo aleatorio de confianza para el parmetro 'p' de la distribucin hipergeomtrica es:
$ pq N ! n P& ! z "/ 2 p % n N !1 pq N ! n ' ) = 1! " n N !1 (

# p#

+ z "/ 2 p

* pq N ! n I1!" = p z "/ 2 p , n N !1 / + .

6.- A partir de la respuesta anterior, la expresin que nos permite calcular el tamao de la muestra, sabiendo que la diferencia entre el estimador insesgado y de varianza mnima y el verdadero valor del parmetro 'p' en la poblacin es una cantidad prefijada E, es:
p !p " E p !E " p " p+ E E = z #/ 2 pq n pq E2 = z2 2 #/ n N !n N !1 N!n N !1

n= 2 E (N ! 1) + z 2 2 p q #/

z2 2 N p q #/

271

7.- Dado el valor del error en funcin de 'n' y de 'p' , el valor de 'p' que hace lo mximo, fijado un valor de 'n' es:
1

1 # N" n &2 % E = z !/ 2 ( p(1 " p)) 2 $ n(N " 1)' 1 # N" n &2 (E ( p(1 " p)) " 2 = z !/ 2 % $ n(N " 1)' (p (1" 2p) = 0 1 p= 2 1

(1" 2p) = 0

8.- Con un error prefijado del 4%, un nivel de confianza elegido del 95.44 %, y tomando como valor de 'p' el obtenido en el apartado anterior; Para los datos del censo de la ciudad de Salamanca, el nmero de entrevistas necesario para llevar a cabo la investigacin propuesta es:
1! " = 0, 9544 p = 0, 5 z "/ 2 = 2

E = 0, 04 N z 2 2 pq = 1 n= 2 "/ E (N ! 1) + 1 48069 n= 2 48068 + 1 = 617 0, 04

4.3.1.2 Estimacin del tamao de cada estrato


2. El segundo problema es estimar el tamao de cada estrato

Supongamos un muestreo estratificado aleatorio proporcional; es decir el nmero de entrevistas a realizar en cada barrio ser proporcional al nmero de familias que habitan en ellos.

272

Calcule el tamao de muestra, por estratos, teniendo en cuenta que la distribucin de familias por barrios es la siguiente.

Barrio
Centro-Mercado San Juan Gran Via-Canalejas Antiguo Prosperidad-Rollo Salas Pombo Carmelitas-Oeste Pizarrales Vidal Garrido Tejares San Jose-La Vega

N de familias 6632 3539 856 5561 3318 4330 3786 3104 13690 976 2285 48069

% del total 13.79 7.34 1.77 11.56 6.90 9.00 7.87 6.45 28.47 2.02 4.75 100.00

Entrevistas 85 45 11 71 43 56 49 40 176 12 29 617

TOTAL

4.3.1.3 Estimacin del verdadero error en cada estrato

3. El tercer problema, dado que el error est en funcin del tamao de la muestra, es estimar el verdadero error con el que se trabaja en cada estrato (barrio)
Calcule el verdadero error para los siguientes barrios: Centro-San Juan, Antiguo, Garrido y Tejares. Es realmente del 4%, como habamos previsto al principio?

E i = z !/ 2

p i q i Ni " n i ni N i " 1

273

Barrio
Centro-Mercado San Juan Gran Via-Canalejas Antiguo Prosperidad-Rollo Salas Pombo Carmelitas-Oeste Pizarrales Vidal Garrido Tejares San Jose-La Vega

Ni
6632 3539 856 5561 3318 4330 3786 3104 13690 976 2285 48069

ni
85 45 11 71 43 56 49 40 176 12 29 617

Error (%)
10,78 14,80 29,01 11,80 15,24 13,35 14,27 15,80 7,50 29,00 18,56 4,00

TOTAL

4.3.1.4 Calculo del intervalo de confianza en cada estrato


4. Fijemos de nuevo nuestra atencin en la pregunta particular
que habamos enunciado al principio sobre si tienen o no hijos las familias salmantinas. Supongamos que el anlisis de la muestra correspondiente al barrio Antiguo nos da una estimacin puntual para la probabilidad de xito del 20% (p=0.20); es decir, el 20% de las familias encuestadas en el Barrio Antiguo tienen hijos a) Teniendo en cuenta la respuesta a la pregunta anterior, dganos los valores de los extremos del intervalo de confianza aleatorio para la verdadera proporcin de familias con hijos del B. Antiguo.
# p ba q ba N ba ! n ba & I1!" = % p ba z "/ 2 p n ba N ba ! 1 ( $ ' Ip
1!"

= [0,20 ! 0,2397 # p # 0,20 ! 0,2397]= =[-0,039 ; 0,4397]

274

Supongamos que ese valor para el estimador puntual se hubiera obtenido para el estudio global de la ciudad de Salamanca; es decir, el 20% de los encuestados tiene hijos. b) Calcule los extremos del intervalo aleatorio de confianza para la proporcin de familias con hijos, en toda la ciudad de Salamanca y compare el resultado con el anterior.

# q N !n& p I1!" = p z "/ 2 p % n N !1 ( $ '


I1!" = [0,20 ! 0, 032 # p # 0,20 + 0, 032]= p =[0,168 ; 0, 232]

4.3.1.5 Estimacin de errores en funcin de los valores de p y q


5. Analicemos, en ltimo lugar, las implicaciones de estimar el
tamao de la muestra bajo el supuesto de que 'p' es igual a 'q' ( es la forma en que usualmente los investigadores llevan a cabo la estimacin de la muestra) Evidentemente, no es lgico suponer que en la poblacin salmantina, es igualmente probable que las familias tengan o no hijos. Fijemos, de nuevo, un error del 4%, el nivel de confianza en 95.44% y teniendo en cuenta que el censo supuesto es de 48069 familias

a) Estime 'n' para p=0.1, p=0.2, p=0.3, p=0.4, p=0.5


p 0,1 0,2 0,3 0,4 0,5 n 224 397 519 592 617

275

0,6 0,7 0,8 0,9

592 519 397 224

b) Represente en unos ejes cartesianos la variacin de 'n' en funcin de los valores de p.

700 600 500 400 300 200 100 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

c) Si suponemos que en la poblacin salmantina la probabilidad de tener hijos es del 80% (p=0.8) Qu tamao de muestra es realmente necesario para detectar un error del 4%? (397) d) Cuantas entrevistas resultaran innecesarias?

(220)

276

"CONTRASTES DE HIPTESIS"

4.4 Parte bsica

277

4.4.1 Introduccin a los contrastes de hiptesis


La Inferencia Estadstica consta de dos partes: Estimacin y Contrastes de Hiptesis. La primera se ha estudiado en la unidad anterior y estaba destinada a tratar de determinar el valor de un parmetro poblacional, a partir de lo observado en la muestra. La tcnica de Contraste de Hiptesis es preciso para establecer procedimientos para aceptar o rechazar hiptesis estadsticas emitidas acerca de un parmetro, u otra caracterstica de la poblacin. La nica forma de saber con certeza absoluta que una hiptesis estadstica es verdadera, es examinar toda la poblacin. Pero esto, en la mayora de los casos resulta, imposible (por falta de medios econmicos, imposibilidades tcnicas, etc.). Por lo tanto, la decisin debe adoptarse a partir de los resultados de una muestra de la poblacin (supuesta representativa), que nos inducir a tomar la decisin sobre la verdad o falsedad de la hiptesis. Pero es difcil sta decisin, porque aunque sepamos exactamente el valor del parmetro de la poblacin, en las muestras es muy difcil que se verifique ese valor exacto, por lo que debemos decidir unos lmites de valores del parmetro en la muestra, que nos puedan llevar a la decisin de aceptar el valor del parmetro poblacional. Por ejemplo, si una poblacin es normal N(150, 30), en todas las muestras de tamao 36, aproximadamente en un 2% de ellas, la media muestral superar las 160 unidades, y en otro 2% aproximadamente ser inferior a las 140 unidades. El problema, es pues, decidir a partir de qu valores de la media muestral podemos aceptar que la media poblacional es de 150 unidades, y todo ello siempre con un margen de error.

278

4.4.2 Conceptos bsicos


4.4.2.1 Hiptesis nula e Hiptesis alternativa
A la hiptesis que se desea contrastar la denominaremos Hiptesis nula, y la denotaremos por Ho. Esta hiptesis nula es la que se somete a comprobacin, y es la que se acepta o rechaza, como la conclusin final de un contraste. Puede surgir de diversos modos (Por discusiones tericas, como modelo terico, por la experiencia, por intuicin, etc.). Esta hiptesis nula lleva consigo una hiptesis alternativa, denotada por Ha o H 1. La hiptesis alternativa ser la que se acepta si se rechaza Ho y viceversa En el ejemplo del prrafo anterior, si tratamos de determinar la media poblacional (supuesta desconocida), la hiptesis nula podra ser: Ho: Media poblacional = 150. En ste caso, la hiptesis alternativa tendra la siguiente expresin: Ha: Media poblacional 150.

4.4.2.2 Estadgrafo de contraste


El contraste de hiptesis, es pues, un mecanismo mediante el cual se rechaza la hiptesis nula cuando existan diferencias significativas entre los valores muestrales y los valores tericos, y se acepte en caso contrario. Estas variables se medirn mediante una variable denominada estadgrafo de contraste, o estadstico de contraste, que sigue una distribucin determinada conocida, y que para cada muestra tomar un valor particular.

279

En el ejemplo anterior, el estadstico de contraste puede ser la media muestral, pero segn hemos visto en unidades anteriores, conocemos que la variable

x! Z= "
n

con n > 30

sigue una distribucin normal N(0,1), por lo que puede utilizarse sta variable como un estadstico de contraste, ya que se conoce su distribucin.

4.4.2.3 Regin crtica y regin de aceptacin


Denominaremos regin crtica, al conjunto de valores del estadstico de contraste que nos lleva a rechazar la hiptesis nula. La regin crtica es el conjunto de valores del estadstico de contraste que nos induce a rechazar la hiptesis nula En el ejemplo anterior, si tomamos la media muestral como estadstico de contraste, la regin crtica seran los valores de la media muestral superiores a 159.8, o inferiores a 140.2. Pero si tomamos el estadstico Z, la regin crtica seran los valores de Z cuyo valor absoluto sea mayor que 1.96. Llamaremos regin de aceptacin, al conjunto de los valores del estadstico que nos llevan a aceptar la hiptesis nula. La regin de aceptacin es el conjunto de los valores del estadstico que nos induce a aceptar la hiptesis nula.

4.4.2.4 Error tipo I y Error tipo II


Obviamente la conclusin tras un contraste de hiptesis puede ser cierta o no, ya que no sabemos con certeza cul es la situacin verdadera. Esto nos puede llevar a las situaciones reflejadas en el siguiente cuadro:

280

Decisin Aceptar Ho Hiptesis cierta Ho H1


O bien reflejadas en la siguiente forma: . Si la hiptesis nula es cierta y se acepta, la decisin es correcta. . Si la hiptesis nula es cierta y se rechaza sta, se comete un error; a este error le denominaremos error de tipo I. . Si la hiptesis alternativa es cierta y se acepta la hiptesis nula, se comete un error; a ste error le denominaremos error de tipo II. . Si la hiptesis alternativa es falsa y se rechaza la hiptesis nula, la decisin es correcta.

Rechazar Ho Error tipo I Correcta

Correcta Error tipo II

4.4.2.5 Nivel contraste

de

significacin

potencia

del

Nivel de significacin del contraste es la probabilidad de cometer un error del tipo I, es decir, de rechazar la hiptesis nula siendo cierta, acostumbra a denotar por = P(cometer error tipo I) = P(rechazar Ho siendo cierta) y se

La interpretacin estadstica del error tipo I es la siguiente: Si el experimento se repitiera un gran nmero de veces, sobre una poblacin con media de 150 unidades, en el 100(1 - a)% de los casos, ese experimento llevara a la conclusin verdadera de que = 150, y en el 100 a% de las veces conducira a la decisin falsa de que 150.

281

La probabilidad de cometer error del tipo II se denota por = P(cometer error tipo II) = P(aceptar Ho siendo falsa) Su complementario hasta uno es lo que se llama potencia del contraste La potencia del contraste, es la probabilidad de rechazar la hiptesis nula siendo sta falsa., es decir, aceptar la hiptesis alternativa siendo cierta. La interpretacin estadstica del error tipo II es la siguiente: Si el experimento se repitiera un gran nmero de veces, sobre una poblacin con media de 150 unidades, en el 100% de los casos, ese experimento llevara a la conclusin falsa de que = 150, y en el 100 (1 - )% de las veces conducira a la decisin verdadera de que 150. Estas probabilidades se pueden conocer: Si en el ejemplo de una poblacin normal N(, 30) tomamos una muestra de 36 elementos, y contrastamos Ho (=150) contra la hiptesis alternativa Ha (=165), y consideramos como regin de aceptacin el intervalo (140, 160), entonces la probabilidad de cometer error tipo I, es la probabilidad de que la media muestral pertenezca a la regin crtica; es decir, sea mayor que 160, o menor que 140 unidades, y la hiptesis nula sea cierta. As = P(cometer error tipo I) = P( x 160/N(150,30))+P( x 140/N(150,30))= =P(Z 2) + P(Z -2) = 0.0228 + 0.0228 = 0.0456 lo que nos da cierta informacin sobre la posibilidad de acertar en nuestra decisin, aunque no sepamos el verdadero valor del parmetro poblacional. Anlogamente se puede calcular la probabilidad de cometer error tipo II, es decir, de que la media muestral pertenezca al intervalo (140, 160) y sea cierta la hiptesis alternativa: = P(cometer error tipo II) = P(140 x 160/N(165,30))= P(-5 Z -1) = P(Z -1) - P(Z -5) = 0.1687 - 0.00001 = 0.168699.

282

4.4.2.6 Tipo de contraste


Segn que la regin crtica contenga una o dos regiones, diremos que el contraste es unilateral, o bilateral.

Estos son los conceptos iniciales que deben tenerse en cuenta en un contraste de hiptesis.

4.4.2.7 Pasos en un contraste de hiptesis


Veamos ahora los pasos que son convenientes seguir para realizar el contraste de hiptesis: 1 Determinar, claramente, la hiptesis nula Ho y la hiptesis alternativa Ha. 2 Elegir el nivel de significacin. 3 Seleccionar un estadstico cuya distribucin muestral sea conocida en el caso de que la hiptesis nula sea cierta. 4 Determinar la regin crtica. 5 Calcular el valor del estadstico de contraste para la muestra elegida. 6 Sacar las conclusiones estadsticas del contraste (aceptar o rechazar Ho). 7 Sacar las conclusiones no estadsticas (biolgicas, mdicas, econmicas, etc.) a que nos llevan los resultados estadsticos.

283

4.4.3 Contraste para la media de una poblacin normal


4.4.3.1 Contraste para la media de una poblacin normal, con varianza poblacional conocida
Supongamos que queremos contrastar la hiptesis de que la media de una poblacin normal, toma un valor especfico o , cuando la varianza 2 de la poblacin es conocida.

En ste caso, la hiptesis nula ser, en general: Ho ( = o ) Mientras que la hiptesis alternativa puede tener diversas expresiones:

Ha ( = 1 ) , o bien, Ha ( < o ), Ha ( > o ), o bien Ha ( o ). Estadgrafo de contraste: El contraste se efectuar tomando muestras aleatorias de tamao n. Conocemos que la distribucin de la media muestral sigue una distribucin normal N(, /n). Entonces, si x es la media de una muestra de tamao n, entonces la variable

x! Z= " o
n

seguir, cuando la hiptesis nula sea cierta una distribucin normal estndar N(0,1). Se puede utilizar as pues sta variable como estadstico de contraste en ste caso. Nivel de significacin: El nivel de significacin ser , que, generalmente

tomar los valores 0.1, 0.05 0.01. Regin crtica: Si la hiptesis nula fuese cierta y = o , cabe esperar que la media muestral x se distribuya en torno al valor o, es decir, x - o tendr un valor elevado para que existan evidencias de que la hiptesis nula sea falsa, es decir, la variable Z tomar un valor absoluto grande; as pues, la regin crtica estar formada por los valores de Z elevados, tanto positivos como negativos. Para especificar cuando se consideran

284

elevados, teniendo en cuenta la distribucin de Z, sern aquellos que sean mayores, en valor absoluto, que z/2, en el contraste bilateral, o que z en el contraste unilateral. Si la hiptesis nula fuese Ho ( o ), entonces dejaran de pertenecer a la regin crtica los valores positivos grandes, y el contraste es, en ste caso, unilateral. (Ver figuras 4.2 y 4.3).

1-! !/2 -z!/2


Regin crtica

nivel de significacin

!/2 0
Regin de Aceptacin

z!/2
Regin crtica

Figura 4.10: Regiones crtica y de aceptacin en un contraste bilateral cuando la distribucin es normal estndar.

1- !

nivel de significacin

0
Regin de Aceptacin

z!
Regin crtica

Figura 4.11: Regiones crtica y de aceptacin en un contraste unilateral cuando la distribucin es normal estndar.

285

4.4.3.2 Contraste para la media de una poblacin normal, con varianza poblacional desconocida
MUESTRAS GRANDES
Estadgrafo de contraste: En el mismo caso que en el prrafo anterior, y con las mismas hiptesis, si el tamao de la muestra es suficientemente grande (n > 30), aunque sea desconocida la varianza poblacional, se consiguen buenos resultados utilizando como estimador de la varianza poblacional la cuasi-varianza muestral y, por lo tanto, se puede tomar como estadstico de contraste el mismo que se tom cuando la varianza poblacional era conocida; es decir

Z=

x ! o
s n

es una variable que sigue una distribucin normal estndar N(0,1), por lo que el razonamiento es idntico al caso anterior.

MUESTRAS PEQUEAS
Estadgrafo de contraste: Si el tamao de la muestra es pequeo (n < 30), sabemos de unidades anteriores que la variable

t=

x ! o
s n !1

difiere sensiblemente de una distribucin normal, aproximndose bastante mejor por una distribucin t de Student, con n-1 grados de libertad, por lo que sta variable t puede utilizarse con un estadstico de contraste. Regin crtica: La regin crtica, en ste caso, estar determinada por los valores de la variable t que sean excesivamente grandes en valor absoluto, si el contraste es bilateral, y para especificar el nivel de cuando pueden considerarse grandes, teniendo en cuenta la

286

distribucin de la variable t, que sigue una distribucin t con n-1 grados de libertad, sern aquellos valores mayores que t/2,n-1 en el contraste bilateral, o que t,n-1 en el contraste unilateral. Las regiones crticas sern pues, anlogamente al caso de la varianza poblacional conocida, los siguientes (ver figuras 4.4 y 4.5):

nivel de confianza

!/2

1"!

!/2
nivel de significacin

-t !/2
Regin crtica

0
Regin de Aceptacin

t !/2
Regin crtica

Figura 4.12: Regiones crtica y de aceptacin en el contraste bilateral cuando la variable se distribuye segn una t de Student.

Figura 4.13: Regiones crtica y de aceptacin en el contraste unilateral cuando la variable se distribuye segn una t de Student.

287

4.4.4 Contraste de hiptesis para la igualdad de medias de dos poblaciones normales


En este apartado consideraremos dos poblaciones con distribuciones normales con 2 medias 1 y 2 y varianzas !1 y ! 2 respectivamente, de las cuales extraemos 2 muestras aleatorias independientes de tamaos n1 y n2 respectivamente. El objetivo de ste apartado ser determinar si las dos poblaciones pueden considerarse con la misma media poblacional, es decir, la hiptesis nula ser Ho (1 = 2 ), mientras que la hiptesis alternativa puede tener diversas expresiones: Ha (1 < 2 ), o bien, Ha (1 > 2 ), o bien Ha (1 2 ). Estas hiptesis son equivalentes a las siguientes: la hiptesis nula ser Ho (1 - 2 = 0), mientras que la hiptesis alternativa tendr stas expresiones: Ha (1 - 2 < 0), o bien, Ha (1 - 2 > 0), o bien Ha (1 - 2 0).

4.4.4.1 Contraste de hiptesis para la igualdad de medias de dos poblaciones normales con varianzas poblacionales conocidas.
Estadgrafo de contraste: Conocemos del tema relacionado con las distribuciones normales, que la diferencia de dos distribuciones normales se distribuye tambin normalmente con media la diferencia de las medias, y varianza la suma de las varianzas, por lo que la variable # 2 "1 " 2 & + 2 ( , por x1 ! x2 ser una variable que se distribuye normalmente N% 1 ! 2 , n1 n2 ' $ lo que en el caso particular de conocer las varianzas poblacionales, podemos utilizar como estadstico de contraste la variable

Z=

x1 ! x2
2 "1 " 2 + 2 n1 n 2

288

que, en el caso de que la hiptesis nula sea cierta (1 = 2 ), se distribuye como una distribucin normal estndar N(0,1), y, por lo tanto, puede utilizarse como estadstico de contraste, dado que conocemos su distribucin.

Regin crtica: La regin crtica estar formada por los valores de Z elevados, tanto positivos como negativos. Para especificar cuando se consideran elevados, teniendo en cuenta la distribucin de Z, sern aquellos que sean mayores, en valor absoluto, que Z/2, en el contraste bilateral, o que z en el contraste unilateral.

4.4.4.2 Contraste de hiptesis para la igualdad de medias de dos poblaciones normales con varianzas poblacionales desconocidas pero iguales
MUESTRAS GRANDES Estadgrafo de contraste: Supongamos ahora que las varianzas son desconocidas pero iguales (1 = 2 = ). Si las muestras tienen tamao grande, aunque no se conozca la varianza poblacional, se trabaja como si se conociese utilizando en lugar de la varianza poblacional, su estimador la cuasivarianza muestral, por lo que la distribucin de la diferencia de " 1 1 % ' , medias muestrales es ahora N $ 1 ! 2 , s + n1 n2 & # siendo = s estndar
2 (n1 ! 1)1 + (n2 ! 1)s2 s2 , por lo que la variable tipificada es una normal n1 + n2 ! 2

Z=

( x1 ! x2 ) ! (1 ! 2 )
1 + 1 S n1 n2

Entonces, si ha hiptesis nula es cierta, (1 =2 ), la variable

Z=

( x1 ! x2 )
S 1 1 + n1 n 2

289

se distribuye como una distribucin normal estndar, por lo que se puede utilizar como un estadstico de contraste.

Regin crtica: La regin crtica se determina igual que en el prrafo anterior, es decir, para los valores de Z mayores, en valor absoluto, que z/2 (contraste bilateral), o que z (contraste unilateral).

MUESTRAS PEQUEAS Estadgrafo de contraste Pero, si las muestras son pequeas (n1 + n2 < 30), entonces la variable siguiente

t=

(x1 ! x2 ) ! (1 ! 2 ) 1 + 1 S n1 n2

con S =

2 2 (n1 ! 1)S1 + (n2 ! 1)S2 , sigue una distribucin t de Student con n1+n2-2 n1 + n2 ! 2

grados de libertad. Si la hiptesis nula es cierta, el estadgrafo de contraste que utilizaremos es

t=

(x1 ! x2 ) 1 + 1 S n1 n 2

porque se distribuye como una t de Student con n1+n2-2. Regin crtica: La regin crtica viene determinada por los valores de esta variable t, que son mayores en valor absoluto que t/2 en el contraste bilateral, o bien los valores de t, que son mayores en valor absoluto que t en el contraste unilateral.

290

4.4.5 Contraste binomiales


grandes, de tamao > 30.

para

distribuciones

Estudiaremos slo contrastes en los que sea posible aproximaciones de la binomial mediante la normal, por lo que estudiaremos slo los casos de muestras

4.4.5.1 Contraste para el parmetro p de una distribucin Binomial


Partimos de una poblacin que se ajuste al modelo binomial B(n, p), siendo p la ! probabilidad de "xito"; denotaremos por p a la proporcin muestral de casos favorables y por po el valor hipottico con el que queremos contrastar el valor del parmetro p.

Hiptesis de partida En ste caso, la hiptesis nula ser: Ho : p = p o y la hiptesis alternativa puede ser: Ha : p po en el contraste bilateral, o bien Ha : p > po , en el contraste unilateral (tambin Ha : p < po).

Estadgrafo de contraste: Como conocemos que la distribucin binomial B(n, p) se aproxima mediante una variable normal N(np, npq ), entonces, se verifica que la variable p ! po Z= p(1 ! p) n se distribuye como una distribucin normal estndar N(0,1).

291

Regin crtica: La regin crtica, ahora, ser la determinada por los valores de la variable Z que son mayores en valor absoluto que z/2 , en el contraste bilateral, o bien, mayores que z , en el contraste unilateral.

4.4.5.2 Contraste para la igualdad de los parmetros de dos distribuciones binomiales


Partimos, en ste caso, de dos distribuciones binomiales B(n1, p1) y B(n2, p2) respectivamente. En las muestras los parmetros muestrales sern p1 y 2 p respectivamente.

Hiptesis de partida: La hiptesis nula ser: Ho : p 1 = p 2 mientras que la hiptesis alternativa puede ser : Ha : p 1 p 2

Estadgrafo de contraste: Ahora, teniendo en cuenta las propiedades de las distribuciones normales, por las que se aproximan las binomiales, se verifica que la variable

Z=

! ! p1 ! p2 ! ! ! ! p1(1 ! p1) p2 (1 ! p 2 ) + n1 n2

se distribuye, cuando la hiptesis nula es cierta, como una distribucin normal estndar N(0,1)

Regin crtica:

292

La regin crtica ser anloga a todas aqullas en el que el estadstico de contraste sigue una distribucin normal.

293

"CONTRASTES DE HIPTESIS"

4.5 Ampliacin

294

4.5.1 Introduccin y motivacin


Antes de comenzar con el desarrollo del tema se supone que el lector conoce los conceptos fundamentales de muestreo, los principales estimadores de los parmetros de distribuciones normales y sus correspondientes distribuciones muestrales, y los conceptos bsicos asociados a los contrastes de hiptesis como son el riesgo tipo I, tipo II, potencia del contraste, etc.... Aunque muchos de los conceptos han sido ya explicados en la parte bsica, se repiten aqu encuadrados en el problema general de la investigacin aplicada aadiendo una posible gua para la explicacin de los mismos en contextos aplicados a las ciencias experimentales.

Comenzaremos ilustrando las ideas generales sobre el contraste ms simple, el de la media de una poblacin Normal, para ir extendiendo progresivamente las ideas a dos poblaciones, a la comparacin de proporciones y a las poblaciones no normales. Analizaremos la problemtica de realizar un nmero elevado de contrastes sobre el mismo conjunto de datos, y extenderemos las ideas fundamentales al diseo de experimentos con varios grupos experimentales.

4.5.2 Contraste para la media de una poblacin Normal


4.5.2.1 Planteamiento general
Consideremos un caso muy simple mediante un ejemplo concreto. Supongamos que pertenecemos al consejo regulador de la denominacin de origen de los vinos de Ribera de Duero. Sabemos que los vinos jvenes de aos anteriores tienen un grado alcohlico medio de 12.5 grados, tal y como aparece en la etiqueta. Para el ao actual, el consejo regulador, de acuerdo con todos sus miembros, ha decidido cambiar algunos de los pasos del proceso de fabricacin. El primer problema que se plantea es: Se ha modificado el grado alcohlico al modificar el proceso de fabricacin?.

295

La definicin del problema a estudiar nos permite determinar la poblacin que queremos estudiar, los vinos jvenes de ribera de Duero en el ao actual; la variable que queremos medir, el grado alcohlico de los mismos, y la hiptesis de trabajo inicial Se ha modificado el grado alcohlico?. El paso siguiente consiste en suponer un modelo de comportamiento terico para la poblacin (a priori). Suponemos que la variable que estamos midiendo en la poblacin a estudiar sigue una distribucin Normal. La suposicin de normalidad la haremos de acuerdo con el conocimiento previo que tengamos sobre la poblacin objeto de estudio tratando de que las caractersticas de la distribucin reflejen en la mayor medida posible las de la poblacin, se trata simplemente de buscar un modelo probabilstico que aproxime la variable a estudiar. En el caso que nos ocupa, parece razonable suponer, a priori, que el grado alcohlico se concentra de forma simtrica alrededor de un valor medio. Si considerramos, por ejemplo, los salarios de una empresa la hiptesis de normalidad no es plausible puesto que cabe esperar que la distribucin de los mismos sea marcadamente asimtrica debido a los altos salarios de un grupo reducido de ejecutivos. Formularemos ahora la hiptesis de trabajo en trminos de los parmetros del modelo (media y/o desviacin tpica en el caso de la Normal). La hiptesis principal la denominamos hiptesis nula (H0).

H0 = = 0 = 12.5
La hiptesis nula suele ser la de igualdad del parmetro a un nico valor concreto o procedente de la hiptesis de trabajo. Junto con la hiptesis nula planteamos la que denominamos hiptesis alternativa (Ha o H1) que ser aceptada cuando se rechace la nula y viceversa. Por el momento tomaremos la ms sencilla, la hiptesis e que la media es diferente de 12 que resultar en un contraste bilateral.

Ha = ! 0 = 12.5
Trataremos de disear un procedimiento para decidir entre ambas hiptesis a partir de la informacin contenida en una muestra de tamao n, por ejemplo 14 observaciones.

296

Supongamos que la muestra ha sido seleccionada al azar de la poblacin y que se han obtenido los resultados siguientes.

RIBERA DE DUERO 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Tabla 4.1: Grado alcohlico de 14 vinos de la denominacin de Ribera de Duero.

La primera cuestin que hemos de tener en cuenta es que la decisin por una hiptesis concreta ha de tomarse con un cierto riesgo de equivocarse al no disponer de la informacin de todos los individuos de la poblacin. Trabajaremos con la media muestral como estimador de la media poblacional desconocida. En el ejemplo la media muestral es de 12,529, que como ya sabemos no coincide con la media poblacional. Trataremos de decidir entre las dos hiptesis a partir del valor de la media muestral pero, si la media muestral no coincide con la media poblacional, ser la diferencia entre el valor observado y el terico lo suficientemente grande como para rechazar la hiptesis nula? o la diferencia observada es lo suficientemente pequea como para ser debida simplemente al azar o al desconocimiento de la poblacin?. Daremos respuesta a ambas preguntas utilizando los conceptos sobre distribuciones aprendidos en temas anteriores.

4.5.2.2 Varianza (desviacin tpica conocida)


Supondremos, por el momento, que la varianza de la poblacin es ! = 0.5
2 2

conocida. Sabemos que la media muestral para distintas muestras sigue una distribucin ! ) , luego, cuando la hiptesis nula es cierta Normal N(, n

x ! N(0 ,

" ) n

En la prctica, este resultado tiene implicaciones importantes. Vemoslo con un dibujo (figura 4.7).

297

x ! N( 0 , " ) n

0
Figura 4.14: Distribucin de la media muestral.

El dibujo muestra cmo, aunque los valores de la media muestral no coinciden con la media poblacional, se concentran en torno a ella y por tanto es muy probable que sean cercanos aunque, con el modelo supuesto puede tomar cualquier valor. Obsrvese tambin que cuanto mayor es el tamao muestral ms se concentran los valores de la media muestral en torno a la media poblacional. Intuitivamente, aceptaremos la hiptesis nula cuando la media muestral sea prxima a 0 y la rechazaremos (aceptando la alternativa) cuando la media muestral sea muy diferente de 0 , es decir, utilizamos la media muestral como estadstico, o estadgrafo, de contraste. Nos queda por determinar cual es el criterio para decidir si la media muestral est prxima o no al valor terico propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos el riesgo tipo Y en (por ejemplo en 0.05 o el 5%) Nos plantearemos el contraste como un juicio en el que la media muestral es inocente (procede de una poblacin con media 0 ) y no la declararemos culpable (no procede de una poblacin con media 0 ) hasta que no se demuestre claramente lo contrario. Sobre la distribucin de la media seleccionamos dos puntos 0 ! a y 0 + a , simtricos alrededor de 0 de forma que si la hiptesis nula cierta en el (1-)100% (por ejemplo el 95%) de las muestras la media muestral est entre esos dos valores (figura 4.8).

P(0 ! a " x " 0 + a) = 1 ! #

298

Figura 4.15: Procedimiento de contraste a partir de la media muestral

Aceptaremos la hiptesis nula si la media muestral est dentro del intervalo seleccionado y la rechazaremos en caso contrario. Es claro que si la media est fuera del intervalo seleccionado hay una clara evidencia de que la hiptesis no es cierta ya que toma los valores correspondientes solo en el 5% de los casos en los que la hiptesis nula es cierta. Por supuesto, estamos asumiendo un riesgo del 5% de equivocarnos y rechazar indebidamente. Como ya es conocido, al conjunto de valores que nos llevan a aceptar la hiptesis nula lo denominamos Regin de Aceptacin, y al conjunto de valores que nos llevan a rechazarla Regin Crtica. En este caso la regin crtica se ha dividido en las dos colas de la distribucin por lo que se dice que el contraste es bilateral o de dos colas. En la prctica no se trabaja directamente con la media muestral y su distribucin asociada sino con la distribucin Normal estndar. Teniendo en cuenta las propiedades de la Normal podemos escribir
x ! P(0 ! a " x " 0 + a) = P(!z# /2 " $ 0 " z #/ 2 ) = 1 ! # n

de forma que el procedimiento descrito se convierte ahora en el que se muestra en la x! figura 4.9. El estadgrafo de contraste es ahora " 0 y mide la discrepancia entre el n valor observado de la media l valor terico de la misma, en la escala de la desviacin

299

tpica. No es lo mismo una diferencia de una unidad en una escala de centmetros que en una escala de kilmetros.

Figura 4.16: Procedimiento de contraste a partir de la media muestral estandarizada.

La interpretacin intuitiva del nuevo procedimiento sigue siendo clara, rechazaremos la hiptesis nula solamente cuando la discrepancia entre la media observada y la terica ( x ! 0 ) sea grande, en relacin a la variabilidad intrnseca ! medida por . La magnitud de la diferencia necesaria para rechazar se determina a n travs del riesgo de tipo 1 mediante la distribucin Normal estndar. A los valores de z/2 se les suele denominar valores crticos ya que determinan la frontera entre la regin crtica y la regin de aceptacin. El cuadro 4.2 muestra el procedimiento completo con los pasos que se siguen habitualmente en la construccin de cualquier contraste.

300

Hiptesis H0 : = 0

Ha : ! 0
Nivel de significacin: x ! Estadgrafo de contraste: Z = " 0 n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }

Cuadro 4.2: Contraste para la media de una poblacin Normal con varianza conocida.

Una vez que hemos determinado la forma general del contraste pasamos a aplicarlo a los datos del problema inicial que nos ocupa (ver cuadro 4.3). Hiptesis:

H0 : = 12.5 Ha : ! 12.5
Nivel de significacin: 5% y 1%. x ! 12.529 ! 12.5 = 0.217 Estadgrafo de contraste: Z = " 0 = 0.5 n 14 Valores crticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha modificado significativamente el grado alcohlico.
Cuadro 4.3: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero

Una vez que hemos tomado la decisin final, no sabemos si es correcta o no, simplemente esperamos que sea del 95% de las muestras en las que aceptamos la hiptesis correctamente. Si aceptamos la hiptesis nula no quiere decir que sea cierta y el grado medio sea exactamente de 12.5 grados (probablemente no lo es), sera ms correcto interpretar que, con la informacin de la que disponemos no hemos encontrado evidencia suficiente de que la media sea distinta de 12.5. Evidentemente, los valores muestrales son compatibles con muchos otros posibles valores tericos. Si aumentamos el tamao de muestra indefinidamente, la variabilidad de la media

301

sera cada vez menor y conseguiramos que la pequea diferencia observada sea lo suficientemente grande como para considerarla significativa. Es por esto por lo que en Estadstica decimos que es tan malo tener un tamao de muestra demasiado alto como tenerlo demasiado bajo ya que en el primer caso cualquier pequea diferencia es considerada como significativa mientras que en el segundo no se declara significacin incluso en el caso en el que la diferencia sea elevada.

4.5.2.3 La potencia de un contraste


En todo el proceso descrito hasta el momento solamente se ha utilizado el riesgo de tipo I en el desarrollo del contraste. Sabemos que esta asociado con el riesgo de tipo II de forma que cuando uno aumenta, el otro disminuye. Tampoco hemos hecho ninguna afirmacin acerca de un concepto importante como es el de potencia del contraste (probabilidad de rechazar la hiptesis nula cuando es falsa). No es posible calcular la potencia del contraste porque para ello necesitaramos un nico valor en la hiptesis alternativa (revsese el ejemplo de los cirrticos utilizado como aplicacin de la distribucin Normal), aunque si podemos realizar el clculo para distintos valores en la alternativa (funcin de potencia) y analizar lo que ocurre. Vemoslo con un ejemplo. Cual sera la potencia del contraste obtenido para detectar que la media no es 12.5 si en realidad la media fuera 13 (y suponiendo un nivel de significacin del 5%). En trminos de la media muestral el procedimiento de contraste consiste en aceptar la hiptesis nula si la media muestral est entre 12.238 y 12.762. La probabilidad de cometer un error de tipo 2 (aceptar indebidamente) si la media real fuera de 13 se podra calcular como P(12.382 ! X ! 12.762) en una Normal de media 0.5 13 y desviacin tpica . Esta probabilidad es 0.037 de forma que la potencia es 1 14 0.037 = 0.963. La situacin esquematizada aparece en la figura 4.10.

302

Figura 4.17: Clculo de la potencia del contraste para una alternativa predeterminada.

En la figura 4.11 se muestra la funcin de potencia para distintos valores posibles de la hiptesis alternativa.

Figura 4.18: Funcin de potencia para distintos valores de la alternativa.

El grfico muestra como la potencia es mayor cuando los valores de la alternativa se alejan del valor para la hiptesis nula. En la prctica este hecho tiene una implicacin obvia: es ms fcil detectar diferencias o efectos experimentales de gran magnitud. Aunque no es posible un control directo de la potencia, a la vista de la figura 4.10

303

es claro que la potencia puede modificarse modificando el nivel de significacin o el tamao muestral ya que la forma de las curvas depende de ste. Cuanto mayor sea el tamao muestral ms concentrada es la curva Normal y, por tanto, mayor es la potencia para el mismo nivel de significacin. En la prctica suele hacerse un estudio de potencia para los contrastes no significativos, calculando cual sera el tamao muestral necesario para que la diferencia observada en los datos sea significativa. Si este tamao es muy grande es difcil declarar la significacin por lo que consideraremos que estamos haciendo lo correcto, si el tamao muestral necesario es pequeo, sera conveniente revisar el experimento. El clculo es muy simple cuando se trabaja con distribuciones normales. La x ! 0 > z #/ 2 de forma que, para que la diferencia hiptesis nula se rechaza cuando " n sea significativa el valor de n ser
z2 "2 n > !/ 2 x # 0

para el ejemplo del grado alcohlico, n> 1141,97, es decir, para que la diferencia observada fuera significativa tendramos que haber recogido ms de 1142 observaciones lo que da una idea de que la diferencia observada es muy pequea y, por tanto es muy probable que la hiptesis nula sea cierta.

4.5.2.4 El p-valor del contraste


Una forma habitual de medir la significacin en los contrastes de hiptesis es el denominado p-valor del contraste. Su utilizacin en la investigacin aplicada es debida a que es la forma de presentacin de los resultados de un contraste usada por la mayor parte de los programas de ordenador. Se puede definir el p-valor de un contraste como la probabilidad de obtener un valor muestral ms extremo que el obtenido en nuestro caso particular (cuando H0 es cierta). Si el p-valor es muy pequeo rechazaremos la hiptesis nula ya que el valor experimental es muy extremo, mientras que si el p-valor es grande aceptaremos la hiptesis nula ya que el valor es compatible con la misma.

304

De forma general, el p-valor para el contraste actual se puede calcular como # x ! & P% Z > " 0 ( en una distribucin Normal estndar. $ n ' Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) = 0.8285, es decir el p-valor puede considerarse grande. En la prctica se suele adoptar el criterio de aceptar la hiptesis cuando el p-valor es mayor que el nivel de significacin fijado en el procedimiento de contraste.

Figura 4.19: El p-valor de un contraste bilateral.

4.5.2.5 Los contrastes unilaterales


En algunas situaciones concretas no estamos interesados en todos los posibles valores de la hiptesis alternativa propuesta en un contraste bilateral. Supongamos, por ejemplo, que en el caso prctico anterior sospechamos a priori que la modificacin en el procedimiento de fabricacin produce un incremento en el contenido alcohlico. En este caso sera conveniente modificar la hiptesis alternativa para que sea de la forma Ha : > 0 . El procedimiento de contraste es muy similar al anterior y se muestra en el cuadro 4.4.

305

Hiptesis H0 : = 0

Ha : > 0
Nivel de significacin: x ! Estadgrafo de contraste: Z = " 0 n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }

Cuadro 4.4: Contraste unilateral superior para la media de una poblacin Normal con varianza conocida.

El contraste as obtenido se denomina contraste unilateral superior ya que solo estamos interesados en las desviaciones positivas. La diferencia fundamental con el contraste bilateral es que se produce un incremento en la potencia para detectar diferencias positivas de la hiptesis nula y un decremento drstico para detectar las negativas. El p-valor sigue teniendo la misma interpretacin aunque ahora se calcula como # x ! & P% Z > " 0 ( . $ n '

Figura 4.20: El p-valor de un contraste unilateral superior.

De la misma manera que se ha construido el contraste unilateral superior es posible construir el contraste unilateral inferior (ver cuadro 4.5) si estamos interesados

306

exclusivamente en detectar diferencias negativas con respecto a la hiptesis nula. La construccin del contraste es completamente anloga con la correspondiente modificacin de la hiptesis alternativa. El contraste unilateral inferior incrementa la potencia para detectar diferencias negativas aunque no tiene potencia para detectar las positivas. Hiptesis H0 : = 0

Ha : < 0
Nivel de significacin: x ! Estadgrafo de contraste: Z = " 0 n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z < z !/ 2 } # x ! 0 & p-valor: P% Z > ( " $ n '

Cuadro 4.5: Contraste unilateral inferior para la media de una poblacin Normal con varianza conocida.

Figura 4.21: El p-valor de un contraste unilateral inferior.

La decisin por el tipo de contraste debe hacerse a priori, antes de tomar los datos. Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la modificacin en el proceso de fabricacin, aumenta el grado alcohlico. El procedimiento de contraste para los datos de la tabla 1 se muestra en el cuadro 4.6.

307

Hiptesis:

H0 : = 12.5 Ha : > 0
Nivel de significacin: 5% y 1%. x ! 12.529 ! 12.5 = 0.217 Estadgrafo de contraste: Z = " 0 = 0.5 n 14 Valores crticos : para el 5% z0.025= 1,65 para el 1% z0.005= 2,33 p-valor: 0.4129 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha aumentado significativamente el grado alcohlico.
Cuadro 4.6: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero

La funcin de potencia para distintos valores de la alternativa aparece en la figura 4.15. Obsrvese como el contraste no tiene ninguna potencia para detectar valores a la izquierda de la hiptesis nula.

Figura 4.22: Funcin de potencia para un contraste unilateral superior.

308

4.5.2.6 Varianza desconocida


En la mayor parte de las aplicaciones prcticas la varianza de la distribucin es tambin desconocida y ha de ser estimada a partir de los datos. El problema es que ya no es posible seguir utilizando la distribucin Normal para el procedimiento de contraste ya que es necesario eliminar el parmetro del estadgrafo de contraste. De acuerdo con la teora, adems de la distribucin muestral de la media sabemos (n ! 1)S2 que sigue una distribucin ji-cuadrado con n-1 grados de libertad. Si 2 " suponemos que media y varianza son independientes* , es posible combinar las correspondientes distribuciones muestrales para obtener una distribucin t de Student y eliminar el parmetro . Utilizando la definicin de distribucin t de Student con n-1 grados de libertad como el cociente entre una Normal estndar y la raz cuadrada de una ji-cuadrado con n1 grados de libertad dividida por sus grados de libertad, y ambas independientes, obtenemos que la variable aleatoria

t=

x ! 0 " x ! n = 0 S (n ! 1)S2 n "2 (n ! 1)

sigue una distribucin t de Student con n-1 grados de libertad. El procedimiento de contraste en este caso es anlogo al anterior pero sustituyendo la distribucin Normal por la distribucin t. El cuadro 4.7 muestra el procedimiento de contraste completo.

La demostracin completa no se realiza aqu.

309

Hiptesis H0 : = 0

Ha : ! 0
Nivel de significacin: x ! 0 Estadgrafo de contraste: t = S n Distribucin del estadgrafo cuando la hiptesis nula es cierta: tn-1 Regin de aceptacin: {t / t ! t n "1,# } Regin critica: {t / t > t n !1," } *

Cuadro 4.7: Contraste para la media de una poblacin Normal con varianza desconocida.

En la prctica, la sustitucin de la distribucin Normal por la distribucin t de Student implica un aumento de la dispersin por lo que es ms difcil detectar diferencias. La situacin se muestra el la figura 4.16 en la que se comparan la distribucin Normal estndar (en lnea discontinua) y la distribucin t (en lnea continua).

x " t = 0 # t n"1 s n !/2

1"! !/2

-t !

t!

Figura 4.23: Diferencia entra la distribucin Normal y la distribucin t de Student.

Es posible construir contrastes unilaterales de la misma manera que en el caso de varianza conocida. El cuadro 4.8 muestra el contraste unilateral superior, el contraste unilateral inferior se deja como ejercicio al lector.

tn-1, es el valor crtico de la t de Student tal que P(-tn-1, tn-1 tn-1, ) = 1-. Se ha denotado con el

subndice porque es el que se utiliza para buscar el valor correspondiente en la tabla.

310

Hiptesis H0 : = 0

Ha : > 0
Nivel de significacin: x ! 0 Estadgrafo de contraste: t = S n Distribucin del estadgrafo cuando la hiptesis nula es cierta: tn-1 Regin de aceptacin: {t / t ! t n "1,2# }* Regin critica: {t / t > t n !1,2" }

Cuadro 4.8: Contraste para la media de una poblacin Normal con varianza desconocida.

Para el ejemplo del grado alcohlico de los vinos de la denominacin de origen de Ribera de Duero los resultados del contraste bilateral se muestran en el cuadro 4.9 Hiptesis:

H0 : = 12.5 Ha : ! 12.5
Nivel de significacin: 5% y 1%. x ! 0 12.529 ! 12.5 = 0.338 = 0.316 Estadgrafo de contraste: Z = S 14 n Valores crticos : para el 5% t0.05= 1,96 para el 1% t0.01= 2,57 p-valor : 0,7571 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha modificado significativamente el grado alcohlico.
Cuadro 4.9: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero

Todos los conceptos explicados para el contraste de la media de una poblacin Normal con varianza conocida siguen siendo vlidos aqu.

tn-1,2 es el valor crtico de la t de Student tal que P( tn-1 > tn-1,2 ) = . Se ha denotado con el subndice

2 porque es el que se utiliza para buscar el valor correspondiente en la tabla.

311

4.5.2.7 Contrastes para muestras grandes


Cuando las muestras de las que se dispone son muestras grandes (aproximadamente mayores de 30 observaciones) es posible utilizar directamente la distribucin Normal ya que es muy similar a la t de Student. Adems el teorema central del lmite permite relajar la hiptesis de normalidad ya que la normalidad de la distribucin muestral de medias est garantizada, bajo ciertas condiciones de regularidad, aunque la poblacin original no sea Normal. Hay que tener en cuenta que se trata slo de una aproximacin y, cuanto mayor es el tamao de la muestra mejor es la aproximacin Normal obtenida. El procedimiento de contraste para muestras grandes se muestra en el cuadro 4.10. Mostramos solamente el contraste bilateral ya que los unilaterales se construyen exactamente de la misma manera que en los casos anteriores.

Hiptesis:

H0 : = 0 Ha : ! 0

Nivel de significacin: x ! 0 Estadgrafo de contraste: Z = S n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0, 1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }

Cuadro 4.10: Contraste para la media de una poblacin Normal con varianza desconocida cuando la muestra es grande.

312

4.5.3 Contraste para la diferencia de medias de dos poblaciones normales con datos independientes
4.5.3.1 Planteamiento general
En la investigacin aplicada la situacin ms habitual es aquella en la que se quieren comparar dos poblaciones a las que se les ha aplicado, por ejemplo, dos tratamientos diferentes. Pongmonos en el mismo supuesto que en el ejemplo que sirvi para ilustrar el contraste para una poblacin, y supongamos que lo que deseamos es conocer si los vinos de nuestra denominacin de origen tienen el mismo contenido alcohlico que los de otra denominacin de origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciacin en los mismos ya que, debido a la proximidad geogrfica de ambas regiones, es posible que haya fraudes y se intercambien vinos de ambas dependiendo del mercado de los mismos. La hiptesis de trabajo inicial es entonces Existen diferencias en el grado alcohlico de ambas denominaciones?. Procediendo de la misma manera que en el caso de una poblacin, suponemos una distribucin de probabilidad para la poblacin que es la distribucin Normal. En la primera poblacin (Ribera de Duero) el grado alcohlico sigue una distribucin Normal N(1, 1); en la segunda poblacin (Toro) el grado alcohlico sigue un Modelo Normal N(2, 2). Formulamos a continuacin las hiptesis de trabajo en trminos de los parmetros de los modelos. Las hiptesis nula y alternativa son ahora
H0 :1 = 2 Ha :1 " 2 (1 ! 2 = 0) (1 ! 2 " 0)

para el contraste bilateral. Vemos como el contraste de que las medias son iguales es equivalente al contraste de que la diferencia de medias vale 0.

Supongamos que los datos obtenidos son los siguientes para muestras aleatorias

313

de tamao

n1 = 14 y n2 = 6.

Ribera de Duero 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0 Toro 13,0 14,0 13,2 13,4 13,2 13,9
Tabla 4.2: Grado alcohlico de 20 vinos de las denominaciones de origen de Ribera y Toro.

Se supone que las muestras se han obtenido de forma independiente en ambas denominaciones. La estadstica descriptiva bsica para ambos grupos aparece en la tabla 4.3.

Tabla 4.3: Descriptiva bsica del grado alcohlico.

Una primera aproximacin a las diferencias entre los dos grupos sera la construccin de grficos comparativos que muestren la estructura de los mismos, por ejemplo, un Box-Plot con los grupos separados. (Ver figura 4.17). Una simple inspeccin visual del grfico nos muestra que hay una clara diferencia entre los grados de ambas denominaciones, a pesar de que la diferencia muestral es muy evidente necesitamos un procedimiento ms formal para establecer si las diferencias observadas pueden ser consideradas estadsticamente significativas. Construiremos el procedimiento de contraste en varios supuestos comenzando desde el ms sencillo hasta los ms complejos.

314

Figura 4.24: Box plot para la comparacin del grado alcohlico de las denominaciones de Ribera y Toro.

4.5.3.2 Varianzas conocidas


Supongamos, para simplificar que las desviaciones tpicas son conocidas, por ejemplo 1 = 0.5 y 2 = 0.6 para las denominaciones de Ribera de Duero y Toro respectivamente. Desarrollaremos el procedimiento general para despus aplicarlo a los datos de los que disponemos. Conocemos la distribucin de la media muestral en ambas poblaciones.
x1 ! N(1, x2 ! N(2 , "1 ) n1 "2 ) n2

y ambas distribuciones son independientes. El estimador de la diferencia de medias poblacionales ser la diferencia de medias muestrales y, como la diferencia de normales independientes es tambin una distribucin Normal, tenemos que
x1 ! x2 " N(1 ! 2 , #2 # 2 1 + 2) n1 n2

315

Estandarizando se obtiene que

Z=

(x1 ! x2 ) ! (1 ! 2 ) "2 " 2 1 + 2 n1 n2

# N(0,1)

Cuando la hiptesis nula es cierta 1 ! 2 = 0 y se tiene que

Z=

(x1 ! x2 )
2 "1 " 2 + 2 n1 n 2

# N(0,1)

luego Z ser el estadgrafo de contraste que utilizaremos.

El procedimiento de contraste completo se muestra el cuadro 4.11. Solo se incluye el contraste bilateral ya que la construccin de los correspondientes unilaterales es la misma que en los casos previos y se deja como ejercicio al lector. Hiptesis:
H0 :1 = 2 Ha :1 " 2 (1 ! 2 = 0) (1 ! 2 " 0)

Nivel de significacin: (x1 ! x2 ) Estadgrafo de contraste: Z = 2 "1 " 2 + 2 n1 n 2 Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0, 1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }

Cuadro 4.11: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.

Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del cuadro 4.12.

316

Hiptesis:

H0 :1 = 2 Ha :1 " 2

(1 ! 2 = 0) (1 ! 2 " 0)

Nivel de significacin: = 0.05 (5%) 0.01 (1%) (12.529 ! 13.450) Estadgrafo de contraste: Z = = !10.829 0.25 0.36 + 14 6 Valores crticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica, por tanto rechazamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin ha aumentado significativamente el grado alcohlico.
Cuadro 4.12: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida.

4.5.3.3 Varianzas desconocidas pero iguales


Supongamos ahora que las varianzas son desconocidas pero iguales (1 = 2 = ). La distribucin de la diferencia de medias muestrales es ahora

Z=

(x1 ! x2 ) ! (1 ! 2 ) # N(0,1) 1 1 " + n1 n 2

Tenemos que eliminar el parmetro , para lo cual utilizaremos las distribuciones muestrales asociadas a las cuasi-varianzas muestrales

2 (n1 ! 1)S1 # $ 21 !1 n 2 "

2 (n 2 ! 1)S2 # $ 2 2 !1 n 2 "

La suma de dos ji-cuadrado es tambin una ji-cuadrado, sumando las dos anteriores

2 2 (n1 ! 1)S1 (n 2 ! 1)S2 (n1 ! 1)S1 + (n 2 ! 1)S2 2 = 2 # $2 + n1 +n 2 !2 2 2 2 " " "

317

Suponiendo que ambas distribuciones son independientes* , podemos combinarlas para obtener una distribucin t de Student. La variable aleatoria

t=

(x1 ! x 2 ) ! (1 ! 2 ) 1 1 " + n1 n 2 2 2 (n1 ! 1)S1 + (n2 ! 1)S2 "2 n1 + n2 ! 2

(x1 ! x2 ) ! (1 ! 2 ) 1 + 1 S n1 n2

con S =

2 2 (n1 ! 1)S1 + (n 2 ! 1)S2 sigue una t de Student con n1 + n2 - 2 grados de n1 + n 2 ! 2

libertad. Si la hiptesis nula es cierta, el estadgrafo de contraste que utilizaremos es

t=

(x1 ! x2 ) = t n1 +n 2 !2 1 + 1 S n1 n 2

Es posible considerar un estadgrafo de contraste alternativo si se utilizan las varianzas muestrales en lugar de las cuasi-varianzas. Para ello basta tener en cuenta que las distribuciones muestrales asociadas a las varianzas son
2 n1 S1 2 2 " # n1 $1 !

n2 S 2 2 2 2 " # n 2 $1 !

El nuevo estadgrafo de contraste es de la forma

t=

(x1 ! x2 ) = t n1 +n 2 !2 1 1 S + n1 n 2

con S =

2 2 n1 S1 + n2 S2 . Los dos estadsticos toman exactamente el mismo valor por lo n1 + n2 ! 2

que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasivarianzas porque son estimadores insesgados de la varianza poblacional.
*

La demostracin puede encontrarse en cualquier libro de Estadstica Matemtica. No se ha incluido aqu porqwue supera los propsitos de este trabajo.

318

En ambos casos lo que se ha hecho es estimar la varianza comn de ambas poblaciones mediante una media ponderada de las varianzas estimadas en cada poblacin, y se ha cambiado la distribucin Normal por la t de Student con el correspondiente aumento en la dispersin que hace que sea ms difcil encontrar diferencias. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el clculo del estadgrafo de contraste. La comprobacin de la igualdad de varianzas se har posteriormente aunque sea un paso previo a la decisin del tipo de contraste. Las cuestiones relacionadas con la potencia del contraste se interpretan de la misma manera que en todos los casos anteriores. Cuanto mayor sea la diferencia que queremos detectar mayor ser la potencia para detectarla. Cuanto ms pequeo sea el efecto que queremos detectar mayor ser el tamao de muestra necesario para hacerlo. Si aumentamos indefinidamente el tamao muestral conseguiremos que la diferencia muestral sea siempre estadsticamente significativa por pequea que sea. El contraste completo se muestra en el cuadro 4.13.
H0 :1 = 2 (1 ! 2 = 0) Ha :1 " 2 (1 ! 2 " 0) Nivel de significacin: (x1 ! x2 ) (x1 ! x 2 ) t= Estadgrafo de contraste: t = 1 1 1 + 1 S S + n1 n 2 n1 n 2

Hiptesis:

2 2 2 2 (n1 ! 1)S1 + (n 2 ! 1)S2 n1 S1 + n2 S2 S= n1 + n 2 ! 2 n1 + n2 ! 2 Distribucin del estadgrafo cuando la hiptesis nula es cierta: t de Student t n1 +n 2 !2 con S =

Regin de aceptacin: t / t ! t n1 +n 2 "2,# Regin critica: t / t > t n1 +n 2 !2,"

Cuadro 4.13: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales.

El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los siguientes resultados (ver cuadro 4.14).

319

H0 :1 = 2 (1 ! 2 = 0) Ha :1 " 2 (1 ! 2 " 0) Nivel de significacin: = 0.05 (5%) 0.01 (1%) (12.529 ! 13.450) Estadgrafo de contraste: t = = !5.256 1 1 0.359 + 14 6 Valores crticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878

Hiptesis:

Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica, por tanto rechazamos la hiptesis nula. Conclusin no estadstica: El grado alcohlico es significativamente diferente en Ribera de Duero y Toro.
Cuadro 4.14: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales, aplicado a los datos sobre el grado alcohlico.

4.5.3.4 Varianzas desconocidas y distintas


Supongamos ahora que las varianzas son desconocidas y distintas (1 2) de forma que ya no es posible eliminar el parmetro en el clculo de la t de Student. Se han propuesto diversas aproximaciones para la aproximacin de la distribucin del estadgrafo de contraste. Describiremos aqu la aproximacin de Welch (ver cuadro 4.15). La demostracin completa est fuera de los propsitos de este trabajo.
H0 :1 = 2 (1 ! 2 = 0) Ha :1 " 2 (1 ! 2 " 0) Nivel de significacin: 2 2 S1 S2 Estadgrafo de contraste: t = (x1 ! x2 ) + n1 n2 Distribucin del estadgrafo cuando la hiptesis nula es cierta: t de Student tf donde f es el entero ms prximo a ! S1 S2 $ 2 2 2 # + & " n1 n 2 % f= '2 2 2 ! S2 $ 2 ! S1 $ # & # 2& " n1 % " n2 % + n1 + 1 n 2 + 1

Hiptesis:

Regin de aceptacin: {t / t ! t f," } Regin critica: {t / t > t f,! }

Cuadro 4.15: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y distintas.

320

4.5.3.5 Contrastes de comparacin de medias para muestras grandes


Como ya se coment para el caso de una nica poblacin, el teorema central del lmite permite asignar distribuciones normales a las medias muestrales aunque la distribucin en la poblacin no sea Normal. Si disponemos de una muestra de tamao grande y estimamos la varianza poblacional a travs de la cuasi-varianza muestral, podemos construir un contraste aproximado de comparacin de medias utilizando la distribucin Normal (ver cuadro 4.16).
H0 :1 = 2 (1 ! 2 = 0) Ha :1 " 2 (1 ! 2 " 0) Nivel de significacin: 2 2 S1 S2 Estadgrafo de contraste: t = (x1 ! x2 ) + n1 n2

Hiptesis:

Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }

Cuadro 4.16: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y tamaos muestrales grandes.

Obsrvese que estamos suponiendo implcitamente que la cuasi-varianza muestral es un buen estimador de la varianza poblacional, prximo al verdadero valor.

4.5.3.6 Obtencin de datos para la comparacin de medias.


Dos son los tipos de datos de los que es posible disponer para la comparacin de las medias - Datos procedentes de estudios observacionales. - Datos procedentes de estudios experimentales. En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra aleatoria garantiza la representatividad . A este tipo de datos corresponde el ejemplo que hemos utilizado como gua para la explicacin.

321

Los datos experimentales se corresponden con experimentos planificados en los que se asignan dos tratamientos distintos a un grupo de individuos. En este tipo de diseos es necesario que todas las caractersticas que no intervienen en el diseo y puedan modificar la respuesta, estn controlados y sean similares en los dos grupos a comparar. Por ejemplo, si se desea hacer un ensayo clnico en el que se dispone de un grupo de pacientes de forma que a un subconjunto se le aplicar el tratamiento a comparar y el resto ser utilizado como control sobre el que se utilizar un placebo (substancia no activa) con la misma apariencia que el tratamiento, los pacientes de ambos grupos han de ser similares en composicin con respecto a caractersticas como la edad peso u otros factores que pudieran alterar la respuesta y que no intervienen directamente en el diseo. Se tratar de evitar sesgos de forma que los efectos puedan ser asignados a los tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el que se dispone de dos camadas distintas, no sera correcto asignar un tratamiento diferente a cada una de las camadas ya que sera imposible separar los efectos del tratamiento y de la camada. En Estadstica decimos que los tratamientos estn confundidos. La forma de asignar tratamientos a individuos para que no existan errores sistemticos es hacerlo al azar, por ejemplo, sorteando cual es el tratamiento que se aplica a cada individuo. A este procedimiento se le denomina aleatorizacin, y juega un papel fundamental en el diseo de experimentos planificados. Hay que hacer notar que al azar no significa "de cualquier manera" o "cualquiera de los tratamientos", para conseguir una verdadera aleatorizacin es necesario utilizar la probabilidad. En los experimentos diseados es muy importante realizar estudios previos sobre el tamao de muestra necesario para detectar un determinado efecto. Este problema est fuera del alcance de un curso introductorio aunque las ideas bsicas fueron expuestas cuando se trat con los intervalos de confianza. Este tipo de experimentos se comenz en Agricultura para extenderse despus a otras aplicaciones como la Industria o la Medicina. Actualmente los ensayos clnicos controlados, basados fundamentalmente en conceptos de Estadstica, forman una parte importante de la investigacin mdica. Todo el mundo ha odo alguna vez en las noticias los resultados de ensayos clnicos controlados antes de lanzar al mercado un nuevo medicamento.

322

4.5.3.7 Contraste para datos apareados.


En el caso de datos independientes en el punto anterior, se dispone de dos conjuntos distintos de individuos para cada una de las situaciones experimentales que se quiere compara. Una forma de controlar la variabilidad debida a los propios sujetos consiste en aplicar todos los tratamientos en estudio a todos los individuos de la muestra en dos ocasiones diferentes. A este tipo de datos lo denominaremos datos apareados, relacionados, o ligados y consisten en dos medidas tomadas sobre el mismo conjunto d individuos en dos ocasiones diferentes. Para ilustrar los procedimientos utilizaremos datos tomados de MARTN ANDRS y LUNA CASTILLO (1990). Supongamos que deseamos saber si la presin sistlica de personas alcohlicas se modifica cuando dejan el hbito de beber, para ello se toma una muestra de 10 personas que ingresan en el hospital para tratar su alcoholismo y se toma una medida de la presin sistlica antes y despus de dos meses de haber dejado de beber. El experimento fue diseado de esta manera ya que aunque se espera una reduccin en la presin sangunea, esta depende del valor inicial en cada individuo. Los resultados obtenidos para la presin sistlica medida en milmetros de mercurio fueron los siguientes (tabla 4.4): Individuo Antes Despus Reduccin 1 140 145 -5 2 165 150 15 3 160 150 10 4 160 160 0 5 175 170 5 6 190 175 15 7 170 160 10 8 175 165 10 9 155 145 10 10 160 170 -10

Tabla 4.4: datos utilizados en el ejemplo de contraste para datos apareados

Como las variables estn relacionadas, todos los clculos que realizamos en el caso de datos independientes ya no son vlidos. Para evitar este problema nos centraremos en una sola variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva variable D que suponemos que tiene una distribucin Normal de media d desviacin tpica d . La hiptesis de inters es ahora que, en promedio, el tratamiento aplicado a los individuos es 0, es decir, d = 0. El contraste es ahora exactamente igual que el descrito para la media de una poblacin Normal (ahora la poblacin de las diferencias.

323

Describimos a continuacin el contraste para muestras pequeas y varianza desconocida para datos apareados. Llamaremos d , a la media muestral de las diferencias y Sd a la cuasi desviacin tpica. El contraste se muestra en el cuadro 4.17.

Hiptesis:

H0 : d = 0 Ha :d ! 0
d

Nivel de significacin: Estadgrafo de contraste: t = Sd

n Distribucin del estadgrafo cuando h0 es cierta: tn-1 Regin de aceptacin: {t / t ! t n "1,# }


Regin critica: {t / t > t n !1," }

Cuadro 4.17: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.

El resto de los contrastes se construye de la misma manera que en el caso de una sola poblacin. El cuadro 4.18 muestra ejemplo.

Hiptesis:

H0 : d = 0 Ha :d ! 0

Nivel de significacin: 5% y 1% 6 = 2.250 Estadgrafo de contraste: t = 8.433 10 Distribucin del estadgrafo cuando h0 es cierta: t9 Valores crticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250 p-valor : 0,0510 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: Con los datos de los que disponemos no existe una evidencia significativa de que exista una diferencia entre la presin sistlica antes y despus de haber dejado de beber.
Cuadro 4.18: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al ejemplo de la reduccin de la tensin arterial en alcohlicos.

324

4.5.3.8 rbol de decisiones para la comparacin de medias de dos poblaciones normales.


La figura siguiente muestra de forma esquemtica el proceso de decisin por el tipo de contraste a utilizar en poblaciones normales.

325

4.5.3.9 Contraste para la comparacin de la tendencia central cuando las poblaciones no son normales
En muchas situaciones prcticas es difcil aceptar la hiptesis previa de que los datos son normales al disponerse, por ejemplo, de distribuciones muy asimtricas. En estos casos los contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones, debido a que la dispersin es muy grande o debido a que la medida de tendencia central utilizada (la media) no es la correcta porque est afectada por los valores extremos. Los contrastes paramtricos descritos antes son especialmente sensibles a valores extremos de la variable. Para solucionar el problema se utiliza la mediana en lugar de la media construyndose los que se denominan contrastes no paramtricos al no referirse ya a parmetros de una distribucin concreta.

Me1

x1

x2

Me2

En la figura se muestra como para distribuciones asimtricas es mucho ms intuitiva la comparacin de las medianas que la comparacin de las medias, ya que estas estn afectadas por los valores muy extremos de la distribucin. La situacin del esquema es muy tpica, por ejemplo, en problamas mdicos en los que la mayora de los controles (curva de la izquierda) presentan valores normales de la variable, y solamente algunos de ellos presentan valores elevados, en el grupo de los pacientes enfremos, la mayora presenta valores elevados y solamente alguno presenta valores normales. El problema es particularmente crtico cuando el tamao de muestra es pequeo pero, incluso cuando el tamao de muestra es grande y se utiliza errneamente el contraste paramtrico

326

correspondiente, se subestima el tamao del efecto a pesar de que la distribucin normal est correctamente utilizada aplicando el Teorema Central del lmite. La prctica habitual, especialmente en el mbito mdico, de aplicar contrastes no paramtricos cuando la muestra es pequea y paramtricos cuando es grande es claramente errnea y puede llevar a no encontrar efectos experimentales que aparecen claramente definidos en los datos. Para la comparacin de medianas de dos poblaciones con datos independientes el contraste ms utilizado es el conocido como U de Mann-Withney, est basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste bsicamente en calcular todas las ordenaciones posibles con muestras de los mismos tamaos en el caso de que las medianas fueran iguales, para comprobar el percentil en el que se encuentra nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de rangos de orden sean similares en amos grupos. El resto del razonamiento es similar al de cualquier contraste, si el valor muestral obtenido es muy probable aceptamos la hiptesis nula y si no la rechazamos. Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes.

Comparacin de medianas de dos poblaciones con datos independientes: el contraste U de Mann-Withney Est basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste bsicamente en calcular la distribucin muestral a partir de todas las ordenaciones posibles con muestras de los mismos tamaos en el caso de que las medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de rangos de orden sean similares en ambos grupos.

327

HIPOTESIS:

H 0 : Me1 = Me 2 H a : Me1 " Me 2

(Me 1 ! Me 2 = 0) (Me 1 ! Me 2 " 0)

ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2)

n (n + 1) U = min(U 1 , U 2 ) U i = n 1n 2 + i i ! Ri 2
Para muestras grandes: Z =

n n U! 1 2 2 n 1 n 2 (n 1 + n 2 + 1) 12

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribucin emprica o N(0,1) para muestras grandes. REG. DE ACEP.:

inf {U / U!;n ,n

1 2

REGION CRITICA:

{U / U ![U inf ,n ; Usup ,n ]} ";n ";n


1 2 1 2

" U " U !;n ,n 1 2

sup

{Z /

Z ! z " /2 }

{Z /

Z > z ! /2 }

Comparacin de medianas de dos poblaciones con datos apareados: el test de Wilcoxon Contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes.

HIPOTESIS:

H 0 : Me d = 0 H a : Me d ! 0

ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones positivas y negativas.(T+ y T-)

T = min(T+ , T! )

328

Para muestras grandes: Z =

n(n + 1) 4 n(n + 1)(2n + 1) 24 T!

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribucin

sup inf {T / T!;n " T " T!;n } sup inf REGION CRITICA: {T / T ![T";n ; T";n ]}
REG. DE ACEP.:

emprica o N(0,1) para muestras grandes.

{Z /

Z ! z " /2 } Z > z ! /2 }

{Z /

4.5.3.10 Comparacin de varias poblaciones. Introduccin al problema de las comparaciones mltiples.


En muchas situaciones experimentales se dispone de r >2 poblaciones a comparar. La primera aproximacin al problema es la comparacin de todas la parejas de medias, sin embargo, la propia construccin del procedimiento de contraste hace que la probabilidad de error no se mantenga al realizar todas las comparaciones por parejas. Supongamos que disponemos de r poblaciones y queremos contrastar la hiptesis de que todas las medias son iguales

H0 :1 = = i = = r
La hiptesis es cierta si y solo si las hiptesis por parejas H0 : i = j para todas ! r $ r(r & 1) las k = # = combinaciones posibles de i y de j. " 2% 2 Si contrastamos la hiptesis por separado a un nivel de significacin , tenemos
P(Aceptar H i, j / Hi, j 0 0 cierta ) = 1 ! "
i, j

Si las comparaciones fueran independientes

329

P(Aceptar

H0 / H0

cierta ) = P( ! Aceptar
i!j

Hi, j / H0 0

cierta ) =

i!j

" P(Aceptar Hi, j / Hi,j cierta ) = (1# $ )k 0 0

es decir, la probabilidad de cometer un error tipo I es


P(Re chazar = 1 ! P(Aceptar H0 / H0 / H0 H0 cierta ) =

cierta ) = 1 ! (1 ! ") k # "

Por ejemplo, para tres poblaciones en las que se realizan comparaciones 3 individuales al 5%, hay una probabilidad de 1 ! 0.95 = 1! 0.8574 = 0.1426 de rechazar la hiptesis nula indebidamente. Con 5 poblaciones la probabilidad sera 1 ! 0.9510 = 1! 0.5987 = 0.4013 . Con 10 poblaciones 1 ! 0. 95

45

= 1 ! 0. 0994 = 0. 9006 , es decir, con 10

poblaciones, aunque todas las medias fueran iguales tendramos una probabilidad del 90% de encontrar diferencias en alguna de las parejas. Este problema es importante no solo en la comparacin de medias por parejas sino tambin cuando se quieren realizar muchas comparaciones sobre el mismo conjunto de datos. Supongamos, por ejemplo, que un investigador desea demostrar que es capaz de encontrar diferencias entre personas convictas por algn tipo de delito y personas que no. A tal fin realiza 100 medidas biomtricas como el permetro torcico, el permetro craneal, etc.... que compara en los dos grupos. En cada comparacin tiene una probabilidad del 5% de rechazar indebidamente, sin embargo (si las medidas fueran independientes) tendra una probabilidad del 99,41% de encontrar diferencias en alguna de las variables. El nmero esperado de contrastes significativos sera de 5.

El problema de mantener el nivel de significacin global en la comparacin de las medias de varios grupos se soluciona mediante la tcnica denominada Anlisis de la varianza seguido de las comparaciones por parejas en las que se hace algn tipo de correccin en el nivel de significacin individual.

330

4.5.3.11 Validacin de las hiptesis de partida.


A lo largo de los distintos puntos de la descripcin de los contrastes bsicos hemos ido haciendo una serie de suposiciones que no hemos verificado como son las hiptesis de normalidad o de igualdad de varianzas (homocedasticidad) de las poblaciones. La validacin de estos supuestos se ha dejado para el final aunque debe realizarse previamente a la aplicacin de los procedimientos de contraste. Existen muchos mtodos que permiten la validacin de la hiptesis de normalidad, desde los ms formales consistentes en nuevos contrastes cuya hiptesis nula es la hiptesis de que los datos proceden de una distribucin Normal, hasta simples procedimientos descriptivos como el histograma o el Box-Plot que nos permiten decidir si la distribucin es aproximadamente simtrica o Normal y si la dispersin de los grupos en estudio es aproximadamente la misma. Los procedimientos de contraste de comparacin de medias suelen ser robustos con respecto a la hiptesis de normalidad aunque muy sensibles a la presencia de outliers (datos anormalmente grandes o pequeos). En las representaciones Box-plot de los grupos a comparar buscaremos la simetra de lo grupos y, sobre todo, la presencia de observaciones extraas en los extremos de la distribucin. La figura 4.19 muestra el grfico con los Box-Plots correspondientes al ejemplo de las denominaciones de origen, que hemos analizado previamente

Figura 4.26: Box plot para la comparacin del grado alcohlico de las

331

denominaciones de Ribera y Toro.

El grfico muestra como no hay observaciones muy extremas, las dos distribuciones tienen aproximadamente la misma dispersin y la correspondiente a la denominacin de origen de Toro parece ms asimtrica. La asimetra podra ser debida simplemente a que el tamao muestral es muy pequeo en este grupo. En lneas generales parece que las hiptesis se verifican y es posible aplicar el contraste par la igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales. Para contrastar ms formalmente que las varianzas son iguales se puede construir un contraste muy simple teniendo en cuenta la distribucin del cociente de varianzas basado en el cociente de las distribuciones ji-cuadrado asociadas. El cociente

(n1 ! 1) 2 "1 (n1 ! 1) F == (n 2 ! 1)S2 2 "2 2 (n2 ! 1)

S2 " 2 = 1 2 2 S2 "1 2

sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad.


2 Si la hiptesis nula H0 :!1 = !2 es cierta, el cociente de cuasi-varianzas 2 2 1 S muestrales F = 2 sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de S

libertad.

332

El contraste completo aparece en el cuadro 4.19.


2 H0 :!1 = !2 2

2 Ha :!1 " ! 2 2 Nivel de significacin:

Hiptesis:

S2 Estadgrafo de contraste: F = 1 S2 2 Distribucin del estadgrafo cuando h0 es cierta: F n1 !1, n 2 !1


Regin critica: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ]

Regin de aceptacin: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ]

Cuadro 4.19: Contraste de comparacin de las varianzas de dos poblaciones normales.

Para el ejemplo de la comparacin del grado alcohlico en las dos denominaciones de origen consideradas el contraste de comparacin de varianzas se muestra en el cuadro 4.20. Hiptesis:
2 H0 :!1 = !2 2 2 Ha :!1 " ! 2 2

Nivel de significacin: = 5% y 1% 2 S1 Estadgrafo de contraste: F = 2 = 0.686 S


2

Distribucin del estadgrafo cuando h0 es cierta: F n1 !1, n 2 !1 p-valor : 0.6261 Conclusin : Se acepta la hiptesis nula.
Cuadro 4.20: Contraste de comparacin de las varianzas de dos poblaciones normales aplicado a la comparacin de la variabilidad del grado alcohlico.

Como se acepta la hiptesis de igualdad de varianzas, la comparacin de medias ha de hacerse en el supuesto de que las varianzas son iguales.

El valor F n !1,n !1, 1!" /2 es el valor crtico que deja a la derecha un rea de 1 ! " / 2 . En la 1 2 prctica puede calcularse como F n !1,n !1, 1!" /2 = 1 F n !1, n !1, " / 2 1 2 2 1
*

333

Quinta Unidad Didctica

"TABLAS DE CONTINGENCIA"

5.1 Parte bsica

334

5.1.1 Introduccin
La existencia de distintas pruebas estadsticas es consecuencia, en parte, de las distintas escalas de medida que se utilizan para tratar las variables objeto de una determinada investigacin. Los investigadores de distintos campos utilizan de modo habitual variables medidas en escala nominal y pasan buena parte de su tiempo clasificando y contando individuos. As por ejemplo cualquier individuo puede ser clasificado en categoras (varn, mujer; enfermo, sano; ausencia, presencia; soltero, casado, viudo, separado). El resultado de tales clasificaciones da lugar a lo que en la terminologa estadstica se le conoce como tablas de contingencia o tablas de frecuencias. Tablas de contingencia son tablas de variables aleatorias cualitativas cuyos datos estn recogidos en forma de tablas de frecuencias.

El objetivo de este captulo es:


El estudio de diversas cuestiones en relacin a variables aleatorias cualitativas cuyos datos estn recogidos en forma de tablas de frecuencias: Tablas de contingencia. En esencia se pueden a abordar varios tipos de problemas:

1) Test de bondad de ajuste a distribuciones: Para comprobar si nuestros datos muestrales se ajustan a un determinado modelo terico. (Ejemplo: Sigue la estatura media de los espaoles una ley normal?) 2) Test de homogeneidad de varias muestras cualitativas: Contraste para probar si varias muestras de un carcter cualitativo proceden de igual poblacin. (Ejemplo: Es la proporcin de parados en Espaa la misma que en el resto de los pases Europeos?)

335

3) Test de asociacin: Para comprobar si dos o mas caractersticas cualitativas estn relacionadas entre s. (Ejemplo: Est la intencin de voto, a un determinado partido poltico, relacionada con el sexo?).
En el desarrollo del captulo nos vamos a centrar en este ltimo tipo de contrastes.

5.1.2 Nociones generales tiles para su resolucin


El denominador comn a estos objetivos es que su tratamiento estadstico est basado en la misma distribucin terica: la distribucin Ji- cuadrado. El test ji-cuadrado es el estadstico ms apropiado para variables categricas. Antes de comenzar al desarrollo de los contrastes sealados hemos de sentar unas ideas que nos permitirn abordar el estudio con mayor facilidad de comprensin. En toda tabla de contingencia (sea cual sea el objetivo perseguido) podemos distinguir varios elementos comunes: Frecuencias observadas: nmero de individuos de nuestra muestra que pertenece a una de las categoras en las que hemos dividido a nuestra variable aleatoria (Oi). Frecuencias esperadas: Nmero de individuos en nuestra muestra que cabra esperar en cada categora si alguna hiptesis nula de partida fuera cierta (Ei).

EJEMPLO 5.1: Supongamos una muestra de 100 individuos de una poblacin en los que estamos estudiando el estado civil. Esta variable aleatoria puede tener cuatro categoras: soltero, casado, viudo y divorciado. Supongamos que el nmero de individuos en

336

nuestro estudio ha sido: 50 casados, 30 solteros, 15 viudos y 5 divorciados, estos nmeros representan nuestras frecuencias observadas. Solucin: Nuestra hiptesis de partida (H0) podra ser que las cuatro categoras estn igualmente representadas. En este caso cabra esperar que nuestra muestra constara de 25 individuos en cada casilla, que se corresponden con nuestras frecuencias esperadas.
Solteros frecuencia Observada frecuencia Esperada 25 25 25 25 30 Casados 50 Viudos 15 Divorciados 5

Est claro que si nuestra H0 entonces un problema:

fuera cierta las frecuencias observadas y las

esperadas discreparan poco y, seran muy diferentes en caso contrario. Se nos plantea

Cmo medir las discrepancias?. La forma ms simple de medir divergencias entre ambas magnitudes sera efectuar la diferencia entre ambas (foi -fei ), en todas y cada una de las casillas de la tabla y, obtener, de este modo, una magnitud que: si es grande nos har pensar en rechazar la hiptesis de partida, y si es pequea en aceptarla.
En realidad el estadstico con el que vamos a trabajar se basa en esta idea, si bien tiene algunas correcciones (no trabaja con diferencias sino con diferencias al cuadrado, para evitar problemas de signos, y trabaja con discrepancias normalizadas, obtenindolas en valores relativos).

Estadgrafo de contraste:

!2 = #
i

(fo i " fe i )2
fei

foi= Frecuencia observada para la i-sima categora fei= Frecuencia esperada para la i-sima categora

337

El siguiente problema que se nos plantea: qu entendemos por magnitud grande? Necesitamos un criterio uniforme para declarar rechazos o aceptaciones. Pearson nos soluciona este problema demostrando que el estadgrafo de contraste propuesto segua un modelo terico: Una Ji-cuadrado con (r-1)(s-1) grados de libertad, cuando la hiptesis nula se verificaba. (Siendo r= n de filas de la tabla y s= n de columnas de la tabla). De este modo el criterio de decisin ya est establecido, declararemos rechazo, es decir declararemos diferencias grandes, cuando nuestro valor del estadgrafo experimental supere al valor crtico encontrado en la tabla de la distribucin Ji-cuadrado con esos grados de libertad, al nivel de significacin elegido.
Recurdese que un valor crtico no es ms que un valor de la variable aleatoria que slo es superado por un porcentaje pequeo, preestablecido de antemano, de individuos cuando la hiptesis nula es cierta

5.1.3 Test de asociacin en tablas de contingencia


Es frecuente el problema de estudiar conjuntamente dos variables en los mismos individuos y preguntarse si existe algn tipo de relacin entre ellas, es decir si los valores que tome una de ellas van a condicionar de algn modo los valores que tome la otra. Cuando las dos variables son cuantitativas hemos visto que son las tcnicas de regresin y correlacin las que nos permiten resolver el problema, pero estas tcnicas dejan de ser vlidas cuando las dos variables en estudio son cualitativas. Este apartado pretende dar solucin a dicha situacin. Para resolver este problema vamos a explicarlo mediante un ejemplo.

338

EJEMPLO 5.2: Supongamos cuatro tratamientos (Ai) que se piensa efectivos para curar una determinada enfermedad, estos tratamientos se aplican a enfermos de dicha enfermedad y se anota el tipo de respuesta que presentan (Bj). La respuesta se clasifica en tres posibles clases: "peor", "igual", "mejor". Ejemplo tomado de MARTN ANDRS, A. et al. (1995).

Peor Trat 1 Trat 2 Trat 3 Trat 4 TOTAL 7 f11

Igual 28 f12 20 f22 30 f32 40 f42 118 f.2

mejor 115 f13 85 f23 90 f33 115 f43 405 f.3

TOTAL 150 f1. 120 f2. 130 f3. 160 f4. 560 f..

15 f21 10 f31 5 f41

37 f .1

fi. = Total fila i f.j = Total columna j f.. = Gran total Solucin: Disponemos de nuestra tabla de frecuencias observadas, se necesita establecer una hiptesis de partida que nos permita el clculo de las correspondientes frecuencias esperadas. La hiptesis de la que se parte es la hiptesis de independencia, es decir vamos a suponer que ambos caracteres no estn relacionados (no estn asociados). Si denotamos: Ai= Suceso de que un individuo pertenezca a la clase i de A Bj= Suceso de que un individuo pertenezca a la clase j de B Podemos escribir las hiptesis como: Ho: Los caracteres A y B son independientes bien los caracteres A y B no estn relacionados los caracteres A y B no estn asociados Ha: Son dependientes, relacionados, asociados

339

En nuestro ejemplo: Ho: El tipo de tratamiento no condiciona la respuesta del individuo. Ha: Si condiciona.

Si ambas caractersticas son independientes podemos escribir las hiptesis de la siguiente forma:

( ) ( ) Ha:P( Ai ! Bj ) # P( Ai ) P( Bj ) en alguna ocasin


Ho:P Ai ! B j = P(A i ) P B j "i, j
Es decir bajo el supuesto de independencia, y slo en este supuesto, la probabilidad de la interseccin de dos sucesos es el producto de probabilidades de ambos sucesos Obtencin de las feij: Como en todo test Ji-cuadrado necesitamos las cantidades esperadas bajo el supuesto de que H0 se verifique. Fijmonos en una cualquiera de ellas por ejemplo en la E21: Cantidad de individuos que habiendo recibido el tratamiento 2 empeoran supuestas ambas independientes. Si Ho es cierta:

fe 21 = f .. P(A2 )P(B1 )

Para su clculo necesitamos P(A2) , es decir la probabilidad de los individuos a recibir el tratamiento 2, y la P(B1) es decir la probabilidad de los individuos de empeorar. Ntese que en la frmula aparecen, ademas de estas dos probabilidades el total global. El total global es necesario para pasar de probabilidades a frecuencias Ambas probabilidades son desconocidas pero estimables a partir de la tabla (casos favorables entre casos totales). A los correspondientes estimadores de las probabilidades les vamos a denotar con: pij

(A 2 ) = p
(B1 ) = p

120 f 2. = 560 f..


37 f.1 = 560 f ..

340

f f. f f fe 21 = f .. P(A2 ) P(B1 ) = f .. 2. 1 = 2. .1 = 7.93 f.. f .. f ..

De donde se desprende la regla general que nos permitir calcular la frecuencia esperada de cualquiera de las casillas de la tabla: feij= (Total fila i-sima)(Total col. j-sima)/Total global Sin ms que aplicar esta frmula general obtendremos la tabla de frecuencias esperadas:
Peor 7 9.91 15 7.93 10 8.59 5 10.57 37 Igual 28 31.61 20 25.28 30 27.39 40 33.72 118 mejor 115 108.48 85 86.79 90 94.02 115 115.71 405 TOTAL 150 120 130 160 560

Trat 1 Trat 2 Trat 3 Trat 4 TOTAL

Obtencin de la cantidad experimental: Para medir las discrepancias entre ambas utilizamos el estadgrafo de contraste adecuado que como veamos era:

!2 = exp

##
i j

( foij " fe ij)


fe ij

En nuestro ejemplo concreto este valor resulta ser:


2 ! exp

(7 " 9.91)2
9. 91

+... +

(115 "115. 71)2


15. 71

= 13.87

Ya sabemos que valores grandes nos llevaran a rechazar la hiptesis de independencia, y los pequeos a aceptarla. Sabemos tambin que la regla de decisin est clara pues basta con buscar el valor crtico en la tabla de la Ji-cuadrado ( con los grados de libertad adecuados, y al nivel de significacin deseado, 5% por ejemplo), y

341

comparar nuestro valor experimental con l. Declararemos significacin siempre que el valor experimental supere el valor crtico.
2 2 ! exp " o# ! $ , % "
2 ! 0. 05,6 = 12. 59

! = (r "1)(s " 1) = 2x3 = 6

12.59<13.87 , por tanto Rechazo Ho En nuestro caso concreto son 6 los grados de libertad y 12.59 el valor crtico. El valor experimental, 13.87, supera al valor crtico. Conclusin: El tipo de tratamiento condiciona el tipo de respuesta encontrada en el paciente. No podemos suponer independencia de las dos variables en estudio.

En resumen, los pasos a seguir en este tipo de anlisis son:

1 Clculo individual de las frecuencias esperadas que cabra esperar si H0 fuera cierta. La hiptesis de la que partiremos es siempre la de independencia entre las dos variables, ya que slo bajo este supuesto conocemos la distribucin del estadgrafo de contraste (distribucin ji-cuadrado de Pearson) 2 2 Clculo de los componentes individuales de ! , es decir clculo de las divergencias entre observadas y esperadas para cada casilla. 3 Suma de los valores obtenidos en el apartado anterior y obtencin , de esta forma, del valor experimental de nuestro estadgrafo de contraste. 4 Determinacin de los grados de libertad de la forma (r-1)(s-1) 2 5 Obtencin del valor crtico en la tabla de la distribucin ! con los grados de libertad correspondientes y decidir si el estadstico calculado en el paso 3 excede este valor crtico con p=0.05 o bien con p=0.01 6 Concluir en consecuencia. Es decir, hablar de que existe o no asociacin entre ambas variables segn el valor experimental exceda o no al valor crtico.

342

"TABLAS DE CONTINGENCIA" 5.2 Ampliacin

343

5.2.1 Aspectos de inters.


5.2.1.1 Tipo de contraste
- Se trata de un contraste unilateral superior y esto es as siempre que trabajemos con tablas de contingencia (sea cual sea el objetivo a cubrir), se debe a la forma del estadgrafo empleado. Si fuera bilateral rechazaramos H0 para valores muy grandes y muy pequeos del estadgrafo de contraste, pero valores pequeos, se interpretan como gran parecido entre ambos tipos de frecuencias. Por tanto no nos interesa rechazar en los dos sentidos, sino slo en el caso de valores anormalmente grandes.

5.2.1.2 Tablas poco ocupadas


- Una problemtica ampliamente tratada en los libros de texto es el de las tablas poco ocupadas o tablas con valores de frecuencias prximos a cero. Cuando nos encontremos en esta situacin hay que estar prevenidos porque representan un problema de posible incremento en el riesgo tipo I. Se recomienda tenerlo en cuenta para frecuencias menores o iguales a 5. Si observamos la frmula del estadgrafo de contraste
podemos ver cmo las frecuencias esperadas van en el denominador. Frecuencias pequeas nos darn, al ir el en denominador, valores altos en el estadgrafo de contraste, lo que nos llevar, con mayor probabilidad, a rechazar la Ho, aunque sea cierta. Es decir, a un serio incremento en el riesgo tipo I probabilidad de rechazar indebidamente la Ho.

5.2.1.3 Causas de la significacin


- El test empleado nos mide discrepancias a nivel global, pero no nos informa acerca de dnde estn las discrepancias. Basta que en una sola casilla de la tabla se den
grandes discrepancias para obtener valores experimentales grandes que nos llevarn a rechazar la hiptesis, por tanto ante una magnitud grande no podremos saber si slo una, dos o todas las casillas discrepan.

Necesitamos un procedimiento posterior que nos ponga de manifiesto dnde

estn realmente las discrepancias: Bsqueda de las causas de la significacin.

344

5.2.2 Bsqueda de las causas de la significacin


Cuando un test

! 2 da no significativo, es decir aceptamos la H0 de

independencia entre las variables, el problema acaba ah, pero, si la significacin se produce, lo inmediato es intentar localizar la causa de la misma. La idea ahora es la descomponer la tabla original en subtablas que nos expliquen 2 las causas de la significacin. Para ello nos basamos en la propiedad aditiva de la ! .

5.2.2.1 Propiedad aditiva de la Ji-cuadrado


La propiedad aditiva de la ! dice:
2 2 ! "1 + ! 2 2 = ! "1 + " 2 "
2

Es decir: si tenemos dos variables aleatorias que siguen respectivamente un modelo terico Ji-cuadrado con !1 y !2 grados de libertad, la suma de las dos nos da otra variable aleatoria que sigue un modelo Ji-cuadrado con la suma de los grados de libertad de las de partida.

5.2.2.2 Bsqueda de las causas de la significacin


El modo de partir la tabla original no es nico y slo el anlisis detallado de los datos nos dar las pautas a seguir. Para el desarrollo de este apartado utilizaremos el ejemplo visto con los alumnos, dado que all la conclusin a la que se llegaba era la de relacin entre ambas variables. La primera idea que se nos ocurre para analizar la situacin es saber lo que contribuye cada casilla al valor experimental (recordar que el rechazo se obtena para valores grandes de ste y, que bastaba que una casilla tuviera grandes discrepancias para producirse este hecho). De esta manera calcularemos la tabla de contribuciones, donde los valores de cada casilla se obtienen como:

345

(fo i ! fe i )2
fe i

En nuestro caso concreto:

Tabla de contribuciones
Trat 1 Trat 2 Trat 3 Trat 4 Peor 0.85 6.31 0.23 2.94 Igual 0.41 1.11 0.25 1.17 mejor 0.39 0.04 0.17 0.00 TOTAL 1.65 7.46 0.65 4.11 13.87

Donde el primer elemento de la primera columna se ha obtenido como:

(7 ! 9.91) 2
9.91

= 0.85

El primer elemento de la segunda columna como:

(28 ! 31.61)2
31.61

= 0.41 etc.

El anlisis de la tabla nos sugiere que el principal responsable de la significacin es el tratamiento 2 con una contribucin total de 7.46, superior a la de los otros 3 conjuntamente. Esto parece sugerir que los tratamientos 1,3,4 son homogneos entre si (la respuesta es independiente de estos tratamientos) y difieren del 2. De ah que intentemos realizar estos dos contrastes: Primero: Los tratamientos 1,3,4 son homogneos Segundo: Los tratamientos anteriores difieren del 2 Para llevar a cabo el primero de ellos construimos una subtabla en la que hemos de eliminar el tratamiento 2 (el aparentemente responsable de la significacin):
PEOR 7 IGUAL 28 MEJOR 115 TOTAL 150

T1

346

T3 T4 TOTAL

10 5 22

30 40 98

90 115 320

130 160 440

En dicha tabla realizaremos el contraste de independencia del mismo modo a como lo hicimos en la tabla original, con la esperanza de que en este caso la conclusin sea la de aceptar la Ho (lo que sugiere la observacin de los datos). Ahora las frecuencias esperadas no van a coincidir con el primer supuesto ya que los marginales de columnas son distintos (hemos eliminado a los enfermos tratados con el segundo de los tratamientos), tampoco coincidir el valor experimental ni los grados de libertad de la tabla. Siguiendo los pasos enunciados en el ejercicio de los alumnos obtenemos para este caso:

2 ! exp = 5. 04 que hemos de comparar con el correspondiente valor crtico de la


tabla en este caso con 4 grados de libertad, que result ser en este caso 2 ! 4;0.05 = 9.488

Concusin: ACEPTO Ho : HOMOGENEIDAD Como era de esperar hemos llegado a la conclusin de que estos tres tratamientos eran igualmente efectivos. Por tanto no se trata de tres tratamientos distintos sino de uno slo que llamaremos a partir de ahora tratamiento (1+3+4).

Para llevar a cabo el segundo de los contrastes, que nos ponga de manifiesto que es el tratamiento 2 el que difiere del resto necesitamos construir otra subtabla en la que se disponga de la informacin que nos interesa, es decir el tratamiento 2 y el tratamiento (1+3+4).

347

T2 T(1+3+4) Total

PEOR 15 22 37

IGUAL 20 98 118

MEJOR 85 320 405

Total 120 440 560

Realizado el contraste de independencia en esta subtabla obtenemos: 2 ! exp = 9.488 que hemos de comparar con un valor crtico, correspondiente a esta 2 situacin, con 2 grados de libertad. Dicho valor es: ! 2;0.05 = 9.21

La conclusin a la que llegamos es pues: Rechazo la H0 de independencia entre la respuesta y los dos tratamientos el 2 cualquiera de los otros.

Obsrvese que la descomposicin realizada de la tabla original es lcita puesto que se verifica la propiedad aditiva de la Ji-cuadrado. Hemos obtenido dos subtablas en la que las sumas de sus grados de libertad (4 y 2 respectivamente) coinciden con los grados de libertad de la tabla de partida (6). En resumen lo que hemos hecho es:

Variacin tratamientos 1,3,4 tratamientos 2 y (1+3+4) Sumas

g.l. 4 2 6

!2 exp.
5.04 9.48 14.52 13.87

significacin No ** **

tratamientos 1,2,3,4

Con esta descomposicin hemos probado que el tratamiento 2 difiere del resto como pareca intuirse de la tabla de contribuciones, pero esta afirmacin, aunque vlida no deja de ser incompleta ya que nada nos dice de en qu sentido es diferente, dicho de otra forma, difiere el tratamiento 2 del resto porque es peor o porque es mejor. Faltara,

348

pues, descomponer la ltima tabla que nos dio significativa, y que tena dos grados de libertad, en otras dos subtablas de 1 grado de libertad cada una para saber el sentido de las diferencias. Un esquema global de los pasos pueden verse en la figura 5.1.
P T1 P T1 T2 T3 T4 T2 I M T3 T4 P I M T1+T2+T3 T2 NS NS I M I M

*
T1+T2+T3 T2

(I+M)

*
T1+T2+T3

Figura 5.1: Esquema de descomposicin de la tabla de contingencia de partida para la bsqueda de la significacin

349

5.2.3 Paradoja de Simpson


Supongamos que se realiza un experimento para comparar un nuevo tratamiento para cierta enfermedad con el tratamiento estndar para esa enfermedad. En el experimento se tratan 80 individuos que padecen la enfermedad, 40 recibieron el nuevo tratamiento y 40 recibieron el estndar. Despus de un tiempo se observa cuantos de los individuos de cada grupo han mejorado y cuantos no. Supongamos que los resultados fueron:
TODOS LOS PACIENTES

MEJORAN

NO MEJORAN 20 24 20 16

NUEVO TRATAMIENTO TRAT. ESTNDAR

De acuerdo con la tabla, 20 de los 40 individuos que reciben el nuevo tratamiento mejoraron y 24 de los 40 individuos que recibieron el estndar mejoraron. Por tanto el 50% de los individuos mejoraron con el nuevo tratamiento, mientras que el 60% de los individuos mejoraron con el tratamiento estndar. El nuevo tratamiento parece inferior al tratamiento estndar. Para investigar la eficacia del nuevo tratamiento ms a fondo, se podra comparar con el tratamiento estndar slo para los hombres de la muestra y separadamente slo para las mujeres. Podramos pues desagregar esta tabla en otras dos subtablas: la de hombres y la de mujeres. Supngase que tenemos informacin suficiente para construir estas subtablas y que el resultado es el siguiente:
SOLO HOMBRES MEJORAN NO MEJORAN

NUEVO TRATAM TRAT. ESTNDAR

12 3

18 7

SOLO MUJERES NUEVO TRATAM TRAT. ESTNDAR

MEJORAN

NO MEJORAN

8 21

2 9

350

Obsrvese que si agregamos de nuevo las dos subtablas obtendramos de nuevo la tabla de partida. Sin embargo, el anlisis de las subtablas nos pone de manifiesto algo sorprendente, ya que el nuevo tratamiento parece ser ms efectivo que el estndar tanto en hombres como en mujeres. Especficamente, el 40% de los hombres (12 de cada 30) que reciben el nuevo tratamiento mejoraron, pero slo el 30% de los hombres (3 de cada 10) que recibieron el estndar mejoraron. Adems el 80% de las mujeres (8 de cada 10) que recibieron el nuevo tratamiento mejoraron pero slo el 70% de ellas (21 de cada 30) que recibieron el tratamiento estndar mejoraron. Est claro que la tabla inicial y las subtablas proporcionan resultados contradictorios. De acuerdo con la primera el tratamiento estndar es mejor para todos pero con las subtablas, el nuevo es superior, para hombres y para mujeres. A este tipo de resultados se le conoce como paradoja de Simpson. La paradoja de Simpson no es realmente una paradoja, slo es un resultado que sorprende y confunde cuando no se ha observado antes. Se puede ver en la subtabla correspondiente a mujeres que stas tienen una tasa de recuperacin de la enfermedad mayor que la de los hombres, independientemente del tratamiento que reciban. Adems, entre los 40 hombres de la muestra, 30 recibieron el nuevo tratamiento y slo 10 el estndar, mientras que para las mujeres estos nmeros son justamente al revs. Por tanto aunque los nmeros de hombres y de mujeres en el experimento fueron iguales, una alta proporcin de mujeres y una baja proporcin de hombres recibieron el tratamiento estndar. Puesto que las mujeres tienen una tasa de recuperacin mayor, se encuentra en la tabla agregada que el tratamiento estndar manifiesta una mayor tasa global de recuperacin que el nuevo tratamiento. La paradoja de Simpson demuestra de una forma drstica los peligros de realizar inferencias a partir de tablas agregadas. Para estar seguros de que la paradoja no est presente en un experimento las proporciones de relativas de hombres y de mujeres entre los individuos que reciben el nuevo tratamiento debe ser aproximadamente la misma, as como las proporciones relativas de hombres y de mujeres entre los individuos que reciben el tratamiento estndar. La posibilidad de la paradoja subyace en cualquier tabla de contingencia. An cuando se tuviera cuidado al disear un experimento particular de forma que no pudiera

351

ocurrir la paradoja cuando se desagrega para hombres y mujeres, siempre es posible que exista alguna otra variable, como la edad de los individuos o la intensidad y grado de avance de la enfermedad, con respecto a la cual la desagregacin podra conducir a una conclusin directamente opuesta a la indicada por la tabla agregada.

352

Sexta Unidad Didctica

"REGRESIN Y CORRELACIN"

6.1 Parte bsica

353

6.1.1 Introduccin
Regresin es una palabra un tanto rara. La utilizan los bilogos, los mdicos, los psiclogos... y suena como "ir hacia atrs", "volver al pasado", y realmente este es verdadero significado del vocablo. Fue un bilogo y estadstico ingls, SIR FRANCIS GALTON*, quien introdujo en 1889 el trmino regresin en Estadstica. Emple este concepto para indicar la relacin que exista entre la estatura de los nios de una muestra y la estatura de su padre. Observ, que si los padres son altos, los hijos generalmente tambin lo son, y si los padres son bajos los hijos son tambin de menor estatura. Pero ocurra un hecho curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresin" hacia la estatura media de la poblacin, de modo que sus hijos retroceden hacia la media de la que sus padres, por cierto, estn muy alejados. Hoy da, el trmino no se utiliza en ese sentido. En muchas ocasiones, se desea conocer algo acerca de la relacin o dependencia entre dos caractersticas cuantitativas, o msde una, consideradas sobre la misma poblacin objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los que ya de antemano se "sospecha" que puede existir algn tipo de relacin, y por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos nicamente dos variables: 1.- Si ambas variables estn realmente relacionadas entre s o si, por el contrario, pueden considerarse independientes. 2.- Si existe dependencia, es necesario conocer el "grado de relacin", as como el "tipo" de relacin entre ambas. 3.- Si puede predecirse la variable que es considerada como dependiente a partir de los valores de la otra, que es considerada independiente, y si es as, con qu precisin.

GALTON, F. (1889). Natural Inheritance. London. Mcmillan & Co.

354

6.1.2 Cundo existe regresin?


De una forma general, lo primero que suele hacerse para ver si dos variables aleatorias estn relacionadas o no (de ahora en adelante las llamaremos X e Y, denotando con Y a la variable dependiente, y X a la variable independiente o regresora), consiste en tomar una muestra aleatoria. Sobre cada individuo de la muestra se analizan las dos caractersticas en estudio, de modo que para cada individuo tenemos un para de valores (xi, yi) (i=1,...,n). Seguidamente, representamos dichos valores en unos ejes cartesianos, dando lugar al diagrama conocido como diagrama de dispersin o nube de puntos. As, cada individuo vendr representado por un punto en el grfico, de coordenadas, xi, yi. De esa forma, podremos obtener una primera idea acerca de la forma y de la dispersin de la nube de puntos. Al dibujar la nube de puntos, podemos encontrarnos, entre otros, los casos a los que hace referencia la figura 6.1. En primer lugar deberemos distinguir entre dependencia funcional y dependencia estocstica. En el primer caso la relacin es perfecta: Y=f(X) (ver figura 6.1d y e); es decir, los puntos del diagrama de dispersin correspondiente, aparecen sobre la funcin Y=f(X). Por ejemplo, el caso de la figura 6.1d sera Y=a+bX. Sin embargo, lo que suele ocurrir es que no existe una dependencia funcional perfecta, sino otra dependencia o relacin menos rigurosa que se denomina dependencia estocstica (figura 6.1b y c); entonces, la relacin entre X e Y, podramos escribirla (en el caso de la figura 6.1.b) de la forma Y=a+bX+e, donde e es un error o un residual, debido por ejemplo, a no incluir variables en el modelo que sean importantes a la hora de explicar el comportamiento de Y, y cuyos efectos sean diferentes a los de X; errores aleatorios o de medida, o simplemente a que estamos especificando mal el modelo (por ejemplo, que en lugar de ser una recta, sea una parbola).

355

Figura 6.1: Tipos de relacin entre dos variables X e Y

El caso de la figura 6.1a se corresponde con el de ausencia de relacin, o independencia. En la dependencia estocstica, se distinguen dos tipos de tcnicas: 1.- Anlisis de Regresin 2.- Anlisis de Correlacin* El Anlisis de correlacin, tiene como fin dar respuesta a las preguntas: a.- Existe dependencia estocstica entre las variables? b.- Cul es el grado de dicha dependencia?
*

El orden de exposicin de los dos Anlisis es arbitrario. El orden para su estudio puede invertirse.

356

El Anlisis de regresin, : a.- Cul es el tipo de dependencia entre las dos variables? b.- Pueden estimarse los valores de Y a partir de los de X?. Con qu precisin?. De modo general, diremos que existe regresin de los valores de una variable con respecto a los de otra, cuando hay alguna lnea, llamada lnea de regresin que se ajusta ms o menos claramente a la nube de puntos. Si existe regresin, a la ecuacin que nos describe la relacin entre las dos variables la denominamos ecuacin de regresin. Por ejemplo: Y=a+bX Y=a+bX+cX2 En general, la variable X se conoce como variable independiente, y la Y como variable dependiente. Evidentemente puede ser arbitrario el determinar la existencia de regresin as como el tipo de la misma, ya que depende del autor o del estado de nimo de la persona en un momento determinado. Por lo tanto, se hacen necesarios mtodos estadsticos objetivos, independientes del investigador, para determinar la existencia o no de relacin y el tipo de la misma.

6.1.3 Tipos de regresin


Si las dos variables X e Y se relacionan segn un modelo de lnea recta, hablaremos de Regresin Lineal Simple: Y=a+bx. Cuando las variables X e Y se relacionan segn una lnea curva, hablaremos de Regresin no lineal o curvilnea. Aqu podemos distinguir entre Regresin parablica, Exponencial, Potencial, etc. Cuando tenemos ms de una variable independiente (X1, X2,..., Xp), y una sola variable dependiente Y, hablaremos de Regresin mltiple, que se estudiar en detalle

357

en el apartado 6.2. A las variables Xi, se las denomina, regresoras, predictoras o independientes.

6.1.3.1 Consideraciones previas


En el Primera Unidad Didctica, hemos analizado cmo vara cada una de las variables por separado. Sera interesante tambin tener idea de cmo varan dichas variables conjuntamente, es decir, cmo "covaran". Se dice que dos variables estn variando conjuntamente, y en el mismo sentido, cuando al crecer los valores de una de las variables tambin aumentan los de la otra. En cambio, estn variando conjuntamente, pero en sentido contrario, cuando al aumentar los valores de una, los de la otra disminuyen. Definiremos como covarianza de dos variables X e Y, y denotaremos por SXY, el estadstico que nos permite analizar la variacin conjunta de dos variables. Viene dado por la siguiente expresin:

SXY = i =1

" (x i ! x)( yi ! y ) n

Si cada pareja de observaciones (xi,yi) se repitiese un nmero de veces, deberamos introducir en la expresin anterior la correspondiente frecuencia, anlogamente a como se hace en la expresin de la varianza. La covarianza, puede ser utilizada como una medida inicial de la asociacin lineal entre las dos variables. Para ello, observaremos detenidamente el grfico de la figura 6.2.

358

Figura 6.2: Grfico que pone de manifiesto la importancia de la covarianza como medida de la asociacin lineal

En ella aparece la nube de puntos para un par de variables X e Y. Se pone de manifiesto cmo aquellos pares de valores que ocupan el cuadrante superior derecho (tomando como origen el punto de medias) nos dan como resultado sumandos positivos en la expresin de la covarianza. Lo mismo ocurre con aquellos que se encuentran en el cuadrante inferior izquierdo. Sin embargo, los del cuadrante superior izquierdo e inferior derecho, nos dan sumandos negativos. Ello tiene como consecuencia, que dependiendo del nmero de observaciones situado en cada uno de dichos cuadrantes, obtendremos un signo diferente en la covarianza, de modo que si predominan las diferencias positivas, esta ser positiva, y si predominan las negativas, la covarianza tambin lo ser. Esto nos lleva a utilizar la covarianza como una medida de la asociacin lineal entre las variables, de modo que si sta es positiva, nos indica una relacin directa entre ellas y si es negativa, nos indica una relacin inversa. Si las variables son independientes, entonces la covarianza es aproximadamente 0. Un ejemplo, de este ltimo caso se correspondera con la figura 6.3a.

359

Figura 6.3: Diferentes casos para la covarianza

6.1.3.2 Regresin Lineal Simple


Nos centraremos en primer lugar, en el caso de que la funcin que relaciona las dos variables X e Y sea la ms simple posible, es decir, una lnea recta. Por ello pasaremos a interpretar los coeficientes que determinan una lnea recta. Toda funcin de la forma Y=a+bX determina, al representarla en el plano una lnea recta, donde X e Y son variables y a y b son constantes. Por ejemplo: Y=3+2X.

SIGNIFICADO DE a y b a es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y. Se denomina tambin trmino independiente. b, tambin denominada pendiente es la inclinacin de la recta, es decir, es el incremento que se produce en la variable Y cuando la variable X aumenta una unidad. Por ejemplo, en el caso anterior Y=3+2X:

360

En la recta de regresin -como ya veremos- b recibe el nombre de Coeficiente de regresin. Si b>0, entonces cuando X aumenta Y tambin lo hace (relacin directa). Si b<0, entonces, cuando X aumenta Y disminuye (relacin inversa). Ver figura 6.4a y b respectivamente.

Figura 6.4: Signo de la pendiente en una recta de regresin

ESTIMACIN DE LA RECTA DE REGRESIN POR EL MTODO DE LOS MNIMOS CUADRADOS Sean X e Y dos variables aleatorias medidas sobre los mismos individuos, y sean (xi,yi) los pares de observaciones sobre dichos individuos. En primer lugar procederemos a representar el diagrama de dispersin, o nube de puntos. Supongamos que es la obtenida en la figura 6.5. Aunque la nube revele una gran dispersin, podemos observar una cierta tendencia lineal al aumentar X e Y (tendencia que no es del todo exacta; por ejemplo si suponemos que X es la edad e Y es la talla, obviamente, la talla no slo depende de la edad, adems tambin puede haber errores de medida). Por esa nube de puntos podemos hacer pasar infinitas rectas. De todas ellas debemos elegir una cual?... Obviamente elegiremos la mejor de todas en algn sentido. La recta de regresin debe tener carcter de lnea media, debe ajustarse bien a la mayora de los datos, es decir, pasar lo ms cerca posible de todos y cada uno de los puntos.

361

Llamaremos a la mejor de todas Y*=a+bX (Y* para distinguir los valores de la tabla de los que se habran producido con la recta si la relacin fuese funcional).

Figura 6.5: Nube de puntos y posibles rectas que pueden pasar por ella.

Que pase lo ms cerca posible de todos los puntos, es decir que diste poco de todos y cada uno de ellos significa que hemos de adoptar un criterio particular que en general se conoce como MNIMOS CUADRADOS. Este criterio significa que la suma de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo ms pequea posible (ver figura 6.6). (Obviamente, este es uno de los posibles criterios a adoptar, pero es el ms utilizado).

Y yi

(xi, yi) * Y* = a+bX * * (x , y * ) * i i * * * * * ** * * * * * * * * ei * *

xi

Figura 6.6: Recta de regresin mostrando los residuos o errores que se minimizan en el procedimiento de ajuste de los Mnimos cuadrados.

362

Estas distancias verticales se denominan errores o residuos. Entonces el criterio puede expresarse:

D = ! ei
i=1

mnima

Dado que la recta de regresin deber tener carcter de lnea media, esa suma de distancias deber anularse (lo mismo que suceda, como veamos en la primera unidad didctica al tratar de hallar la suma de las diferencias con respecto a la media aritmtica). Por las mismas razones que entonces, para evaluar la dispersin, trabajaremos con esas distancias, pero al cuadrado, de modo que la funcin que deberemos minimizar ser:

D = ! e 2 = ! yi " y# i i
i=1

( i=1
n

= ! (y i " a " bxi )


i=1

donde y! son los valores estimados segn el modelo Y=a+bX i En la anterior expresin lo conocemos todo, excepto a y b. Para encontrar dichos valores, con la condicin de que D sea mnima, deberemos hallar las derivadas parciales de D con respecto a a y a b, y resolver el sistema resultante, al igualar las ecuaciones obtenidas a 0. Es decir, el problema se reduce a un problema de mnimos. As, obtendremos:
n !D = 2 # (y i " a " bxi )("1) = 0 !a i=1 n !D = 2 # (y i " a " bxi )(" xi ) = 0 !b i=1

Adecuando convenientemente las ecuaciones anteriores, obtenemos:

i =1 n i =1

" ( yi ! a ! bxi ) = 0 " ( yi ! a ! bxi )(xi ) = 0

363

Operando y reorganizando trminos, obtenemos las denominadas Ecuaciones Normales de Gauss:


na + b ! x i = ! yi
i =1 i=1 n n n n

a ! x i + b ! x2 = ! x iy i i
i =1 i=1 i =1

Resolviendo el sistema, obtenemos las expresiones para a y b:

a = y ! bx S b = XY s2 X
La interpretacin de a y b, es anloga a la que comentbamos en el apartado 6.1.3.2, slo que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresin. Como podemos observar, en el numerador de b, aparece la covarianza, y en el denominador la varianza de la variable independiente. Esto hace que el signo de b sea el mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relacin directa entre las variables, y si b<0 entonces la relacin es inversa. En nuestro ejemplo de talla y edad, b sera el incremento medio que se produce en la talla, por cada incremento unitario de edad; si la edad est en aos, por cada ao aumente la edad. Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la expresin de la ecuacin donde ahora ya, a y b son conocidos. No olvidemos que ese era uno de los objetivos del anlisis, tratar de conocer valores de Y a partir de los de X: y*i = a+bxi

REPRESENTATIVIDAD DE LA RECTA DE REGRESIN. Poder explicativo del modelo

364

La recta de regresin, tiene carcter de lnea media, como ya se ha sealado con anterioridad, tratando por lo tanto de resumir o sintetizar la informacin suministrada por los datos. Si tiene carcter de linea media (de promedio, en definitiva), deber ir acompaada siempre de una medida que nos hable de su representatividad, es decir, de lo buena que es la recta, ya que el haber obtenido la mejor de todas no da garantas de que sea buena. Necesitamos, por tanto, una medida de dispersin, que tenga en cuenta la dispersin de cada observacin con respecto a la recta, es decir, lo alejado que se encuentra cada punto de la recta. Es decir, deberemos evaluar esas distancias verticales a la recta, es decir, los errores o residuales. Si las dispersiones son pequeas, la recta ser un buen representante de la nube de puntos, o lo que es lo mismo, la bondad de ajuste del modelo ser alta. Si la dispersin es grande, la bondad de ajuste ser baja. Una forma de medir dicha bondad de ajuste es precisamente evaluando la suma de los cuadrados de los errores. Por tanto, llamaremos Varianza residual a la expresin:

Se =

( i =1
n

# yi ! y" i n

Si la varianza residual es grande, el modelo ser malo, es decir, la recta no explicar el comportamiento general de la nube. La frmula prctica para el clculo de la varianza residual, si el procedimiento de ajuste es el de los mnimos cuadrados es la siguiente:

S2 = i =1 e

" y2 ! a " y i ! b " x iy i i


i=1 i =1

La cota mxima de la varianza residual es la varianza que tratamos de explicar mediante el modelo de regresin, es decir, la varianza de la variable dependiente. Por tanto, sin ms que hacer relativa la varianza residual respecto de su mximo valor, y

365

multiplicando por 100, obtendremos el porcentaje de variaciones no explicado por el modelo:


S2 e % de var iaciones sin exp licar = 2 100 sy

Ahora, ya es fcil obtener una media que nos indique el porcentaje de variaciones controladas o explicadas mediante el modelo, que se conoce como Coeficiente de Determinacin, que denotaremos con R2. Su expresin en tantos por 1, ser:
S2 e R 2 = 1! 2 sy

Como puede observarse, a partir de la expresin anterior: 0< R2 <1. Por tanto: Si R2=1, entonces no hay residuos, habr una dependencia funcional. Cuanto ms se acerque dicho valor a la unidad, mayor poder explicativo tendr el modelo de regresin. Si R2=0, X no explica en absoluto ninguna de las variaciones de la variable Y, de modo que o bien el modelo es inadecuado, o bien las variables son independientes. Cuanto ms cercano a 0 est dicho valor, menor poder explicativo.

Poder explicativo vs poder predictivo Un modelo de regresin con un alto porcentaje de variaciones explicado, puede no ser bueno para predecir, ya que el que la mayora de los puntos se encuentren cercanos a la recta de regresin, no implica que todos lo estn, y puede ocurrir, que justamente para aquel rango de valores en el que el investigador est interesado, se alejen de la recta, y por tanto, el valor predecido puede alejarse mucho de la realidad. La nica forma de poder evaluar el poder predictivo del modelo es tras la observacin y el anlisis de los grficos de residuales, es decir, de diagramas de dispersin, en los que en el eje de ordenadas se colocan los residuales, y en el eje de abscisas se colocan o bien X, Y, o Y*.

366

Slo si la banda de residuales es homognea, y se encuentran todos los puntos no demasiado alejados del 0 (aunque depende de la escala de medida), diremos, que un modelo con un alto poder explicativo, tambin es bueno para predecir. Un anlisis detallado de los residuales se realizar en la seccin 6.2. CAUSALIDAD Es muy importante resaltar el hecho, de que un modelo sea capaz de explicar de manera adecuada las variaciones de la variable dependiente en funcin de la independiente, no implica que la primera sea causa de la segunda. Es un error muy comn confundir causalidad con casualidad. El hecho de que las variables estn relacionadas no implica que una sea causa de la otra, ya que puede ocurrir el hecho de que se est dando una variacin concomitante, por el simple hecho de que las dos son causa de una tercera. Por ejemplo, si realizamos un estudio en el que se analice el nmero de canas (X) y la presin arterial (Y), podramos encontrar una relacin lineal casi perfecta. Eso no significa que el tener canas aumente la presin arterial, lo que verdaderamente est ocurriendo es que es la edad, la causante, de que se tengan ms canas y una tendencia a tener ms alta la presin arterial.

EXTRAPOLACIN Es importante, resaltar el hecho de que a la hora de hacer predicciones, no deben extrapolarse los resultados ms all del rango de la variable X utilizado para ajustar el modelo, ya que ms all de ese rango no sabemos qu puede estar ocurriendo. Por todos es conocido que las plantas necesitan abono para poder crecer. Desde pequeos hemos aprendido que hay que abonarlas, de modo que en principio, cuanto ms abono se les suministre ms crecern. Pero... qu ocurrira si abonsemos demasiado el suelo?. Obviamente la planta morira. Bien, esto se traduce, en que conforme aumenta la cantidad de abono, el crecimiento es ms notable, pero a partir de un punto, la planta deja de crecer, y es ms se muere. Esto queda reflejado en la figura 6.7. De ah el peligro de extrapolar los resultados.

367

Figura 6.7: Comparacin de una posible verdadera relacin entre cantidad de abono y crecimiento de una planta, con los resultados de una recta de regresin obtenida mediante el estudio de un rango limitado de valores de abono.

6.1.3.3 Regresin no lineal


Supongamos que al hacer la representacin grfica correspondiente la distribucin bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relacin entre las dos variables, pero desde luego, esa relacin no es lineal. Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las dos variables. Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la logartmica, la exponencial y la potencial.

PARBOLA DE REGRESIN En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de 2 grado es:

368

Y=a+bX+cX2 donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:

D = # (y i ! y" )2 i
i=1

donde, siguiendo la notacin habitual, yi son los valores observados de la variable dependiente, e y! los valores estimados segn el modelo; por tanto, podemos escribir D i de la forma:

D = # (y i ! y" )2 = # (yi ! a ! bxi ! cx 2 )2 i i


i=1 i =1

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).

i =1 n

! yi = na + b ! x i + c ! x 2 i
i=1 i =1

i =1 n ! x2 yi i i =1

! xi yi = a ! xi + b ! x2 + c ! x 3 i i =

i=1 i=1 i=1 n n n a ! x2 + b ! x3 + c ! x4 i i i i=1 i=1 i=1

369

FUNCIN EXPONENCIAL, POTENCIAL Y LOGARTMICA El problema de ajustar un modelo potencial, de la forma Y=AXb y uno exponencial Y=ABX se reduce al de la funcin lineal, con solo tomar logaritmos. Modelo potencial: Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos: logY = logA +b logX Como vemos es la ecuacin de una recta: Y=a+bX, donde ahora a = logA. De modo que el problema es sencillo, basta con transformar Y en logY y X en logX y ajustar una recta a los valores transformados. El parmetro b del modelo potencial coincide con el coeficiente de regresin de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).

Modelo exponencial: Tomando logaritmos en la expresin de la funcin exponencial, obtendremos: logY = logA + logB X Tambin se trata de la ecuacin de una recta Y=a+bX, pero ahora ajustndola a logY y a X; de modo que, para obtener el parmetro A del modelo exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando antilog(b).

Modelo logartmico: La curva logartmica Y = a + b logX es tambin una recta, pero en lugar de estar referida a las variables originales X e Y, est referida a logX y a Y.

Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms complejos que el de una recta, estos tres ltimos se reducen al modelo lineal sin ms que transformar adecuadamente los datos de partida.

370

6.1.4 Correlacin
Como hemos visto con anterioridad, al analizar las relaciones existentes entre dos variables aleatorias cuantitativas, deberemos responder a las preguntas, de si existe dependencia estocstica entre ellas y de qu grado. El anlisis de correlacin nos dar respuesta a dichas preguntas.

6.1.4.1 Prueba de independencia caracteres cuantitativos

de

dos

Dos variables X e Y son independientes, es decir, no estn relacionadas, cuando la variable Y tiene el mismo valor, en media, sea cual sea el valor de la variable X y viceversa. (Ver por ejemplo la figura 6.1a). Como vimos en la seccin 6.1.3.1, la covarianza poda ser un medida que nos habla de la dependencia entre las dos variables. Sin embargo, la covarianza presenta el inconveniente de que no se trata de una medida adimensional, y por lo tanto se hace necesario conocer la fuerza de la relacin -si existe- as como poder realizar comparaciones entre parejas de variables que vienen medidas en unidades diferentes. Por ello, y dado que viene medida en unidades de la variable X por unidades de la variable Y, la dividimos entre las correspondientes desviaciones tpicas, obteniendo as, el denominado Coeficiente de correlacin lineal de Pearson y que denotamos con una r minscula:

r=

Sxy sxsy

Es importante fijarnos en que hemos denominado a dicho coeficiente: coeficiente de correlacin lineal de Pearson. El "apellido lineal" es conveniente utilizarlo porque dicho coeficiente solo tiene potencia para analizar si la relacin entre las dos variables es o no de tipo lineal. Si las variables son independientes, es un hecho de que el coeficiente de correlacin lineal debe ser cero. Sin embargo, si el coeficiente de correlacin lineal es 0, no implica que las variables sean independientes, simplemente que la relacin no es lineal.

371

Como vemos, el coeficiente de correlacin lleva asociado el mismo signo que la covarianza, por lo que si ste resulta ser positivo, indicar que se trata de una relacin lineal directa, mientras que si es negativo, la relacin ser inversa.

6.1.4.2 Relacin entre r y R2


Una propiedad sumamente importante del coeficiente de correlacin r es que si el procedimiento de ajuste de la recta de regresin es el del criterio de los mnimos cuadrados, resulta:

r 2 = R2

En el apartado 6.1.3.2 vimos que el coeficiente de determinacin era un valor acotado entre 0 y 1. Teniendo en cuenta la relacin anterior, podemos asegurar que el coeficiente de correlacin es un valor acotado entre -1 y +1. Si r=+1, existe una correlacin positiva perfecta, y si r=-1, analogamente pero negativa (en ambos casos R2=1, por lo tanto no hay errores, sera una dependencia funcional). A nivel muestral, es difcil encontrarnos con un valor de r = 0 aun cuando las variables sean independientes, de modo que podramos pensar que cuanto ms se acerque r a 1, el grado de relacin entre X e Y ser ms fuerte. Sin embargo, a partir de qu valor muestral de r decidiremos que las variables son independientes, y a partir de cul diremos que estn relacionadas?

6.1.4.3 Distribucin del coeficiente de correlacin muestral


Para dar respuesta a la pregunta anterior, se ha estudiado la ley de probabilidad de los coeficientes de correlacin observados en muestras extradas al azar de una poblacin en la que se sabe que X e Y son independientes, es decir, que el coeficiente de correlacin poblacional () es 0. Al extraer muestras de dicha poblacin, los coeficientes de correlacin muestral obtenidos, fluctan alrededor de cero en forma simtrica, lo cual no ocurre si es distinto de cero. Por ello, se ha construido una tabla en la que aparece el valor de r, que slo era superado en el 5% (o el 1%) de las muestras extradas de la poblacin con =0; En la primera columna de la tabla aparece el tamao de muestra n -2.

372

grados de libertad (n-2) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

5% .997 .950 .878 .811 .754 .707 .666 .632 .602 .576 .553 .532 .514 .497 .482 .468 .456 .444 .433 .423 .413 .404 .396

1% 1.000 .990 .959 .917 .874 .834 .798 .765 .735 .708 .684 .661 .641 .623 .606 .590 .575 .561 .549 .537 .526 .515 .505

grados de libertad (n-2) 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 1000

5% .388 .381 .374 .367 .361 .355 .349 .325 .304 .288 .273 .250 .232 .217 .205 .195 .174 .159 .138 .113 .098 .088 .062

1% .496 .487 .478 .470 .463 .456 .449 .418 .393 .372 .354 .325 .302 .283 .267 .254 .228 .208 .181 .148 .128 .115 .081

Tabla del coeficiente de correlacin

Realmente no se trata ms que de un contraste de hiptesis. La hiptesis nula es: Ho: =0, de modo que la hiptesis se rechaza slo si el coeficiente de correlacin muestral es, en valor absoluto, mayor que el valor crtico de la tabla, al nivel de significacin elegido, y con los grados de libertad adecuados, ya que slo rechazaremos Ho si el valor muestral encontrado es poco probable que ocurra cuando =0.

373

"EL MODELO LINEAL GENERAL"

6.2 Ampliacin

374

6.2.1 Introduccin
En la investigacin prctica nos encontramos frecuentemente con situaciones en las que una variable, Y, viene determinada por otra u otras variables, X1, X2, ... , Xk , sin que a su vez la primera determine las ltimas. Podemos escribir la relacin como Y = f(X1, X2, ... , Xk). La variable Y es denominada dependiente, respuesta endgena mientras que las variables X se denominan independientes, predictoras o regresoras. Utilizaremos este tipo de relaciones para: - Predecir los valores de la respuesta (a partir de los de las regresoras). - Determinar el efecto de cada predictora (sobre la respuesta). - Confirmar, sugerir o refutar relaciones tericas. Conocida la posible dependencia entre las variables tendremos que determinar la forma de la relacin, generalmente sugerida a travs de la teora de la materia objeto de estudio o travs de la revisin de experimentos anteriores. La forma ms usada en la prctica es aquella en la que podemos suponer que el modelo es lineal en sus parmetros o al menos que podemos linealizarlo. Y = 0 + 1 X1 + 2 X2 + ... + k Xk Debido a la naturaleza de los fenmenos estudiados es necesario introducir un error procedente de: -No incluir variables importantes. -Errores aleatorios y errores de medida. -Especificacin incorrecta de la forma de la ecuacin. En realidad solamente el segundo de los supuestos es realmente admisible como trmino de perturbacin aleatoria.

375

El modelo real ser entonces: Y = 0 + 1 X1 + 2 X2 + ... + k Xk + donde es el error o perturbacin aleatoria y los coeficientes 0, 1, 2, ... , k son los parmetros estructurales o estructura paramtrica de la relacin propuesta. El modelo propuesto en el que las Xi son variables observables no aleatorias y los

i son constantes fijas desconocidas se denomina Modelo Lineal General (MLG). Se presenta aqu

una introduccin que trata de mostrar los aspectos ms

relevantes de la teora as como algunos aspectos prcticos importantes olvidados generalmente en los libros de teora. No olvidemos que el objeto final de lo que vamos a ver es la aplicacin a datos reales en la investigacin aplicada en campos tan diversos como el Diseo de Experimentos o la Econometra. Para ampliar el tema, una excelente revisin terica puede encontrarse en SEBER (1977)* ; una versin ms aplicada dirigida tanto a profesionales de la Estadstica como a investigadores puede encontrarse en el libro de FOX (1984)** . En castellano podemos encontrar el tema dirigido especialmente al campo de la Economa en libros sobre Econometra, pueden consultarse, PEA (1994)*** .

6.2.2 Forma muestral del modelo


Normalmente supondremos que el modelo propuesto es el correcto en una poblacin y disponemos de una muestra de n observaciones que utilizaremos para la estimacin de los parmetros desconocidos. Los valores muestrales ordenados en forma de vectores y matrices son

! y1 $ # y2 & y=# & #! & " yn%


*

!1 $ # x i1 & xi = # & #! & " x ik %

! 1 x11 x1k $ ! x1 $ # 1 x 21 x2 k & # x2 & X =# = ! " ! & #! & #! & # & " 1 x n1 x nk % " x n %

SEBER, G.A.F. (1977); Linear Regression Analysis. Wiley. New York. FOX, J. (1984): Linear Statistical Models and Related Methods. With Applications to Social Researh. Wiley. New York. *** PEA, D. (1994) Estadstica: Modelos y Mtodos. Vols. I y II. Alianza Universidad. Textos.
**

376

Se ha incluido una columna de unos para tener en cuenta el trmino independiente del modelo. El modelo para cada una de las n observaciones muestrales es:

y1 = ! 0 + !1x11 + ! 2 x12 ++! kx1k + e1 y2 = ! 0 + !1x21 + !2 x22 ++! kx 2k + e2 ! ! ! ! ! y n = ! 0 + !1xn1 + !2 x n2 ++! k x nk + e 2


Escrito en forma matricial ser y i = x! " + e i para cada observacin, y = X ! + e i para todas las observaciones, correspondiente al modelo poblacional y = X ! + " , con

"!0 % $ !1 ' != $ ' ! $ ' #!k &

" (1 % $ (2 ' (=$ ' $! ' # (n &

"!0 % $ ' = $ !1 ' ! $! ' $ ' #!k &

" e1 % $ e2 ' e=$ ' $! ' # en &

Obsrvese que los estimadores muestrales se han denotado con ! i , los errores

aleatorios desconocidos con i y los errores estimados una vez que se han estimado los parmetros (residuales) con ei.

6.2.3 Hiptesis del modelo


Previamente a la construccin del modelo es necesario tener en cuenta algunas hiptesis que sern necesarias a la hora de determinar las propiedades de los estimadores de los parmetros de modelo. Las hiptesis siguientes convierten a la clsica regresin mltiple en un modelo estadstico ms formal. 1.- La relacin es estocstica (aleatoria):el trmino de error i recoge la componente aleatoria de yi que el modelo no puede explicar. i es no observable. 2.- Ausencia de error de especificacin: Aparecen en el modelo todas las variables relevantes para explicar el comportamiento de Y. Esta hiptesis est directamente relacionada con la investigacin inicial ya que es el investigador aplicado quien conoce, a partir de la teora, que variables pueden ser relevantes para explicar la respuesta. Esta hiptesis es necesaria para que el termino de perturbacin aleatoria sea

377

error puro con media nula. 3.- Linealidad de la relacin: E(y)=X. Las medias de la distribucin de Y condicionadas a cada valor de X se encuentran sobre una lnea (en el caso simple). 4.Esperanza matemtica nula del trmino de perturbacin: La

especificacin correcta del modelo hace que no se introduzca ninguna componente sistemtica en los errores al compensarse, en promedio, los positivos y negativos. Esta hiptesis es consecuencia directa de la anterior. 5.- Homocedasticidad: Varianza constante de los errores: Var(i) = 2, para todo i. 6.- No autocorrelacin: Ausencia de covarianza (o correlacin) entre los errores: Cov(i , j) = 0 si i j. 7.- Variables explicativas deterministas o no aleatorias:. Variables controladas por el investigador y medidas sin error. De esta forma el modelo lineal general est especialmente indicado en el anlisis de experimentos diseados en los que se controlan las condiciones experimentales. Esta hiptesis se puede relajar suponiendo que las variables regresoras son independientes del error aunque no sean constantes. En la mayor parte de las aplicaciones del modelo lineal las variables regresoras son aleatorias. 8.- No multicolinealidad: Es decir la variables explicativas no son linealmente dependientes. (ninguna de ellas puede obtenerse como combinacin lineal de las dems). El problema ser estudiado posteriormente con ms detalle. 9.- Constancia de los parmetros: Debemos admitir una nica estructura vlida para el periodo de observacin y el horizonte de prediccin. 10.- Normalidad: Los errores tienen distribucin normal, de media nula y desviacin tpica . En estas condiciones iniciales, pasaremos a la estimacin de los parmetros del modelo as como a la comprobacin de las hiptesis bsicas que permiten la validez de los resultados. Trataremos tambin de hacer inferencias sobre los parmetros del modelo suponiendo que disponemos de una muestra de una poblacin ms general.

378

6.2.4 Estimadores de los parmetros: mtodo de los mnimos cuadrados


6.2.4.1 Interpretacin de la ecuacin de regresin
La figura 6.8 muestra la situacin esquematizada cuando se dispone de dos variables explicativas. Se dispone de una nube de puntos en tres dimensiones y buscamos el plano que pasa lo ms cerca posible de todos los puntos de la nube.

Figura 6.8: Nube de puntos e hiperplano de regresin estimado en tres dimensiones

La ecuacin del plano que buscamos es de la forma Y = 0 + 1X1 + 2X2 que para una muestra concreta ser Y = ! 0 + !1X1 + ! 2 X2 . Los parmetros a los que tenemos que dar valor son 0, 1 y 2. La interpretacin es simple 0 es lo que vale la variable dependiente cuando todas las independientes son cero y i es lo que aumenta la variable dependiente cuando la variable Xi aumenta en una unidad, manteniendo el resto constantes, es por esto por lo que se les denomina coeficientes de regresin parcial.

379

6.2.4.2 Descomposicin de los valores observados en sus dos componentes.


La figura 6.9 presenta la situacin esquematizada para uno de los puntos de la nube.

Figura 6.9: Descomposicin de los valores observados en parte explicada y residual.

Llamando
y* = ! 0 + !1x i1 ++ ! k xik i

en el modelo para los valores muestrales obtenemos


y i = y* + e i i

siendo

380

e i = yi ! y* = yi ! " 0 ! "1x i1 !!" k x ik i

los residuales del modelo. Hemos descompuesto as el valor observado en dos partes, el valor esperado (o ajustado) sobre el hiperplano de regresin y* que representa la parte i controlada por el modelo y el residual ei que representa la parte no controlada. En forma matricial y* = X ! , e = y ! X" .

6.2.4.3 Criterio de los mnimos cuadrados.


Se trata de buscar el hiperplano de regresin que pase lo ms cerca posible de todos los puntos de la nube con algn criterio predefinido. El criterio utilizado ser el de los mnimos cuadrados que consiste en minimizar la suma de cuadrados de los residuales
SCR = " e2 = e ! e = (y # X $) !(y # X $ ) = y !y # y ! X $ # $ ! X! y + $ ! X! X $ = i
i=1 n

= y!y # 2y! X $ + $ ! (X! X) $

Derivando con respecto a e igualando a cero obtenemos

!SCR = 0 # 2 X$ y + 2(X$ X)" = 0 !"


es decir

(X! X)" = X! y

Resolviendo el sistema resultante obtenemos

! = (X" X)#1 X" y

La hiptesis de no multicolinealidad es necesaria para que (X! X) sea invertible. Obsrvese que de momento es la nica de las hiptesis previas que hemos utilizado. Esto quiere decir que si lo que se pretende es simplemente ajustar un hiperplano de regresin a un conjunto de datos de forma descriptiva, puede utilizarse el criterio de los mnimos cuadrados sin ninguna suposicin adicional.

381

6.2.5 Estimadores de los parmetros: el mtodo de mxima verosimilitud


Se trata de buscar aquellos parmetros para los que la funcin de verosimilitud es mxima. Sabemos, a partir de las hiptesis bsicas, que los valores observados yi tienen distribucin normal y i ! N( x"#, $) y que las observaciones son independientes. La i funcin de densidad de cada valor muestral es de la forma .
& (y i # x $%)2 ) i ( # 2! 2 + ' *

f(yi ) =

1 e ! 2"

La funcin de verosimilitud de los datos es la funcin de densidad conjunta de los valores muestrales que, como son independientes, coincide con el producto de las funciones de densidad individuales.
& (yi $ x %!) 2 ) i ($ 2 "2 + ' * e

L(y1, , y n / !,") = ,
& -i (y i $ x %!)2 ) i ($ + 2 2" ' * e

1 i=1 " 2# 1

("

2# )

(2#"2 )

n/ 2

& (yi $X! ) % (y i $X!) ) ($ + 2" 2 * e'

buscamos los valores ! de ! que hacen mnima la verosimilitud. Como la funcin de


verosimilitud y su logaritmo alcanzan el mximo en el mismo punto utilizamos esta ltima por comodidad. El logaritmo de la funcin de verosimilitud es

n n 1 log L = ! log(2") ! log # 2 ! (y ! X$)% (y ! X$) 2 2 2# 2


Derivando con respecto a los parmetros ! y e igualando las derivadas a cero se obtiene

382

! log L 1 = # 2 (2 X% X" # 2X%y) = 0 !" 2$ ! log L n& 1 ( 1 2 = # 2 ' $ 2 ) + 2$ 4 (y # X" )%(y # X") = 0 !$

Resolviendo las ecuaciones se obtienen los valores ! y que hacen mxima la


funcin de verosimilitud

! = (X" X)#1X"y (y # X! )"(y # X!) e "e $ 2 = S2 = = e n n


Para los coeficientes de regresin se han obtenido exactamente los mismos estimadores que con el mtodo de los mnimos cuadrados. Se ha obtenido tambin un estimador de la dispersin aunque se trata de un estimador sesgado.

6.2.6 Propiedades de los estimadores mnimo-cuadrticos


1.- El estimador mnimo cuadrtico es un estimador lineal El estimador es una combinacin lineal de los valores observados de la respuesta

! = (X" X)#1 X" y = M y


con M = (X! X) "1 X! .

2.- El estimador es insesgado: La esperanza matemtica del estimador coincide con el parmetro a estimar.

E(! ) = E(M y) = M E(y) = (X" X) #1 X" (X!) = !


ya que E(M y) = M E(y) al ser X, y por tanto M, constantes controladas por el investigador. Obsrvese que aqu hemos utilizado las hiptesis X constante y la de linealidad.

383

3.- La matriz de covarianzas de los estimadores es


Cov(! ) = E[(! " !)(! " !) #] = M V( y)M# = [( X# X)"1 X# ]$ 2 In [(X# X)"1 X# ]# = $2 (X# X) "1 (X# X) (X# X)"1 = $ 2 ( X# X)"1

Hemos utilizado aqu la hiptesis de homocedasticidad. Las varianzas de los estimadores estn contenidas en la diagonal de la matriz de covarianzas. El siguiente resultado justifica la eleccin de los estimados dentro de todos los estimadores lineales e insesgados. Se muestra solamente el resultado sin la correspondiente demostracin que puede consultarse en los libros citados anteriormente.

Teorema de Gauss-Markov El estimador mnimo cuadrtico es entre todos los estimadores lineales insesgados el que tiene la varianza mnima (eficiente).

4.- La distribucin muestral del estimador es normal Basta tener en cuenta que una combinacin lineal de variables independientes, todas con distribucin normal, tiene tambin distribucin normal.

! " N(!, # 2 (X$ X)%1)


Para cada elemento del vector (para cada estimador particular):
! i " N(!i , # 2 a ii )

donde a es el i-simo elemento de la diagonal de (X! X) "1 . ii

384

5.- Estimacin de la varianza de los errores: El estimador de la varianza del error obtenido a partir del mtodo de mxima verosimilitud era sesgado. El estimador insesgado que utilizaremos es:

S2 = e

e!e = i =1 n " k "1 n " k "1

# e2 i

que tiene distribucin muestral asociada

(n ! k ! 1)S2 e #e 2 e = 2 2 $ %n!k!1 " "


Las demostraciones completas de las propiedades de los estimadores pueden revisarse en la bibliografa propuesta.

6.2.7 Contraste de significacin del modelo global: anlisis de la varianza en los modelos lineales
El primer paso que debemos realizar una vez ajustado el modelo es comprobar si existe realmente una relacin entre las variables, lo que se traduce en que alguno de los parmetros del modelo sea distinto de cero en la poblacin. El contraste para el ajuste global es de la forma

Es decir, comparamos el modelo reducido que tiene solamente el trmino independiente frente al modelo completo con todas las variables consideradas. La comparacin la realizaremos comprobando si las variables regresoras consiguen explicar una parte significativa en la variabilidad de la variable dependiente. Ilustraremos el procedimiento con grficos para el caso de una sola variable regresora.

385

Estudiemos primero el comportamiento del modelo reducido Y = ! 0 en el que el estimador del parmetro es ! = y la media de los valores en y. Luego si no tenemos
0

ninguna informacin sobre las variables regresoras, la cantidad que mejor explica el comportamiento de la variable dependiente es la media de sus valores. A la suma de las desviaciones cuadrticas de cada valor con respecto a la media la denominaremos Suma de Cuadrados Total (SCT) ya que mide la dispersin mxima cuando no se tiene informacin sobre las regresoras.
SCT = "in=1 (yi ! y )2 = y#y ! ny 2

El valor de la suma de cuadrados total es el objetivo que trataremos de explicar al introducir la informacin de las variables regresoras. Introducimos ahora las regresoras y ajustamos el modelo completo, Y = ! 0 + !1X1 ++!k X k . La Suma de Cuadrados de los Residuales (SCR) del modelo completo

SCR = e!e = # (y i " y* )2 = # (y i " x !$)2 = (y " X$)!(y " X$) i i


i =1 i =1

mide la dispersin en torno al hiperplano ajustado, es decir, mide la dispersin que todava queda despus de haber introducido las variables regresoras o dispersin residual no explicada. La suma de cuadrados de los residuales mide tambin la dispersin intrnseca de los datos. La figura 6.10 muestra esquemticamente la situacin descrita en los prrafos anteriores.

386

Figura 6.10: Descomposicin de la suma de cuadrados en un modelo lineal.

A la vista del grfico es claro que dispersin es mayor en torno a la media que en torno al modelo de regresin, ya que este posee mayor informacin. La diferencia entre ambas ser la parte de la dispersin que se ha conseguido explicar mediante la introduccin de las variables regresoras. Llamaremos Suma de Cuadrados Explicada (SCE) dicha diferencia (SCE = SCT - SCR). Obtenemos as la descomposicin de la variabilidad total de la variable dependiente en dos partes, una parte explicada por las variables regresoras y una parte residual que todava queda sin explicar despus de haber ajustado el modelo.
2 *! * 2 y !y " ny = (y y " ny ) + [(y " X# )!(y " X#)]

y !y " ny2 = (# !X!y " ny 2 ) + [(y " X#)! (y " X#)] SCT = SCE + SCR
El problema es ahora saber si la dispersin explicada es lo suficientemente grande como para considerarla estadsticamente significativa. El patrn de comparacin ser la dispersin residual o dispersin intrnseca. Las sumas de cuadrados no son estrictamente comparables ya que estn referidas a un nmero distinto de grados de libertad, concretamente k para la suma explicada, (n-k-1) para la residual y (n-1) para la total. Podemos construir estimadores de la variabilidad dividiendo la suma de cuadrados por los correspondientes grados de libertad, el cociente entre el estimador de la variabilidad explicada y la variabilidad residual ser utilizado como medida de la importancia de la parte explicada, adems dicho cociente sigue una distribucin F de Snedecor con k y (n-k-1) grados de libertad en el numerados y en el denominados

387

respectivamente. Obtenemos as el estadgrafo para el contraste que habamos planteado al principio, que hemos convertido en un contraste de comparacin de variabilidades.

SCE k F= SCR " F k,n!k!1 (n ! k ! 1)


El contraste es necesariamente unilateral superior ya que solo rechazaremos la hiptesis nula cuando la variabilidad explicada sea muy grande en comparacin con la residual. Los resultados del contraste se suelen resumir en una tabla denominada tabla del Anlisis de la Varianza (ANOVA), como la que se muestra en el cuadro 6.1.
Fuente de variacin Explicada Sumas de cuadrados Grados de Libertad

Estimadores

F experimental

Conclusin

SCE

SCE/k

(SCE/SCR)((n-k1)/k)

n.s.= no significativo * = Probablemente sign. (al 5%) ** = Altamente sign. (al 1%)

Residual Total

SCR SCT

n-k-1 n-1

SCR/(n-k-1)

Cuadro 6.1: Anlisis de la varianza en un modelo de regresin.

El anlisis de la varianza para el modelo de regresin forma parte de la salida estndar de cualquier programa de ordenador. En algunos casos es posible dividir la suma de cuadrados explicada en diversas partes explicadas por una o varias variables. En general, si las variables regresoras no son independientes no es posible separar la parte explicada debida a cada una de ellas. En los experimentos diseados es habitual tomar combinaciones de las variables explicativas con valores prefijados de forma que sean independientes para poder separar el efecto de cada una de ellas.

388

6.2.8 Medida de la bondad del ajuste: el coeficiente de determinacin


El anlisis de la varianza descrito en el caso anterior nos da un criterio para decidir si alguno de los parmetros es distinto de cero y, por tanto, si las variables regresoras explican significativamente la variabilidad de la variable independiente, sin embargo, no miden el grado de la relacin existente entre la dependiente y las regresoras. Una medida descriptiva del grado de la relacin existente entre las variables se denomina Coeficiente de Determinacin, se denota con R y se define como el cociente entre la suma de cuadrados explicada y la suma de cuadrados total.
2

R2 =

SCE SCR =1 ! SCT SCT

Est acotado entre 0 y 1 y multiplicado por 100 representa el porcentaje de la variabilidad de la variable dependiente explicado por la introduccin de las regresoras en el modelo lineal modelo lineal. Para el modelo de regresin simple en el que se dispone de una sola variable regresora, el coeficiente de determinacin coincide con el cuadrado del coeficiente de correlacin de Pearson, para el modelo general, el coeficiente de determinacin puede interpretarse tambin como el cuadrado del coeficiente de correlacin entre los valores de y y los de y*. A dicho coeficiente de correlacin se le denomina Coeficiente de Correlacin Mltiple. El coeficiente de determinacin es sencillo y fcil de interpretar aunque tiene un problema importante, aumenta con el nmero de variables regresoras, estn o no relacionadas con la dependiente, de forma que es posible conseguir una bondad del ajuste prxima a 1 simplemente introduciendo en el modelo un nmero elevado de variables. Para evitar este problema se define el Coeficiente de Determinacin Ajustado, en el que las sumas de cuadrados se dividen por sus correspondientes grados de libertad.

R2 aj.

= 1!

SCR

(n ! k ! 1) SCT n !1

la interpretacin es exactamente la misma que la del coeficiente de determinacin.

389

6.2.9 Suma de cuadrados explicada por un grupo de variables: contraste para un grupo de parmetros
En algunas situaciones es importante conocer, no solo la variabilidad explicada por el conjunto total de regresoras sino tambin la variabilidad explicada por un subconjunto de los mismos, para contrastar si consiguen explicar significativamente parte de la variabilidad. El contraste es ahora que los coeficientes de un subgrupo de p regresoras son todos iguales a cero frente a la alternativa de que alguno es distinto de cero. Sin prdida de generalidad podemos suponer que el subconjunto est formado por las p primeras variables y escribimos el modelo completo como

Y = ! 0 + !1X1 ++!p Xp + ! p+1X p+1 ++!k Xk


Las hiptesis a contrastar pueden escribirse de la siguiente manera
H0 :!1 == ! p = 0 Ha :"i / !i # 0, i $(1, , p) (Y = ! 0 + ! p +1Xp +1 ++!k X k ) (Y = ! 0 + !1X1++!p Xp + ! p+1X p+1++!k Xk )

El procedimiento ser similar al del contraste global y consiste en la comparacin de las sumas de cuadrados explicadas en el modelo completo y un modelo reducido en el que se eliminan las variables que se quieren contrastar. La suma de cuadrados explicada en el modelo completo (con todas las variables) la vamos a dividir en dos partes, una parte explicada por las k-p, variables no incluidas en el subconjunto a contrastar y una parte explicada por las p variables a contrastar y que no ha sido explicada por el resto. La descomposicin de la suma de cuadrados en el modelo completo es SCT=SCE+SCR, donde SCE es la variabilidad explicada por todas las variables regresoras. La descomposicin al ajustar el modelo reducido la denotaremos como SCT=SCE0+SCR0, donde SCE0 representa la parte explicada por las k-p variables que no estn en el subconjunto objetivo. La diferencia entre ambas sumas de cuadrados explicados ser la parte explicada por las p variables objetivo y que no ha sido ya explicada por el resto. Denotaremos esta ltima suma de cuadrados como SCEp = SCE - SCE0. Los grados de libertad asociados son p.

390

Es posible construir el contraste correspondiente teniendo en cuenta que

SCE p F Y, (1,,p)/ (p+ 1,,k) = p SCR n ! k !1

sigue una distribucin F de Snedecor con p y n-k-1 grados de libertad en el numerados y denominados respectivamente. Obsrvese que se ha utilizado en el contraste la parte explicada por las p variables del subconjunto objetivo y que no ha sido ya explicada por el resto, en lugar de utilizar la suma de cuadrados explicada por las p variables sin tener en cuenta el resto. Ambas sumas de cuadrados slo coinciden cuando las p variables y el resto son independientes.

6.2.10 El coeficiente de correlacin parcial


El coeficiente de determinacin (mltiple) R2, meda la reduccin proporcional en la variabilidad de Y conseguida mediante la introduccin del conjunto completo de regresoras en el modelo. Es posible definir un Coeficiente de Determinacin Parcial que mida la contribucin marginal de un subconjunto de regresoras, cuando todas las dems han sido ya incluidas en el modelo. Denotaremos este coeficiente como R2 Y,(1,,p)/(p+1,,k) y lo calcularemos como

R2 Y,(1,,p)/(p+1,,k) =

SCE ! SCE 0 SCE p SCR = = 1! SCT ! SCE 0 SCR0 SCR0

Representa la parte que se ha conseguido explicar de la suma de cuadrados residual del modelo reducido al introducir el subconjunto de p variables en el modelo. La raz cuadrada del coeficiente de determinacin parcial se denomina Coeficiente de Correlacin Parcial

r Y,(1,,p)/(p +1,,k ) = R2 Y,(1,,p)/( p+1,,k )

391

el signo de la raz cuadrada ha de ser el mismo que el signo del coeficiente de regresin estimado. Puede interpretarse como una medida de la relacin entre la variable dependiente y un subconjunto de las regresoras dadas. todas las dems. La interpretacin es similar a la del coeficiente de correlacin de Pearson cuando el subconjunto objetivo est formado por una nica variable, aunque slo coincide con ste cuando la variable objetivo y el resto son independientes.

6.2.11 Contrastes e intervalos de confianza para cada uno de los parmetros por separado
Hasta el momento hemos visto como realizar contrastes para el modelo completo o para un subconjunto de parmetros. Cuando el subconjunto est formado por un nico parmetro existe una forma alternativa de realizar el contraste individual basndose en la combinacin de la distribucin normal de los estimadores de los parmetros del modelo y en la distribucin ji-cuadrado asociada a la varianza de los residuales, para construir una distribucin t de Student. Las hiptesis del contraste individual son

H0 :! i = 0 Ha :!i " 0
y las correspondientes versiones unilaterales. La cantidad

! " !i ti = i Se a ii
donde aii es el i-simo elemento de la diagonal de (X'X)-1, sigue una distribucin t de Student con n-k-1 grados de libertad. La construccin del contraste es inmediata. Es necesario hacer notar que si el nmero de parmetros es elevado y cada uno se realiza al nivel , el contraste global de igualdad a cero de todos los parmetros a partir

392

de los contrastes individuales, tiene un considerable incremento en el riesgo tipo I. Es por esto por lo que puede ocurrir que el anlisis de la varianza global resulte ser no significativo y alguno de los parmetros individuales sea significativamente distinto de cero. El contraste, basado en la F, para un subgrupo formado por una sola variable es completamente equivalente al descrito aqu ya que se verifica que
t 2 = F Y, (i )/ (1,,i !1,i +1,,k ) i

Este valor es el que aparece en muchos programas de ordenador como F parcial. Los intervalos de confianza para los parmetros por separado calculados a partir de la distribucin t de Student son de la forma

I1"# = ! i t n "k "1;# Se a ii !i

6.2.12 Ajuste de un modelo: los programas de ordenador


El ajuste de un modelo lineal a datos reales requiere un elevado nmero de clculos de forma que es necesario disponer de un ordenador para ajustar de forma eficiente distintos modelos a los datos experimentales. Los mtodos de regresin mltiple se encuentran prcticamente en todos los paquetes estadsticos disponibles, desde los ms simples hasta los ms avanzados. La primera consideracin que hemos de tener en cuenta es que el ordenador es solamente una herramienta de clculo rpido que, en ningn momento sustituye el conocimiento del profesional sobre los mtodos que est utilizando. La aplicacin sistemtica de mtodos estadsticos sin un anlisis previo de su aplicabilidad es un error comn entre los investigadores aplicados. Como veremos en apartados posteriores el proceso de anlisis de un modelo concreto no termina con el ajuste rpido del mismo sino que implica la comprobacin de varias hiptesis de forma interactiva entre el conocimiento terico y la herramienta de clculo. Las figuras 6.11, 6.12 y 6.13 muestran los elementos bsicos de los resultados del ajuste de un modelo lineal a unos datos reales.

393

Figura 6.11: Bondad del ajuste y Anlisis de la varianza para el modelo lineal.

Figura 6.12: Estimadores de los parmetros y contrastes individuales para el modelo lineal

Figura 6.13: Intervalos de confianza y F parciales para el modelo lineal.

394

6.2.13 Seleccin de subconjuntos de variables (mtodos paso a paso)


Los contrastes para un grupo de parmetros, basados en los incrementos de la suma de cuadrados conseguidos al introducir una o varias variables en un modelo, nos dan criterios de seleccin de subconjuntos de variables conocidos como mtodos paso a paso, utilizados en la mayor parte de los paquetes estadsticos. Podemos distinguir tres tipos fundamentales:

6.2.13.1 Seleccin ascendente (forward selection)


-Comenzamos con un modelo sin ninguna variable. -Introducimos aquella variable que produce un mayor incremento significativo en la suma de cuadrados explicada (El coeficiente de correlacin parcial ms alto). -Repetimos el proceso de seleccin hasta que ninguna de las variables fuera del modelo produzca un incremento significativo en la suma de cuadrados.

6.2.13.2 Eliminacin elimination)

descendente

(backward

-Comenzamos con el modelo completo. -Eliminamos aquella variable que al ser sacada fuera del modelo produce la menor prdida no significativa. -El proceso termina cuando todas las variables dentro del modelo producen una prdida (incremento) significativa.

395

6.2.13.3 Regresin paso a paso


Es bsicamente un proceso de seleccin ascendente en el que en cada paso se permite la posibilidad de que las variables que ya estn dentro del modelo puedan ser eliminadas.

VENTAJAS: -Producen un subconjunto reducido de variables ms fcil de manejar.

INCONVENIENTES: -El subconjunto final obtenido no es ptimo, en general. -Si las variables estn relacionadas entre si (existe multicolinealidad) los procesos son muy inestables ya que no es posible separar el efecto debido a cada una de ellas. -El orden de entrada es irrelevante.

6.2.14 Prediccin en el modelo lineal general


Supongamos que disponemos de un vector de observaciones para las k variables regresoras x(0) = (x01, ... , x0k) y deseamos la prediccin del valor medio que tomara la variable Y o bien de un valor concreto para Y. Distinguimos entre la prediccin de un valor medio y la prediccin de una observacin individual porque la variabilidad es diferente. En ambos casos la prediccin es la misma
y 0 = ! 0 + ! 1 x01 ++ ! k x0 k

Es posible calcular intervalos de confianza para la prediccin en los dos casos mencionados:

396

!1 Media de Y: I y 0 = $ y 0 t n!k!1," Se x # (X#X) x(0) & (0) % '

Valor concreto de Y: I y 0 = $ y 0 t n!k!1," Se 1 + x# (X#X) (0) %

!1

x (0) & '

Han de tenerse las siguientes precauciones para la validez de la predicciones: 1.-Se supone que la estructura paramtrica no ha variado en el momento de la prediccin. 2.-Las predicciones han de realizarse para valores dentro del intervalo en el que las regresoras han sido medidas, es decir no deben extrapolarse los resultados. 3.-Los intervalos de confianza para las predicciones son menos precisos a medida que nos alejamos de los valores medios de las regresoras. 4.-El hecho de que un modelo presente un alto porcentaje de variaciones controladas no implica que sea siempre un buen modelo predictivo. Distinguiremos as entre lo que denominaremos poder explicativo, medido a travs del coeficiente de determinacin, y poder predictivo o capacidad de prediccin. Alcanzaremos un poder predictivo aceptable cuando adems de tener una explicacin correcta el modelo verifique las hiptesis bsicas y no se detecte la presencia de observaciones extraas, grupos con estructuras diferentes, etc. Este punto se tratar ms ampliamente en los apartados siguientes.

6.2.15 Introduccin de variables cualitativas en un modelo de regresin mltiple


Todo lo que hemos visto hasta el momento se refiere a la utilizacin de variables de tipo continuo como regresoras, sin embargo, en la prctica es muy comn encontrar situaciones en las que alguna de las regresoras es de tipo cualitativo o incluso ordinal. El problema para variables ordinales suele resolverse dando puntuaciones a los distintos valores de la variable que reproduzcan el orden de los mismos, tratndolas as como si fueran variables continuas. Las variables de tipo cualitativo son ms comunes en la prctica ya que en la mayor parte de los experimentos diseados las regresoras son

397

niveles de un factor cualitativo. La introduccin de este tipo de variables la haremos a travs de lo que denominaremos variables ficticias que describimos a continuacin.

6.2.15.1 Variables ficticias (dummy)


Ilustraremos la introduccin de variables ficticias con un ejemplo adaptado del libro de FOX citado anteriormente. El ejemplo se refiere a la relacin entre el nivel de ingresos y el nivel de educacin en dos grupos raciales en Estados Unidos. Suponemos que el nivel de ingresos (medido a travs del salario) es la variable dependiente y que el nivel de educacin (medido a travs del nmero de aos) es la variable independiente o regresora. Cabe esperar que, en general, para un nivel de educacin ms alto el nivel de ingresos sea tambin ms alto. Dadas las caractersticas de la sociedad americana, es de esperar tambin que para un mismo nivel de educacin una persona de raza blanca tenga un nivel de ingresos mayor que una persona de raza negra. Luego el nivel de ingresos depende de la raza (variable cualitativa) y debera ser incluida en el modelo como regresora. La situacin se ha esquematizado en la figura 6.14.

Ingresos Ajuste conjunto Y = ! 0 + ! 0X

Blancos

Negros Educacin

Figura 6.14: Relacin entre el nivel de ingresos y el de educacin para blancos y negros.

Es claro que si no incluimos la variable raza de alguna manera, el modelo conjunto que relaciona ingresos y educacin no se ajusta bien ni al grupo de los blancos

398

ni al de los negros. Una solucin sera ajustar un modelo por separado para cada grupo y compararlos, sin embrago, vamos a buscar una solucin que explique correctamente la situacin con un solo modelo. En lugar de ajustar el modelo conjunto

Y = ! 0 + !1 X
podemos ajustar el modelo

Y = ! 0 + !1 X + " D
donde la variable D se define de la siguiente manera

!1 si el individuo es blanco D=" #0 si el individuo es negro


la variable D se dice que es una variable ficticia ya que no ha sido media directamente de esta forma. Veamos como la variable ficticia soluciona el problema.

6.2.15.2 Interpretacin del modelo con variables ficticias


La interpretacin de los modelos en los que se han incluido variables ficticias es simple. Calculemos el modelo en cada uno de los grupos. En el grupo de los negros (D = 0)

Y = ! 0 + !1 X + " 0 = !0 + !1 X
En el grupo de los blancos (D = 1)

Y = ! 0 + !1 X + " 1 = (!0 + ") + !1 X


Luego !1 es la pendiente (comn) de los modelos para ambos grupos. ! 0 es la constante en el modelo para el grupo de los negros, ! 0 + " es la constante en el modelo para el grupo de los blancos y ! , por tanto, es la diferencia entre los ingresos de los blancos y los negros, sea cual sea el nivel de educacin. El contraste de igualdad a cero

399

de ! es el contraste de que no hay diferencias en el nivel de ingresos entre los dos grupos de la raza, sea cual sea el nivel de educacin. La situacin esquematizada se muestra en la figura 6.15.

Ingresos

Y = (! 0 + ") + !1X Blancos

"

Y = ! 0 + !1X Negros

(! 0 + " )

"

!0
Figura 6.15: Interpretacin de un modelo con variables ficticias.

Educacin

Cuando la variable cualitativa tiene ms de dos grupos tenemos que introducir varias variables ficticias.

6.2.15.3 Variables ficticias para mas de dos grupos


Supongamos ahora que disponemos de un grupo ms, el de los hispanos y hemos de introducir los tres en el modelo que relaciona ingresos y educacin. Tomaremos uno de los grupos como base de comparacin, por ejemplo, el grupo de los hispanos. El modelo ser ahora

Y = ! 0 + !1 X + " n Dn + " b Db
donde las variables Dn y Db se define de la siguiente manera

!1 si el individuo es negro Dn = " #0 si el individuo no es negro

!1 si el individuo es blanco Db = " #0 si el individuo no es blanco

400

La interpretacin de los parmetros y el modelo para los distintos grupos es clara a partir del grfico de la figura 6.16.

Figura 6.16: Variables ficticias para varios grupos.

Luego !1 es la pendiente (comn) de los modelos para los tres grupos. ! 0 es la constante en el modelo para el grupo de los hispanos, ! 0 + " n es la constante en el modelo para el grupo de los negros y ! 0 + " b es la constante en el modelo para el grupo de los blancos; entonces ! n es la diferencia entre el grupo de los negros y el de los hispanos, ! b es la diferencia entre el grupo de los blancos y el de los hispanos y ! b " ! n es la diferencia entre blancos y negros.

6.2.15.4 Variables interaccin

ficticias

en

presencia

de

Supongamos ahora que, en el ejemplo anterior, las diferencias entre los ingresos para las dos razas, aumentan a medida que aumenta el nivel de educacin, es decir, los efectos de la raza y del nivel de educacin no son aditivos, existe lo que se denomina interaccin entre la raza y el nivel de educacin. El concepto de interaccin es clave en la investigacin aplicada, ya que implica que las relacin de la variable dependiente con otra variable depende de los valores de una tercera. No debe confundirse

401

interaccin con relacin, en el ejemplo, raza y educacin interactan en el efecto que manifiestan sobre el nivel de educacin, pero no tienen porqu estar relacionadas entre si. La interaccin se traduce en que las pendientes de las rectas para ambos grupos no son las misma. La situacin se representa en la figura 6.17.

Figura 6.17: Interaccin entre raza y educacin.

En este caso no es vlido el modelo anterior con variables ficticias, ya que, all suponamos que las pendientes de las rectas eran iguales y, por tanto, la diferencia entre blancos y negros era constante. Tomaremos ahora el modelo

Y = ! 0 + !1 X + " D + # DX
donde la variable D se define como antes, y DX es el producto de las variables D y X, es decir

!1 si el individuo es blanco D=" #0 si el individuo es negro


y

402

!X si el individuo es blanco DX = " #0 si el individuo es negro


La interpretacin del nuevo modelo es simple. Calculamos el modelo en cada uno de los grupos. En el grupo de los negros (D = 0)

Y = ! 0 + !1 X + " 0 + # 0 = !0 + !1 X
En el grupo de los blancos (D = 1)

Y = ! 0 + !1 X + " 1 + # X = (!0 + ") + (!1 + #) X


Luego !1 es la pendiente del modelo para el grupo de los negros. (!1 + " ) es la pendiente del modelo para el grupo de los blancos y, por tanto, ! es la diferencia en las pendientes.

! 0 es la constante en el modelo para el grupo de los negros, ! 0 + " es la constante en el modelo para el grupo de los blancos. ! ya no es la diferencia entre los ingresos de los blancos y los negros, ya que esta depende del nivel de educacin (ver figura 6.18).

Figura 6.18: Interpretacin del modelo de variables ficticias considerando interaccin.

Contrastar la presencia de interaccin en el modelo consiste en contrastar la nulidad del parmetro ! . Si se dispone de varios grupos es necesario introducir en el

403

modelo el producto de la variable continua por todas las variables ficticias. Si se dispone de dos variables cualitativas y se desea introducir la interaccin de las mismas en el modelo hay que multiplicar todos los pares posibles de variables ficticias resultantes. Si se desea introducir la interaccin entre dos variables continuas basta con introducir el producto de las mismas.

404

6.2.16 Validacin de las hiptesis bsicas del modelo


Hasta el momento hemos realizado todos los clculos suponiendo que las hiptesis bsicas formuladas al principio se verificaban, sin embargo, aun no hemos desarrollado ningn test de verificacin. Esto es as debido a que la mayor parte de las mismas se refieren a las perturbaciones aleatorias que son variables aleatorias no observables. Las perturbaciones pueden ser estimadas mediante los residuales y, es necesario realizar el ajuste previamente. Se han desarrollado muchos procedimientos y tests formales para detectar la posible violacin de las hiptesis bsicas, sin embargo nos limitaremos a realizar una aproximacin bsicamente descriptiva basada en los residuales, es decir, en las diferencias entre valores observados y ajustados con el modelo. La filosofa de los apartados que siguen es que los modelos lineales que utilizaremos en la prctica necesitan de una inspeccin detallada una vez que han sido ajustados ya que no es suficiente con la el clculo del poder explicativo del modelo. En el caso de la regresin simple, suele ser suficiente con el examen del diagrama de dispersin aunque es conveniente tambin grficos de residuales para detectar posibles problemas que pasan inadvertidos en el diagrama de dispersin. Incluso en el caso en el que se use la regresin en forma descriptiva los residuales pueden ayudar a detectar problemas como la no linealidad o la presencia de observaciones extraas, o la presencia de grupos diferenciados que no estn necesariamente relacionados con el modelo estadstico formal. Para ilustrar la necesidad de un anlisis detallado de cada caso particular ms all de la simple bondad del ajuste, utilizaremos cuatro conjuntos de datos artificiales tomados de ANSCOMBE (1973)* . Los datos aparecen en la tabla 6.1. La primera columna de la tabla contiene los valores de X para los tres primeros conjuntos de datos.

ASCOMBE, F.J. (1973) Graphs in Statistical Analysis. Am. Statist. 27, 17-21.

405

X 10 8 13 9 11 14 6 4 12 7 5

Y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68

Y2 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74

Y3 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73

X4 8 8 8 8 8 8 8 19 8 8 8

Y4 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89

Tabla 6.1: Datos de Anscombe.

Los cuatro conjuntos de datos presentan los mismos estimadores de los parmetros y la misma bondad del ajuste. A priori parece que el modelo lineal se ajusta igualmente bien en todos los casos, sin embargo, los ajustes son muy diferentes y solamente uno de ellos est en buenas condiciones. La figura 6.19 muestra los diagramas de dispersin.
11 10 9 8 y 1 = 3 + ,5 * x; R 2 = ,67 11 10 9 8 y 2 = 3 + ,5 * x; R 2 = ,67

y1

6 5 4 3 2 2 4 6 8 x y 3 = 3 + ,5 * x; R 2 = ,67 12 10 10 12 14 16

y2

7 6 5 4

(a)

3 2 2 4 6 8 x y 4 = 3 + ,5 * x4; R 2 = ,67 12 10 10 12

(b)
14 16

y3

6 4 2 2 4 6 8 x 10 12

y4

8 6 4

(c)
14 16

2 2 4 6 8 10 12 14 16 18 20 x4

(d)

Figura 6.19: Grficos de Anscombe.

406

El poder explicativo de todos los conjuntos de datos es el mismo, sin embrago, el nico en el que el ajuste es razonable es en el caso (a) en el que los datos varan de forma aleatoria alrededor de la recta de regresin. En el caso (b) se observa claramente como debera ajustarse una parbola a los datos. En el caso (c) existe una relacin casi perfecta entre las dos variables que est modificada por el punto aislado que, probablemente, es un outlier. En el caso (d) la relacin est completamente determinada por el punto aislado, si lo suprimimos, las variables seran independientes. Hemos descrito aqu problemas en regresin simple que pueden verse directamente sobre el diagrama de dispersin, en el caso mltiple la bsqueda es ms compleja al no poder representar directamente los grficos. Realizaremos los diagnsticos de forma indirecta utilizando grficos de residuales en diversas versiones.

6.2.16.1 Los grficos de residuales como herramienta de diagnstico


Una de las herramientas fundamentales para el diagnstico de posibles problemas en los modelos lineales son los denominados grficos de residuales. Un grfico de residuales no es ms que un diagrama de dispersin de los residuales ei obtenidos al ajustar el modelo, frente a los valores de la variable dependiente , a los valores esperados con el modelo o a los valores de las regresoras. En un modelo con un poder explicativo aceptable, los residuales deben distribuirse homogneamente alrededor del hiperplano de regresin, no deben variar de forma sistemtica y la varianza ha de ser constante. La representacin de los residuales frente a los valores esperados con el modelo es el grfico ms utilizado aunque son posibles muchas otras posibilidades. El aspecto del grfico de residuales en un modelo en buenas condiciones debe presentar una nube de puntos homognea como la que se muestra en el grfico de la figura 6.20.

407

Figura 6.20: Grfico de residuales para un modelo en buenas condiciones.

Los residuales pueden servir para detectar diversos problemas como posibles datos aberrantes (outliers), desviaciones de la linealidad, heteroscedasticidad, autocorrelacin entre las observaciones, etc.

6.2.16.2 Linealidad de la relacin


Es evidente que, en la prctica se dan muchas situaciones en las que los modelos que mejor se ajustan a los datos no son lineales. Se han descrito exhaustivamente relaciones de tipo lineal porque su tratamiento es muy sencillo y porque muchas de las relaciones no lineales pueden convertirse en lineales mediante transformaciones simples de las variables. Supongamos por ejemplo, que la relacin que liga a dos variables es de tipo potencial, de forma que el incremento de la variable dependiente se realiza en progresin geomtrica.
"

Y = !X

El ajuste de esta ecuacin por mnimos cuadrados conducira a un sistema de ecuaciones no lineales que ha de resolverse, generalmente, mediante mtodos numricos como por ejemplo el de Newton-Raphson. El problema puede tratarse de una forma mucho ms simple con la transformacin logartmica. Tomando logaritmos en ambos lados de la igualdad tenemos que el modelo original se convierte en un modelo

408

lineal el las variables log(Y) y log(X). log(Y ) = log(!) + " log(X) A cambio de trabajar en escala logartmica, podemos utilizar los mtodos de los modelos lineales. Los efectos de ajustar un modelo lineal a datos que no lo siguen estn relacionados con problemas de ajuste y prediccin.

DETECCIN: Grficos de residuales frente a variables externas en el caso de variables no

incluidas. Se observarn relaciones entre las variables externas y los residuales. Grficos de residuales frente a las variables regresoras, la variable

dependiente o los valores ajustados. Se observarn tendencias en los residuales. Bandas no homogneas con tendencia curva definida (ver figura 6.21). Grficos de residuales parciales, que representan los residuales del ajuste del modelo completo frente al residual ms la componente de los valores ajustados debida a cada una de las variables regresoras e i + ! k x ik . El grfico se interpreta como la relacin entre Y y Xk pero ajustada para el resto de las variables, es decir cuando las otras variables han sido ya consideradas en el modelo. Se observarn tendencias en los residuales.

Figura 6.21: Grfico de residuales mostrando una tendencia no lineal y diagrama de dispersin correspondiente.

TRATAMIENTO

409

Inclusin de las variables externas que expliquen la componente no lineal. Transformacin de las variables regresoras causantes de la no linealidad o de la variable dependiente. En muchos casos, como el del ejemplo mencionado antes la transformacin de las variables regresoras, de la dependiente o de ambas, convierte un modelo no lineal en uno que lo es. Las transformaciones ms habituales son: Inclusin de trminos de orden mayor (cuadrticos, cbicos). Logaritmos de las regresoras o de la dependiente. Transformaciones inversas.

Para el investigador aplicado el proceso de transformacin de los datos y de seleccin del modelo ms adecuado suele ser un proceso interactivo en el que se van probando distintos modelo seleccionando aquel que proporcione un mejor ajuste, no solo en cuanto al poder explicativo sino tambin en cuanto al poder predictivo.

6.2.16.3 Homocedasticidad (igualdad de varianzas)


Relacin entre la magnitud del error y el valor esperado de la variable dependiente o los valores de las regresoras. La varianza de los errores no es la misma para todas las observaciones. Los efectos de la desigualdad de las varianzas son: -Estimadores insesgados y consistentes pero no de varianza mnima. -Problemas de variabilidad en las predicciones al ser muy diferente dependiendo del valor de la prediccin..

410

DETECCIN Grficos de residuales con bandas crecientes, decrecientes o combinaciones

de ambas. En general, bandas de residuales con distintas anchuras para distintos valores ajustados (ver figura 6.22).

Figura 6.22: Grfico de residuales con problemas de heteroscedasticidad y diagrama de dispersin corresponden en el caso de la regresin simple.

TRATAMIENTO Mnimos cuadrados generalizados cuando se tiene informacin previa

sobre la naturaleza de la heteroscedasticidad. Por ejemplo cuando los datos son medias de distinto nmero de observaciones tomadas todas ellas de una poblacin con la misma varianza. Sabemos entonces que la varianza es inversamente proporcional al tamao muestral para cada caso. El estudio de los mnimos cuadrados generalizados est fuera del alcance de este trabajo. varianza. Por ejemplo si las observaciones variable dependiente son recuentos de Poisson es claro que media y varianza coinciden, de forma que si la media aumenta linealmente con las regresoras, tambin lo har la variabilidad. Tomar la raz cuadrada de la variable dependiente en lugar de la propia variable suele estabilizar la varianza. Transformaciones de la variable dependiente estabilizadoras de la

411

6.2.16.4 Autocorrelacin
El problema se produce cuando los errores de las distintas observaciones no son independientes. Es frecuente cuando se trabaja con datos temporales o recogidos con un determinado orden.

EFECTOS -Los estimadores mnimo cuadrticos son insesgados pero no tienen varianza mnima. -Varianza del error subestimada. -Varianza de los estimadores subestimada. -La inferencia (t y F) no es estrictamente aplicable.

DIAGNOSTICO: Grficos de residuales que muestran tendencias cclicas, tendencias lineales o no lineales o alternancia positivo-negativo (ver figura 6.23).

Figura 6.23: Grficos de residuales en presencia de autocorrelacin..

Grficos de residuales para diferentes momentos de tiempo (Residuales

para cada momento del tiempo frente a residuales en el momento anterior) que mostrarn tendencias lineales (ver figura 6.24).

412

Figura 6.24: Grficos de residuales en presencia de autocorrelacin..

TRATAMIENTO: Mnimos cuadrados generalizados cuando se tiene informacin previa

sobre la naturaleza de la autocorrelacin.

413

"EL PROBLEMA DE LA COLINEALIDAD"

6.3 Ampliacin

414

6.3.1 El problema de la colinealidad


En muchas ciencias, ocurre con frecuencia que las variables consideradas en el anlisis, no son independientes. Por lo tanto los riesgos al hacer estimaciones son incalculables, y un porcentaje de variaciones explicadas muy alto por el modelo de regresin puede ser perfectamente compatible con un modelo sin ningn poder predictivo. Esta problemtica se conoce con el nombre de colinealidad. La colinealidad desde el punto de vista estadstico, no se corresponde con ninguna definicin matemtica concreta, ya que existen mltiples estados intermedios entre la ausencia total de colinealidad y la colinealidad extrema. Se dice que hay colinealidad cuando existe relacin lineal entre las regresoras y diremos que la colinealidad est ausente cuando las regresoras son ortogonales. En el caso de colinealidad extrema, es decir, si al menos dos regresoras estn perfectamente relacionadas, los coeficientes de regresin mnimo cuadrticos no estn definidos. El problema surge cuando se da una colinealidad no perfecta, ya que entonces los estimadores de los coeficientes de regresin se hacen inestables, pudiendo -inclusoaparecer con signo contrario al que cabra esperar. En esta seccin vamos a llevar a cabo el estudio de los mtodos para detectar y tratar de paliar este problema, que viene como consecuencia de una causalidad compleja, ya que el efecto de una variable puede ser causa de otra e incluso de ms, o tambin se pueden afectar mutuamente.

6.3.2 Formulacin matemtica y grfica del problema


El modo de visualizar grficamente los distintos casos que nos podremos encontrar: Ausencia de colinealidad, Colinealidad perfecta, y Fuerte colinealidad, puede verse en las figuras 6.25; 6.26 y 6.27 respectivamente, (Para simplificar
consideraremos nicamente dos variables regresoras X1 y X2. Tomado del FOX, 1984 pg. 139, adaptado de BELSLEY, KUH, & WELSCH, 1980).

415

Figura 6.25: Correlacin entre X1 y X2 despreciable: Ausencia de colinealidad

Para que los estimadores de los coeficientes de regresin estn definidos, la matriz X'X debe ser no singular, ya que si no (X'X) !1 no estara definida. El rango de la matriz X es el mismo que el de X'X, siendo el nmero de variables regresoras (k); si tenemos 'n' observaciones debe cumplirse lo siguiente:

1.- Las variables Xj deben ser independientes; si esto no ocurre, y alguna es


combinacin lineal perfecta de otras, el determinante de X'X se anulara (es decir, tanto X como X'X seran singulares) y ello conlleva a que (X'X) !1 no est definida y no podamos hacer las estimaciones de los parmetros. Este es el caso de COLINEALIDAD PERFECTA (ver figura 6.26) Pero cuando la colinealidad no es perfecta (ver figura 6.27), los estimadores de los parmetros de regresin se hacen inestables, de modo que nos podemos encontrar incluso anomalas tan graves como un signo contrario al que realmente debera tener. Adems cuanto mayor sea el grado de colinealidad ms difcil resulta establecer el aporte particular de cada una de las variables regresoras, ya que si el coeficiente de correlacin es distinto de cero, el tanto por ciento de variaciones explicado por una variable va a depender del resto de las variables que estn en el modelo, influyendo incluso el mayor o menor grado de asociacin entre las regresoras y la variable dependiente.

416

Figura 6.26: Colinealidad perfecta X1= a +b X2

Figura 6.27: Colinealidad

As la comn interpretacin de los coeficientes de regresin como medida del cambio en el valor esperado de la variable dependiente cuando la correspondiente variable independiente se incrementa en una unidad, cuando todas las dems variables regresoras permanecen constantes, no es totalmente aplicable cuando existe colinealidad.

417

2.-

Debe verificarse que n k+1, ya que sino el rango no sera k sino n, y por

tanto podramos detectar una falsa colinealidad. Siguiendo a GALINDO (1987), dividiremos el anlisis de esta problemtica en tres grandes apartados. El primero de ellos consistir en encontrar los indicios que nos puedan hacer sospechar sobre la existencia de colinealidad. Pasaremos en un segundo punto a estudiar cmo realizar el diagnstico adecuado de la misma, y en ltimo lugar analizaremos las tcnicas existentes para tratar de paliar dicho problema.

6.3.3 Sintomatologa
El primer paso para poder actuar frente a la colinealidad, es tomar conciencia de su posible existencia. Hay una serie de sntomas o indicios que pueden presentarse cuando se da el problema de la colinealidad. Entre otros citaremos los siguientes: 1.- El valor absoluto de la correlacin emprica entre dos variables regresoras vara entre 0 y 1 (en el caso de que no exista colinealidad o que sta sea total, respectivamente). Por ello, si al analizar la matriz de correlaciones, se detecta que un subconjunto de dichas variables est altamente correlacionado, ser un sntoma a tener en cuenta. 2.- Si las pruebas de nulidad de los coeficientes de regresin, conducen a eliminar del modelo variables que el investigador, basndose en su experiencia, considera relevantes. 3.- Si el signo de un coeficiente de regresin es opuesto al que cabra esperar. 4.- Si las varianzas de los estimadores de los coeficientes de regresin tienen valores anormalmente grandes, disminuyendo drsticamente al eliminar una o varias variables regresoras del modelo. 5.- Encontrar un coeficiente de correlacin mltiple entre cada regresora y las dems muy elevado. 6.- Intervalos de confianza grandes para los coeficientes de regresin que representan a variables importantes en el modelo.

418

De todas formas, puede haber colinealidad sin que estos sntomas se hagan patentes.

6.3.4 Diagnstico
Solamente la diagonalizacin de la matriz de correlaciones y el examen de los ltimos valores propios proporcionar una informacin precisa. Si tenemos k variables regresoras y llamamos 1, 2 , ... , k a los k valores propios de su matriz de correlaciones en orden descendente, es decir 1 > 2 > ... > k. Supondremos -sin prdida de generalidad- que las variables estn estandarizadas de forma que X'X sea proporcional a la matriz de correlaciones; entonces:

1.- El tamao relativo de estos valores propios nos puede servir como indicador
de la presencia de colinealidad, ya que como se verifica:

"1 ! 1 + ! 2 +!+! k = k = Traza # X' X$ % n


Si la razn k / k es muy pequea, entonces existe colinealidad.

2.- Hemos visto que los estimadores mnimo cuadrticos de regresin para variables estandarizadas son ! = (X' X)"1 X' y con matriz de varianzas-covarianzas V ! = " 2 (X'X) #1 .

()

El j-simo valor de la diagonal de (X'X) !1 es precisamente 1 1! R j siendo R j el cuadrado del coeficiente de correlacin mltiple para la variable regresora Xj con el
2 2

resto de las variables. Al trmino 1 1! R j se le denomina Factor de Inflacin de la Varianza (VIF) y es la cantidad que aumenta el error estndar del estimador j-simo por efecto de la correlacin entre Xj y el resto de las variables regresoras. En condiciones ptimas (ausencia de colinealidad) VIFj = 1 (ya que R j = 0). Conforme aumenta el problema de colinealidad el valor VIF se va haciendo cada vez
2 2

419

mayor

de modo que el correspondiente estimador para la j-sima variable se va

haciendo cada vez ms inestable. (THEIL, 1971). Por lo tanto, un VIF grande nos indica que el coeficiente de regresin asociado se encuentra afectado por el problema de colinealidad. Realizando la descomposicin espectral de la matriz de correlaciones, tenemos:

X'X = ALA'
donde: A es la matriz de vectores propios L es la matriz diagonal de valores propios

Por lo tanto, podemos escribir: (X'X) !1 = AL!1A' Utilizando la anterior expresin, el VIFj se pueden expresar en funcin de los valores propios de la matriz de correlaciones como sigue: VIF j = ! A jr " r donde
r =1 k 2

A jr es la j-sima componente del l-simo vector propio, de modo que aquellos valores
propios ms pequeos son los que ms contribuyen a que las varianzas sean ms grandes, pero slo para aquellas regresoras que tienen coeficientes grandes asociados a vectores propios con valores propios muy pequeos. Por lo tanto, regresoras con coeficientes grandes para componentes cortas, son la implicadas en la colinealidad. Por ello, basta con realizar la descomposicin espectral de la matriz de correlaciones entre las regresoras, analizar los valores propios, cuando uno de ellos sea prximo a cero, nos est indicando un posible problema de colinealidad, de modo que aquellas regresoras cuyos coeficientes del vector propio asociado al valor propio cercano a cero, sean muy grandes sern las que se encuentren implicadas en la colinealidad.

3.- Adems, la relacin entre los valores propios nos sirve como indicador del
grado de colinealidad existente en nuestros datos. De este modo, la raz cuadrada de la razn existente entre el primer autovalor y el ltimo (mayor y menor respectivamente):

K=

!l

!k

se denomina "Condition number", y es un ndice de la inestabilidad global de los coeficientes de regresin mnimo cuadrticos (BELSLEY, KUH & WELSCH, 1980).

420

Los autores manifiestan que un "Condition number" grande, indica que, cambios relativamente pequeos en los datos, tienden a producir grandes cambios en la solucin mnimo cuadrtica; en este caso X'X ser casi singular, de modo que valores de K >30 se consideran como "peligrosos".

4.- Estos mismos autores definen el "condition index" como:


Kj = !l !j

5.- Analizando la contribucin proporcional de cada componente principal al VIF


para cada regresora, es posible ver qu variables estn involucradas en la colinealidad:

P jr

( A2jr ! r ) = (A2jr !r ) =
VIF j
k r=1

" A2 ! r jr

Si Pjr es grande (estudios de simulacin llevan a pensar en valores prximos a 0.5) y tambin Kr entonces la j-sima regresora est implicada en la colinealidad. Cuando hay varias relaciones de colinealidad coexistentes, no siempre es fcil separar las variables involucradas en cada una. Sin embargo, en la mayora de las situaciones es suficiente determinar: 1- Si est presente una colinealidad importante. 2- Qu coeficientes de regresin estn afectados por la colinealidad 3- Qu regresoras estn involucradas en cada cuasi-dependencia El punto 1 se sigue del "condition ndices"; el punto 2 del VIF; y el punto 3 de la contribucin de cada componente al factor de inflacin.

421

6.3.5 Tratamiento
6.3.5.1 Anlisis del origen de la colinealidad
En primer lugar hay que asegurarse de que lo que se detecta no es una colinealidad aparente, debida quizs a: - Una muestra sesgada, dndose relaciones en ella que realmente no son ciertas en la poblacin y que al elegir otra muestra quizs no las encontraramos. - Que tengamos en nuestro estudio menor n de individuos que de variables, con lo que la inversa de la matriz X'X no estara definida. Supongamos que el examen de los valores propios, mediante las pruebas sealadas en el apartado 'Diagnostico', nos indican la existencia de colinealidad, entonces la actitud a tomar depender de cul es su posible origen:

Si observamos que se debe a una relacin cuasi-funcional entre las variables


regresoras, conviene mantenerlas a todas en el modelo, ya que posiblemente al eliminar una de ellas disminuya la suma de cuadrados de la regresin. As slo se podr interpretar la frmula de modo global sin interpretar los coeficientes de cada una de las regresoras.

Si en realidad lo que queremos es estudiar precisamente las aportaciones o


influencias de cada una de las variables independientes, deberemos analizar los primeros ejes principales normalizados en el espacio de las regresoras (vectores propios de su matriz de correlaciones), y calcular la correlacin entre la variable dependiente y el primer eje principal, luego el coeficiente de correlacin mltiple con los dos primeros ejes, y as sucesivamente. a) Si al hacer esto la variable Y est suficientemente correlacionada con dichos ejes, entonces utilizaremos una regresin normal, ya que en este caso la colinealidad resulta beneficiosa, segn los estudios de simulacin de CARBONELL y cols. (1983) b) Si por el contrario, la correlacin no es alta, la solucin consiste en la eliminacin de las variables (aquellas que sean combinacin lineal de otras), y que se

422

pueden identificar por distintos procedimientos como: Estudio del R2, el factor de tolerancia, los mtodos Biplot (GABRIEL, 1971; GALINDO, 1985, 1986), o con otros distintos como la REGRESIN RIDGE (HOERL Y KENNARD, 1970a, b), el mtodo de MALLOWS (1964), o bien con los procedimientos PASO A PASO. CARBONELL y cols (1983), propone el siguiente rbol de decisiones (figura 6.28) a la hora de analizar la problemtica de la colinealidad:

Figura 6.28: rbol de decisiones en el anlisis de la colinealidad (CARBONELL, op. cit.).

6.3.5.2 Seleccin de variables en regresin


INTRODUCCIN En ese apartado haremos una sntesis de algunos de los mtodos anteriormente citados para paliar la problemtica de la colinealidad.

423

Pero hay algo que hay que tener muy en cuenta, y es que esta seleccin debe hacerse siempre despus de un detallado estudio de la colinealidad. Este problema puede estudiarse en profundidad en NETER, WASSERMAN & KUTNER, 1985 y CARBONELL y cols. (1983). Supongamos que se desea establecer una ecuacin de regresin lineal de la variable dependiente Y en funcin de las variables regresoras X1, X2, ... , XK, que sera el grupo total de variables entre las cuales estarn aquellas que formarn parte de la ecuacin buscada. Para que el modelo encontrado sea el ms adecuado, deberemos incluir en l el mayor nmero de variables posible, cuyo efecto en la variable dependiente pueda ser interpretado, para as poder evitar un modelo con una gran varianza en las predicciones. Obviamente, no existe un nico procedimiento estadstico para llevar a cabo esta tarea, y es ms, generalmente los diferentes mtodos no conducen a la misma solucin, por lo cual bajo nuestra experiencia, se deber tener cierta cautela a la hora de utilizarlos, y sobre todo nunca debe menospreciarse el criterio del investigador a la hora de la seleccin del subconjunto de variables ms adecuado, ya que su conocimiento sobre las variables en estudio puede ser vital a la hora de decidirse por la inclusin o exclusin de una de ellas en el modelo.

MTODO DE TODAS LAS REGRESIONES POSIBLES Este mtodo de seleccin consiste en calcular todas las posibles ecuaciones de regresin, combinando el nmero total de variables regresoras y luego hacer una seleccin de la ecuacin ptima. Como se puede intuir, se trata de un procedimiento laborioso y slo es posible cuando se puede acceder a un ordenador de alta velocidad. Por ello hay otros ms utilizados en la actualidad y que veremos con posterioridad. El procedimiento consiste en lo siguiente: El nmero de posibles ecuaciones de regresin es: 2 ! 1, lo cual nos da ya una idea de la magnitud del mismo, de modo que cada variable regresora Xi (i = 1, 2, ... , K), puede estar o no incluida en la ecuacin.
K

424

En primer lugar se separan las ecuaciones por grupos, de modo que tengamos un grupo con una variable regresora solamente, otro con dos, otro con tres, y as sucesivamente, hasta uno con K , que ser Y = ! 0 + !1X1 + ! 2 X2 +!+!K XK + " Si denotamos con p al nmero de variables que hay en un modelo, entonces habr p+1 parmetros en la funcin de regresin para ese grupo. Por lo tanto se verifica: 1pK Hay distintos criterios que pueden ser utilizados para comparar los distintos modelos de regresin obtenidos:

Criterio R p Lo que se hace es examinar el coeficiente de determinacin R p , para seleccionar uno o varios subconjuntos de las variables regresoras, y donde p 2 es el nmero de parmetros en el modelo. As R p nos indica que hay p parmetros o p-1 variables en el mismo, y se va observando cmo vara R p al pasar de un modelo a otro. Lo que se intenta es encontrar el modelo en el 2 que aadindole ms variables, no es ya til, porque el incremento en R p es nfimo.
2 2

Criterio Cp de Mallows. Nos permite seleccionar de entre todas las ecuaciones de regresin posibles cul es la que tiene mejor bondad de ajuste. Con Cp denotamos el "error cuadrtico medio total" definido por MALLOWS (1964) y lo componen: la suma de las desviaciones al cuadrado respecto del modelo completo, y el cuadrado de los errores aleatorios en Y, para el conjunto total de n observaciones, es decir:

425

Cp =

SCE p !2

+ 2p " n

**

Como estimador generalmente se utiliza el cuadrado medio del error del modelo de regresin completo, bajo la hiptesis de que este modelo es verdadero. El Cp de aquellos modelos con poco sesgo tiende a ser cercano a p, de modo que podremos identificar los modelos que tengan un pequeo valor (Ver figura 6.29)

Figura 6.29: Criterio del Cp de Mallows. Tomada de CARBONELL y cols.(1983)

MTODOS PASO A PASO Como hemos apuntado anteriormente, debido al alto grado de complejidad que posee el mtodo de todas las regresiones posibles, se hacen necesarios otros que evalen solamente un pequeo nmero de subconjuntos de variables, adicionando o eliminando stas segn determinados criterios. Se han desarrollado algunas tcnicas de estas caractersticas, que generalmente se denominan MTODOS PASO A PASO (Stepwise Methods), y que consisten en

**

Siendo SCEp la suma de cuadrados del error (para el modelo de p variables).

426

variaciones de dos ideas bsicas: Eliminacin descendente* y Seleccin Ascendente**. Se ha hecho una breve referencia a estos mtodos en el apartado 6.13. Aqu comentaremos un poco ms.

Seleccin ascendente

Se comienza sin ninguna variable en el modelo y se va aadiendo una a una hasta que se obtenga una ecuacin satisfactoria -segn un determinado criterio- o bien hasta que se haya completado la inclusin de todas ellas. Generalmente el criterio de entrada, consiste en introducir aquella variable que proporcione el mximo incremento en el coeficiente de correlacin mltiple. HOCKING, propone en 1976, incluir la variable i-sima en la ecuacin con p trminos si:

F i = max i

SCRp ! SCRp+i "2 p+i

> Finput

donde: SCRp es la suma de cuadrados de los residuales con un subconjunto p de variables SCRp+i es la suma de cuadrados de los residuales aadiendo la i-sima variable a un subconjunto p de variables.

Se calcula, por lo tanto el trmino Fi aadiendo una a una las variables que no estn en el modelo y se busca la variable para la cual ese valor es mximo, esa es precisamente la que entra en el modelo si Fi > Finput. Si para todo i, Fi < Finput el proceso termina.

Eliminacin descendente Se parte del modelo contrario, es decir, con todas las variables regresoras incluidas en el mismo, y segn un determinado criterio vamos eliminando variables del modelo hasta encontrar aquella ecuacin ms adecuada.
*

**

Del trmino ingls: Backward Elimination (BE) Del trmino ingls: Forward Selection (FS)

427

La variable i-sima ser excluida del modelo con p trminos si:

F i = min i

SCRp !i ! SCR p "2 p

< F out

donde: SCRp-i denota la suma de cuadrados de los residuales cuando la variable i es borrada de la ecuacin en la que haba p trminos

Se calcula la expresin Fi, eliminando una a una las variables que forman parte del modelo, y se busca la variable para la cual es mnima esa expresin; esa variable es la que se elimina si Fi < Fout. Si para todo i, Fi > Fout el proceso termina.

El mtodo de inclusin de variables en el modelo de regresin (seleccin ascendente), presenta la ventaja de que slo se maneja el nmero de variables estrictamente necesario, pero en ningn caso se estudia el efecto que puede producir la inclusin de una variable en el papel que desempean las ya incluidas en modelos anteriores. "Regresin Stepwise" (EFROMYSON, 1960)

Para solventar el problema citado anteriormente, EFROMYSON propuso en 1960 el mtodo de Regresin Stepwise que se corresponde ms con lo que entendemos como mtodos paso a paso. Consiste en una seleccin ascendente (FS), pero en cada paso consideramos la posibilidad de eliminar una variable, de modo similar a como se hace en el mtodo de eliminacin descendente (BE). Una variable que fue la mejor candidata para ser incluida en el modelo en una fase anterior, puede resultar superflua en una fase posterior, debido a las relaciones existentes entre dicha variable y aquellas otras que se encuentran actualmente en el modelo.

428

El proceso Stepwise continua hasta que ninguna variable pueda ser introducida y ninguna eliminada. Es menos riguroso estadsticamente que los anteriores (CARBONELL y cols, 1983). Es el que se emplea normalmente al utilizar programas estndar. Una crtica a los mtodos FS y BE es que los investigadores, generalmente dan un grado de importancia a las variables, dependiendo del orden en el que entran (FS) o en el que salen (BE), lo cual no es correcto, ya que no es raro encontrarnos con que la primera que entra en uno es la primera que sale en el otro* , o que incluso en el mtodo stepwise entra en un paso y sale en el siguiente. Tambin se critican porque no proporcionan resultados ptimos, ya que puede que no identifiquen aquellos subconjuntos de regresoras de determinado tamao, de modo que maximicen R2, incluso cuando es ste el criterio utilizado para la inclusin en el modelo. Ms detalladamente se pueden encontrar estos mtodos en DRAPER y SMITH (1966) CHATTERJEE y PRICE (1977).

Regresin Ridge Hasta ahora el mtodo de ajuste de los coeficientes de regresin utilizado ha sido el de los mnimos cuadrados, y segn el teorema de Gauss-Markov, este mtodo de ajuste nos proporciona estimadores eficientes, es decir, insesgados y de varianza mnima, bajo las condiciones del modelo de regresin. En presencia de colinealidad, como hemos visto, se incrementa notablemente la varianza muestral de los estimadores, con lo que disminuye, por lo tanto, su eficiencia. Para intentar paliar esto, utilizaremos un mtodo mediante el cual podramos encontrar estimadores sesgados de modo que disminuya la varianza muestral, ya que el error cuadrtico medio de un estimador es la suma de su varianza muestral y el cuadrado del sesgo.
*

En el trabajo de investigacin correspondiente a este captulo veremos cmo, efectivamente, la primera de las variables que entra utilizando el mtodo de seleccin ascendente, y a la que por lo tanto, el investigador no familiarizado con estas tcnicas le dara la mxima importancia, es precisamente la que sale en primer lugar utilizando el mtodo de eliminacin descendente.

429

La Regresin Ridge fue originalmente propuesta por HOERL (1962)y posteriormente elaborada por HOERL y KENNARD (1970a,b) . Consiste en un mtodo de estimacin sesgado que busca mejorar la accin de la estimacin mnimocuadrtica en presencia de colinealidad. Se propone como vector de estimadores de los coeficientes de regresin:

!" = ( X' X + kI )#1 X' y = WX' y

k>0

Dando valores a k se encuentra una familia de estimadores denominada ESTIMADORES RIDGE. El mdulo del estimador Ridge es menor que el del estimado por el mtodo mnimo-cuadrtico, ya que stos son demasiado grandes cuando X'X es casi singular (HOERL & KENNARD, 1970 a). El principal problema al aplicar la regresin Ridge est en encontrar aquel valor de k de modo que se compense el sesgo y la reduccin de varianza. Se han desarrollado muchos mtodos para seleccionar el valor de k. Algunos son aproximativos y otros proporcionan frmulas especficas. HOERL & KENNARD (1970, a,b ) sugieren el "TRAZADO RIDGE", en el que se representan valores de los estimadores dependiendo del valor de k. En el se pone de manifiesto la inestabilidad de los coeficientes de regresin y el incremento de la suma de los cuadrados. (Veremos en el trabajo de investigacin este tipo de trazado grficamente) Llega un momento, cuando se contina incrementando k, en que los coeficientes se estabilizan. Durante este proceso los VIF decrecen, al principio rpidamente y luego de modo ms gradual.
2 2 La estimacin de la varianza de los errores SE! = " # ! aumenta suavemente cuando se incrementa k.

Entonces, para seleccionar k podremos tener en cuenta el trazado Ridge, los VIFs y la varianza del error.

430

HOERL & KENNARD, proponen en el mismo trabajo elegir k de modo que los coeficientes de regresin estn estabilizados y la varianza del error no se incremente desde su valor mnimo MARQUARDT & SNEE (1975) sugieren elegir k de modo que el mximo VIF sea menor de 10, y preferiblemente no mucho mayor que 1. La regresin Ridge tambin puede ser utilizada como mtodo de seleccin de variables, eliminando aquellas regresoras cuyos coeficientes de regresin tiendan a 0 tan rpidamente como se incremente k (MARQUARDT & SNEE (1975); HOCKING, 1976). Pone de manifiesto aquellos coeficientes inestables que deben ser eliminados del modelo porque no son capaces de mantener su poder predictivo. En la figura 6.30 puede verse un ejemplo de trazado Ridge (que ser el del ejemplo que
utilizaremos en el trabajo de investigacin)

que evidencia la inestabilidad de los coeficientes de

regresin y el incremento en suma de cuadrados.

Figura 6.30: Trazado Ridge correspondiente al ejemplo del trabajo de investigacin de este captulo

BIBLIOGRAFIA CITADA BELSLEY, D.A.; KUH, E. & WELSCH, R.E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. Wiley. New York.

431

CARBONELL, E.; DENIS, J.B; CALVO, R; GONZALEZ, F. y PRUONOSA, V. (1983). Regresin Lineal: Un enfoque conceptual y prctico. I.N.I.A. CHATTERJEE, S & PRICE, B (1977). Regression Analysis by Example. Wiley. New York. DRAPER, N.R. & SMITH, H. (1966). Applied Regression Analysis. Wiley. New York. EFROMYSON, M.A. (1960). 'Multiple regression analysis'. In A. Ralston & H.S. Wilf (eds.) Mathematical Methods for Digital Computers. Vol. 1: 191-203. FOX, J. (1984). Linear Statistical Models and Related Methods. New York. Wiley. GABIEL, K.R. (1971). 'The biplot graphic display of matrices with applications to principal component analysis'. Biometrika, 58: 543-467. GALINDO, M.P. (1985). 'Contribuciones a la representacin simultnea de datos multidimensionales'. Ser. Resum. Tesis Doct. T.D. 395/1985. pgs 1-38. Universidad de Salamanca. GALINDO, M.P. (1986). 'Una alternativa de representacin simultnea: HJ-Biplot'. Questiio. Vol.10, n1: 13-23. GALINDO, M.P. (1987). 'Diagnstico y tratamiento de los problemas en los modelos lineales'. Cuadernos de Bioestadstica y su Aplicacin Informtica. Vol. 5, n1: 116-128. HOCKING, R.R. (1976). 'The analysis and selection fo variables in linear regression'. BIOMETRICS. 32: 1-49. HOERL, A.E. (1962). 'Application of Ridge Analysis to regression problems'. Chemical Engineering Progress, 58: 54-59. HOERL, A.E. & KENNARD, R.W. (1970a). 'Ridge Regression: Biased estimation for nonorthogonal problems'. Technometrics, 12: 55-67. HOERL, A.E. & KENNARD, R.W. (1970a). 'Ridge Regression applications to nonorthogonal problems'. Technometrics, 12: 69-82. MALLOWS, C.L. (1964). 'Choosing variables in a linear regression: a graphical aid'. Presented at the central Regional Meeting of the Inst. of Math. Statist. Manhattan, Kansas. MARQUARDT, D.W; & SNEE, R.D. (1975). 'Ridge regression in practice'. The American Statistician, 29: 3-20 NETER, J.; WASSERMAN, W. & KUTNER, M.H. (1985). Applied Linear Statistical Models. (2nd. Ed.) Richard D. Irwin, INC THEIL, H. (1971). Principles of Econometrics. New York. Wiley

432

"COLINEALIDAD" 6.4 Trabajo de investigacin

433

En este apartado trabajaremos sobre un estudio de simulacin que nos permita poner de manifiesto cmo en presencia de colinealidad, los estimadores clsicos de Gauss-Marcov proporcionan estimaciones sesgadas e inestables que no son interpretables. Asimismo, se pretende poner de manifiesto la cautela con la que debe trabajarse al utilizar los mtodos de regresin paso a paso, tan profusamente utilizado por los investigadores en todos los mbitos cientficos.

6.4.1 Modelo establecido "a priori"


Sean X1, X2, X3, X4 variables cuyos valores son obtenidos con ayuda de un generador de nmeros aleatorios. Tomamos X4 de manera que sea combinacin lineal de otras tres; es decir:

X 4 = 1250 + 6.5X 2 ! 20.7X 3 + "


La variable dependiente se elige deliberadamente segn el siguiente modelo:

Y = 1350 ! 3X 1 + 12X 2 ! 20X3 + 15X 4 + 25X 5 ! 13X 6 + "

6.4.2 Sintomatologa
6.4.2.1 Estimacin de los coeficientes de regresin
La matriz de correlaciones X'X entre las variables independientes es la que aparece a continuacin (ver tabla 6.2). 1 1 2 3 4 5 6 1.000 0.057 0.130 -0.115 0.048 0.152 2 0.057 1.000 0.231 0.063 0.051 -0.264 3 0.130 0.231 1.000 -0.956 0.010 -0.238 4 -0.115 0.063 -0.956 1.000 0.004 0.165 5 0.048 0.051 0.010 0.004 1.000 -0.245 6 0.152 -0.264 -0.238 0.165 -0.245 1.000

Tabla 6.2. Matriz de correlaciones entre las variables

Vemos como el coeficiente de correlacin entre las variables X4 y X3 es prximo a 1, lo cual es ya un primer indicio sobre la posible existencia de colinealidad.

434

Los estimadores mnimo-cuadrticos para el modelo de regresin son los que aparecen en la tabla 6.3: Nmero Corte 1 2 3 4 5 6 Coeficiente Error estndar Estadstico t 21789.6569 -2.7580 1.8872 -1.4614 130.8591 32.0335 4.0851 -393.3484 102.6947 -3.8303 -3.0357 4.9657 -0.6113 23.4743 1.4740 15.9253 -15.1239 1.7799 -8.4971
Tabla 6.3: Parmetros del modelo de regresin

Los errores estndar para las variables 2. 3 y 4 son muy grandes lo cual es tambin un sntoma de una potencial colinealidad. Resumen del anlisis Varianza residual: % de variaciones no controladas: Coeficiente de determinacin: % de variaciones controladas Coeficiente de correlacin mltiple: 69992.3431 0.0293 0.9991 99.91% 0.9996

Obsrvese cmo a pesar de que el porcentaje de variaciones explicadas es 99.91%. los valores de los estimadores de algunos de los coeficientes de regresin difieren sensiblemente de los verdaderos coeficientes (ver tabla 6.2). siendo incluso en alguno de los casos de signo contrario al que debera (lo que ocurre con el de la variable 4). lo cual es tambin un sntoma del posible problema de colinealidad. Vemos asimismo cmo el coeficiente de correlacin mltiple es muy alto.

435

6.4.3 Diagnstico
Para hacer un efectivo diagnstico del problema. deberemos conocer: 1.- Si est presente una colinealidad importante 2.- Qu coeficientes de regresin estn afectados por la misma. 3.- Qu regresoras est involucradas en la cuasi-dependencia. Para ello deberemos. respectivamente. conocer el "condition number". los factores de inflacin de la varianza y la contribucin de cada componente al factor de inflacin. Seguiremos los siguientes pasos:

6.4.3.1 Clculo de los valores propios de la matriz de correlaciones


Comenzaremos estudiando los valores propios de la matriz de correlaciones de las regresoras (ver tabla 6.4):

1 Valor propio 2.0922

2 1.3341

3 1.0419

4 0.9634

5 0.5682

6 0.0001

Tabla 6.4: Valores propios de la matriz de correlaciones entre las regresoras

Vemos como el ltimo valor propio es muy prximo a cero. lo cual nos indica ya que deberemos estar alerta por un posible problema de colinealidad. pues nos est indicando que la matriz X'X es casi singular.

6.4.3.2 Estudio de los vectores propios de la matriz de correlaciones entre las regresoras
Analizaremos ahora la matriz de vectores propios de las regresoras. puesto que deberemos localizar cules son las variables con coeficientes grandes en componentes

436

cortas (ver tabla 6.5) (vimos en el paso anterior. cmo el ltimo vector propio era prximo a cero).
1 1 2 3 4 5 6 0.1198 0.1838 0.6745 -0.6366 0.0854 -0.2905 2 -0.2757 0.4696 -0.1377 0.2813 0.4813 -0.6113 3 0.8602 0.3232 -0.0567 0.1517 0.3082 0.1856 4 -0.0337 0.6869 0.0593 0.1427 -0.7084 0.0375 5 -0.4107 0.3579 0.1697 -0.0644 0.4054 0.7113 6 0.0024 -0.2033 0.7004 0.6842 -0.0009 -0.0009

Tabla 6.5: Matriz de vectores propios para las regresoras

La tabla anterior (tabla pone de manifiesto que las variables X3 y X4 son las que estn implicadas en la colinealidad. (Vemos como esta afirmacin coincide con la construccin del
modelo. adems el siguiente coeficiente ms grande se corresponde con la variable X2).

6.4.3.3 Clculo del "Condition number"

"Condition

Index"

del

El valor para el "condicin number" es 135.21 lo cual evidencia la inestabilidad global de los coeficientes mnimo-cuadrticos (recordemos que se considera peligroso para valores mayores de 30). Los "condition index" para las distintas componentes principales aparecen en la tabla 6.6:
1 2 3 1 4 1.2523 5 1.4171 6 1.4737 1.9188 135.2131

Tabla 6.6: "Condition index"

El alto valor para el index correspondiente a la variable indica una vez ms que una colinealidad importante est presente.

437

6.4.3.4

Factores de inflacin de la varianza (VIF)

Los factores de inflacin (V I F) para cada regresora son los que aparecen en la tabla 6.7:
1 1.1229 2 362.0870 3 4287.0318 4 4090.7179 5 1.0849 6 1.2528

Tabla 6.7: Factores de inflacin de la varianza para cada regresora

Los V I F para las variables 2. 3 y 4 son muy grandes; valdran 1 en el caso de ser ortogonales. Nos estn indicando que. efectivamente. son los coeficientes para dichas variables los que se ven afectados por el problema de colinealidad. La misma informacin se obtiene estudiando el incremento en el error estndar de cada regresora.

6.4.3.5 Incremento en el error de cada regresora


Calcularemos. por tanto. el incremento relativo en el error estndar de cada coeficiente de regresin. debido a la colinealidad (no es ms que la raz cuadrada del VIF correspondiente). Estos valores son los que aparecen en la tabla 6.8:
1 1.0597 2 19.0286 3 65.4754 4 63.9587 5 1.0416 6 1.1193

Tabla 6.8: Incremento relativo en el error estndar del coeficiente para cada regresora

Obsrvese cmo el error estndar para las variables 2. 3 y 4 se ha incrementado sensiblemente por efecto de la colinealidad (ver para la comparacin la tabla 6.3) como cabra esperar. ya que la variable X4 se haba construido como combinacin de X2 y X3.

438

6.4.3.6 Identificacin de las variables involucradas en el problema de la colinealidad


Nos falta an. identificar las variables involucradas en la relacin de colinealidad. para lo cual calcularemos la contribucin proporcional de los componentes a los factores de inflacin de varianza. que se recogen en la siguiente tabla 6.9:
Componente Var 1 2 3 4 5 6 1 0.0061 0.0000 0.0001 0.0000 0.0032 0.0322 2 0.0507 0.0005 0.0000 0.0000 0.1600 0.2236 3 0.6324 0.0003 0.0000 0.0000 0.0840 0.0264 4 0.0010 0.0014 0.0000 0.0000 0.4801 0.0012 5 0.2643 0.0006 0.0000 0.0000 0.2666 0.7108 6 0.0455 0.9972 0.9999 0.9999 0.0061 0.0058

Tabla 6.9: Contribuciones proporcionales de las componentes a los VIF (los valores superiores a 0.5 se consideran peligrosos)

Como la contribucin proporcional de los componentes a los V I F son muy grandes para las variables 2.3.4. es evidente que estas tres variables estn implicadas en la cuasi-dependencia representada por la 6 componente.

6.4.4 Conclusiones
Segn hemos podido comprobar los estimadores mnimo cuadrticos son inestables y pierden. por tanto. su poder predictivo. poniendo de manifiesto la importancia de llevar a cabo un estudio sobre la posible colinealidad a la hora de llevar a cabo un anlisis de regresin mltiple. pues dicho problema puede llevarnos a conclusiones totalmente errneas.

6.4.5 Tratamiento de la colinealidad


Una vez finalizada la fase de sintomatologa y diagnstico analizaremos distintas opciones para su tratamiento. bajo el supuesto de querer interpretar las influencias respectivas de cada regresora regresoras.

439

6.4.5.1 Mtodo de seleccin ascendente


Tratamos de eliminar aquellas variables que sean correlacin lineal de otras. Utilizando el mtodo de seleccin ascendente (Forward Selection). La primera variable que interviene en el modelo es la variable 4. La prueba de bondad de ajuste global y los parmetros del modelo de regresin aparecen en la tabla 6.10:
Var Corte X4 Coeficiente -1453.43 15.92 0.2487 Tabla 6.10 64.00 p<0.0001 Error Est. Estadstico t Significac.

En el paso nmero 2 entra la variable 5 y la tabla 6.11 recoge la prueba de significacin y los parmetros del modelo:
Var Corte X4 X5 Coeficiente -2847.09 15.92 27.51 0.14 2.93 Tabla 6.11 107.41 9.39 p=0.0001 p=0.0000 Error Est. Estadstico t Significac.

En el paso nmero 3 la variable introducida es la 5. En el paso nmero 4, la variable 2 y en el paso nmero 5 la variable 3. La prueba de significacin y los parmetros para el modelo de regresin aparecen en la tabla siguiente (tabla 6.12):
Var Corte X2 X3 X4 X5 X6 Coeficiente 22648.48 135.43 -408.95 15.92 27.51 -15.70 32.28 103.44 0.14 2.93 1.75 4.19 -3.95 107.41 9.39 -8.93 p=0.0001 p=0.003 p=0.0000 p=0.0000 p=0.0000 Error Est. Estadstico t Significac.

440

Tabla 6.12

El tanto por ciento de variaciones controladas es del 99.09% y el coeficiente de correlacin mltiple es altamente significativo. Sin embargo. los estimadores estn muy alejados de los valores reales. que recordemos. son los siguientes:

Y = 1350 ! 3 X1 +12 X 2 ! 20 X3 +15 X 4 + 25 X 5 !13 X 6 + "


El tratamiento de la colinealidad mediante el mtodo de seleccin ascendente no ha resultado fructfero.

6.4.5.2 Mtodo de eliminacin descendente


Utilizando el mtodo de eliminacin descendente se obtuvieron los resultados siguientes: En primer lugar comenzamos con el modelo completo, y analizamos cual es la primera variable que debe ser eliminada del mismo (ver tabla 6.13),

Var Corte X1 X2 X3 X4 X5 X6

Coeficiente 21789.6569 -2.7580 130.8591 -393.3484 -3.0357 23.4743 -15.1239

Error Est.

Estadstico t

Significac.

1.8872 32.0335 102.6947 4.9657 1.4740 1.7799

-1.4614 4.0851 -3.8303 -0.6113 15.9253 -8.4971

p=0.1510 p=0.0002 p=0.0004 p=0.5441 p=0.0000 p=0.0000

Tabla 6.13: Parmetros del modelo de regresin con todas las variables.

El porcentaje de variaciones controladas fue del 99.91%. En el primer paso la variable eliminada es la 4; conviene destacar que era la primera que entraba en la seleccin ascendente; lo cual evidencia que el orden de entrada de las variables en ningn caso implica su grado de importancia en el modelo.

441

El modelo con todas las variables excepto la cuarta, es el que se muestra a continuacin:
Var Corte X1 X2 X3 X5 X6 Coeficiente 17942.8551 -2.8750 111.3014 -330.5757 23.5596 -15.0869 1.8641 1.6131 1.5204 1.4569 1.7662 -1.5424 68.9997 -217.4230 16.1707 -8.5422 p=0.1300 p=0.0000 p=0.0000 p=0.0000 p=0.0000 Error Est. Estadstico t Significac.

Tabla 6.14: Parmetros del modelo de regresin.

En el paso nmero 2 se elimina la variable 1. La prueba de significacin y los parmetros para el modelo de regresin resultante son:
Var Corte X2 X3 X5 X6 Coeficiente 17863,4888 111,1179 -330,9589 23,3354 -15,6846 1,6331 1,5228 1,4717 1,7493 68,0394 -217,3356 15,8560 -8,9660 p=0.0000 p=0.0000 p=0.0000 p=0.0000 Error Est. Estadstico t Significac.

Tabla 6.15: Parmetros del modelo de regresin.

Ya nos salen ms variables, por lo que le modelo final es: Y= 17863,4888 + 111,1179 X2 - 330,9589 X3 + 23,3354 X5-15,6846 X5 Como puede observarse las variables implicadas en la colinealidad no desaparecen del modelo y los estimadores siguen siendo muy diferentes. aunque si tienen el mismo signo que los verdaderos coeficientes del modelo. El tanto por ciento de variaciones controladas tambin en este caso supera el 99%. pero el tratamiento de la colinealidad no es bueno.

-1-

T1 x11 ! x1n1

T2 x21 ! x2n2

Tr xr1 " ! x rnr

INTRODUCCIN AL ANLISIS DE LA VARIANZA

Jos Luis Vicente Villardn Departamento de Estadstica

-2-

ANALISIS DE LA VARIANZA
DISEO DE UNA VIA
Disponemos de r poblaciones, generalmente correspondientes a r tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1, , r) se supone que tiene distribucin normal con media i y varianza 2, comn a todos ellos, es decir se trata de poblaciones normales y homoscedsticas. De cada una de las poblaciones (o tratamientos), tomamos una muestra de tamao ni. Las observaciones obtenidas se pueden recoger en una tabla de la forma

T1 x11 ! x1n1

T2 x21 ! x2n2

Tr xr1 " ! x rnr

es decir xij es la observacin j del grupo experimental i. Llamaos x1,, xr a las medias muestrales de los grupos y media de todas las observaciones.

a la

Cuando se trata de un experimento diseado, es decir, cuando se trata de la aplicacin de r tratamientos a un conjunto de unidades experimentales, estas deben seleccionarse para que sean homogneas, de forma que no se introduzcan factores de variacin distintos del que se desea controlar. La asignacin de los tratamientos a cada una de las unidades debe hacerse al azar. Es lo que se conoce como diseo completamente al azar. El modelo matemtico subyacente a este tipo de diseo es

-3-

xij = i + ! ij xij = + ( i " ) + ! ij xij = + # i + !ij


donde i = + ! i es la cantidad que depende del tratamiento usado (descompuesta en una media global y un efecto del tratamiento) y !ij es la cantidad que depende solamente de la unidad experimental y que se identifica con el error experimental. La hiptesis de que los distintos tratamientos no producen ningn efecto (o la de que las medias de todas las poblaciones son iguales) se contrasta mediante el anlisis de la varianza de una va, comparando la variabilidad entre grupos con la variabilidad dentro de los grupos.

H0 : 1 = = r = Ha : !i, j / i " j
El anlisis de la varianza se basa en la descomposicin de la variabilidad total en dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos (variabilidad entre grupos o variabilidad explicada por el diseo) y otra parte que puede considerarse como la variabilidad intrnseca de las observaciones (variabilidad dentro de los grupos o residual).

Q = QE + QR
La variabilidad entre grupos

QE = " ni ( xi ! x ) 2
i=1
mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias entre ellos (la hiptesis nula es cierta) obtendremos variabilidades pequeas. Si, por el contrario, la

-4-

hiptesis nula es falsa, cabe esperar que la variabilidad entre grupos sea grande. La variabilidad dentro de los grupos

QR = " " ( xij ! xi )2


i=1 j=1
mide la variabilidad intrnseca de las observaciones, es decir, si el experimento est bien diseado y no se incluyen factores de variacin distintos al estudiado, debe ser error puramente aleatorio producido como resultado de la variabilidad biolgica del material experimental. El contraste del Anlisis de la varianza se basa en la comparacin de la variabilidad entre y la variabilidad dentro, rechazaremos la hiptesis nula siempre que la variabilidad entre sea grande, pero utilizando como patrn de comparacin la variabilidad dentro. Es decir, aceptaremos un efecto de los tratamientos siempre que estos produzcan mayores diferencias en las unidades experimentales que las que habra sin la aplicacin de los mismos. Antes de proceder a la comparacin hemos de dividir las sumas de cuadrados por sus correspondientes grados de libertad, relacionados con el nmero de observaciones con las que se realiza el clculo. De esta forma obtenemos los cuadrados medios o estimadores de las variabilidades. La informacin completa se resume en la tabla siguiente. Es la que se conoce como tabla de ANOVA y resume toda la informacin necesaria para realizar el correspondiente contraste.

ni

-5-

Fuente Entre

Suma de cuadrados r QE = " ni ( xi ! x ) 2 i=1

g.l. r-1

Estimador Fexp Q 2 SE = E F = exp

r !1

2 SE S2 R

Residua l Total

QR = " " ( xij ! xi )


i=1 j=1 ni

ni

n-r

2 SR =

QR n!r

Q = " " ( xij ! x )


i=1 j=1

n-1

El cociente entre la variabilidad entre y la variabilidad dentro, una vez que se han hecho comparables, sigue una distribucin F de Snedecor con r-1 y n-r grados de libertad. La distribucin nos sirve para buscar el valor a partir del cual el cociente es lo suficientemente grande como para declarar las diferencias entre grupos estadsticamente significativas. Los estimadores de los efectos de los tratamientos se estiman a partir de

! i = i " = xi " x
y la parte propia de cada observacin (o residual)

!ij = xij " " # i = xij " xi


Los residuales pueden servirnos para la validacin de las hiptesis bsicas. Recurdese que, en realidad, un anlisis de la varianza de una va es equivalente a un modelo de regresin en el que solo aparece una regresora cualitativa con r categoras (mediante las correspondientes variables ficticias). La validacin de las hiptesis bsicas puede

-6-

hacerse entonces de la misma manera que en un modelo re regresin, utilizando grficos de residuales.

COMPARACIONES POR PAREJAS


Una vez determinada la significacin de las diferencias procederemos a la comparacin de los tratamientos por parejas, es decir, a contrastar la hiptesis

H 0 : i = j H a : i ! j

para cada pareja de medias. El estadstico de contraste que utilizaremos es:

i, j

= SR

xi ! x j 1 1 + ni n j

" t N !r

que sigue Una distribucin t de Student con N-r grados de libertad. La realizacin directa de cada contraste para un nivel de significacin incrementa la probabilidad de cometer un error de tipo I para el contraste global de igualdad de todas las medias por lo que, en general, el nivel de significacin de cada contraste particular tiene que ser corregido. Si no importa el incremento en el riesgo tipo I puede realizarse directamente el contraste t de Student, asumiendo que probablemente encontraremos ms diferencias de las que se encuentran realmente en los datos. Se rechaza la hiptesis nula si el estadstico de contraste supera el valor crtico de la distribucin t de Student al nivel .
i, j exp

= SR

xi ! x j 1 1 + ni n j

> t N !r,"

o lo que es lo mismo,

-7-

xi ! x j > t N !r," SR

1 1 + ni n j

es decir, cuando la diferencia de medias supera el valor

# 1 1& + ( % t N !r," SR ni n j ' $

que se denomina diferencia significativa

mnima (lest significant difference). Por esta razn, a veces al test se le conoce como LSD. Si se est interesado en mantener el nivel de significacin global por debajo del nivel predeterminado, es necesario corregir el nivel que se utilizar en cada contraste individual de forma que al aumentar el riesgo, permanezca por debajo del fijado. La correccin consiste en utilizar para cada contraste un nivel , ms pequeo que y que resulta de dividir ste por una constante de penalizacin K.

!'=

! K

Dependiendo de los valores que tomemos para K obtendremos distintos procedimientos de contraste. TEST DE BONFERRONI K es el nmero de comparaciones posibles por parejas.

! r $ r(r ' 1) K =# & = 2 " 2%


El test de Bonferroni es el que ms penaliza de forma que, el nivel de significacin para el contraste global queda, en realidad, por debajo del fijado. Se trata entonces de un test conservador que detecta menos diferencias de las que hay realmente en los datos. TEST DE TUKEY Cuando los tamaos de muestra son todos iguales es posible utilizar como penalizacin el propio nmero de grupos r. El test de Tukey es menos conservador que el de Bonferroni.

-8-

LSD (1) (2)

Tukey (3)

Bonferroni (4)

-9-

ANALISIS DE DOS VIAS


En muchas situaciones prcticas la unidades experimentales no son homogneas por lo que conviene agruparlas en distintos conjuntos de observaciones homogneas. A tales conjuntos se les denomina bloques. Los tratamientos se aplican dentro de cada bloque siguiendo las mismas tcnicas de aleatorizacin expuestas previamente. Se procurar que los tratamientos estn representados de la misma manera en todos los bloques. Diseo en bloques al azar Supongamos que se dispone de r tratamientos a comparar y que se dividen las observaciones en s bloques con r unidades experimentales cada uno. Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de aleatorizacin. Los datos resultantes seran los siguientes

Tratamientos T1 B1 x11 Bloques ! ! Bs xs1


El modelo matemtico es ahora

Tr x1r " ! xsr

xij = ij + ! ij xij = + " i + # j + !ij


i es el efecto debido al bloque, j es el efecto debido al tratamiento y ij es el error experimental.
Donde

-10-

Obsrvese que solamente hemos sustrado del residual la parte correspondiente a los bloques. -Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos tratamientos y los bloques no producen ningn efecto se contrasta mediante el anlisis de la varianza de dos vas, comparando la variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro de los grupos. Los resultados fundamentales se resumen en la tabla siguiente. Fuente Suma de cuadrados s Entre QB = " r( xi ! x )2 Bloques i=1 g.l. s-1 Estimador Fexp Q F = 2 SB = B B s ! 1 S2 B 2 SR

Entre Tratam.

QT = " s(x j ! x )
j =1

r-1

ST =

QT FT = r ! 1 S2 T 2 SR

Residual

QR =
i=1 j=1 2 " " ( xij ! xi ! x j + x )
s r

(r-1)(s-1)

2 SR = QR (r!1)(s!1)

Total

Q = " " ( xij ! x )2


i=1 j=1

n-1

Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de

-11-

=x ! i = xi " x # j = x j " x
y la parte propia de cada observacin (o residual)

!ij = xij " xi " x j + x


Los residuales pueden servirnos para la validacin de las hiptesis bsicas de la misma manera que en el diseo de una va.

-12-

IDEAS BASICAS SOBRE EXPERIMENTOS FACTORIALES


-Definiciones generales y discusin
A cada uno de los tratamientos bsicos le denominaremos factor y a cada una de sus posibles formas (o valores) la denominaremos nivel del factor. Una combinacin de un nivel de cada uno de los factores estudiados determina un tratamiento. El experimento en el que todas las combinaciones de niveles de los factores son interesantes se denomina experimento factorial.

-Tipos de factores
-Factores cualitativos especficos. Factores susceptibles de aplicacin Factores de clasificacin -Factores cuantitativos -Factores cualitativos ordenados. -Factores cualitativos muestreados.

-13-

Efectos principales e interaccin en un experimento de dos factores. Supongamos que tenemos un experimento de dos factores A y B con cuatro niveles cada uno, y supongamos, para simplificar que no existe variacin no controlada. Factor B nivel 2 nivel 3 11 14 14 17 12 15 15 18 13 16

Factor A nivel 1 nivel 2 nivel 3 nivel 4 media

nivel 1 9 12 10 13 11

nivel 4 15 18 16 19 17

media 12.25 15.25 13.25 16.25

Tenemos varias formas de cacterizar esta tabla: a)La diferencia entre las observaciones de dos niveles cualesquiera de A es la misma para todos los niveles de B. b)La diferencia entre las observaciones de dos niveles cualesquiera de B es la misma para todos los niveles de A. c) Los efectos de los dos factores son aditivos. d) Los residuales al restar los efectos fila y columna son cero. En este caso se dice que los factores no interactuan o que sus efectos son aditivos. Si estas condiciones no se verifican decimos que hay una interaccin entre A y B. Se dice que hay interaccin cuando las diferencias entre dos niveles cualesquiera de uno de los factores dependen de los niveles del otro factor. Factor B nivel 2 nivel 3 11 14 14 17 11 14 16 19 13 16

Factor A nivel 1 nivel 2 nivel 3 nivel 4 media

nivel 1 9 12 11 12 11

nivel 4 15 18 17 18 17

media 12.25 15.25 13.25 16.25

-14-

Efectos principales: Efectos de cada uno de los niveles de los factores por separado (promediando sobre el otro factor). Interaccin: Efectos producidos por la aplicacin conjunta de los niveles de los dos factores. Grficos de interaccin
20 18 16 14 12 10 8 6 4 2 0

n1 n2 n3 n4

Efectos aditivos

20 18 16 14 12 10 8 6 4 2 0

n1 n2 n3 n4

Efectos no aditivos

-15-

Experimento factorial con dos factores de variacin y el mismo nmero de observaciones por casilla. Se dispone de un conjunto de observaciones homogneas y se asigna los tratamientos (combinacin de niveles de los dos factores) aleatoriamente a las unidades. Los datos resultantes seran los siguientes

Factor A B1 Factor B ! Bs

A1 ! x111 $ # & #! & #x & " 11t % ! ! x s11 $ # & ! & # #x & " s1t %

Ar ! x1r1 $ # & #! & #x & " 1rt % " ! ! x rs1 $ # & #! & #x & " rst %

El modelo matemtico es ahora

xijk = ij + !ijk xijk = + " i + # j + ("# )ij + ! ijk


Donde i es el efecto debido al bloque, j es el efecto debido al tratamiento, ()ij es el efecto conjunto (interaccin) y ij es el error.

-Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos factores no producen ningn efecto y de que no existe interaccin se contrastan mediante el anlisis de la varianza de dos vas con interaccin, comparando la

-16-

variabilidad entre los niveles del factor A, la variabilidad entre los niveles del factor B, y la variabilidad debida a la interaccin con la variabilidad dentro de los grupos o residual. Fuente
Filas

Suma de cuadrados s r t QF = " " " (xi ! x )2 i=1 j=1 k =1

g.l.
s-1

Columnas

QC = " " " (x j ! x )2


i=1 j=1 k =1

r-1

Interacc.

QFC =
i, j,k

(r-1)(s-1)

" (xij ! xi ! x j + x )2
s r t

Estimador Fexp 2 Q 2 SF = F SF s !1 S2 R QC S 2 2 C SC = r ! 1 S2 R 2 2 SFC SFC = 2 SR QFC

(r!1)(s!1)
2
rs(t-1)

Resid.

QR = " " " ( xijk ! xij )


i=1 j=1 k =1 r t s

2 SR = QR rs(t !1)

Total

Q = " " " (xij ! x )2


i=1 j=1 k =1

rst-1

Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de

=x ! i = xi " x
# j = x j " x

(!#ij ) = xij " xi " x j + x


y la parte propia de cada observacin (o residual)

-17-

!ij = xijk " xij


Los residuales pueden servirnos para la validacin de las hiptesis bsicas de la misma manera que en el diseo de una va.

-18-

EJEMPLO
Se est investigando cual es el efecto de tres tipos de abono sobre dos tipos de suelo. Se espera que el efecto de los distintos abonos se manifieste de forma diferente dependiendo del tipo de suelo. Para el presente estudio tomaremos dos tipos de suelo, cido y alcalino y tres tipos de abono que denotaremos con A, B y C. Tenemos as dos factores (suelo y abono) con 2 y 3 niveles respectivamente, que resultan en 6 combinaciones. Tomaremos un diseo factorial con dos factores y tres rplicas en cada una de las combinaciones de los niveles de los dos factores. La respuesta es un ndice de abundancia de una determinada especie tras la aplicacin de los distintos abonos. Los resultados se muestran en la tabla siguiente.

cido Alcalino

A 8 4 0 14 10 6

B 10 8 6 4 2 0

C 8 6 4 15 12 9

ANOVA Table for RESPUESTA DF SUELO ABONO SUELO * ABONO Residual 1 2 2 12 Sum of Squares 18,000 48,000 144,000 106,000 Mean Square 18,000 24,000 72,000 8,833 F-Value 2,038 2,717 8,151 P-Value ,1789 ,1063 ,0058 Lambda 2,038 5,434 16,302 Power ,248 ,428 ,905

Means Table for RESPUESTA Effect: SUELO * ABONO Count ACIDO, A ACIDO, B ACIDO, C ALCALINO, A ALCALINO, B ALCALINO, C 3 3 3 3 3 3 Mean 4,000 8,000 6,000 10,000 2,000 12,000 Std. Dev. 4,000 2,000 2,000 4,000 2,000 3,000 Std. Err. 2,309 1,155 1,155 2,309 1,155 1,732

-19-

Interaction Line Plot for RESPUESTA Effect: SUELO * ABONO 14 12 10 A B C

Cell Mean

8 6 4 2 0 ACIDO Cell ALCALINO

Fisher's PLSD for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 3,739 3,739 3,739 P-Value ,2664 ,2664 ,0380 S

Bonferroni/Dunn for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 4,769 4,769 4,769 P-Value ,2664 ,2664 ,0380

Comparisons in this table are not significant unless the corresponding p-value is less than ,0167. Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 4,574 4,574 4,574

-20-

ANOVA Table for RESPUESTA Split By: SUELO Cell: ACIDO DF ABONO Residual 2 6 Sum of Squares 24,000 48,000 Mean Square 12,000 8,000 F-Value 1,500 P-Value ,2963 Lambda 3,000 Power ,207

Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ACIDO Mean Diff. A, B A, C B, C -4,000 -2,000 2,000 Crit. Diff 7,087 7,087 7,087

ANOVA Table for RESPUESTA Split By: SUELO Cell: ALCALINO DF ABONO Residual 2 6 Sum of Squares 168,000 58,000 Mean Square 84,000 9,667 F-Value 8,690 P-Value ,0169 Lambda 17,379 Power ,822

Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ALCALINO Mean Diff. A, B A, C B, C 8,000 -2,000 -10,000 Crit. Diff 7,791 7,791 7,791 S S

You might also like