You are on page 1of 262

Instituto Epidemiologa de Salud Carlos III

Centro Nacional de

Roberto Pastor-Barriuso

BIOESTADSTICA
Centro Nacional de

Instituto Epidemiologa de Salud Carlos III

MINISTERIO DE ECONOMA Y COMPETITIVIDAD

Instituto de Salud Carlos III

Centro Nacional de Epidemiologa

Centro Nacional de Epidemiologa Instituto de Salud Carlos III Monforte de Lemos, 5 28029 MADRID (ESPAA) Tel.: 91 822 20 00 Fax: 91 387 78 15 http://www.isciii.es

Catlogo general de publicaciones oficiales: http://publicacionesoficiales.boe.es/ Para obtener este libro de forma gratuita en internet (formato pdf): http://publicaciones.isciii.es/

http://creativecommons.org/licenses/by-nc-sa/2.1/es/

EDITA: CENTRO NACIONAL DE EPIDEMIOLOGA Instituto de Salud Carlos III Madrid, diciembre de 2012 N.I.P.O. (en lnea): 477-11-083-3 I.S.B.N.: 978-84-695-3775-6 Imprime: Agencia Estatal Boletn Oficial del Estado. Avda. de Manoteras, 54. 28050 MADRID

BIOESTADSTICA
Roberto Pastor-Barriuso Cientfico Titular Centro Nacional de Epidemiologa, Instituto de Salud Carlos III, Madrid

Para citar este libro Pastor-Barriuso R. Bioestadstica. Madrid: Centro Nacional de Epidemiologa, Instituto de Salud Carlos III, 2012.
Este texto puede ser reproducido siempre que se cite su procedencia.

A la memoria de Carmen A Marta, Pablo, Miguel y Antonio

NDICE
1 Estadstica descriptiva 1.1 Introduccin 1.2 Medidas de tendencia central 1.2.1 Media aritmtica 1.2.2 Mediana 1.2.3 Media geomtrica 1.3 Medidas de posicin: cuantiles 1.4 Medidas de dispersin 1.4.1 Varianza y desviacin tpica 1.4.2 Rango intercuartlico 1.4.3 Coeficiente de variacin 1.5 Representaciones grficas 1.5.1 Diagrama de barras 1.5.2 Histograma y polgono de frecuencias 1.5.3 Grfico de tallo y hojas 1.5.4 Diagrama de caja 1.6 Referencias 2 Probabilidad 2.1 2.2 2.3 2.4 2.5 2.6 Introduccin Concepto y definiciones de probabilidad Probabilidad condicional e independencia de sucesos Regla de la probabilidad total Teorema de Bayes Referencias 1 1 3 3 4 5 5 6 6 7 7 8 8 9 10 11 12 13 13 14 16 18 18 20 21 21 22 24 26 29 29 31 34 36 37 39
vii

3 Variables aleatorias y distribuciones de probabilidad 3.1 Introduccin 3.2 Distribuciones de probabilidad discretas 3.2.1 Distribucin binomial 3.2.2 Distribucin de Poisson 3.2.3 Aproximacin de Poisson a la distribucin binomial 3.3 Distribuciones de probabilidad continuas 3.3.1 Distribucin normal 3.3.2 Aproximacin normal a la distribucin binomial 3.3.3 Aproximacin normal a la distribucin de Poisson 3.4 Combinacin lineal de variables aleatorias 3.5 Referencias

ndice

4 Principios de muestreo y estimacin 4.1 Introduccin 4.2 Principales tipos de muestreo probabilstico 4.2.1 Muestreo aleatorio simple 4.2.2 Muestreo sistemtico 4.2.3 Muestreo estratificado 4.2.4 Muestreo por conglomerados 4.2.5 Muestreo polietpico 4.3 Estimacin en el muestreo aleatorio simple 4.3.1 Estimacin puntual de una media poblacional 4.3.2 Error estndar de la media muestral 4.3.3 Teorema central del lmite 4.3.4 Estimacin de una proporcin poblacional 4.4 Referencias 5 Inferencia estadstica 5.1 Introduccin 5.2 Estimacin puntual 5.3 Estimacin por intervalo 5.3.1 Distribucin t de Student 5.3.2 Intervalo de confianza para una media poblacional 5.4 Contraste de hiptesis 5.4.1 Formulacin de hiptesis 5.4.2 Contraste estadstico para la media de una poblacin 5.4.3 Errores y potencia de un contraste de hiptesis 5.5 Referencias 6 Inferencia sobre medias 6.1 Introduccin 6.2 Inferencia sobre una media y varianza poblacional 6.2.1 Inferencia sobre la media de una poblacin 6.2.2 Inferencia sobre la varianza de una poblacin 6.3 Comparacin de medias en dos muestras independientes 6.3.1 Comparacin de medias en distribuciones con igual varianza 6.3.2 Contraste para la igualdad de varianzas 6.3.3 Comparacin de medias en distribuciones con distinta varianza 6.4 Comparacin de medias en dos muestras dependientes 6.5 Referencias

41 41 42 43 43 44 46 47 49 49 51 53 55 58 59 59 60 62 62 63 67 67 69 72 76 79 79 80 80 81 83 85 88 90 92 95

viii

ndice

7 Inferencia sobre proporciones 7.1 7.2 7.3 7.4 7.5 7.6 Introduccin Inferencia sobre una proporcin poblacional Comparacin de proporciones en dos muestras independientes Asociacin estadstica en una tabla de contingencia Test de tendencia en una tabla r2 Medidas de efecto en una tabla de contingencia 7.6.1 Riesgo relativo 7.6.2 Odds ratio 7.7 Comparacin de proporciones en dos muestras dependientes 7.8 Apndice: correccin por continuidad 7.9 Referencias 8 Mtodos no paramtricos 8.1 8.2 8.3 8.4 8.5 Introduccin Test de la suma de rangos de Wilcoxon Test de los rangos con signo de Wilcoxon Test exacto de Fisher Referencias

97 97 97 99 102 106 107 108 111 114 117 120 121 121 122 129 134 138 139 139 140 140 141 142 143 146 148 148 152 154 155 155 155
ix

9 Determinacin del tamao muestral 9.1 Introduccin 9.2 Tamao muestral para la estimacin de un parmetro poblacional 9.2.1 Tamao muestral para la estimacin de una media 9.2.2 Tamao muestral para la estimacin de una proporcin 9.3 Tamao muestral para la comparacin de medias 9.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes 9.3.2 Tamao muestral para la comparacin de medias en dos muestras dependientes 9.4 Tamao muestral para la comparacin de proporciones 9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras independientes 9.4.2 Tamao muestral para la comparacin de proporciones en dos muestras dependientes 9.5 Referencias 10 Correlacin y regresin lineal simple 10.1 Introduccin 10.2 Coeficiente de correlacin

ndice

10.2.1 Coeficiente de correlacin muestral de Pearson 10.2.2 Coeficiente de correlacin de los rangos de Spearman 10.3 Regresin lineal simple 10.3.1 Estimacin de la recta de regresin 10.3.2 Contraste del modelo de regresin lineal simple 10.3.3 Inferencia sobre los parmetros de la recta de regresin 10.3.4 Bandas de confianza y prediccin para la recta de regresin 10.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple 10.3.6 Observaciones atpicas e influyentes 10.3.7 Variable explicativa dicotmica 10.4 Referencias 11 Regresin lineal mltiple 11.1 Introduccin 11.2 Estructura de la regresin lineal mltiple 11.3 Estimacin e inferencia de la ecuacin de regresin 11.3.1 Estimacin de los coeficientes de regresin 11.3.2 Inferencia sobre los coeficientes de regresin 11.3.3 Inferencia sobre la ecuacin de regresin 11.4 Contrastes de hiptesis en regresin lineal mltiple 11.4.1 Contraste global del modelo de regresin lineal mltiple 11.4.2 Contrastes parciales 11.5 Variables explicativas politmicas 11.6 Regresin polinomial 11.7 Confusin e interaccin en regresin lineal 11.7.1 Control de la confusin en regresin lineal 11.7.2 Evaluacin de la interaccin en regresin lineal 11.8 Apndice: formulacin matricial de la regresin lineal mltiple 11.9 Referencias Apndice: tablas estadsticas

158 161 164 166 169 173 175 178 184 190 191 193 193 194 196 197 200 201 203 203 206 210 215 218 218 221 228 232 233

TEMA 1 ESTADSTICA DESCRIPTIVA


1.1 INTRODUCCIN

La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos. En estadstica se distinguen dos grandes grupos de tcnicas: y La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin, presentacin y resumen de los datos obtenidos. y La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los resultados obtenidos en una muestra. El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias. A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo largo de la exposicin: y Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno. y Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de estas poblaciones. Ejemplo 1.1 Algunos ejemplos de poblaciones son: Las personas residentes en Washington D.C. a 1 de enero de 2010. Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a da de hoy.

Pastor-Barriuso R.

Estadstica descriptiva

Para estas poblaciones, algunas muestras podran ser: 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante llamadas telefnicas aleatorias. Todas las personas que acuden a un hospital de Ro de Janeiro durante el presente ao para realizarse un test del virus de inmunodeficiencia humana y que resultan ser positivas. y Variables son propiedades o cualidades que presentan los elementos de una poblacin. Las variables pueden clasificarse en: Variables cualitativas o atributos son aquellas que no pueden medirse numricamente y que, a su vez, pueden ser: Nominales, en las que no pueden ordenarse las diferentes categoras. Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse la distancia relativa entre las mismas. Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se subdividen en: Discretas, slo pueden tomar unos valores concretos dentro de un intervalo. Continuas, pueden tomar cualquier valor dentro de un intervalo. En la prctica, todas las variables continuas que medimos son discretas en el sentido de que, debido a las limitaciones de los sistemas de medida, las variables continuas no pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores, la principal distincin se establece, por tanto, entre variables con relativamente pocas categoras (como nmero de hijos) frente a variables con muchas categoras (como niveles de colesterol en sangre). Ejemplo 1.2 Algunos ejemplos de variables son: Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo, separado, divorciado), religin (catlico, protestante, otros), nacionalidad. Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad de la enfermedad (leve, moderada, grave). Por ejemplo, para esta ltima variable ordinal, podemos establecer un orden de severidad, pero no podemos decir que la diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre uno grave y uno moderado. Variables cuantitativas discretas: nmero de hijos, nmero de dientes cariados. Variables cuantitativas continuas: edad, peso, altura, presin arterial, niveles de colesterol en sangre. y Estadstico es cualquier operacin realizada sobre los valores de una variable. y Parmetro es un valor de la poblacin sobre el que se desea realizar inferencias a partir de estadsticos obtenidos de la muestra, que en este caso se denominan estimadores. Por convencin, los parmetros poblacionales se denotan con letras del alfabeto griego, mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.

Pastor-Barriuso R.

alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parmetros poblacionales correspondientes. A Ejemplo 1.3 Algunos ejemplos de estadsticos incluyen: 1.2 MEDIDAS DE TENDENCIA CENTRAL La media de continuacin se describen los principales estimadores de la tendencia central de una los valores de colesterol de una muestra. El valor ms variable. alto central informan acerca de Las medidas de tendenciade colesterol de una muestra. cul es el valor ms representativo La suma de los valores de colesterol de una muestra elevados al cuadrado.
Medidas de tendencia central

de una determinada variable o, dicho de forma equivalente, estos estimadores indican

As, por ejemplo, la media del colesterol en una poblacin, que se denotara por , es un 1.2.1 Media aritmtica parmetro que se estima a partir de la media de los valores de colesterol en una muestra 1.2 MEDIDAS valor se agrupan CENTRAL alrededor de quDE TENDENCIAlos representara por x ., Las medidas dela suma de cada uno de los La media que se datos observados. se define como tendencia obtenida de esa poblacin,aritmtica, denotada por Las medidas detema, se revisan las herramientas fundamentalesel observados como un anlisis central de la muestra valores tanto informan acerca deel nmero de observaciones realizadas. Si denotamos sirven muestrales dividida por cul es para la ms representativo En el presente tendencia central para resumir los resultados valorrealizacin de para descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia de una determinada variable los mediante la yequivalente, estos estimadores el A central, inferencias acerca deo, dicho de formapoblacionales correspondientes. sujeto realizarposicin y dispersinel tamao muestralutilizacin de representaciones grficas. i-simo, i = 1, ..., n, por n como parmetros por xi el valor observado para indican alrededor de qu valor media vendra datospor la se los principales observados. Las tendencia central de continuacin se describenagrupan los dada estimadores de lamedidas de tendencia una 1.2 MEDIDAS DE TENDENCIA CENTRAL central de la muestra sirven tanto para resumir los resultados observados como para variable. n x Las medidas de tendencia central informan acerca de = 1 es x = x1 +ms+ ... + x n . x cul el valor 2 representativo de una i determinada variable acerca de los parmetros poblacionales correspondientes. A realizar inferencias o, dicho de forma equivalente, estos iestimadores indican alrededor de qu n =1 n valor Media aritmtica 1.2.1 se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como parala tendencia central de una de los continuacin se describen los principales estimadores de realizar inferencias acerca La media es la medida tendencia central ms utilizada principales parmetros poblacionales correspondientes. Ade como la suma describen de y de ms fcil La media aritmtica, denotada por x , se definecontinuacin sede cada unolos los estimadores de la tendencia central de una variable. variable. interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

1.2.1 Media aritmtica principal limitacin es que est muy influenciada por los valores extremos y, en este 1.2.1 Media aritmtica

La media aritmtica, denotada por ser un fiel reflejo la lasuma cada uno de los distribucin. denotada La media aritmtica, caso, puede nox ,, se define como de suma dede cada unode lalos valores define como la tendencia central de muestrales dividida por el nmero de observaciones realizadas. Si denotamos por n el tamao la media vendra dada por valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, la media vendra dada por Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se n x por n el tamao muestral y por =i 1 valor = x1 + x 2 + ... +el n . x x el x i observado para sujeto i-simo, i = 1, ..., n, utilizarni =1 valores del n colesterol HDL obtenidos en los 10 primeros sujetos del n los la media vendra dada por La media es la medida de tendencia central ms on Antioxidants, Myocardial Infarction and Cancer of estudio European Study utilizada y de ms fcil interpretacin. Corresponde al centro de gravedad de los datos ms utilizada y de ms fcil La media es la medida de tendencia central de la muestra. Su principal limitacin es que x x 1 n est muy influenciada por los valores extremos + x 2 + ... + estudio multicntricofiel casos yde la thexBreast x i = 1 y, en este caso, puede no ser un de reflejo controles realizado = (EURAMIC), un n . tendencia central de la distribucin. i =1 n n interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su Ejemplo 1.4 el este en los sucesivos ejemplos valores extremos principal limitacin En que est muy influenciada utilizada y de estimadores y, en en antioxidantes medida dey de desarrollar un primer los sobre ms fcil muestrales, se La media es laen es riesgotendencia central ms por infarto agudo de miocardio este

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio hombresno Studyfiel reflejo obtenidos fueron 0,89, de la distribucin. of the caso, EuropeanCorresponde al centro deMyocardial de los datosandla muestra. Su Breast puede adultos. on Antioxidants, gravedad Infarction de Cancer interpretacin. ser unLos valores de la tendencia central1,58, 0,79, 1,29, 1,42, 0,84, (EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992 en ocho pases para evaluar el en 1,06, limitacinEuropeos e Israelinfluenciada por efecto de los antioxidantes en el riesgo principal0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL este es que est muy los valores extremos y, en de desarrollar En este y en los sucesivos ejemplos sobrehombres adultos. Los valores Ejemplo 1.4 un primer infarto agudo de miocardio en estimadores muestrales, se obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La caso, puede participantes es estos 10 no ser un fiel reflejo de la tendencia central de la distribucin. media de los niveles del colesterol HDL en estos 10 participantes es

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
10 0 89 + 1,58 ejemplos Ejemplo 1.4 x = este y x los ,sucesivos + ... + 1,53sobre estimadores and Cancer En 1 = 1,223 mmol/l. estudio European Study = Antioxidants, Myocardial Infarctionmuestrales, seof en on i 10 i =1 10

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado


estudio European Study on Antioxidants, Myocardial Pastor-Barriuso R. La media aritmtica presenta las siguientes propiedades: Infarction and Cancer of entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

the Breast (EURAMIC), un estudio multicntrico de a cada uno de los datos Cambio de origen (traslacin). Si se suma una constantecasos y controles realizado

i 1,06, 0,87,MEDIDAS DE TENDENCIAde 10 niveles del colesterol HDL en 1,96 una determinada variable o, dicho los de y 1,53 mmol/l. La media CENTRAL de miocardio en 10 i =1 antioxidantes 1.2 el riesgorealizar inferencias acercainfarto de forma equivalente, estos estimadores indican en de desarrollar un primer de los agudo parmetros poblacionales correspondientes. A

estos 10 participantes es qu valor se agrupan los alrededor de hombres adultos. Los valores tendencia central 0,89, 1,58, datos observados. Las medidas de tendenciade una 0,79, de cul es 0,84, Estadstica descriptiva Las medidas de obtenidos fueron informan acerca 1,29, 1,42,el valorla tendencia central continuacin se describen los principales estimadores de ms representativo La media aritmtica presenta las siguientes propiedades: central1de10 La media sirven tanto para colesterol resultados observados como 1,06, 0,87, 1,96 y 1,53 mmol/l.la muestra de1,58 + ... + 1,53 resumir losHDL en estimadores indican para de una determinada variable+ los niveles del = equivalente, estos variable.i = 0,89 o, dicho de x origen (traslacin). Si se sumaforma 1,223 mmol/l. uno de los datos x Cambio de = una constante a cada 10 i =1 10 La media aritmtica presenta las siguientes propiedades: realizar inferencias acerca de los parmetros poblacionales correspondientes. A estos 10 participantes es qu valor se agrupan los datos observados. Las medidas de tendencia alrededor de y Cambio demedia aritmtica Si se suma una constante a cada uno de la de una muestra, laMedia de la muestra resultante es igual a la media inicial ms los datos de una 1.2.1 origen (traslacin). muestra, la se describen los principales estimadores de media inicial ms la una continuacinmedia de la muestra resultante es igual a lala tendencia central de constante La mediacentral de la muestra+ 1,58 +tanto1para resumir los resultados observados como para aritmtica presenta las siguientes ,propiedades: 1 10 La media sirven + c, 53 ,89 c constante x i = 0si si iy==xxi+ ...,+ denotada y = mmol/l.Un cambio de suma de cada se realiza con utilizada; se define como de origen que i i x = utilizada; y aritmtica,entonces por x ,+ c. Un cambiola origen que uno de los = 1,223 + c. 10 i =1 10 frecuencia variable. es el centrado de la variable, que consiste en restar a cada valor de la muestra Cambio de origen (traslacin). Side los parmetros poblacionales correspondientes. A realizar inferencias acerca se suma una constante a cada uno de los datos su media. Lamuestralesuna variable centrada ser, por tanto, igual a 0. valores media de dividida por variable, de consiste en restar a se realiza con frecuencia es el centrado de lael nmeroqueobservaciones realizadas. Si denotamos

y 1.2.1 media aritmtica Cambio describen los principales estimadores de la tendencia datos de unacontinuacin sede escalamuestra resultante multiplica la media inicial ms la de una muestra por muestra, la Media de la (unidades). Si se es igual a cada uno de loscentral de una media aritmtica presenta la muestra su media. La y por xide una variable centrada el sujeto i-simo, i = 1, ..., n, por el tamao muestral media el valor observado la media por cada valor de lasnsiguientes propiedades: una constante, la media de la muestra resultante es igual a para ser,inicial por la constante utilizada; constante utilizada; si ysi=yx=+ ci,, entonces yporcx .,+se .define comode origende cada uno de los La denotada = variable. media aritmtica,entonces = x c Un cambio la suma que i i cx Cambio de origen (traslacin). iSi se suma dadaconstante a cada uno de los datos tanto, igual ala media vendra una por 0. y Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de una valores por es el constante por variable, le suma otrams se realiza conmuestra la muestra resultanteal resultado sede consiste enconstante, frecuencia una la igual restar a de una muestra, la media de muestrales divididaymultiplicaa laque observaciones la unala media de la muestra 1.2.1 Media aritmticacentrado de es el nmero mediade los datos realizadas. Si denotamos Cambio de escala (unidades). Si se cada uno x inicial+ ... +de n xn resultante es igual a la media inicial = 1 la primera+ x 2 por . x valor x = 1 constante, ms la segunda constante; si n el + c , entonces y = tamao muestral y el i cada valor deporiaritmtica, denotada porpor+xdedefine=1observado para ser, por i-simo, i = 1, ..., n, la=muestra ,su media. La= cxx , seeluna variable laorigen de cada uno de los media c. Un n i decentradaque sujeto + c . cambio constante utilizada; sii y =1xii + c2 entonces media1 de la2muestra resultante esnigual a la media La media una suma i como muestraypor c constante, la

tanto, igual alamuestrales dividida transformar los valores del colesterol HDL denotamos 0.media vendra dada por se realiza convalores Ejemplo centrado depor variable, tendencia central ms utilizada Side mmol/l a mg/dl se frecuencia constante Parala la si yi = cxque observaciones realizadas. y de ms fcil inicial por laes el 1.5 utilizada; el nmero deconsisteyen restar a La media es medida de i, entonces = c x . multiplica por el factor de conversin 38,8. As, utilizando la propiedad del cambio de Cambio de escala (unidades). Si se multiplica cada uno de los datos de una n sujeto tamao muestral yCorrespondeHDL encentrada ser,+ x n los datos de muestra. Su x para el uno de cada valor de por n elescala,media. La delpor escala. Sialobservado+ gravedad de i-simo, i de1, ..., partir de su la muestra su la media media xi el valorse multiplicaxse+calcularalos datos = la a n, interpretacin. colesterol 1 x i mg/dl cada... por . directamente Cambio simultneo de origen y de una variable = 1 x = centro de 2 media en mmol/l como 1,22338,8i == 47,45 mg/dl. n 1 muestra por una constante, lapor de la muestra resultante esn igual a la media vendra dada media y es resultadomuy influenciada porla mediamedia tanto, igual auna muestra principalconstante al que est se le suma otra constante, la 0. los valores extremos y, en este por una limitacin . inicial por la constante utilizada; si yi =de tendencia central ms utilizada y de ms fcil 1.2.2 Mediana es la medida cxi, entonces y = c x de una La Cambio de escala muestra media se multiplicaacada reflejo de x datos +primera constante, ms la caso, puede es igual 1 n uno de loslapor la x n central de la distribucin. fiel de la (unidades). Si resultante no ser un la media inicial2 tendencia x1 + + ... . x = xi = La mediana es origen y de un variable que deja por encima el 50% dede datos de la muestra el valor n =1 multiplica igual a la media n interpretacin. Corresponde i secentro de gravedad de los datos los Cambio simultneo de media de escala. Si alresultante escada uno de los datos de la muestra. Su muestra por una constante, lael otroi = cla imuestra segunda constante; si y 50%. + c2, entonces la mediana,ces necesario ordenar los valores de la 1x Para calcular y = c1 x + 2. y por debajo Ejemplo 1.4 En el tamaolos sucesivoses impar, la mediana viene dada por el se ejemplos muestra unamenor a mayor.que este y en muestral constante, lasobre estimadores muestrales, de principal limitacin al Si est y c x . es una muestra media esconstante y cx resultado se le suma otra n inicial por la constante utilizada; si yi = dei,tendenciamuy=influenciada por los valores extremos y, en este La por + 1)/2-simo. Si nentonces la mediana utilizada y de ms fcil la medida central ms viene dada por media valor (n es par, la media aritmtica de los valores del Ejemploresultantetransformarfiel reflejodel colesterol HDLla medianadistribucin. influenciadadel 1.5 Para utilizarn losmedia inicial colesterol de obtenidos es que no est mmol/l la valores (n/2) y (n/2igualunlalos valoresde laporventaja HDL dede la enalos 10 primeros sujetos + 1)-simos. La principal la primera constante, msmg/dl se no tendencia central de la muestracaso, puedees ser a al interpretacin. Corresponde No obstante, se utiliza menos de la media como Cambio simultneo los origen y escala. Si se centro de cada uno de los datosque la muestra. Su medida de por de valores extremos. multiplica gravedad de los datos de multiplica por si y estudio European Study As, utilizando la Myocardial Infarction and Cancer of 38,8. on Antioxidants, complejo. = c + c , entonces y = c1 x + c . segundatendencia central porque 2su tratamiento estadstico los mspropiedad del y, en este constante; el factorxde conversin influenciada por es principal limitacin es ique est se en los otra constante, valores extremos una muestra por una constantei y al11.4 En este yle sumasucesivos2ejemplos sobre estimadores muestrales, se resultado muy la media Ejemplo the Breast colesterol HDL estudio multicntrico realizado cambio de escala, 1.6media del(EURAMIC), unen del colesterol HDLde casos y controlesestudio Ejemplo la Para obtener la mediana mg/dl se calculara en la muestra del de la muestra caso, puede no ser un fiel reflejo de lacolesterol HDL obtenidos en la 10 primeros sujetos del resultante esutilizarn los valores delpor la primera constante,distribucin. igual a la media inicial tendencia central de la ms los EURAMIC, se los valores del colesterol valores mmol/l a a mayor; 0,79, Ejemplo 1.5 Para transformarordena en primer lugar losHDL de de menor mg/dl se esto es,efecto 0,84, entre su media en de los directamente a0,89, 1,06, 1,29, 1992 mmol/l como1,96 mmol/l. Como para evaluar el partir de 1991 y 1,42, en ocho pases Europeos = 47,45 mg/dl. 1,22338,8 e Israel el tamao muestral es par 0,87, 1,53, 1,58 y c1xi + c , entonces Study x Antioxidants, Myocardial Infarction and Cancer of segunda constante; si yi = estudio 2European y = c1on + c2. multiplica por(n = 10), la En este yserlos media de los dos valores centrales (en este caso, el se y el 6), el factor de conversin la sucesivos ejemplos propiedad del Ejemplo 1.4 mediana en 38,8. As, utilizando la sobre estimadores muestrales, 5 que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l. 5 6 the Breast colesterol HDL estudio se calculara realizado cambio de escala, la media del (EURAMIC), unen mg/dl multicntrico de casos y controles del utilizarn los valores del colesterol HDL de mmol/l a los 10 primeros sujetos Ejemplo 1.5 Para transformarlos valores del colesterol HDL obtenidos en mg/dl se Comparacin de la media aritmtica y la mediana. En las distribuciones simtricas 1992 en son semejantes), la e Europeos media para evaluar el efecto (ambas de entre la distribucinocho pasesla Myocardial Infarction directamente a colas de1991 y38,8. mmol/l como 1,22338,8 = Israel mg/dl. and Cancer of de los estudioconversin Study on utilizando European multiplica por el factorpartir de su media en As, Antioxidants,propiedad47,45 es aproximadamente igual a la del mediana. En distribuciones sesgadas positivamente (la cola superior de la distribucin es mayor que the Breast (EURAMIC), un a ser mayor que la mediana; mientras que en distribuciones 5 cambio de escala, lala inferior),colesterol HDL en mg/dl se calculara de casos y controles realizado media del la media tiende estudio multicntrico 6 sesgadas negativamente (la cola inferior de la distribucin es mayor que la superior), la media tiende a ser menor que en mediana. LaEuropeos la media entre 1991 y 1992 la ocho pases comparacin de mg/dl. y la mediana permite evaluar, 47,45 directamente a partir de su media en mmol/l como 1,22338,8 = e Israel para evaluar el efecto de los por tanto, la asimetra de una distribucin.
6 Ejemplo 1.7 En la muestra del estudio EURAMIC la media del colesterol 5 HDL es ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente simtrica con un leve sesgo positivo.
4 Pastor-Barriuso R.

consecuencia, la distribucin dex 10 nvalores... xcolesterol HDL es x G = estos = x1 x 2 del n . i i =1 aproximadamente simtrica con un leve sesgo positivo. Medidas de posicin: cuantiles 1.2.3 Media geomtrica En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en La media geomtrica, denotada por xG , se define como la raz n-sima del producto de 1.2.3 Media geomtrica 1.2.3 primero el logaritmo calcular Media geomtrica de cada valor muestral, hallar a continuacin la media de

los valores geomtrica, denotada media de una muestra de tamao ,, define como la raz n-sima del producto Lalogaritmos y deshacer finalmente x n, se define como la raz n-sima del producto losLamedia geomtrica, denotada por laGtransformacin logartmica. Para calcular losdede los valores de una muestra de tamao n, los valores puede usar cualquier base, 1 / n logaritmos se de una muestra de tamao n,siempre y cuando el logaritmo y el n x G = x i = n x1 x 2 ... x n . Notar / n antilogaritmo estn en la misma base.i =1 1que la media geomtrica slo puede n En la prctica, la forma ms x G = dei = n x1 x 2media ngeomtrica consiste en calcular sencilla x calcular la ... x . =1 emplearseel logaritmo de cada valor muestral, hallar a mediaque toman valores positivos. medida ms sencilla de calcular la continuacin la media de los logaritmos y primero comola forma de tendencia icentral en variables geomtrica consiste en En la prctica, deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar cualquier base, siempre cuando cada valor muestral, hallar a continuacin laen calcular primerola formayms sencilla de calcular la media geomtrica en la misma base. Notar En la prctica, el logaritmo de el logaritmo y el antilogaritmo estn consiste media de Ejemplo 1.8 Para calcular la media geomtrica medida de tendencia central en variables que la media geomtrica slo puede emplearse como del colesterol HDL en la muestra que toman valoresel logaritmo de cada valor muestral, hallar a continuacin la media de los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los calcular primero positivos. del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los Ejemplo y deshacer finalmente la siempre y cuando el logaritmo calcular los los logaritmos1.8 usar calcular la media geomtrica logartmica. Para y en logaritmos se puede Para cualquier base,transformacin del colesterol HDL el la muestra del valores yEURAMIC, se halla primero el logaritmo natural de cada uno de los valores y a su media estudio a continuacin se calculade estos 10aritmtica, colesterol HDL es consecuencia, la distribucin valores del continuacin en la cualquier base, siempre y media el logaritmo y el logaritmos seestnse usarmismamedia Notar que la cuandogeomtrica slo puede puede calcula su base. aritmtica, antilogaritmo aproximadamente simtrica con un leve 0,89) + ... + log(1,53) log( sesgo positivo. 1 10 log x = base. Notar en la media que toman valores positivos. antilogaritmo estn en ladeGtendencia centralque variablesgeomtrica slo puede misma log x i = emplearse como medida 10 i =1 10 0,117 + ... + en variables que toman valores positivos. emplearse como medida de tendencia central 0,425 = 0,155. 1.2.3 Media geomtrica= 10 Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra
Lamedia geomtrica, es, por tanto, x geomtrica como la raz n-sima del producto media 1.8 Para calcular exp(0,155) colesterol LaEjemplo geomtrica denotadamedia G ,=se define del = 1,168 mmol/l. en la muestra de por del estudio EURAMIC, se la halla primero el logaritmo naturalHDL de cada uno de los La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l. Al igualestudio mediana, la media geomtricael logaritmo natural de cada uno de los para los valores la EURAMIC, se halla primero es til como medida de tendencia central del que de una muestra de tamao n, valores a continuacin se calcula su media aritmtica, variables muyyasimtricas, en las que un pequeo grupo de observaciones extremas tienen una excesiva influencia sobre la la media geomtrica/media geomtrica tiene la ventaja adicional de valores la continuacin se calcula su La es aritmtica, Al igual que y amediana, media aritmtica. media til como medida de tendencia 1 n n presentar un tratamiento estadstico ms sencillo quen,89) + ... + log(1,53) 1 10= x log(0la mediana. . log xG = x G log x i i= = x1 x 2 ... x n central para variables muy asimtricas, en=las que un,89) + 10+grupo53) observaciones 10 i10 i 1 log(0 pequeo log(1, de ... 1 =1 log x G = log x i = 0CUANTILES ,i117 + ... + 0,425 10 1.3 MEDIDAS DE POSICIN: =1 = 10 = 0,155. extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica En la prctica, la forma ms sencilla + ...calcular la media geomtrica consiste en de + 0,425 0,117 10 = = 0,155. Los cuantiles indican la posicin relativa de una observacin con respecto al resto de la muestra. 8 10 calcular primero el logaritmo de cada valor muestral, A continuacin se describen los cuantiles ms utilizados: hallar a continuacin la media de La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l. y Percentiles son los valores de una variable que dejan un determinado porcentaje de los los logaritmos y deshacer finalmente laGtransformacin= 1,168 mmol/l. calcular los La media geomtrica es, por tanto, x = exp(0,155) logartmica. Para datos por debajo de ellos. As, por ejemplo, el percentil 10 es el valor superior al 10% de las observaciones, pero inferior al 90% restante. como medida de tendencia Allogaritmos se mediana, lacualquier base, siempre yLa mediana corresponde, por tanto, al igual que la puede usar media geomtrica es tilcuando el logaritmo y el percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el Al igual que la mediana, la media geomtrica es til como medida de tendencia percentil p-simo se define como: antilogaritmo estn en asimtricas, en las que un pequeo grupo de slo puede central para variables muy la misma base. Notar que la media geomtrica observaciones

para variables muy asimtricas, en las las un pequeo grupo de y (np/100 + 1)-simas. centralSi np/100 es un nmero entero, la media deque observaciones (np/100)observaciones emplearse una medida influencia sobre la media aritmtica. La media geomtrica variables toman valores positivos. extremas tienencomoexcesivade tendencia central enk-simo deque muestra, siendo k el menor Si np/100 no es un nmero entero, el valor la extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica entero superior a np/100. 8 Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra y Deciles, corresponden a los percentiles 10, 20, ..., 90. Los deciles se utilizan para dividir 8 la muestra en 10 grupos de igual tamao. del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los y Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos de igual tamao. valores y a continuacin se calcula su media aritmtica, log(0,89) + ... + log(1,53) 1 10 log x G = log x i = 10 i =1 10 0,117 + ... + 0,425
Pastor-Barriuso R. 5

mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,
Estadstica descriptiva

el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

y Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de Es importante recordar que, para calcular cuantiles, los valores de la muestra deben igual tamao. y Terciles, corresponden a los el tamao 33,3 y 66,7, y dividen forma ms rpida de estar previamente ordenados. Sipercentiles muestral es grande, la la muestra en 3 grupos de igual tamao. obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79, 0,84, adelante). 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un nmero entero para p = 10, el percentil 10 es la media de la primera y segunda observacin, que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 1.4 MEDIDAS DE DISPERSIN 25, el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

Las medidas de dispersin indican el grado de variabilidad de los datos y se Es TENDENCIA CENTRAL 1.2 MEDIDAS DE importante recordar que, para calcular cuantiles, los valores de la muestra deben estar previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de obtener los complementan con las medidas de tendencia de tallo y la descripcin de una muestra. cuantiles manualmente es realizando un grfico central enhojas (ver ms adelante). Las medidas de tendencia central informan acerca de cul es el valor ms representativo En este apartado se presentan las principales medidas de dispersin. de una determinadaMEDIDAS dicho de forma equivalente, estos estimadores indican 1.4 variable o, DE DISPERSIN
1.4.1 Varianza y desviacin tpica Las medidas de dispersin indican el grado de medidas de tendencia alrededor de qu valor se agrupan los datos observados. Lasvariabilidad de los datos y se complementan con las medidas de tendencia central en la descripcin de una muestra. En este apartado se presentan La varianza medidas resumir por 2 las principales tanto paradenotadalos resultados observados suma de los central de la muestra sirvenmuestral, de dispersin. s , se define como lacomo para cuadrados de las

diferencias de los parmetros poblacionales su media, dividida realizar inferencias acerca entre cada valor de la muestra ycorrespondientes. A por el tamao muestral 1.4.1 Varianza y desviacin tpica menos 1, continuacin La describenmuestral, denotada por s2, se definetendencia central los una se varianza los principales estimadores de la como la suma de de cuadrados de las diferencias entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1, variable. media, el nmero de valores independientes de la muestra (denominado grados de 1 n 1 n 2 ( xi x ) 2 = s2 = x i nx 2 . n 1 i =1 n 1 i =1 libertad) 1.2.1 Media aritmtica para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el

Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de valor restante se deduciramayor ser varianza s . Notar que los formal para esta La media aritmtica, denotada(xi x ),2 secuanto ms lala suma de 2cada uno de las desviaciones de cada valor las desviaciones por y automticamente). Una justificacin ms Como puede apreciarse, define como dispersos estn los datos, mayores sern los respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones definicin de la el nmero de media) 2Tema 5. en positivas (valoresvarianza se aporta - xelconmayor ser laSi denotamosNotar la media). Cabe valores muestrales dividida por superiores a laobservaciones realizadas. (valores inferiores aque las ) y las negativas varianza s2. cuadrados de las desviaciones (xi destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n. La debe muestral es difcil de la por n el tamao muestral y por xi el valor observadointerpretar como medida=cuadradoindependientes de la Esto sevarianza que, una vez respecto de la el sujeto i-simo, al de dispersin, ya que sus se desviacionesade cada valor calculadaparamedia, el nmero i 1, ..., n, para evitar que media se elevan de valores muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la unidades valores, variable original al cuadrado. La medida la media vendra dada n sonlas desviaciones positivas se deducira automticamente). Una justificacin ms media y por 1 las de la el valor restante (valores superiores a la de dispersin ms compensen media) con las negativas formal para esta definicin de la varianza se aporta en el Tema 5. utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz (valores inferiores a nlaes difcil de2interpretar como medida deen la frmula de lasus unidades x + x + destacar tambin que, dispersin, ya que varianza 1 La varianza muestral media). Cabe... + x n . x = xi = 1 son las de la variable original al cuadrado. La medida de dispersin ms utilizada es la desviacin n i =1 n cuadrada de la varianza muestral, el denominador s, n - se define como Esto cuadrada de la varianza tpica o desviacin estndar es que 1 en lugar de n.la razse debe a que, una vez calculada la

10 La media es la medida de tendencia central ms utilizada y de ms fcil 1 n 2 s= ( xi x ) n 1 i =1 interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media, principal limitacin consecuencia, presenta las mismasvalores muy extremos (gran desviacinigual que de la la desviacin tpica estinfluenciada por los valores extremos y, en este y, en es que est muy influenciada por unidades que la variable original. Al respecto
caso, puede no ser un fiel reflejo de la tpica est central de la distribucin.muy extremos (gran la media, la desviacin tendencia influenciada por valores
6 Pastor-Barriuso R.

desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global de los datos. realizar inferencias acerca de los parmetros poblacionales correspondientes. A buen reflejo de la dispersin global de los datos.

Ejemplo 1.10 Conocida la media del colesterol tendencia central de una continuacin se describen los principales estimadores de laHDL en los 10 primeros Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros mbio de origen (traslacin). Si se suma estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada variable. participantes del una constante a cada uno de los datos media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global participantes del estudio no cambian; x 1,223 mmol/l, la varianza vendra dada de los datos. na muestra, la varianza y la desviacin tpica EURAMIC, si y== xi + c, i por 1.2.1 Media aritmtica por 2 2 nces s y = s x y sy = sEjemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros participantes x. La media aritmtica, denotada 10 x , se define,89 1,la varianza + (1,53 dadalos2 mmol/l, suma ... vendra ,223) del estudio EURAMIC, = 1,223 (0 como 223) 2 + de cada uno1de por 1 por s 2 = ( xi x ) 2 = 2 9i 9 (0, datos de una+ ... + (1,53 ,223) 2 1 10 cada mbio de escala (unidades). Si se multiplica=1 ( x x ) 2de los89 1,223) realizadas. Si1denotamos valores muestrales dividida por el nmero de observaciones s 2 = i uno = 0 9 ,111 + ... + 0,094 9 DE TENDENCIA CENTRAL = i =1 = 0,156 (mmol/l) 2 stra por una constante, la varianza resultante es igual a la varianza inicial pori-simo, i = 1, ..., n, 9 por n el tamao muestral y por xi el ... + 0,observado para el sujeto 0,111 + valor 094 = = 0,156 (mmol/l) 2 9 tendencia cuadrado y la desviacinde cul es el valor desviacin tpica central vendra acerca onstante alla mediainformandada por tpica es igual a lams representativo y la desviacin y la desviacin tpica por s = 0,156 = 0,395 mmol/l. 2 2 nada variableconstante; siforma equivalente,sestos 2 s0,156 = csx. Unmmol/l. ial por dicha o, dicho la desviacin tpica porns = estimadores indican y de yi = cxi, entonces y = c x y sy = 0,395 cambio x 2 + ... + x Algunas propiedadesx = la varianza 1y+ xdesviacin .tpica son: de 1 xi = delatendencia n tpica son: valor se agrupan los datos observados. Las varianza y la desviacin n =1 n Algunas propiedades de la imedidas scala que se realiza con frecuencia es (traslacin).de se suma una constanteuna uno de los datos de una muestra, y Cambio de origen la divisin Si todos los valores de a cada Algunas propiedades de la varianza ycambian; si yi = tpica son: la varianza y la desviacin tpica no la desviacin x + c, entonces sy2 = sx2 y sy = sx. uestra sirven tanto para resumir los resultados observados como para i stra por su desviacin tpica. La desviacin tpicacentral ms utilizada y de ms fcil La media es la medida de (unidades).de la variable resultante de los datos de una muestra por y Cambio de escala tendencia Si se multiplica cada uno una constante, la varianza resultante es A cias acerca de los parmetros poblacionales correspondientes. igual a la varianza inicial por la constante al , por tanto, igual a 1. interpretacin. Corresponde al centro de gravedadla desviacinde la muestra.por dicha constante; cuadrado y la desviacin tpica es igual a de los datos tpica inicial Su 11 si yi = cxi, entonces sy = tendencia central de una e describen los principales estimadores de2la c2 sx2 y sy = csx. Un cambio de escala que se realiza con frecuencia edades delprincipalde origen y es que se emplean para la estandarizacin de extremos y, en este cambio limitacin escala est muy influenciada por los valores 11 es la divisin de todos los valores de una muestra por su desviacin tpica. La desviacin tpica de la variable resultante ser, por tanto, igual a 1. que consiste en puede no ser un fiel reflejo de la tendencia central de la distribucin. caso, restarle a los valores de una variable su media y dividirlos por Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables, que consiste en restarle a los valores de una y desviacin itmtica cin tpica. La variable estandarizada resultante tiene media 0variable su media y dividirlos por su desviacin 1.2tpica. La 1.4 DE este y en los sucesivos ejemplosmedia 0 y desviacin tpica 1; es decir, si zi = MEDIDAS En TENDENCIA CENTRAL Ejemplo variable estandarizada resultante tiene sobre estimadores muestrales, se tica, denotada (xi- )/sxx,, entonces = 0 suma de , define como 0 y s = 1. s decir, si zi = (xpor xx)/sse entonces z = la y szz = 1. cada uno de los i Lasutilizarn de tendencia central informan acerca de cul losel valor ms representativo medidas los valores del colesterol HDL obtenidos en es 10 primeros sujetos del ales dividida por el nmero de observaciones realizadas. Si denotamos 1.4.2 Rango intercuartlico go intercuartlico estudio European Study on Antioxidants, equivalente, estos estimadores indican de una determinada variable o, dicho de formaMyocardial Infarction and Cancer of muestral y porEli rango intercuartlico se define como la diferencia ..., n, el tercer y el primer cuartil (percentiles x el valor observado para el sujeto i-simo, i = 1, entre ntercuartlico se define como la diferencia entre el tercer y el primer cuartil the 25, qu valor se agrupan los datos observados. Las medidas de tendencia alrededor derespectivamente).un estudio intercuartlico de casos yamplitud del 50% central de la 75 yBreast (EURAMIC), El rango multicntrico indica la controles realizado a dada por muestra y se El como intercuartlico indica cuando la variable presenta valores extremos. En es 75 y 25, respectivamente).usa rango medida de dispersin la amplitud del entre 1991 y ir acompaado para resumir e Israel para de tendencia central. central de la muestra sirven tantode laEuropeoslos resultadosevaluar el efecto de los tal caso, suele1992 en ocho pases mediana como medida observados como para al de la muestra y1senusa como medida + xdispersin cuando la variable x1 + x 2 + ... de n . x = inferencias acerca de los parmetros valores del colesterol HDL ordenados de menor a realizar x i = Ejemplo 1.11n A partir de los 10 poblacionales correspondientes. A 5 n i =1 mayor, suele ir acompaado vienen determinados alores extremos. En tal caso,los percentiles 25 y 75de la mediana como por la tercera (0,87 mmol/l) y octava continuacin se describen los principales estimadores El rango intercuartlicode una observacin (1,53 mmol/l), respectivamente. de la tendencia central se calcula entonces la medida de tendencia central ms utilizada y de ms fcil tendencia central. como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l. variable. Corresponde al centro de gravedad de los datos de la muestra. Su 1.4.3 Coeficiente de variacin mplo 1.11 A 1.2.1 Media 10 valores del colesterol HDL ordenados de menor a partir de los aritmtica cin es que est muy influenciada por los valorescomo el cocienteeste la desviacin tpica y la media aritmtica, El coeficiente de variacin se define extremos y, en entre or, los percentiles 25 y 75 vienen denotada100s/ x .,Este tercera (0,87 mmol/l) y cada uno de losde escala ya que, Laexpresado como porcentaje, por por ladefine como laest afectado por cambios media aritmtica, determinados se estimador no suma de ser un fiel reflejo multiplicar los valores de una distribucin. un mismo factor, tanto la media como la desviacin al de la tendencia central de la variable por va observacintpicamuestralesrespectivamente. El rango intercuartlico inalterable. El coeficiente de variacin (1,53 mmol/l), dividida factor nmero de observaciones realizadas. Si denotamos valores cambian por dicho por el y su cociente permanece se

Medidas de dispersin

relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se variables con muestral y por x el por observado para el sujeto i-simo, i = en una por n el tamao distintas medias. iAs,valorejemplo, una desviacin tpica de 10 kg1, ..., n, muestra de adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin los valores del colesterol HDL obtenidos en los 10 primeros sujetos del la media vendra dada por 12
Pastor-Barriuso R.

European Study on Antioxidants, Myocardial Infarction and Cancer of x1 + x 2 + ... + x n 1 n x = casosx i controles realizado. t (EURAMIC), un estudio multicntrico de n y = n i =1

realizar inferencias acerca de los parmetros poblacionales correspondientes. A


Estadstica descriptiva

continuacin se describen los principales estimadores de la tendencia central de una variable. tpica de 0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes de variacin son 10010/70 = 1000,5/3,5 = 14,3%). 1.2.1 Media aritmtica Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL en el estudio EURAMIC sera 100s/ x , se define como la = 32,3%;cada uno la desviacin La media aritmtica, denotada por = 1000,395/1,223 suma de es decir, de los tpica es aproximadamente un tercio de la media. valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos 1.5 REPRESENTACIONES y por x el valor observado para el sujeto i-simo, i = 1, ..., n, por n el tamao muestral GRFICAS i

En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas la media vendra dada por de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En esta seccin se revisan los principales mtodos grficos para+presentar y resumir una variable. x + x 2 ... + x n 1 n . x = xi = 1 n i =1 n 1.5.1 Diagrama de barras

La media es la son adecuados para representar variables cualitativas y Los diagramas de barrasmedida de tendencia central ms utilizada y de ms fcil cuantitativas discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus interpretacin. o relativas) en el eje vertical. Para cada categora de de la muestra. Su frecuencias (absolutas Corresponde al centro de gravedad de los datos la variable se construye un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn principal limitacin la misma distancia para reflejar la discontinuidad de la y, en este separados unos de otros pores que est muy influenciada por los valores extremos variable. caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que no haban padecido un infarto agudo de miocardio, todos salvo uno presentaban informacin Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3% (247/699) eran exlos valores del colesterol HDL (262/699) eranlos 10 primeros sujetos del utilizarn fumadores, y el restante 37,5% obtenidos en fumadores actuales.
40 estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado


30 entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los Frecuencia relativa (%)

5
20

10

0 Nunca fumador Ex fumador Fumador actual

Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC. Figura 1.1
8 Pastor-Barriuso R.

Representaciones grficas

1.5.2

Histograma y polgono de frecuencias

El histograma es el principal mtodo grfico para la representacin de variables cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan en categoras exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En el eje horizontal del histograma se representan las categoras o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectngulo para cada categora, cuya anchura es igual a la longitud del intervalo y cuyo rea es proporcional a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectngulos del histograma no sern proporcionales a las frecuencias). El polgono de frecuencias se construye uniendo con lneas rectas los puntos medios de las bases superiores de los rectngulos que conforman un histograma. Tanto el histograma como el polgono de frecuencias sirven para representar grficamente la distribucin de una variable continua. Ejemplo 1.14 El histograma de la distribucin del colesterol HDL en el grupo control del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal. Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectngulos es igual a la frecuencia; as, por ejemplo, la altura del rectngulo en el intervalo 1,2-1,4 mmol/l es igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo, para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida por el incremento relativo de la longitud del intervalo; as, por ejemplo, para el intervalo 1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mnima, la altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polgono de frecuencias, que muestra una distribucin del colesterol HDL aproximadamente simtrica con la cola superior ligeramente mayor que la inferior.
150

125

Frecuencia absoluta

100

75

50

25

0 0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5

Colesterol HDL (mmol/l)

Figura 1.2

Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio EURAMIC.
Pastor-Barriuso R. 9

Estadstica descriptiva

1.5.3

Grfico de tallo y hojas

Este grfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite visualizar la distribucin de frecuencias. En primer lugar, para cada observacin de la variable, se separa el ltimo dgito significativo (hoja) de los restantes dgitos del valor de la variable (tallo). A continuacin, todos los posibles tallos se colocan ordenados en una misma columna. Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente. Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el nombre de grfico de tallo y hojas. Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39 mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y 0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
Frecuencia 2 0 0 1 5 3 12 13 13 9 15 7 6 6 2 2 2 1 1 Tallo 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 Hoja 16 7 35558 467 002344455579 0013334566779 0111123455559 023456789 000023356689999 1223778 345789 133689 44 34 36 0 9

Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.

Figura 1.3

10

Pastor-Barriuso R.

Representaciones grficas

1.5.4

Diagrama de caja

El diagrama de caja permite evaluar la tendencia central, la dispersin y la simetra de la distribucin de una variable, as como identificar valores extremos. Los lmites inferior y superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa el rango intercuartlico e indica la dispersin de la muestra. La lnea horizontal dentro de la caja corresponde a la mediana y representa la tendencia central de la muestra. El grfico se completa con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartlico. Los valores extremos, aquellos distanciados de los lmites de la caja entre 1,5 y 3 veces el rango intercuartlico, se representan con un crculo y los valores muy extremos, aquellos alejados de la caja ms de 3 veces el rango intercuartlico, se denotan mediante un asterisco. En este grfico, si la distribucin es simtrica, los lmites superior e inferior de la caja estarn aproximadamente a la misma distancia de la mediana, mientras que si la distribucin est sesgada positivamente, el lmite superior estar ms alejado de la mediana que el inferior y si la distribucin est sesgada negativamente, el lmite inferior estar ms alejado de la mediana que el superior. Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la mediana que el lmite inferior.
2,5

Colesterol HDL (mmol/l)

1,5

0,5

Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.

Figura 1.4

Pastor-Barriuso R.

11

Estadstica descriptiva

1.6 1. 2. 3. 4.

REFERENCIAS Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton & Lange, 2001. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury Press, 2000. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006.

12

Pastor-Barriuso R.

TEMA 2 PROBABILIDAD
2.1 INTRODUCCIN

Se denominan experimentos estocsticos, aleatorios o no determinsticos a aquellos en los que pueden obtenerse resultados distintos cuando se repiten en idnticas circunstancias. Los fenmenos biolgicos tienen en este sentido una componente aleatoria importante. La herramienta matemtica que constituye la base para el estudio de fenmenos con una componente aleatoria es la teora de la probabilidad, que proporciona modelos tericos aplicables a la frecuencia de los distintos resultados de un experimento. A continuacin, se revisan algunos conceptos previos que van a ser necesarios para sistematizar la nocin de probabilidad. y Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un experimento aleatorio. y Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso imposible o conjunto vaco , que no contiene ningn elemento. Ejemplo 2.1 Si el experimento consiste en observar el nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, el espacio muestral ser W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL de una persona, el espacio muestral ser W = (0, ). En el primer experimento, algunos sucesos podran ser: no observar ningn superviviente A = {0}, observar 1 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluiran: tener un colesterol HDL 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l B = (1,5, ). y El suceso unin AB es el evento constituido por los elementos que pertenecen a A o B, o a ambos a la vez. y El suceso interseccin AB es el evento formado por los elementos que pertenecen simultneamente a A y B. y Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden ocurrir simultneamente; es decir, su interseccin es el conjunto vaco, AB = . y El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando no se realiza A. Estos sucesos estn representados en los diagramas de la Figura 2.1. En general, las operaciones entre sucesos se rigen por la teora de conjuntos, de la cual pueden derivarse algunas propiedades importantes como A(BC) = (AB)(AC), A(BC) = (AB)(AC), (AB)c = AcBc y (AB)c = AcBc.
Pastor-Barriuso R. 13

Probabilidad

su interseccin es BC = {2}. Al medir los niveles deA colesterol HDL de una A persona, los sucesos A = (0, 1] y B = (1,5, ) son mutuamente excluyentes ya que (a) AB (b) AB AB = . Asimismo, en este experimento el complementario de A es el suceso Ac = (1, ).
B

En este tema se define el concepto de probabilidad y se introducen las reglas bsicas


A A

para operar con probabilidades. Estas reglas constituyen la base para el clculo e
(c) AB = (d) Ac

interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P


Figura 2.1 Diagramas de los sucesos unin (a), interseccin (b), sucesos mutuamente excluyentes (c) y Figura 2.1 suceso complementario (d). de un contraste de hiptesis vase Tema 5) y permiten tambin evaluar la

sensibilidad, la 2.2 En el experimento de supervivencia a pruebas diagnsticas. Ejemplo especificidad y los valores predictivos de las los 6 meses de 4 pacientes con cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los 2.2 CONCEPTO(0, 1] y B = (1,5, ) son mutuamente excluyentes ya que AB = . Asimismo, sucesos A = Y DEFINICIONES DE PROBABILIDAD en este experimento el complementario de A es el suceso Ac = (1, ). El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para operar con probabilidades. Estas reglas constituyen la base ste ocurra, de forma que la probabilidad de un suceso refleja la verosimilitud de que para el clculo e interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis vase Tema 5) y permitendarn con evaluar frecuencia que los menos probables.los valores los sucesos ms probables se tambin mayor la sensibilidad, la especificidad y Sin predictivos de las pruebas diagnsticas. embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin 2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la probabilidad de uso comn son: probabilidad de un suceso refleja la verosimilitud de que ste ocurra, de forma que los sucesos ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para Definicin frecuentista (von Mises). Al abordar la probabilidad de forma sistemtica, esrepetir un experimento indefinidamente, que necesaria una definicin rigurosa, a la vez compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son: la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que y Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que ocurre ocurre dicho suceso y el nmero de experimentos realizados, dicho suceso y el nmero de experimentos realizados, P(A) = lim

#A , n n

donde #A es el nmero de veces que se realiza A en los n experimentos. donde #A es el nmero de veces que se realiza A en los n experimentos.
14 Pastor-Barriuso R.

indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,


Concepto y sin embargo, 0,4845, ... determinara la probabilidad de ser mujer. En la prctica, definiciones de probabilidad

no es posible realizar infinitos experimentos y las probabilidades tericas se Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos estiman mediante probabilidades empricaslos datos del Instituto Nacional definito los recin nacidos vivos en Espaa. Segn obtenidas a partir de un nmero Estadstica, se registraron 226.170 nias de 466.371 nacimientos en 2005, 233.773 de 482.957 en de experimentos. As, utilizando losLa proporcin acumulada de nias es 226.170/466.371 2006 y 238.632 de 492.527 en 2007. datos disponibles de nacimientos en 2005 = 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845 2007, se estimara una probabilidad de ser mujer deregistros anuales, el lmite de estos en 2005-2007. Aumentando indefinidamente los 0,4845. cocientes 0,4850, 0,4845, 0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades Definicin axiomtica (Kolmogorov). La probabilidad es una funcin quede un nmero tericas se estiman mediante probabilidades empricas obtenidas a partir asigna finito de experimentos. As, utilizando los datos disponibles de nacimientos en 2005-2007, a cada posible suceso de un experimento un valor numrico, de tal forma que se se estimara una probabilidad de ser mujer de 0,4845.

cumplan los siguientes (Kolmogorov). La probabilidad es una funcin que asigna a cada y Definicin axiomtica axiomas: posible suceso de un experimento un valor numrico, de tal forma que se cumplan los (i) No negatividad: P(A) 0, siguientes axiomas:
(i)(ii)No negatividad: P() 0, Normatividad: P(A) = 1, (ii) Normatividad: P(W) = 1, (iii)(iii) Aditividad: Si A1AA2...... son sucesos mutuamente excluyentes, entonces Aditividad: Si A , , , , son sucesos mutuamente excluyentes, entonces
1 2

axiomtica se derivanalgunas propiedades importantes de la funcin de P Ai = P( A1 A2 ...) = P( A1 ) + P( A2 ) + ... = P( Ai ) . axiomtica se derivanalgunas propiedades importantes de la funcin de i =1 probabilidad: i =1 Notar que probabilidad:esta definicin de probabilidad tan slo especifica las propiedades generales - debe = 0, Notar que esta definicin probabilidad pero no especifica las propiedades queP() tener una funcin de probabilidad, tan slopermite la asignacin de probabilidades a un ) = 0, concreto. No obstante, de la definicin axiomtica se derivan algunas - P( suceso - P(Ac) que P(A), generales= - debe tener una funcin de probabilidad: propiedades1importantes de lafuncin de probabilidad, pero no permite la

c (iv)P(A ) = 1 -0, P() = P(A), asignacin de probabilidades un suceso concreto. P(B), - Si A est incluido en B, A a B, entonces P(A) No obstante, de la definicin (v) P(Ac) incluido en - Si A est = 1 P(A), B, A B, entonces P(A) P(B), - 0 P(A) 1, (vi) Si A est incluido en B, A B, entonces P(A) P(B), - 0 P(A) 1, (vii)Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ..., 0 P(A) 1, 4 - Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ..., (viii) Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ..., P Ai P( Ai ) , i1 i1 = = P Ai P( Ai ) , i =1 i =1 (ix)Principio de de inclusin-exclusin: Sean1, A,2A...,...,kA sucesos cualesquiera, Principio inclusin-exclusin: Sean A A , , A sucesos cualesquiera,

- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera, k k P Ai = P ( Ai ) P( Ai A j ) + ... ik 1 ik 1 1 i < j k = = P Ai = P( Ai ) P( Ai A j ) + ... k +1 =1 11 k i =1 + i(1) P( Ai < j A2 ... Ak ).

Del tercer de inclusin-exclusin generaliza este resultado para sucesos no necesariamente principio axioma de la probabilidad se deduce que, si dos sucesos son mutuamente excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado. excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado. El principio de inclusin-exclusin generaliza este resultado para sucesos no Pastor-Barriuso R. El principio de inclusin-exclusin generaliza este resultado para sucesos no necesariamente excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es

+ (1) k +1 P( A1 A2 ... Ak ). Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente Del tercer axioma de la probabilidad se deduce suma dos sucesos son mutuamente excluyentes, la probabilidad de la unin es la que, si de sus probabilidades por separado. El

15

El principio la inclusin-exclusin generaliza este de sus probabilidades no excluyentes, de probabilidad de la unin es la suma resultado para sucesospor separado. necesariamente excluyentes: la probabilidad de la resultado para sucesos no El principio de inclusin-exclusin generaliza esteunin de dos sucesos cualesquiera Probabilidad es Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada la suma de sus excluyentes: la probabilidad de la unin de dos sucesos interseccin, necesariamenteprobabilidades por separado, menos la probabilidad de lacualesquiera es poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus la suma de sus probabilidades por separado,+menos la probabilidad de la interseccin, P(AB) = P(A) P(B) P(AB). probabilidades por separado,simultneamente bebedor- y diabtico es 0,01. Si se denota por probabilidad de ser menos la probabilidad de la interseccin, P(A colecciones P(B) - P(A dos B al suceso ser bebedor a por = al suceso ms de B).sucesos. As, por ejemplo, Este principio puede aplicarseyB) D P(A) +conser diabtico, la probabilidad de que un
Este principio puede aplicarse a colecciones con ms de dos sucesos. As, por ejemplo, para tres para individuo de esta poblacin sea bebedor, ms de o ambos a la vez viene Este tres sucesos cualesquiera,ase cumple que diabticodos sucesos. As, por ejemplo, sucesos principio puede aplicarseque cualesquiera, se cumple colecciones con
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada determinada por para tres sucesos cualesquiera, se cumple que P(ABC) = P(A) + P(B) + P(C)

- P(AB) - P(AC) - P(BC) P(BD) = P(B) + = P(A) P(BD) = 0,20 + 0,03 - 0,01 = 0,22. P(ABC) P(D) - + P(B) + P(C) probabilidad de ser simultneamente BC). y diabtico es 0,01. Si se denota por + P(Abebedor - P(AB) - P(AC) - P(BC) B al suceso ser bebedor y por D al suceso ser diabtico, la probabilidad de que un Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada 2.3poblacin de adultos CONDICIONAL E INDEPENDENCIA 0,03SUCESOS PROBABILIDAD es 0,20, la probabilidad de ser diabtico es DE y la probabilidad de + bebedor, C). 5 individuo de esta poblacin sea P(ABdiabtico o ambos a la vez viene ser simultneamente bebedor y diabtico es 0,01. Si se denota por B al suceso ser bebedor La y por D al sucesoun suceso puede depender de la realizacin de otrode esta poblacin sea probabilidad de por diabtico, la probabilidad de que un individuo suceso. As, por determinada ser 5 bebedor, diabtico o ambos a la vez viene determinada por ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres -

poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la

P(BD) = P(B) + P(D)

P(BD) = 0,20 + 0,03

0,01 = 0,22.

que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio
2.3depende del suceso serCONDICIONAL E INDEPENDENCIADE SUCESOS PROBABILIDAD CONDICIONAL E El concepto matemtico SUCESOS 2.3 PROBABILIDADhombre o ser mujer. INDEPENDENCIA DE que permite La probabilidad de un suceso puedeprobabilidad de realizacinen funcin de otro es la ejemplo, la un suceso de otro suceso. As, por formalizar cmo se modifica la depender de de la realizacin de otro suceso. As, por La probabilidad de un suceso puede dependeres diferente en los hombres que en las mujeres; la probabilidad de tener un infarto de miocardio es decir, la probabilidad del suceso tener un infarto de miocardio depende del suceso ser hombre probabilidad probabilidad de tener un infarto de miocardio essuceso B condicionada al ejemplo, la condicional. En general, la probabilidad del diferente en los hombres o ser mujer. El concepto matemtico que permite formalizar cmo se modifica la probabilidad de un sucesose mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio suceso Alas define comootro es la probabilidad condicional. En general, la probabilidad del que en en funcin de suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El ( A B) matemtico que permite P concepto formalizar cmo se modifica la probabilidad deP( A) un suceso en funcin de otro es la

P(B|A) =

De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso. probabilidad condicional. En general, la probabilidad del suceso B condicionada al As, P(infarto|hombre) es equivalente suceso A es equivalente a seleccionarlos hombres y De forma intuitiva, condicionar por el a seleccionar en primer lugar a por este posteriormente determinar su probabilidad de tener un infarto de miocardio. suceso A se define como no suceso. As, RR = P(D|E)/P(D|Ec) equivalente a seleccionar en primer lugar a los expuestos y P(infarto|hombre) es es el riesgo relativo de la enfermedad entre los El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiologa y salud pblica. Por ejemplo, si D es el suceso (tenerBuna enfermedad y E es el suceso estar P A ) expuestos y y no expuestos. hombres los P(B|A) probabilidad expuesto a un posteriormente determinar su = P( A) . de la enfermedad entremiocardio. factor de riesgo, P(D|E) es la probabilidad de tener un infarto de los expuestos, P(D|Ec) es la probabilidad de la enfermedad entre los no expuestos y = P(D|E)/P(D|Ec) es el El concepto de probabilidad condicional tiene numerosas aplicaciones en riesgoEjemplo de la enfermedad con ellos expuestos y losla probabilidad de que un relativo 2.5 Continuando entre ejemplo anterior, no expuestos.

epidemiologa y salud pblica. Por ejemplo, si D es el suceso tener una enfermedad y E Ejemplo sea diabtico se calcula como bebedor 2.5 Continuando con el ejemplo anterior, la probabilidad de que un bebedor suceso. As, P(infarto|hombre) es equivalente a seleccionar en primer lugar a los sea diabtico se calcula como es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la hombres y posteriormente determinarP( B D) 0,01 tener un infarto de miocardio. su probabilidad de = 0,05 P(D|B) = c) es la probabilidad de la enfermedad entre los = enfermedad entre los expuestos, P(D|E P( B) 0,20 El concepto de probabilidad condicional tiene numerosas aplicaciones en 6
epidemiologa y salud pblica. no bebedor seaD es el suceso tener una enfermedad y E y la probabilidad de que un Por ejemplo, si diabtico como
16

De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este

es el suceso Pastor-Barriuso R.

P( B c D) P( D) P( B D) 0,03 0,01 = = 0,025. P(D|Bc)los expuestos, P(D|Ec) es la probabilidad de la enfermedad entre los = = enfermedad entre 1 P( B) 1 0,20 P( B c )

estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la

As, el riesgo de diabetes es el doble en los bebedores que en los no bebedores, P( B D) 0,01 P( B c D) P( D) P( B D)0,05,03 0,01 P(D|B) = = = 0 = 0,025. = P(D|Bc) c= = 0,05/0,025= P ( B) c = 2. 1 P(0,20 RR = P(D|B)/P(D|B ) Probabilidad condicional e independencia de sucesos B) 1 0,20 P( B ) Se y laAs, el riesgo de diabetes esbebedor seasi la bebedores que unolos no bebedores, diceprobabilidad de que un no el doble en los ocurrencia de en no afecta a la que dos sucesos son independientes diabtico como y la probabilidad de que un no bebedor sea diabtico como
c probabilidad = P(D|B)/P(D|Bc) = 0,05/0,025)= 2. ( B D) si P(B|A) 0,01 RR del otro; es decir, y B son(independientes 0,03 = P(B|A ) = P(B) o, P( B c A D) P D P c P(D|B ) = = 0,025. = = 1 P( B) 1 0,20 P( B c ) c de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son Se dice que dos diabetes es independientes si la ocurrencia de uno no afecta a la As, el riesgo desucesos son el doble en los sujetos bebedores que en los no bebedores, independientes, puede diabetes es el doble2. los bebedores que en los no bebedores, As, P(D|B)/P(D|Bc) = 0,05/0,025 = en = el riesgo de probarse que probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2. P(AB) = P(A)P(B|A) = P(A)P(B). Se dice que dos sucesos son independientes si la ocurrencia de uno no afecta a la probabilidad de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente, unidad, RR 2 uno no si P(A|B)es que dos)sucesosrelativo es distintosi dosla ocurrencia=de 1. Esta dependencia = decir, el = P(A|Bc riesgo En independientes la sucesos son independientes, puede Se dice dos sucesosP(A). sonconsecuencia, de como independientes si laafecta a la probarse Porindependientes, puede probarse que definirse si tanto, tambin pueden probabilidad que c se refleja tambin en el hecho de que la probabilidad de ser simultneamente probabilidad del otro;igual al producto de independientes si P(B|A)suceso por = P(B) o, de su interseccin es es decir, A y B son la probabilidad de cada = P(B|A ) separado. P(AB) = P(A)P(B|A) = P(A)P(B). bebedor y diabtico no = P(A|Bc) = P(A). sus probabilidades, dos sucesos son es el producto de En consecuencia, si de forma equivalente, si P(A|B) pueden definirse como independientes si la probabilidad de su Por tanto, dos sucesos tambin Ejemplo igual al producto de es probabilidad como independientesconcluirse Por tanto,es 2.6el riesgo relativopueden definirse de cada sucesopuedeEstala probabilidad interseccindecir, sucesos tambinresultados del ejemplo anterior, 2 por separado. que es dos A partir de los la distinto de la unidad, RR = 1. si dependencia independientes, puede probarse que = 0,01 0,200,03 = P(B)P(D). P(BD) los interseccin es igual al hecho de que probabilidad de cada simultneamente sucesos ser bebedor probabilidad de ser de Ejemplo 2.6 tambin ende producto de lala noejemplo anterior, suceso concluirse que los su se reflejapadecer diabetes y resultados del son independientes dado que la A partir el los puede por separado. sucesos padecer diabetes y ser bebedor no son independientes dado que la probabilidad P(AB) = P(A)P(B|A) = P(A)P(B). probabilidadprobabilidad de la interseccin susdos sucesos cualesquiera ser diabtico es diferente en Notar decir, elde es diferente en bebedoresde deen no bebedores,no Esta dependencia bebedor riesgo relativo el distinto de labebedores que en probabilidades, bebedores, es que lay diabtico no es es producto queunidad, RR = 2 1. de ser diabtico Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que es decir, el riesgo relativo es distinto de la unidad, RR =c2 1. Esta dependencia Por tanto, dos sucesos tambin pueden definirse como independientes si la probabilidad P(D|B) 0,05 P(A)P(B|A) se refleja tambin en el hecho=de0,010,025 = P(D|B de ser simultneamente que probabilidad ); P(AB) P(BD) ser = la0,200,03 = P(B)P(D). los sucesos padecer diabetes y= bebedor no son independientes dado que la se refleja tambin en el hecho de que la de su interseccin es igual al producto de lade probabilidad= cada1. Esta dependencia se refleja dede ser simultneamente es decir, el riesgo relativo es distinto probabilidad 2 suceso por separado. bebedor y diabtico no es el productola unidad, de sus probabilidades, probabilidad de ser que la probabilidad en bebedores que en no sean no equivale en producto dediabtico es diferentede ser simultneamente bebedor y diabtico tambin al el hecho sus probabilidades, salvo que ambos sucesos bebedores, bebedor y diabtico no es el producto de sus de dos sucesos cualesquiera probabilidades, Notarel producto de sus probabilidades, no es que la probabilidad de la interseccin 7 Ejemplo 2.6 En general,los resultados del 0,200,03anterior,c puede ..., Ak, la independientes. A partir de P(BD) = 0,01 conjunto de = P(B)P(D).A2,concluirse que para cualquier ejemplo sucesos A1, P(D|B) = 0,05 0,025 = P(D|B ); P(BD) = 0,01 0,200,03 = P(B)P(D). P(AB) = P(A)P(B|A) los sucesos padecer diabetes y probabilidad de su interseccin es ser bebedor no son independientes dado que la Notar que la probabilidad de la interseccin de dos sucesos cualesquiera Notar que la al producto de sus probabilidades, dos sucesos cualesquiera sean noprobabilidad de ser diabticointerseccin de dos sucesos cualesquiera equivale probabilidad de la es diferente en bebedores que en no bebedores, Notar que la probabilidad= P(A interseccin de salvo que ambos sucesos 7 P(A1A2...Ak) de la 1)P(A2...Ak|A1) independientes. En general, para P(AB) = conjunto de sucesos A1, A2, ..., Ak, la cualquier P(A)P(B|A) c P(AB) = P(A)P(B|A) = P(D|B) = 2|A1)P(A3...Ak|A1A2) = ... P(A1)P(A0,05 0,025 = P(D|B ); no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En probabilidad producto de sus probabilidades, no equivale alde su interseccin es general, para cualquier conjunto de sucesos A1, A2salvo que ambos sucesos seaninterseccin es , ..., A , la probabilidad de su = probabilidades, salvo quek ambos sucesos ...A no equivale al producto de sus P(A1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2sean k-1). independientes. En general, para )P(A ...A |A ) de sucesos A1, A2, ..., Ak, la 7 P(A1A2...Ak) = P(A1 cualquier conjunto 2 k 1 independientes. En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la En el caso de que estos sucesos sean mutuamente independientes, las probabilidades = P(A1)P(A2|A1)P(A3...Ak|A1A2) = ... probabilidad de su interseccin es probabilidad de su interseccinanterior se|A )P(A |A probabilidades no condicionales y, en condicionales de la frmula P(A1)P(A2 reducen a 1A2)P(Ak|A1A2...Ak 1). = es 1 3 P(A1A2...Ak) = P(A1)P(A2...Ak|A1) Enconsecuencia,...Ak) = P(A1)P(A2...Ak|A1) es igual al producto de sus probabilidades el P(A1A2 la probabilidad de la sean mutuamente independientes, las caso de que estos sucesos interseccin = P(A1)P(A2|A1)P(A3...Ak|A1A2) = ... condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en En el caso de que probabilidades, estos sucesos sean mutuamente independientes, las probabilidades consecuencia, la probabilidad de )P(A2|A1)P(A3...Ak|Aal producto de sus probabilidades, = P(A1 la interseccin es igual 1A2) = ... = anterior 2|A1)P(A3|A1 probabilidades A2...Ak-1). condicionales de la frmulaP(A1)P(Ase reducen aA2)P(Ak|A1no condicionales y, en k k = P(A1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2...Ak-1). P Ai = P(A1A2...Ak) = P(A1)P(A2)P(Ak) = P( Ai ) . consecuencia,i =la estos sucesos sean mutuamente independientes, las de sus En el caso de queprobabilidad de la interseccin es igual al producto=1probabilidades i 1

En el caso de que estos sucesos sean mutuamente independientes, las probabilidades probabilidades, condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en 2.4 REGLA DE LA PROBABILIDAD TOTAL consecuencia, la probabilidad de la interseccin es igual al producto de sus Pastor-Barriuso R. k k probabilidad de la2interseccin es 1)P(A2)P(Ak) = P( Ai ) . = P(A1A ...Ak) = P(Aigual al producto de sus P consecuencia, la Ai i =1 i La probabilidad=1no condicional de un suceso B se relaciona con su probabilidad probabilidades,

17

i =1 i =1 espacio muestral; es decir, A y Ac son sucesos exhaustivos AAc = y mutuamente


Probabilidad

excluyentes AAc = . 2.4 REGLA DE LA PROBABILIDAD TOTAL

As, la probabilidad no condicional de B es la A2, ..., Ak globalmente exhaustivos y En general, para un conjunto de sucesos A1, media ponderada de las probabilidades 2.4LaREGLA DE LA condicional de un suceso B se relaciona con su probabilidad probabilidad no PROBABILIDAD TOTAL condicionales de B dado A y c Esta descomposicin de la probabilidad del suceso B mutuamente excluyentes que A . un una particin del espacio muestral, se verifica queen La probabilidad no condicionalformensuceso B se relaciona con su probabilidad condicionada de condicionada en la ocurrencia o no de otro suceso A mediante la frmula en la ocurrencia o nocde otro suceso A mediante la frmula trminos de A y A es aplicable porque estos sucesos constituyen una particin del k k P( Ai B) = P( Ai ) P( + Ai ) P(B) = + P(Ac B) = P(A)P(B|A) B |P(Ac,)P(B|Ac). P(B) = P(AB) i 1 =1 espacio muestral; es decir, A y=Ac son sucesos iexhaustivos AAc = y mutuamente As, la probabilidad no condicional de B es la media ponderada de las probabilidades excluyentes AAc = A condicionales de B dadode y Ac. Esta descomposicin de la probabilidad del sucesotil en 8 conocida como regla .la probabilidad total. Esta frmula es particularmente B en trminos de A y Ac es aplicable porque estos sucesos constituyen una particin del espacio muestral; es decir, En general,sucesosseconjunto deAAc = W 1, A2, ..., Ak globalmente exhaustivos. A y Ac son para un emplean con frecuencia las particiones. Por ejemplo, c dividir epidemiologa, donde exhaustivos sucesos A y mutuamente excluyentes AAal= y
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente mutuamente excluyentes que y sexo se estn la poblacin enformen una edadformen una particin del espacio muestral, se verifica que excluyentes que grupos de particin del espacioempleandose verifica que muestral, categoras globalmente

exhaustivas y mutuamente excluyentes. En general, siempre que se divide la poblacin k k P(B) = P( Ai B) = P( Ai ) P( B | Ai ) , i= i =1 en estratos se aplica una particin1 a esa poblacin. conocida como regla de la probabilidad total. Esta frmula es particularmente til en conocida como regla de la probabilidad total. Esta particiones. Por ejemplo, al en epidemiologa, donde se emplean con frecuencia lasfrmula es particularmente til dividir la Ejemplo 2.7 de una y sexo se estn empleando aos, los individuos con edades poblacin en grupos En edadpoblacin de mayores de 65 categoras globalmente exhaustivas y epidemiologa, donde En general, siempre que las particiones. Por ejemplo, al dividir mutuamente excluyentes.se emplean con frecuenciase divide la poblacin en estratos se aplica entre a esa poblacin. una particin 6574, 7584 y 85 aos constituyen el 60, 30 y 10% de la poblacin. La la poblacin en grupos de edad y sexo se estn empleando categoras globalmente prevalencia de la enfermedad de Alzheimer en estos grupos de edad es Ejemplo 2.7 En una poblacin de mayores de 65 aos, los individuos con edades entre exhaustivas y mutuamente excluyentes. En 60, 30 y 10% de la poblacin. La prevalencia de 65-74, 75-84 y 85 aos constituyen el general, siempre que se divide la poblacin respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300 en casos por 1000. La prevalencia a esa poblacin. estratos se aplica una particin global de la enfermedad de Alzheimer en esta poblacin enfermedad de Alzheimer en esta poblacin de mayores de 65 aos se calculara de mayores de 65 aos se calculara
Ejemplo 2.7 En una3poblacin de mayores de 65 aos, los individuos con edades P(A) = P( E i ) P( A | E i ) entre 6574, 7584i =1 85 aos constituyen el 60, 30 y 10% de la poblacin. La y 2.5 TEOREMA DE BAYES = 0,600,020 + 0,300,075 + 0,100,300 = 0,0645, prevalencia de la enfermedad de Alzheimer en estos grupos de edad es resultando 64,5 casos por 1000 personas. El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir respectivamente de por 1000 personas. resultando 64,5 casos20, 75 y 300 casos por 1000. La prevalencia global de la de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac. 2.5 TEOREMA DE BAYES enfermedad de Alzheimer en esta poblacin de mayores de 65 aos se calculara Aplicando Bayes permite obtener la probabilidad y la regla de la probabilidad total, El teorema dela definicin de probabilidad condicionalcondicional de A dado B a partir de la 3 probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac. Aplicando 9 P(A) = P( E i ) P( A | E i ) se obtiene que la definicin de probabilidad condicional y la regla de la probabilidad total, se obtiene que i =1

P( A B) P( A) P( B | A) P(A|B) = 0,600,020 + 0,300,075 + 0,100,300 = 0,0645, = . = P( B) P( A) P( B | A) + P( A c ) P( B | A c ) resultando 64,5 casos por 1000 personas. El teorema de Bayes se usa con frecuencia en la evaluacin de pruebas diagnsticas. Cuando El teorema prueba diagnstica frecuencia en la evaluacin de pruebas diagnsticas. se desarrolla una de Bayes se usa con y se comparan sus resultados con los de un patrn oro (mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes Cuando o desarrolla una prueba de la prueba se comparan parmetros secaractersticas propias diagnstica ydiagnstica: sus resultados con los de un
18 Pastor-Barriuso R.

patrn oro (mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes parmetros o caractersticas propias de la prueba

Teorema de Bayes

En la aplicacin clnica de una prueba diagnstica ac una determinada poblacin interesa conocer, (1 P ) E P( D c ) P( | D ) c = . VP = P( D | ) = sin embargo, los siguientes parmetros: c c + | Dc P P( | D c ) P( D) P (P( D)+ (+ D ) P( | D ) P(1 S )PS (1 P) E (1 entre P( D ) P( | D ) = , ( D positivo VP y Valor + =PPD c || + ) = enfermedadP ) E = ( VP predictivo) = P( Des la probabilidad)de(tenercla = PS + (1 P)(1 las)personas que ) P(+ | D) + P( D c P + | D c ) P(1 S ) + (1 PEE . c ) P( D) P ( | D) P(D|+). tienen un resultado positivo, VP+ = + P( D ) P( | D ) P( D) P(+ | D) PS y Valor predictivo+negativo es de probabilidad de no tener la enfermedad entre,las personas VP + P La ) = Ejemplo=2.8( D | sensibilidad la la prueba ELISA para = c c detectar seropositividad 1 1 ) P D) P(+ | VPP( P(Dcc (+ que tienen un resultado (negativo,D)c+P= D D P|).| D ) PS + ((1 P)(E E ) P) P( D ) ( | ) c . VP al P( La inmunodeficiencia humana es del c = su Ejemplo virus de) = frente =2.8 D | de Bayes, Pde |la prueba ELISA D99% y (1 seropositividad Aplicando el teoremasensibilidad pueden + P( D c ) P( |para) detectarespecificidadE del de la P S ) + (1 P es P( D) ( D) calcularse los valores predictivos en) funcin prevalencia de la enfermedad en la poblacin y de la sensibilidad y especificidad de la prueba (1 P ) de P ( D c humana es frente En una cde inmunodeficiencia) P( | D c ) del 99% su el virusE 96%. al P( D | ) = diagnstica, =viruspoblacin con una prevalencia de infeccinypor especificidad es del = . VP c c P( D) P ( | D) + P( D ) P( | D ) P(1 S ) + (1 P) E Ejemplo 2.8 poblacin de P D) nicamente el 6,9% de el personas 96%. En una La sensibilidaduna0,3%, P(+ |ELISA para detectar seropositividadun prevalencia ) PS inmunodeficiencia ) = con del la(prueba Dde infeccin por lasvirus de con, VP + = P ( D | + humana = c c P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E ) frente al positivo humana del 0,3%, nicamente el 6,9% su especificidad es del inmunodeficiencia del test ELISA estarn realmente 99% yde las personas con un resultadovirus de inmunodeficiencia humana es del infectadas, Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad P ( D c ) P( | D c ) (1 P ) E . VP positivo del = 96%. En una poblacin con una prevalenciac de infeccin por el resultado= P ( D c | ) =test ELISA estarn realmente infectadas, virus de c PS P( D) P ( | D + P( D es (del 99% su S ) + (1 P E P | 99 frente al virus de inmunodeficiencia)humana )0,003D0,) y P(1especificidad )es del VP+ = = = 0,069, PS + (1 )(1 0,3%, 0,003 0,99 + 6,9% de las inmunodeficiencia humanaPdel E ) nicamente el 0,997 0,04 personas con un PS 0 infeccin 96%. En una poblacin con una prevalencia de,003 0,99 por el virus de VP+ = = = 0,069, Ejemplo 2.8 LaPS + (1 P)(1de E ) prueba ELISA+ 0,997 0,04 seropositividad frente al sensibilidad la 0,003 0,99 para detectar resultado positivo del test ELISA estarn realmente infectadas, virus de inmunodeficiencia todas las personas con su especificidad es delcon mientras que prcticamente humana nicamente el 6,9% de las personas 96%. inmunodeficiencia humana del 0,3%,es del 99% y resultado negativo estarn un En una Ejemplo 2.8 una prevalencia de infeccin por el virus detectar seropositividad poblacin con La sensibilidad de la prueba ELISA parade inmunodeficiencia humana del mientras que prcticamente todas las personas0con resultado negativo estarn , resultado 0,3%, de positivo el 6,9% de libres nicamente del resultado la infeccin, testPS las personas con un003 infectadas, =del test ELISA estarn ELISA estarn realmente 0,99 positivo 0,069, = frente alVP+ =de inmunodeficiencia humana es del 99% y su especificidad es del virus realmente infectadas,+ (1 P)(1 E ) 0,003 0,99 + 0,997 0,04 PS libres de la infeccin, (1 con una P 0,003 0,96 96%. En una=poblacin PS) E prevalencia 0,997 0,99 por el = 1,000. de infeccin virus de VP= = 0,069, VP+ = = P(1 S ) PtodasE ) 0,003 0,99 + 0,997 0,96 + )(1 P las 0,003 0 01 0,997 0 04 mientras que prcticamente(1 ) E personas ,con+resultado ,negativo estarn PS +(11 P) E ( 0,997 0,96 inmunodeficiencia humana del 0,3%, nicamente el 6,9% de las personas con un VP- = = = 1,000. P(1 mientras que prcticamente(1 P) las personas con+ 0,997 0,negativo estarn libres de la libres de la infeccin, S ) + todas E 0,003 0,01 resultado 96 Sin embargo, en una poblacin de estarn realmente prevalencia mientras que prcticamente ELISAalto riesgo con unainfectadas, del virus de infeccin, positivo del test todas las personas con resultado negativo estarn resultado

y Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnstica P( D) S = D) PS entre los = P ( D | realmente enfermos,P(+ | P(+|D). = , VP + sujetos + ) = c c P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E ) y Especificidad es la probabilidad ) P(+ | D) un resultado negativo entre los sujetos P( D de obtener PS = , VP + = sanos,+ ) = P(|Dc). P( D | E = c c realmente P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E )

Sin embargo, en una poblacin 10%, elriesgo con los0,96 ,997 prevalencia del virus inmunodeficiencia humana ) E libres de la infeccin, (1 Pdel de alto 73,3%0de unasujetos con resultado de VP = = 1,000. = 0,003 1 S ) +PS P) E = ,01 + 0,99 ,96 = 0,069, VP+ =P(humana (1 10%, el0,003 0de los0,997 0con resultado inmunodeficiencia PS + (1 del 1 E ) 73,3% 0,99 +sujetos 0,04 positivo estarn realmente infectados, 0,003 P)( 0,997 ( poblacin de alto riesgo con una prevalencia del virus de 0,997 0,96 Sin embargo, en una1 P) E VP- = = = 1,000. inmunodeficiencia(1 poblacin10%, el 73,3% de los sujetos 0,96 del virus de Sin embargo, enP humana (1 P) E riesgo con + 0 prevalencia una S ) + del de alto positivo estarn realmente infectados, 0,003 0,01 una,997 con resultado positivo estarn PS 0 con resultado negativo estarn mientras VP+prcticamente todas las=personas,10 0,99 que = realmente infectados, = 0,733, inmunodeficienciaPS + (1 del 1 E ) el 73,3% ,99los0sujetos04 resultado humana P)( 10%, 0,10 0de + ,90 0, con 0,10 0 prevalencia del virus de Sin embargo,infeccin, PS de alto=riesgo con una,99 libres de VP+ =una poblacin la en = 0,733, PS + (1 P)(1 E ) positivo estarn realmente infectados, 0,10 0,99 + 0,90 0,04 siendo muy improbable la del 10%, el 73,3% de los sujetos con resultado inmunodeficiencia humanainfeccin entre aquellos sujetos con resultado negativo, siendo muy improbable(1 infeccin entre aquellos sujetos con resultado negativo, la P) E 0,997 0,96 VP- = siendo muy improbable S ) PS1 P) E = 0,003 0,10 sujetos con,96 = 1,000. la infeccin entre aquellos + ,0,997 0 resultado negativo, 0 99 positivo estarn= P(1 (1 + () E P 0090 0,96 , ,01 VP+ realmente infectados, = = 0,733, VP = PS + (1 P)(1 E ) = 0,10 0,99 + 0,90 0,04 = 0,999. P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96 (1 P) E 0,,90 0,,96 PS 10 0 99 Sin embargo, = una poblacin de alto riesgo0con una prevalencia del virus de en VPVP+ = P(1 S ) + (1 P) E = 0,10 0,01 + 0,90 0,96 = 0,999. = = 0,733, siendo muy improbable(1 infeccin )entre10 0,99 +sujetos0con resultado negativo, PS + la P)(1 E 0, aquellos 0,90 ,04 inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado 0,90 sujetos Pastor-Barriuso siendo muy improbable(1 infeccin entre aquellos 0,96 con resultado negativo, R. la P) E 11 positivo estarn realmente infectados, VP- = = = 0,999. P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96 11 (1 P) E 0,0,100,0,99 90 96 PS
19

Como puede apreciarse, el valor predictivo positivo de esta prueba vara


Probabilidad

enormemente en funcin de valor predictivo positivo de esta infeccin. Como puede apreciarse, el la prevalencia poblacional de la prueba vara

enormemente en funcin de la prevalencia poblacional de la infeccin. EnComo puede 1, A2, ..., Ak el valor predictivo positivo de esta prueba vara enormemente en general, si Aapreciarse, son sucesos globalmente exhaustivos y mutuamente funcin de la prevalencia poblacional de la infeccin. excluyentes, el teorema2de Bayes puede generalizarse como En general, si A1, A , ..., Ak son sucesos globalmente exhaustivos y mutuamente
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes, puede B) elexcluyentes, Bayes puede generalizarsegeneralizarse)como Ai ) teorema de el teorema de BayesP( Ai como P ( Ai P( B | = k P(Ai|B) = . P( B) P( A ) P( B | A ) P( Ai B) P ( Aij) P( B | Ai j) j =1 = k P(Ai|B) = . P( B) P( A j ) P( B | A j )
j =1

Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la enfermedad de Alzheimer por grupo de edad viene dada por Ejemplo 2.9 Alzheimer con el Ejemplo 2.7, la dada por enfermedad deContinuandopor grupo de edad vienedistribucin de los casos de la

enfermedad de Alzheimer P( E1 ) P( A |de 1edad viene dada por por grupo E ) 0,60 0,020 P(E1|A) = 3 = 0,186, = 0,0645 P E P A E P((E1i))P((A || E1i)) 0,60 0,020 P(E1|A) = i =13 = = 0,186, 0,0645 E 2()EPi () P(| A |2 Ei ) 0,30 0,075 P( P A E ) |A) = 3i =1 = 0,349, P(E2 = 0,0645 P( E i ) P( A | E i )
P( E 2 ) P( A | E 2 ) 0,30 0,075 = 0,349, P(E2|A) = 3 = P( E 3 ) P( A | E 3 ) 0,10 ,0645 0 0,300 = 0,465. P(E3|A) = 3 P ( E i ) P( A | E i )= 0,0645 i =1 P( E i ) P( A | E i )
i =1 i =1

Esto es, el 18,6, P(E3|A) = P( E 3los (casos3 de la 0,10 0,300 = 0,465. 34,9 y 46,5% de ) P A | E ) = enfermedad de Alzheimer tienen edades 3 entre 65-74, 75-84 y 85 aos, ( ) ( | ) respectivamente. 0,0645 Esto es, el 18,6, 34,9 y 46,5% P E i P A Ede la enfermedad de Alzheimer tienen de los casos i
i =1

2.6

REFERENCIAS edades entre18,6, 34,9 y 46,5% 85 aos, respectivamente. Esto es, el 6574, 7584 y de los casos de la enfermedad de Alzheimer tienen 1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995. edades entre 6574, 7584 y 85 aos, respectivamente. 2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. 2.6 Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third 3. REFERENCIAS Edition. New York: John Wiley & Sons, 1968. 2.6Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & 4. 1. REFERENCIAS

1. Sons, 1995. P. Probability and Measure, Third Edition. New York: John Wiley & Billingsley Sons, 1995.

12 12

20

Pastor-Barriuso R.

TEMA 3 VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD


3.1 INTRODUCCIN

En el tema de estadstica descriptiva se revisaron las tcnicas necesarias para la realizacin de un anlisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir algunos modelos tericos de probabilidad que permiten caracterizar la distribucin poblacional de determinadas variables y que, a su vez, son aplicables a mltiples situaciones prcticas. Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados del mismo una cantidad numrica. A la funcin que asocia un nmero real a cada resultado de un experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido con anterioridad, una definicin ms formal de variable aleatoria es, por tanto, la de una funcin definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un valor numrico. Aunque en general pueden definirse mltiples variables aleatorias para un mismo experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las caractersticas fundamentales del experimento. Las variables aleatorias suelen denotarse por letras maysculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden tomar se representan por sus correspondientes letras minsculas, x, y o z. Ejemplo 3.1 A continuacin se definen algunas variables aleatorias para los experimentos del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la supervivencia a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, una variable aleatoria X podra ser el nmero de supervivientes, que tomara los valores X = 0, 1, 2, 3 4 en funcin del nmero de pacientes que hayan sobrevivido a los 6 meses. Alternativamente, podra definirse otra variable aleatoria Y como el nmero de muertes, cuyos valores seran Y = 0, 1, 2, 3 4 en funcin del nmero de muertes observadas. Para el experimento de medir el colesterol HDL de una persona, la variable aleatoria X ms natural sera el nivel de colesterol HDL en mmol/l, que podra tomar cualquier valor positivo. Si el inters se centra en saber si los niveles de colesterol HDL son superiores o inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podra definirse como Y = 0 si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La eleccin de los valores 0 y 1 es arbitraria, bastara con asignar dos valores distintos para diferenciar ambos tipos de resultados. Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles valores tendrn asociada una probabilidad, que corresponder a la probabilidad del suceso constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes valores de una variable aleatoria y las probabilidades asociadas constituyen la distribucin de probabilidad de la variable. Ejemplo 3.2 En el primer experimento del ejemplo anterior, el nmero de supervivientes es una variable aleatoria que toma los valores X = 0, 1, 2, 3 4. La probabilidad asociada al valor 0 P(X = 0) sera la probabilidad del suceso ninguno de los 4 pacientes sobrevive
Pastor-Barriuso R. 21

Variables aleatorias y distribuciones deprobabilidad

a los 6 meses, la probabilidad asociada al valor 1 P(X = 1) sera la probabilidad del suceso slo 1 de los 4 pacientes sobrevive a los 6 meses, y as sucesivamente. En el segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede tomar cualquier valor en el intervalo (0, ). En este caso no tiene sentido preguntarse, por ejemplo, cul es la probabilidad de tener exactamente un nivel de colesterol HDL de 1 mmol/l, ya que si esta variable se pudiera determinar con una precisin infinita, la probabilidad P(X = 1) = 0. En tal caso, deberamos preguntarnos por la probabilidad de un determinado intervalo de valores. As, por ejemplo, la probabilidad P(X 1) sera la probabilidad del suceso tener niveles de colesterol HDL menores o iguales a 1 mmol/l. En general, se distinguen dos grandes grupos de variables aleatorias: y Variables aleatorias discretas son aquellas que tan slo puede tomar un nmero discreto (finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad positiva, mientras que la probabilidad de los restantes valores es 0. y Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un xi, i = 1, En este caso, la probabilidad su probabilidad P(X = xi) se conoce como valor intervalo.2, ..., de la variable discreta X de obtener un valor concreto es 0, por lo que las probabilidades se asignan a intervalos de valores. funcin, de masa describen las principales X su probabilidad P(X =siguientes valor xi i = 1, se de probabilidad. Esta funcin debe cumplir las xi) se conoce como A continuacin2, ..., de la variable discreta caractersticas de las variables aleatorias discretas y continuas, as como algunas distribuciones tericas de probabilidad que sern aplicables a propiedades: la probabilidad de cadaEsta en lade debe cumplir 1, siguientes funcin de masa de probabilidad. valor ha prctica. muchas de las variables aleatorias utilizadas funcinestar entre 0 y las 0 < P(X = xi) 1, y la suma de las probabilidades para cada valor ha de estar entre 0 y 1, 1, < P(X = xi) 1, y la propiedades: la probabilidad de todos los valores debe ser igual a 0 3.2 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como suma de las probabilidades para todos P( Xvalores debe ser igual a 1, los = x discreto Las variables aleatorias discretas tomanun nmeroi ) = 1. de valores con probabilidad no nula 1 funcin de masa de probabilidad. i Esta funcin debe si se conoce la probabilidad asociada y, en consecuencia, estarn completamente caracterizadas cumplir las siguientes P( X = xi ) = 1. a cada uno de estos valores. La funcin que asigna a cada posible valor xi, i = 1, 2, ..., de la i propiedades: X probabilidad de cada1xi) deha de estar entre 0 y 1, 0 < P(Xde xi) 1, Una vez conocida la funcin de = valor probabilidad, la probabilidad = probabilidad. variable discreta la su probabilidad P(Xmasa se conoce como funcin de masade queunay la Esta funcin debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar variable las conocidai) funcin todos los valores cualquierigual 1, suma 1, aleatoria discreta1, y la de masa las probabilidades paraatodos Ade calcula entre 0 ydevez<probabilidades para suma de de probabilidad, lasubconjuntolos se que una Una 0 P(X = x la X est comprendida en debe ser probabilidad valores debe ser igual a 1, como la suma de las probabilidades de aquellos valores xi incluidos dentro se calcula de ese variable aleatoria discreta X est comprendida en = 1. P( X = x ) cualquier subconjunto A

i 1

subconjunto, de las probabilidades de aquellos valores xi incluidos dentro de ese como la suma Una vez conocida la funcin de masa de probabilidad, la probabilidad de que una variable Una vez conocida comprendida en cualquier subconjunto A se calcula como una aleatoria discreta X est la funcin de masa de probabilidad, la probabilidad de que la suma de subconjunto, P(X A) = P( X = x ) las probabilidades de aquellos valores xi incluidos dentro ide. ese subconjunto, xi A variable aleatoria discreta X est comprendida en cualquier subconjunto A se calcula P(X A) = P( X = x i ) . xi A como la suma la funcin de distribucin F(x) de una variable aleatoria X se define En particular, de las probabilidades de aquellos valores xi incluidos dentro de ese En particular, la funcin de distribucin F(x) de una variable aleatoria X se define como la subconjunto, la funcin valor menor o igual a x, una variable como la probabilidad un de distribucin menor probabilidad de observarde observar un valorF(x) de o igual a x, aleatoria X se define En particular, F(x) = P(X = menor o( X = . i . como la probabilidad de observar un valor P( XP=igualxa)x, P(X A) x) = xi ) F(x) = P(X x) = P( = i ) . La funcin de distribucin de una variablediscreta serXunaxfuncin escalonada creciente con La funcin de distribucin de una variable discreta ser una funcin escalonada i saltos en los valoresfuncin de distribucin F(x) xdex una variable aleatoria X se define En particular, la xi con probabilidad no nula. creciente con saltos en los valores variable discreta ser una funcin escalonada La funcin de distribucin de una xi con probabilidad no nula. como la probabilidad de observar un valor menor o igual a x,
22 Pastor-Barriuso R.
xi A xi x

creciente con saltos en los valores xi con probabilidad no nula. F(x) = P(X x) = P( X = i ) Ejemplo 3.3 Supongamos que por estudios previosxse .estima que, despus de 6
xi x

meses de tratamiento en 4 pacientes con cncer, la probabilidad de que sobrevivan

0, 1, 2, 3 y 4 con probabilidad no nula.


Distribuciones de probabilidad discretas

[Tabla 3.1 aproximadamente aqu] Ejemplo 3.3 Supongamos que por estudios previos se estima que, despus de 6 meses de tratamiento en 4 pacientes con cncer, la probabilidadaqu] sobrevivan 0, 1, 2, 3 4 [Figura 3.1 aproximadamente de que pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus probabilidades constituyen la funcin de masa de probabilidad de la variable nmero de supervivientes, que se muestra en la Figura 3.1(a). Los valores de la funcin de distribucin En el primer tema de estadstica descriptiva, se definieron la media y la varianza en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; as, por ejemplo, la funcin de distribucin en 1 de tendencia central y dispersin de 1) = 0,1296 en una muestral como medidases F(1) = P(X 1) = P(X = 0) + P(X = una variable+ 0,3456 = 0,4752. La funcin de distribucin de esta variable se representa en la Figura 3.1(b). Notar que F(x) A continuacin, se cualquier nmero real, aun cuando la variable tome slo muestra.est definida sobre definen medidas anlogas para la distribucin poblacional los valores 0, 1, 2, 3 y 4 con probabilidad no nula. de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria En el primer tema de estadstica descriptiva, se definieron la media y la varianza muestral como medidas de tendencia o E(X),dispersincomo lavariable en una muestra.decontinuacin, discreta X, denotada por central y se define de una suma de los productos A cada se definen medidas anlogas para la distribucin poblacional de una variable aleatoria. La esperanzapor su probabilidad P(X = xi),variable aleatoria discreta X, denotada por o E(X), se valor xi o media poblacional de una define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),

= E(X) =

x P( X = x ) .
i 1 i i

Tabla 3.1 Funcin de masa de probabilidad y La esperanza es la media de los valores xi ponderados por su probabilidad y representa funcin de distribucin del nmero de supervivientes a los 6 la variable pacientes con que la sometidos a as el valor promedio de meses de 4aleatoria. Notar cncermedia muestral se puede tratamiento. calcular de forma similar, multiplicando cada valor observado de la variable por su Nmero Funcin Funcin frecuencia relativa.
0 2 abreviada por o var(X), 1 define se 2 3 la variable respecto de su media, 4 de supervivientes de masa (x) P(X de una La varianza poblacional = x) 0,1296 0,3456 la esperanza 0,3456 0,1536 0,0256
i

de distribucin F(x) = P(X x) variable aleatoria

como

del

0,1296 0,4752 cuadrado 0,8208 0,9744 1,0000

discreta X,

de la desviacin de

0,4 0,3

2 = var(X) = E(X - )2 =
=

(x
i 1

) 2 P( X = xi )
1 0,8 0,6 0,4 0,2 0

x
i 1

2 i

P( X = x i ) 2 = E(X2) - 2.
F(x)

P(X = x) 0,2
0,1 0 0 1 2 3 4

x (a)

x (b)

Figura 3.1 Funcin de masa de probabilidad (a) y funcin de distribucin (b) del nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento.
Figura 3.1

Pastor-Barriuso R.

23

as el valor promedio de la variable aleatoria. Notar que la media muestral se puede


Variables aleatorias y distribuciones deprobabilidad

calcular de forma similar, multiplicando cada valor observado de la variable por su

frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X, La esperanza es la media de del cuadrado de las desviaciones en los s, la varianza resulta ser la media ponderada los valores xi ponderados por su probabilidad y representa as el valor promedio de la2variable aleatoria. Notar que la media muestral se puede calcular de forma abreviada por o var(X), se define como la esperanza del cuadrado de la desviacin de cuadrada de la varianza es la desviacin tpica poblacional por lores xi. La razsimilar, multiplicando cada valor observado de la variable, que su frecuencia relativa. La As, la varianza resulta una media aleatoria del cuadrado de las por 2 o var(X), se varianza poblacional deser lavariableponderadadiscreta X, abreviadadesviaciones en los define la variable respecto de su media, como de la variable aleatoria respecto de su media poblacional. esperanza del cuadrado de la desviacin de la variable presenta la dispersinlavarianza resulta ser la media ponderada del cuadrado derespecto de su media, As, la x . La raz cuadrada de la varianza es la desviacin tpica poblacional , en los las desviaciones que valores

2 = var(X) = E(X )2 = ( xi ) 2 P( X = x ) valores xi. La raz cuadrada de variable aleatoriadesviacin tpicai poblacional , que la varianza es la respecto de i Ejemplo 3.4 representa la dispersin de la A partir de los datos del ejemplo anterior, el1valor esperado su media poblacional. del
= i P( X = de media poblacional. representa la dispersin de la variable aleatoriaxrespecto x i ) su = E(X ) . nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a 1 Ejemplo 3.4 A partir de los datos del iejemplo anterior, el valor esperado del
2 2

tratamiento As, laEjemplo 3.4 A partirla media ponderada del cuadrado de las desviaciones en los valores sera varianza resulta ser de los datos del ejemplo anterior, el valor esperado del nmero de supervivientes a los meses de 4 pacientes con cncer , que representa la xi. La raz cuadrada de la varianza es6la desviacin tpica poblacional sometidos a 5 dispersin de la variable aleatoria respecto de su media poblacional. 4 nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento sera = kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60, k = 0 Ejemplo 3.4 A tratamiento serapartir de los datos del ejemplo anterior, el valor esperado del nmero de supervivientes a4 los 6 meses de 4 pacientes con cncer sometidos a tratamiento sera = kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60, y la varianza k 4 =0 = kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,

y 4la varianza = varianza P( X = k ) (k ) 2 y k =0 la y la varianza


2
4

k =0

2 + ... + - ) 2 P( 20,0256 = (0 - 1,60) 0,1296= (k(4 1,60)X = k ) = 0,96.


2

k =0 Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la Es decir, el nmero esperado 2 supervivientes a los 62meses es 1,60 y la desviacin tpica de = (0 - 1,60) 0,1296 + ... + (4 - 1,60) 0,0256 = 0,96. = 0,96 = 0,98. desviacin tpica Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la

2 = k1,60)220,1296 + ) + (4 1,60)20,0256 = 0,96. = (0 ( ) P( X = k ...

k 4 =0

Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la 3.2.1 desviacin tpica = 0,96 = 0,98. Distribucin binomial 2.1 Distribucin binomial La distribucin binomial =un 0,96 = 0,98. de distribucin de probabilidad discreta aplicable desviacin tpica es modelo terico a aquellos un modelo terico de distribucin de probabilidad discreta distribucin binomial es experimentos en los que se realizan n pruebas independientes, cada una de ellas con 3.2.1 Distribucin binomial slo dos resultados posibles (xito o fracaso) y la misma probabilidad de xito . En tal caso, se dice que la variable aleatoria X nmero de xitos en las n pruebas licable a aquellos experimentos en los que se realizan n pruebas independientes, cada sigue una distribucin 3.2.1 Distribucin binomial A modelo los resultados del tema de probabilidad discreta La distribucin binomial es binomial con parmetros n y .un partir de terico de distribucin de probabilidad (vase Ejemplo 3.5), puede probarse que la distribucin binomial misma probabilidad 1, ..., n con probabilidad = 0, a de ellas con slo distribucin binomial es(xito o fracaso) y la toma valores en k probabilidad discreta La dos resultados posibles un modelolos que se realizan n pruebas independientes, cada aplicable a aquellos experimentos en terico de distribucin de n nk nk P(X en los = se de xitos pruebas xito . En tal caso, se dice que la variable aleatoria= =nmero1k1 ) , en las n independientes, cada P(X posibles ( ( o nn k , aplicable a aquellos experimentos = k)Xk)que(xito )fracaso) y la misma probabilidad k realizan k una de ellas con slo dos resultados

A partir de uebas sigue una distribucin binomial con parmetros n y .(xito o fracaso) y la misma probabilidad una xito . En tal caso, se dice que la variable aleatoria Xlos nmero de xitos en las n de deellas con slo dos resultados posibles n n n! n! = donde = es el nmero de combinaciones de n elementos tomados de k en k, con es el nmero de de combinaciones deelementos tomados de k en es el nmero combinaciones n elementos donde sultados del tema de probabilidad caso,kseEjemplo 3.5), puede probarse que la )! de xitoksigue n!nkdistribucin binomial con aleatoria X nmero de xitos los las n . k k!tal ( )! dice que la variable parmetros n y . A partir de en En (k (vase pruebas una n! = n(n 1)1 y 0! = 1. Por supuesto, estas probabilidades constituyen una funcin de stribucin binomial tomaprobabilidad ya0,0! = para cualquier n estas su suma . A partir de losigual a 1. En la valores con probabilidad pruebas n! = una 1)1 1, 0!1.binomial con parmetros puede probarse que masa con = n(nn(n endistribucin= Por (vase Ejemplo probabilidades constituyen una k,resultados del -tema k = probabilidadPor supuesto, , 3.5),n y es exactamente la una conde sigue 1)1 y que,..., n1. supuesto, y estas probabilidades constituyen k, n! - de y prctica, resulta tedioso calcular las probabilidades de una distribucin binomial mediante la resultados delmasa de probabilidad que, para 1, ..., n3.5), probabilidad es que la funcin de de binomial probabilidad ya que, 0, cualquier n yny suprobarse exactamente funcin masa de de toma valores en k = para cualquier , su suma distribucin tema probabilidad ya (vase Ejemplo con puede, suma es exactamente
24

distribucin binomial toma resulta tedioso 0, 1, las las probabilidades una distribucin igual a 1. En En prctica, resulta tediosokcalcular..., nprobabilidades de de una distribucin igual a 1. la la prctica, valores en = calcular con probabilidad 6
Pastor-Barriuso R.

binomial mediante la frmula anterior. Por ello, en en Tabla 1 deldel Apndice facilitan binomial mediante la frmula anterior. Por ello, la la Tabla 1 Apndice se se facilitan 6

caractersticas sometidos a una misma terapia.


Distribuciones de probabilidad discretas

Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de

observar la supervivencia (o muerte) en pacientes con un las probabilidades frmula anterior. Por ello, en la Tabla 1 del Apndice se facilitandeterminado cncer binomiales para n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50. sometidos al mismo tratamiento. Si por estudios previos se sabe que la En general, la distribucin binomial se aplica al estudio de observaciones repetidas e independientes de una misma variable dicotmica (con slo dos resultados posibles), tal como supervivencia a los 6 meses en dichos pacientes es del 40%, el nmero de el resultado de un tratamiento (xito o fracaso) en pacientes de similares caractersticas sometidos a una misma terapia. supervivientes a los 6 meses en una muestra de 4 pacientes seguir una dado que el resultado en cada paciente es independiente y todos tienen una misma Ejemplo 3.5 En los X de parmetros n = 4 = 0,4. distribucin binomial ejemplos anteriores, seyha considerado el experimento de observar probabilidad de (o muerte) en pacientes con un determinado cncer que la supervivenciasupervivencia del 0,4. En general, la probabilidad desometidos al mismo tratamiento. Sileyesestudios por de que la supervivencia a los 6 meses Utilizando laspacientes la en previos se sabedescomponerse, al todos tienenqu en dichos dado que el 40%, el probabilidad, si es independiente y funcin una una cada de supervivientes los i meses en de muestra de sobrevivan 2 delresultado nmero pacientedenotamosapor S6ensuceso de que misma 4 cualesquiera puede pacientes es pacientes el i-simo paciente, la probabilidad de que una distribucin binomial X de parmetros n = nicamente = sobreviva seguirde supervivencia del 0,4. En general,sobrevivan 4 y de0,4. los probabilidad la probabilidad que pacientes sobrevivan, como Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el dado que el resultado en cada paciente es independiente y todos tienenprimeros pacientes dos sobrevivan 2 pacientes cualesquierasobrevivan nicamente los dos una de qu primeros pacientes vendra de que i-simo paciente, la probabilidaddada porpuede descomponerse, en funcin misma c c c c P vendra dada por(X = 2) = P{(S1S2 S 3 S 4 )(S1 S 2 S3 S 4 ) probabilidad de supervivencia del 0,4. En general, la probabilidad de que c c pacientes sobrevivan, como P(S1)P(S2)P( S 3c )P( S 4 ) = 0,42(1 0,4)2, P(S1S2 S 3c S 4 ) = c c c c (S1 S S 3 descomponerse, 3 S 4 ) sobrevivan 2 pacientes cualesquiera2puedeS4)( S1 S2Sen funcin de qu dado que el resultado en cada paciente es independiente y todosctienen una misma probabilidad c c c P( = 2) = general, la probabilidad S que sobrevivan 2 pacientes de supervivencia delX 0,4. EnP{(S1S2c S 3 S 4 )(S1cde2 S3 S 4 ) c c pacientes sobrevivan, como( S1 S2 S 3 S4)( S1 S 2 S3S4)}. cualesquiera puede descomponerse, en funcin de qu pacientes sobrevivan, como c c (S1 S 2 S 3c S4)( S1c S2S3 S 4 ) c c c c P(X = 2) = P{(S1 2 la unin de 1 S 2 sucesos ) Esta probabilidad est constituidaSporS 3 S 4 )(Stantos S3 S 4 como posibles 7 c c c c c S S 3 )( S1c S S Sc ) (S( S12 S23c S4S4)( S12 S32 S 43S4)}. 1 4 4! 24 combinaciones de 4 pacientesS c S S c Sen 2; S c S c S )}. S3 ( tomados de 2 4)( es decir, 2 =4 2! (4 2)! = 4 2 1 3 1 2 Esta probabilidad est constituida por la unin de tantos sucesos como posibles Esta probabilidad est constituida por la unin de tantos sucesos como posibles = 6 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos 4 4! 24 combinaciones de 4 pacientes tomados 2 en 2; es decir, = combinaciones de 4 pacientes tomados dede 2 en2; es decir, = =6 2 tantos sucesos2 2 Esta probabilidad est constituida por la unin de(1 - 0,4) . En consecuencia, )! 4 como!posibles 2 (4 2la tienen una misma probabilidad de ocurrir de 0,4 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos tienen una 24 = 6 sucesos. Adems, estos 2 pacientes cualesquiera es 4 y probabilidad de que sobrevivansucesos 0,4)2. En consecuencia, la 4! todos ellos misma probabilidad de ocurrir de 0,42(1son mutuamente excluyentesprobabilidad de que combinaciones de 4 pacientes tomados de 2 en 2; es decir, = 2 2! (4 2)! = 4 sobrevivan 2 pacientes cualesquiera es tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la 4 2 2 = 6 sucesos. Adems, P(X =sucesos son mutuamente excluyentes y todos ellos estos 2) = 2 0,4 (1 0,4) = 0,3456, probabilidad de que sobrevivan 2 pacientes cualesquiera es
2 2 tienen una misma probabilidad dede la distribucin binomial deconsecuencia, = 4 y = 0,4 que corresponde a la probabilidad ocurrir de 0,4 (1 - 0,4) . En parmetros n la que k = 2. Aplicando esta frmula, las 4 paracorresponde a la probabilidad dela distribucin binomial 0, 1, 2, 3 4 supervivientes probabilidades para k = de parmetros n = 4 P(X = 2)pacientes cualesquiera es = 0,4 2 (1 0,4) 2 = 0,3456, probabilidad de que sobrevivan 2 Figura 3.1(a). Estas probabilidades tambin pueden aparecen en la Tabla 3.1 y en la 2 y = 0,4 directamente de la Tabla 1 del Apndice. obtenerse para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3 4 Pla probabilidad de3.1 distribucin binomial una (X = en la la y en 4 que corresponde agenerales laTablaesperanza2yFigura 3.1(a). Estas variable aleatoria supervivientes aparecen 2) =para 0,4 2 (1 0,4)la = 0,3456, dede parmetros n = 4 A partir de las frmulas la varianza 2 discreta, puede probarse que la esperanza de una distribucin binomial de parmetros n y es y = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para probabilidades tambin pueden obtenerse directamente de la Tabla 1 del k = 0, 1, 2, 3 n n n que corresponde aX) = E( la probabilidad de la k k (1la ) n k = n a). Estas n = 4 = la Tabla y en Figura 3.1( kP( X en k ) = distribucin binomial de parmetros 4 supervivientes aparecen 3.1 Apndice. k =0 k =0 k y = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3 probabilidades tambin pueden obtenerse directamente de la Tabla 1 del A partir de las para la y la varianza una variable y su varianza esfrmulas generales la Tablaesperanzala Figura 3.1(ade Estas ). 4 supervivientes aparecen en 3.1 y en Apndice. Pastor-Barriuso R. aleatoria discreta, puede probarse que la esperanza de una distribucin binomial de n probabilidades tambin pueden obtenerse directamente de la Tabla 1 del var(X) = (k n ) 2 P( X = k ) A partir las k 0 parmetros n y dees frmulas=generales para la esperanza y la varianza de una variable Apndice.

25

kP( X = k ) = k k Variables aleatorias y distribuciones deprobabilidad


E(X) =
k =0 k =0 n n

k =0

(1 ) n k = n

As, el nmero esperado de xitos es igual al n

y su varianza es y su varianza es var(X) =

probabilidad individual de xito. La varianza n

que = 0 1, la varianza ser 0 ya que todas la n cumplen las siguientes hiptesis respectoanla incidencia kacumulada IA de la enfermedad = (k n ) 2 k (1 ) n = n(1 ). k o xitos. k =0 (esto es, la probabilidad de desarrollar unnuevo caso en un periodo de tiempo
k =0

(k n )

P( X = k )

nmero de pruebas y ms extrema sea la probab

As, el nmero esperado de xitos es igual al nmero de pruebas realizadas por la probabilidad determinado): La varianza n(1 es igual al nmero de menor sea el nmero de pruebas As, el nmero realizadas por la individual de xito.esperado de xitos ) disminuye cuantopruebasEjemplo 3.6 Continuando con el ejemplo y ms extrema sea la probabilidad de xito. En el caso particular de que = 0 1, la varianza supervivientes a ser 0yaProporcionalidad: La probabilidad de observar un casoo xitos. que todas las pruebas sern respectivamente fracasos es aproximadamente los 6 meses de 4 pacient probabilidad individual de xito. La varianza n(1 - ) disminuye cuanto menor sea el proporcional al tiempo transcurrido, de tal forma que en un n = 40,4de tiempo intervalo Ejemplo 3.6 Continuando con el ejemplo anterior, el nmero esperado de= 1,60, la varianza n(1 - ) = supervivientes nmero de pruebas4ypacientes con sea la probabilidad de xito. En es caso particular de la a los 6 meses de ms extrema cncer sometidos a tratamiento el n = 40,4 = 1,60, arbitrariamente corto, la probabilidad de observar un caso es muy pequea y la varianza n(1 ) = 40,40,6 = 0,96 y la desviacin tpica n (1 ) = 0,98. Estos resultados coin que = 0 1, la varianza ser obtenidostodas las pruebas sern respectivamente fracasosse resultados coinciden con los 0 ya que en el Ejemplo 3.4, donde la media y la varianza probabilidad de observar ms de un caso es esencialmente nula. calculaban a partir de las frmulas generales para variables discretas. 3.4, donde la media y la varianza se calcu o xitos. Estacionaridad: El nmero de casos por unidad de tiempo permanece para variables discretas. 3.2.2 Distribucin de Poisson aproximadamente constantecon el ejemplo anterior, el nmero esperado de que, Ejemplo 3.6 Continuando a lo largo de todo el periodo de tiempo t. Notar La distribucin de Poisson es otro modelo terico de distribucin discreta particularmente til para el estudio epidemiolgico6de la ocurrenciade la incidencia3.2.2 Distribucinendice que la sisupervivientesun los meses de 4 pacientes con cncer enfermedades. Se el se produjera a cambio substancial de determinadas sometidos a tratamiento es de la enfermedad de Poisson variable aleatoria X nmero de casos de una determinada enfermedad a lo largo de un periodo de tiempont,= 40,4 = es un la varianzaaplicable. arbitrariamente largo, tal como Poisson aos, modelo teri tiempo, estatasuncin no sera n(1 - ) = 40,40,6 =La distribucin de 1 10 es otro donde 1,60, intervalo de tiempo 0,96 y la desviacin tpica sigue una distribucin de Poisson si se cumplen las siguientes hiptesis respecto a la incidencia acumulada IA de la enfermedad (esto es, un probabilidad de desarrollar un nuevopara el la un epidemiolg caso Independencia: La ocurrencia de la caso en un determinado instante no afecta aen particularmente el Ejemplo estudio n (1 ) = 0,98. Estos resultados coinciden con los obtenidos en til periodo de tiempo determinado): probabilidad de observar nuevos casos en periodos posteriores. As, por ejemplo, enfermedades. Se proporcional y Proporcionalidad: La probabilidad de se calculaban a partir de las frmulasdice que la variable aleatoria 3.4, donde la media y la varianza observar un caso es aproximadamente generales al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto, enfermedad de esta hiptesis observar un caso es se cumplir en la probabilidada lo largo de un periodo de tiempo la probabilidad dede independencia no muy pequea y brotes epidmicos.observar ms de para variables discretas. un caso es esencialmente nula. Aunque la distribucin de Poisson se emplea habitualmentearbitrariamente largo, tal como 1 10 aos, sig en el estudio de la morbiy Estacionaridad: El nmero de casos por unidad de tiempo permanece aproximadamente constante a lo largo de todo el 3.2.2 Distribucin de Poisson periodo de tiempo t. Notar que, si se produjera mortalidad debida a determinadas enfermedades, esta distribucin es en general un cambio substancial de la incidencia de la enfermedad en el tiempo, esta asuncin no sera aplicable. aplicable a la ocurrencia en el tiempo un caso en un determinado discreta y La distribucin de La ocurrencia de de aquellos sucesos aleatoriosinstante no afecta a la Independencia: Poisson es otro modelo terico de distribucin que satisfagan las probabilidad de observar nuevos casos en periodos posteriores. As, por ejemplo, esta particularmente til para el estudiocumplir en brotes la ocurrencia hiptesis anteriores (por ejemplo, losepidemiolgico deepidmicos. de determinadas hiptesis de independencia no se accidentes de trfico). Aunque la distribucindice que la variable aleatoria X nmero de casosde la morbi-mortalidad enfermedades. Se de Poisson se emplea habitualmente en de estudio de unasucesos, k = Bajo estas asunciones, se establece que la probabilidad el que ocurran k determinada debida a determinadas enfermedades, esta distribucin es en general aplicable a la ocurrencia en elenfermedadaquellos sucesos aleatorios que satisfagan aleatoria Xintervalo de (por ejemplo, 0, tiempo de un perodo de tiempo t paratiempo t, donde hiptesis anteriores tiempo 1, 2, ..., en a lo largo de un periodo de una variable las t es un que sigue una los accidentes de trfico).

arbitrariamente largo, establece 10 probabilidad de que ocurran de Poisson = se distribucin de Poisson tal Bajo estas asunciones, sees como 1que laaos, sigue una distribucin k sucesos, k si 0, 1, 2, ..., en un periodo de tiempo t para una variable aleatoria X que sigue una distribucin de Poisson es 9 k e P(X = k) = , k! donde el parmetro es el nmero esperado de sucesos en el perodo de tiempo t. A

26

Pastor-Barriuso R.

diferencia de la distribucin binomial, donde el nmero de xitos k no puede exceder el

nmero finito de pruebas realizadas, en la distribucin de Poisson el nmero de pruebas Una caracterstica importante de la distribucin de Poisson es que tanto su media se considera infinito y el nmero de sucesos k puede ser arbitrariamente grande, aunque Distribuciones de probabilidad discretas como su varianza son iguales al parmetro , la probabilidad P(X = k) decrecer al aumentar k hasta hacerse esencialmente nula. Para
e k donde el parmetro es >nmero esperado de sucesospositivas y suman 1, constituyendo el 0, cualquier parmetro E(X) =estas probabilidadeskson en el periodo de tiempo t. A diferencia kP( X = k ) = = , de la distribucin binomial, donde el nmero dek 0 xitos k! no puede exceder el nmero finito de k k 0 pruebasfuncin de masa de probabilidad. En la Tabla 2 del de pruebasse presentan las una realizadas, en la distribucin de Poisson el nmero Apndice se considera infinito y el nmero de sucesos k puede ser arbitrariamente grande, aunque laprobabilidad P(X = k) decrecer k 2 2 e . al aumentar k var(X) hacerse ) P( X = k ) = (kPara ) cualquier=parmetro > 0, estas hasta = (k esencialmente nula. probabilidades de Poisson para de 0,5 a 20 en intervalos de! 0,5. k k 0 k 0 probabilidades son positivas y suman 1, constituyendo una funcin de masa de probabilidad. En la Tabla 2 del Apndice se presentan las probabilidades de Poisson para de 0,5 a 20 en Una caracterstica importante de la distribucin de Poisson es que tanto su media intervalos de 0,5. Ejemplo 3.7 Segn el ltimo la distribucin Una caracterstica son iguales al Atlas de MortalidadPoisson es que tanto su la tasa de como su varianza importante deparmetro , de por Cncer en Espaa, media como su

varianza son iguales al parmetro , mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000 e k kP( X = k ) = se pretende determinar la E(X) = informacin, k = , personas-ao. Partiendo de esta0 k! k k 0

k 2 distribucin del nmero dekmuertes por = k ) = (k ) 2 een periodo de 1 2 cncer de vescula un = . var(X) = ( ) P( X k! k 0 k 0 aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e

Ejemplo 3.7 Segn el ltimo Atlas de Mortalidad por Cncer en Espaa, la tasa de independencia parecen razonables por tratarse de casos de mortalidad por cncer mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000 personasEjemplo 3.7 Segn el ltimo Atlas pretende determinar la distribucin del tasa de ao. Partiendo de esta informacin, se de Mortalidad por Cncer en Espaa, lanmero de en periodos cortos de tiempo. Adems, como la tasa de mortalidad I es baja y se muertes por cncer de vescula en un periodo de 1 2 aos en una poblacin de 140.000 mortalidad asunciones de estacionaridad e es de I = 1,80 parecen 100.000 hombres. Las por cncer de vescula en hombresindependencia casos porrazonables por asume constante en el tiempo, puede probarse que la incidencia acumulada en un tratarse de casos de mortalidad por cncer en periodos cortos de tiempo. Adems, como personas-ao. Partiendo de esta asume constante en el tiempo, puede probarse que la la tasa de mortalidad I es baja y se informacin, se pretende determinar la periodo de tiempo t es incidencia acumulada en un periodo de tiempo t es distribucin del nmero de muertes por cncer de vescula en un periodo de 1 2 IAt = 1 exp(It ) It; aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e es decir, la probabilidad de que un individuo de esta poblacin muera por cncer de es decir, la probabilidad derazonables por tratarse de poblacinmortalidad por cncer la vescula es aproximadamente proporcional al tiempo transcurrido, cumplindose as independencia parecen que un individuo de esta casos de muera por cncer hiptesis de proporcionalidad. La incidencia acumulada en 1 ao es IA1 = 0,000018 y en deaosperiodosaproximadamente proporcional al tiempoel nmero de muertes porse 2 vescula= 0,0000182 = 0,000036. En consecuencia, de mortalidad I es baja y cncer en IA2 es cortos de tiempo. Adems, como la tasa transcurrido, de vescula en un periodo de tiempo t seguir una distribucin de Poisson con un nmero esperado de casos igualel tiempo, puede probarse que la incidencia acumulada individual asume constante en al producto del tamao poblacional por la probabilidad en un 11 de muerte en dicho periodo, = 140.0000,000018 = 2,52 muertes esperadas en 1 ao y 140.0000,000036 = 5,04 en 2 aos. periodo de tiempo t es Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por ejemplo, la probabilidad de que no tse produzcaItninguna muerte por cncer de vescula IA = 1 - exp(- ) It; durante 1 ao en esta poblacin se calcula a partir de la distribucin de Poisson de parmetro = 2,52 como P(X = 0) = e 0/0! = e2,52 = 0,0805. Estas distribuciones tambin es decir, la probabilidad de las un individuo de esta poblacin Tabla 2 del Apndice pueden aproximarse mediante queprobabilidades de Poisson de lamuera por cncer para = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el nmero esperado de vescula es aproximadamente ser ms simtrica alrededor del valor de muertes, la distribucin tiende a proporcional al tiempo transcurrido, esperado y su varianza aumenta. 11

Pastor-Barriuso R.

27

Variables aleatorias y distribuciones deprobabilidad

Tabla 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en periodos de 1 y 2 aos en una poblacin de 140.000 hombres.
Nmero de muertes (k) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 P(X = k) 1 ao 0,0805 0,2028 0,2555 0,2146 0,1352 0,0681 0,0286 0,0103 0,0032 0,0009 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 2 aos 0,0065 0,0326 0,0822 0,1381 0,1740 0,1754 0,1474 0,1061 0,0668 0,0374 0,0189 0,0086 0,0036 0,0014 0,0005 0,0002 0,0001 0,0000

0,25 0,2

0,25 0,2 0,15 0,1 0,05 0 0 5 10 15 20 0 5 10 15 20

P(X = k)

0,15 0,1 0,05 0

k (a)

k (b)

Figura 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en un periodo de 1 ao (a) y de 2 aos (b) en una poblacin de 140.000 hombres.

Figura 3.2

28

Pastor-Barriuso R.

Este resultado es particularmente til en la prctica, ya que el clculo de las probabilidades binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de Poisson son ms fciles de manejar y facilitan resultados
3.2.3 Aproximacin virtualmente idnticos. de Poisson a la distribucin binomial Bajo determinadas circunstancias, la distribucin de Poisson puede utilizarse como aproximacin a la distribucin binomial. Supongamos que,anteriordistribucin aleatoria X nmero de pruebas Ejemplo 3.8 Retomemos del ejemplo en una la variable binomial, el n es grande y la probabilidad individual de xito es pequea. En tal caso, el nmero de xitos de la distribucin binomial puedede muertes por cncervarianza seren un periodo de 2 igual al correspondiente al nmero ser muy grande y su de vescula aproximadamente valor esperado, n(1 ) n. Como se vio en el apartado anterior, estas dos caractersticas son propias de en una poblacin de Poisson, hombres. El experimento del siguiente resultado: si el aos una distribucin de 140.000 lo que sugiere la validez subyacente consistira nmero de pruebas n es grande y la probabilidad de xito es pequea, la distribucin binomial se aproxima a una distribucin de los n = 140.000 hombres, = n. Por regla de una esta en observar, para cada uno de Poisson con parmetro la ocurrencia o no general, aproximacin se considera suficientemente precisa cuando n 100 y 0,01.
Distribuciones de probabilidad continuas

muerte por es particularmente til en un periodo de 2 aos. El resultado probabilidades Este resultado cncer de vescula durante la prctica, ya que el clculo de las en cada binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de sujeto ms fciles de manejar y facilitan de que un individuo promedio de Poisson son es independiente y la probabilidadresultados virtualmente idnticos. esta Utilizando la aproximacin de Poisson a la distribucin binomial, el nmero de Ejemplo 3.8 Retomemos de ejemplo anterior la variable = 0,000036. Por poblacin muera por cncerdel vescula en 2 aos es = IA2 aleatoria X correspondiente al nmero de muertes por cncer de vescula en un periodo de 2 aos en una poblacin muertes por cncer de vescula en un periodo de 2 aos seguir aproximadamente de 140.000 hombres. El experimento subyacente consistira en observar, para de tanto, el nmero de muertes por cncer de vescula en esta poblacin a lo largo cada uno de los n = 140.000 hombres, la ocurrencia o no de una muerte por cncer de vescula = una un periodo Poisson con parmetro en cada durantedistribucin dede 2 aos. El resultado = n = 140.0000,000036= 5,04. En = 140.000 y 2 aos seguir una distribucin binomial con parmetros nsujeto es independiente y la probabilidad de que un individuo promedio de esta poblacin muera por cncer de consecuencia, la probabilidad de observar 2 tanto, el nmero de muertes vescula en 2 por es = IA2 probabilidad de muertes puede aproximarse por 0,000036. As,aos ejemplo, la = 0,000036. Porque ocurran exactamente 2 por cncer de vescula en esta poblacin a lo largo de 2 aos seguir una distribucin binomial con parmetros muertes es n = 140.000 y = 0,000036.As, ,por2 ejemplo, la probabilidad de que ocurran e 5,04 5 04 P(X = 2) = 0,082222, exactamente 2 muertes es Utilizando la aproximacin de Poisson a la2! distribucin binomial, el nmero de 140.000 2 139 P(X = 2) = 0 de 2 aos.998 = 0,082220. 2 0 000036probabilidad seguir exacta. muertes por cncer de vescula en ,un periodo,999964 binomialaproximadamente que coincide casi perfectamente con la
Utilizando la aproximacin de Poisson a la = n = 140.0000,000036 = 5,04. En una distribucin de Poisson con parmetro distribucin binomial, el nmero de muertes por cncer de vescula en un periodo de 2 aos seguir aproximadamente una distribucin 3.3de Poisson con parmetroPROBABILIDAD CONTINUAS DISTRIBUCIONES DE = observar 2 muertes puede 5,04. En consecuencia, la consecuencia, la probabilidad de n = 140.0000,000036 =aproximarse por probabilidad de observar 2 muertes puede aproximarse por 13 5 , 04 2 Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro 5,04 e P(X = 2) = 0,082222, 2! de un intervalo. La probabilidad de que estas variables tomen exactamente un valor que coincide casi perfectamente con la probabilidad binomial exacta. que coincide y, perfectamente con la probabilidad binomial exacta. determinado es 0casien consecuencia, carece de sentido definir una funcin de masa de 3.3probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un 3.3intervalos de valores mediante una DISTRIBUCIONES DE PROBABILIDAD CONTINUAS intervalo. La probabilidad de que estasfuncin de densidad de probabilidad, denotada es 0 variables tomen exactamente un valor determinado y, en consecuencia, carece de sentido definir una funcin de masa de probabilidad. Para las por f(x aleatorias continuas, las probabilidades se asignan a intervalos de y el rea Las variables aleatorias ha de ser son aquellas que pueden tomar x, f(x) valor dentro variables ). Esta funcin continuas no negativa para cualquier valorcualquier 0,valores mediante una funcin de densidad de probabilidad, denotada por f(x). Esta funcin ha de ser no negativa de total bajo la curva definida por rea total bajo densidad debe ser igual funcin de un intervalo. La x, f(x) 0, y de que estas variables tomen exactamente 1, para cualquier valor probabilidadelesta funcin dela curva definida por esta a un valor densidad debe ser igual a 1, determinado es 0 y, en consecuencia, carece de sentido definir una funcin de masa de f ( x) dx = 1. probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a
Pastor-Barriuso R. A partir de la funcin de una funcin de densidad de probabilidad, aleatoria intervalos de valores mediante densidad, la probabilidad de que una variabledenotada 29

continua X tome valores ser no de cualquier cualquier valor x, f(x 0, y el como por f(x). Esta funcin ha de dentro negativa paraintervalo (a, b) puede )calcularserea el


Variables aleatorias de la funcin de densidad, A partir y distribuciones deprobabilidad

la probabilidad de que una variable aleatoria

continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la funcin de densidad, la probabilidad de que una variable aleatoria continua X rea bajo dentro de cualquier intervalo (a, b) puede b, tome valoresla funcin de densidad entre los puntos a ycalcularse como el rea bajo la funcin de densidad entre los puntos a y b, en regiones de baja probabilidad. La funcin debdistribucin F(x) corresponde a la P(a < X < b) = f ( x) dx . a probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una As, aun cuando la probabilidad de obtener un valor concreto es 0, la funcin de densidad tomar aun aleatoriala probabilidad de de comoun rea bajo y valores pequeos en regiones de As, valores elevados en regiones obtener el valor concreto curva de la funcin variable cuando continua, se calcula alta probabilidad de la es 0, la funcin de de baja probabilidad. La funcin de distribucin F(x) corresponde a la probabilidad de que la variable tome la izquierda de o, inferior a x y, en el caso probabilidad y valores pequeos se tomar valores elevados en regiones de alta de una variable aleatoria continua, densidad a un valor igual x calcula como el rea bajo de la curva de la funcin de densidad a la izquierda de x,

F(x) = P(X x) =

f (t ) dt .

14

La funcin de distribucin de una variable aleatoria continua es una funcin que, partiendo de 0, crece de formade distribucin alcanzar el valoraleatoria continua es una funcin que, La funcin continua hasta de una variable 1.

partiendo de 3.9crece de formade densidad para el colesterol HDL en hombres adultos se Ejemplo 0, La funcin continua hasta alcanzar el valor 1. representa en la Figura 3.3(a). Notar que, aunque el rea bajo la curva ha de ser igual a 1, la funcin de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL Ejemplo mmol/l son los que tienen para el colesterol HDL en hombres adultos prximos a 13.9 La funcin de densidad mayor probabilidad de ocurrir, mientras que para niveles inferiores y superiores esta probabilidad decrece. As, por ejemplo, la probabilidad de se representa en la Figura 3.3(a). Notar que, HDL inferior a 0,90 mmol/l ha de ser que un hombre adulto tenga un nivel de colesterolaunque el rea bajo la curva(niveles bajos segn las recomendaciones del National Cholesterol Education Program) corresponde al igual a 1, la bajo la de densidad puede tomar mmol/l superiores P(X 0,90) = 0,3274. rea sombreada funcincurva a la izquierda de 0,90 valores y es igual a a 1. Los niveles Al igual que para variables discretas, la esperanza o funcin de distribucin una Esta probabilidad tambin puede obtenerse a partir de la media poblacional dedel colesterol de que se representa en la Figura mmol/l son los que tienen el aspecto caracterstico HDL, colesterol HDL prximos a 13.3(b). Esta funcin presentamayor probabilidad de de variable aleatoria continua representa el valor promedio de esa variable, y se define las funciones de distribucin para variables continuas aproximadamente simtricas. ocurrir, mientras que para niveles inferiores y superiores esta probabilidad como Al igual que para variables discretas, la esperanza o media poblacional de una variable aleatoria decrece. As, por ejemplo, la promedio de esa que un hombre adulto tenga un nivel continua representa el valor probabilidad de variable, y se define como

E(X mmol/l f ( x) dx . de colesterol HDL inferior a=0,90 ) = x(niveles bajos segn las
recomendaciones del National Cholesterol Education Program) corresponde al 1,5 1 La varianza poblacional de una variable aleatoria continua es la esperanza de las rea sombreada bajo la curva a la izquierda de 0,90 mmol/l y es igual a P(X 0,75 desviaciones al cuadrado de los valores de la variable respecto de su media, y se calcula 1 0,90) = 0,3274. Esta probabilidad tambin puede obtenerse a partir de la funcin f(x) F(x) 0,5 como 0,5 distribucin del colesterol HDL, que se representa en la Figura 3.3( b). Esta de

2 = var(X) = E(X - )2 = ( x ) 2 f ( x) dx funcin presenta el aspecto caracterstico de las funciones de distribucin para
0

0,25

variables continuas aproximadamente 2 simtricas. 0 0,5 1 1,5 2 2,5 = x f ( x) dx 0 2 =0,5(X2) 1 2. 1,5 E

2,5

Colesterol HDL (mmol/l)

Colesterol HDL (mmol/l)

La raz cuadrada de la varianza es la desviacin tpica poblacional , que representa la (a) [Figura 3.3 aproximadamente aqu] (b)
Figura 3.3 Funcin de densidad de probabilidad (a) y funcin de distribucin (b) del colesterol HDL en dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones hombres adultos. Figura 3.3
30 Pastor-Barriuso R.

para la media y la varianza poblacional de una variable continua son similares a las facilitadas para variables discretas, salvo que la suma sobre el nmero discreto de 15

= x 2 f ( x) dx 2 = E(X2) - 2. La varianza poblacional de una variablealeatoria continua es la esperanza de las La raz cuadrada de la varianza es la desviacin tpica poblacional , que representa la continuas Distribuciones de probabilidad Ladesviaciones alde la varianzalos la desviacin variable respecto de ,su media, y se calcula raz cuadrada cuadrado de es valores de la tpica poblacional que representa la dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones como La varianza la variable aleatoria respecto de su media poblacional. Estas expresiones dispersin de poblacional de una variable aleatoria continua es la esperanza de las desviaciones para la media ylos varianza poblacional de una variablemedia, y se calcula como las al cuadrado de la valores de la variable respecto de su continua son similares a para la media y la varianza poblacional de unavariable2continua son similares a las 2 2 facilitadas para variables discretas, salvo que la( suma)sobre )el nmero discreto de = var(X ) = E(X ) = x f ( x dx Existen muchos modelos tericos de distribuciones continuas, cada una de ellas facilitadas para variables discretas, salvo que la suma sobre el 2nmero2discreto de 2 valores con probabilidad no nula se reemplaza porf laxintegral sobre X ) los posibles todos 2 . = concreta dx funcin de densidad. A caracterizada por una frmula o expresin x ( ) para la = E( valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles valores de la variable continua. La raz cuadrada de la varianza es la desviacin tpica poblacional , que representa la dispersin continuacin se revisa en detalle la distribucin normal, que es la utilizada con mayor de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la valores de la variable continua. La raz cuadrada de la una variable continua son similares a las facilitadas para variables varianza poblacional de varianza es la desviacin tpica poblacional , que representa la frecuencia en estadstica. Otras distribuciones continuas, como la t de Student, chiEjemplo que la suma sobre el nmero discreto de ejemplo anterior, el valor discretas, salvo3.10 Utilizando la funcin de densidad del valores con probabilidad no nula se reemplaza por 3.10 Utilizando la funcin posibles valores de la variableEstas expresiones dispersin dela integral sobre todos los de densidad del ejemplo anterior, el valor su media poblacional. continua. Ejemplo la variable aleatoria respecto devayan surgiendo lo largo del cuadrado o F decolesterol HDL en una poblacin de hombresaadultos sera texto. esperado del Fisher, se discutirn segn paraEjemplo della varianza HDL en una dede densidadhombres adultos sera el valor esperado la media y colesterol poblacional poblacin de del ejemplo anterior, esperado 3.10 Utilizando la funcin una variable continua son similares a las 3.3.1 Distribucin normal poblacin de hombres adultos sera del colesterol HDL en una = salvo x) dxla=suma sobre el nmero discreto de 1,10 mmol/l, facilitadas para variables discretas,0 x f ( que La distribucin normal, tambin denominada= 1,10 mmol/l, = x f ( x) dx distribucin Gaussiana, es el modelo 0 valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles y la desviacin tpica tericodesviacin tpicacontinua ms utilizado en la prctica. Muchas mediciones y la de distribucin valores desviacin tpica y la de la variable continua. 1/ 2 epidemiolgicas y clnicas presentan distribuciones similares al modelo terico normal ( x 1,10) 2 f ( x) dx = 0,30 mmol/l. = 0 1 / 2 2 de densidad del ejemplo anterior, el valor Ejemplo 3.10 Utilizando( x 1 ndice x) dx = 0,30 mmol/l. (presin arterial, colesterol srico,,10) f (de masa corporal) o bien pueden transformarse = la funcin 0 Existen muchos distribuciones aproximadamente normales (tpicamente mediante modelos tericos de distribuciones continuas, cada una de ellas caracterizada para esperado del colesterol HDL en una poblacin de hombres adultos sera conseguir por una frmula o expresin concreta para la funcin de densidad. A continuacin se revisa en 16 detalle la distribucin normal, que es la datos originales). No obstante, comoestadstica. los transformaciones logartmicas de los utilizada con mayor frecuencia en se ver en Otras 16 distribuciones continuas, como la t= Student, dx = 1,10 mmol/l, Fisher, se discutirn segn de x f ( x) chi-cuadrado o F de 0 vayan surgiendo a lo largo del texto. temas posteriores, la utilidad fundamental de la distribucin normal surge dentro de las y la desviacin tpica 3.3.1 Distribucin normal tcnicas de inferencia estadstica: incluso cuando la distribucin poblacional de una
La distribucin normal, tambin denominada distribucin Gaussiana, es el modelo terico de 1 2 variable diste mucho de ser normal, puede probarse/ que, bajo ciertas condiciones, la distribucin continua ms utilizado en 1prctica.xMuchas mediciones epidemiolgicas y clnicas = ( x la ,10) 2 f ( ) dx = 0,30 mmol/l. 0 presentan distribuciones similares al modelo terico normal (presin arterial, colesterol srico, ndice distribucin de los valores medios de dicha variable seguir un modelo de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente normales (tpicamente mediante transformaciones logartmicas de los datos originales). No obstante, aproximadamente normal. como se ver en los temas posteriores, la utilidad fundamental de la distribucin normal surge dentro 16 de las tcnicas de inferencia estadstica: incluso cuando la distribucin poblacional de una variable Una variable aleatoria continua X sigue una distribucin normal si su funcin de diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribucin de los valores medios de dicha variable seguir un modelo aproximadamente normal. densidad es Una variable aleatoria continua X sigue una distribucin normal si su funcin de densidad es

f (x) =

(x ) 2 exp 2 2 2 1

para cualquier valor x en la recta real, < x < . Esta funcin de densidad depende de los parmetros y , dondex en la recta real, - < x < . Esta funcin de densidad depende de para cualquier valor y representa la esperanza o media poblacional de la distribucin y los corresponde donde y parmetros aysu ,desviacin tpica poblacional.

representa la esperanza o media poblacional de la distribucin y

Pastor-Barriuso R.

31

17

Variables aleatorias y distribuciones deprobabilidad

1 2

corresponde a su desviacin tpica poblacional.

La distribucin normal o Gaussiana con media y varianza 2 se denota abreviadamente por N(, 2). Para cualquier y > 0, la funcin de densidad normal f(x) es positiva y el rea total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la Figura 3.4, tiene forma de campana, es simtrica alrededor
corresponde a su . Al tratarse de poblacional. de la media y tiene dos puntos de inflexin en + y - desviacin tpica una
0

2 La distribucin normal o Gaussiana con media distribucin simtrica, la media y la mediana coinciden. El valor ms frecuente y varianza se denot

abreviadamente por N(, ). valor medio aumenta 1/( 2 ) se alcanza en la media y su dispersin alrededor delPara cualquier y > 0, la funcin de de
x
Figura 3.4

- 3

- 2

+ 2

+ 3

es positiva y el rea que el la curva rea al 3.4 Funcin de densidad de una distribucin normal contotal bajo desviacines igual a 1. Esta funcin de dens Figuraaumentar la desviacin tpica . As, puede probarse media 68,27% del tpicabajo una y .

estandarizada, y suele denotarse por Z o se reduce a funcin de densidad de una distribucin una distribucin normal estandarizada N(0, 1). La 3. 99,73% entre normal estandarizada se reduce a

aparece representada el 95,45% entre forma de funcin de densidad normal est comprendido entre en, la Figura 3.4, tiene 2 y el campana, es simt La distribucin normal o Gaussiana con media y varianza 2 se denota abreviadamente 0, la funcin de densidad normal inflexin en + y por99,73% 2entre 3. N(, ). Para cualquier y > de la media y tiene dos puntos de es positiva yel rea - . Al tratars total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la Figura 3.4, tiene forma de campana, distribucin simtrica, la media y la y tiene coinciden. El valor ms fre es simtrica alrededor de la media mediana dos puntos de inflexin en + y . Al tratarse deaproximadamente simtrica, la media y la mediana [Figura 3.4 una distribucin aqu] se alcanza en media su su dispersin coinciden. El valor ms frecuente 1/( 2 ) se alcanza en la la mediay ydispersin alrededor del valor alrededor del valor medio aumenta al aumentar la desviacin tpica . As, puede probarse que elLa distribucin normal una funcin de densidad normal est comprendido entre , el 68,27% d 68,27% del rea bajo con mediaaumentar la desviacin tpica . As, distribucin que al 0 y desviacin tpica 1 se denomina puede probarse el 95,45% entre 2 y el 99,73% entre 3. normal estandarizada, y suele denotarse pordensidad normalfuncin de densidad de funcin de Z o N(0, 1). La est comprendido entre La distribucin normal con media 0 y desviacin tpica 1 se denomina distribucin normal, el 95,45% en

f (z) =

1 exp z 2 , 2 2 1

[Figura 3.4 aproximadamente aqu]

para cualquier < z < , que se representa en la Figura 3.5(a). Como puede observarse, La distribucin normal a media 0 y desviacin tpica se trata cualquier - < z < , que sealrededor de 0. Para obtener).las probabilidades bajo la 1 se denomin para de una funcin simtrica representa en la Figura 3.5(con Como puede funcin de densidad normal estandarizada, no se recurre al clculo integral, ya que estas probabilidadesse trata de una funcinnormal estandarizada,0. Para obtener las por Z facilitan La funcin de observarse, estn tabuladas y son fcilmente accesibles. Ensuele denotarsetablas o N(0, 1). simtrica alrededor de y general, estas la funcin de distribucin; es decir, la probabilidad de que la variable normal estandarizada tome un valor igual olainferior a z.densidad normal normal estandarizada se reduce a La funcin de distribucin no se recurre al probabilidades bajo funcin de una distribucin estandarizada,normal estandarizada se denota por F(z) = P(Z z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apndice se facilita la funcin de distribucin F(z) para valores tabuladas y son fcilmente clculo integral, ya que estas probabilidades estn de z no negativos. 1 1 f ( z) = exp z 2 , 2 2 accesibles. En general, estas tablas facilitan la funcin de distribucin; es decir, la

probabilidad de que la variable normal cualquier - <tome, que se igual o inferior aFigura 3.5(a). Como p para estandarizada z < un valor representa en la z.
32 Pastor-Barriuso R.

observarse, se trata de una funcin simtrica alrededor de 0. Para obtene 18

Distribuciones de probabilidad continuas

f(z)

(z)
1

0,5

-3

-2

-1

-3

-2

-1

z (a)

z (b)

Figura 3.5 Funcin de densidad (a) y funcin de distribucin (b) de una variable aleatoria normal estandarizada.
Figura 3.5

El percentil 97,5 de una distribucin normal estandarizada se denota por z0,975 y corresponde al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apndice, se El calculo F(1,96) = 0,9750 para cualquier 0,975 = 1,96. Por tratarse media distribucin tiene que de probabilidades y, por tanto, z distribucin normal con de una y simtrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir, el percentil requiere de z0,975 = 1,96. As, los valores realizarse a el 95% las varianza 2 no2,5 es z0,025 = tablas especficas, sino que puede1,96 abarcanpartir decentral de la distribucin normal estandarizada. Este resultado ser particularmente til en los temas de de la distribucin normal estandarizada. Para ello, se hace uso del siguiente tablas inferencia estadstica.

Ejemplo 3.11 La probabilidad de obtener un valor inferior a 0,50 en una distribucin normal estandarizada se obtiene directamente de la Tabla 3 del Apndice como el valor de la funcin de distribucin en 0,50; es decir, P(Z 0,50) = F(0,50) = 0,6915. Asimismo, aunque en la Tabla 3 del Apndice no aparecen las probabilidades acumuladas para valores negativos, la probabilidad de obtener un valor inferior a 0,25 en una distribucin normal estandarizada puede calcularse fcilmente a partir de dicha tabla. Como la distribucin normal estandarizada es simtrica alrededor de 0, la probabilidad a la izquierda de 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia, P(Z 0,25) = P(Z 0,25) = 1 P(Z 0,25) = 1 F(0,25) = 1 0,5987 = 0,4013. A partir de los resultados anteriores, la probabilidad de que un valor de la distribucin normal estandarizada. Este resultado ser particularmente til en los temas de inferencia estandarizada se encuentre entre 0,25 y 0,50 viene dada por P( 0,25 Z 0,50) = P(Z 0,50) P(Z 0,25) = 0,6915 0,4013 = 0,2902. estadstica.

resultado sobre la estandarizacin cualquier distribucin normal con variable aleatoria 2 El clculo de probabilidades para de una distribucin normal: si una media y varianza no requiere de tablas especficas, sino que puede realizarse a partir de las tablas de la distribucin X sigue una distribucin normal con uso del y varianza 2, X ~ N(, la estandarizacin normal estandarizada. Para ello, se hacemedia siguiente resultado sobre 2), entonces la de una distribucin normal: si una variable aleatoria X sigue una distribucin normal con media y varianza 2, X ~ N(, (2),-entonces la una distribucin normal estandarizada, distribucin variable aleatoria Z = X )/ sigue variable aleatoria Z = (X )/ sigue una normal estandarizada,

Z=

~ N(0, 1),

donde el smbolo ~ significa estar distribuido como. Como ya se coment en el Tema R. Pastor-Barriuso 1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica,

33

procedimiento de estandarizacin de variables normales permite utilizar las tablas


Variables aleatorias y a la distribucin normal correspondientesdistribuciones deprobabilidad estandarizada.

Ejemplo 3.12 Supongamos que el colesterol HDL en ya poblacin en el Tema donde el smbolo ~ significa estar distribuido como. Comounase coment de hombres1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica, la variable resultante tiene adultos siguedesviacin tpica normal X con media = 1,10 mmol/l y desviacin variable media 0 y una distribucin 1. El resultado anterior garantiza adems que la estandarizada conserva la distribucin normal. Este procedimiento de estandarizacin de variables tpica = 0,30 mmol/l. Utilizando la estandarizacin de variables normales, el normales permite utilizar las tablas correspondientes a la distribucin normal estandarizada. Ejemplo de Supongamos poblacin que tienen en una poblacin de hombres adultos porcentaje3.12hombres de estaque el colesterol HDLniveles de colesterol HDL sigue una distribucin normal X con media = 1,10 mmol/l y desviacin tpica = 0,30 mmol/l. Utilizando la estandarizacin entre 0,90 y 1,20 mmol/l corresponde ade variables normales, el porcentaje de hombres de esta poblacin que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a

0,90 1,10 X 1,10 1,20 1,10 P(0,90 X 1,20) = P 0,30 0,30 0,30 = P ( 0,67 Z 0,33) = P(Z 0,33) P(Z 0,67).
Utilizando la Tabla 3 del Apndice, se obtiene que P(Z 0,33) = F(0,33) = 0,6293 y P(Z 20 0,67) = F( 0,67) = 1 F(0,67) = 1 0,7486 = 0,2514. As, resulta que P(0,90 X 1,20) = 0,6293 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta poblacin tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l. Para obtener el percentil 90 de la distribucin del colesterol HDL en esta poblacin, se calcula primero el percentil 90 en la distribucin normal estandarizada, que corresponde a z0,90 = 1,28, ya que F(1,28) 0,90. Para pasar este percentil estandarizado al correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 )/. Por tanto, el percentil 90 del colesterol HDL es x0,90 = + z0,90 = 1,10 + 1,280,30 = 1,484 mmol/l. 3.3.2 Aproximacin normal a la distribucin binomial El clculo de las probabilidades binomiales es muy laborioso cuando el nmero de pruebas n en muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de xito es muy pequea, la distribucin binomial puede aproximarse mediante una distribucin de Poisson. En este apartado, se revisa el comportamiento de una distribucin binomial para un nmero de pruebas n grande y una probabilidad individual de xito no excesivamente extrema. En la Figura 3.6 se muestran las distribuciones binomiales para los parmetros = 0,10 y n = 10, 25, 50 y 100. Al aumentar el nmero de pruebas, la distribucin binomial tiende a ser ms simtrica y se aproxima progresivamente a una distribucin normal con la misma media n y varianza n(1 ) que la distribucin binomial (Figura 3.6(d)). En general, puede probarse que si el nmero de pruebas n es elevado y la probabilidad de xito no es excesivamente extrema, de forma que n(1 ) 5, la distribucin binomial con parmetros n y se aproxima a una distribucin normal con media n y varianza n(1 ). Este resultado es un caso particular del llamado teorema central del lmite, que se presentar ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante la distribucin normal. As, para una variable binomial X con parmetros n y que cumpla las condiciones anteriores, la probabilidad P(k1 X k2) se aproxima mediante el rea bajo la curva de la distribucin normal N(n, n(1 )) entre k1 1/2 y k2 + 1/2, donde k1 k2 son nmeros enteros cualesquiera. Notar que, al utilizar la aproximacin normal, los lmites del intervalo se amplan en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como correccin por continuidad y se deriva del hecho de aproximar una distribucin binomial discreta mediante una distribucin normal continua.
34 Pastor-Barriuso R.

extrema, de forma que n(1 - ) 5, la distribucin binomial con parmetros n y se aproxima a una distribucin normal con media n y varianza n(1 - ).
0,4 0,3 0,4 [Figura 3.6 aproximadamente aqu] 0,3
Distribuciones de probabilidad continuas

Este = k) 0,2 es un caso particular del llamado teorema central del lmite, que se P(X resultado 0,2
0,1 0,1 presentar ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades

binomiales mediante la distribucin normal. As, para una variable binomial X con
0 5 10 15 20 0 5 10

15

20

k1 parmetros n y que cumpla las condiciones anteriores, la probabilidad P((b) X k2) (a)
se aproxima mediante el rea bajo la curva de la distribucin normal N(n, n(1 - ))
0,3 0,2 0,3 0,2 0,4 0,4

- 1/2 entre k1= k) y k2 + 1/2, donde k1 k2 son nmeros enteros cualesquiera. Notar que, al P(X
0,1 0,1 utilizar la aproximacin normal, los lmites del intervalo se amplan en 1/2 para incluir

las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como


correccin por continuidad y se deriva del hecho de aproximar una distribucin k k
0 5 10 15 20 0 5 10 15 20

binomial discreta mediante una distribucin normal continua.

(c)

(d)

Figura 3.6 Distribuciones binomiales con parmetros = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d, se representa adems la funcin de densidad de una distribucin normal con media n = 1000,10 = 10 Ejemplo 3.13 1000,100,90 = 9. y varianza n(1 ) = La probabilidad de obtener entre 12 y 14 xitos sobre un total de

100 pruebas con una probabilidad individual de xito del 0,10 se obtiene a partir Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 xitos sobre un total de 100 pruebas con una probabilidad individual de = 100 y = 0,10 obtiene a partir de la de la distribucin binomial X con parmetros n xito del 0,10 secomo distribucin binomial X con parmetros n = 100 y = 0,10 como

P(12 X 14) =

100 0,10 k (1 0,10)100 k k =12 k

14

= 0,0988 + 0,0743 + 0,0513 = 0,2244,


cuyo clculo es bastante laborioso. Sin embargo, como n(1 ) = 1000,100,90 = 9 5, una aproximacin razonable a esta probabilidad puede obtenerse)a= 1000,100,90 cuyo clculo es bastante laborioso. Sin embargo, como n(1 - partir de la distribucin normal Y con media n = 1000,10 = 10 y varianza n(1 ) = 9 mediante = 9 5, una aproximacin razonable a esta probabilidad puede obtenerse a partir 11,5 10 Y 10 14,5 10 P(11,5 < Y < 14,5) = P < < de la distribucin normal Y con media n = 1000,103= 10 y varianza n(1 - ) = 9 3 3 = P(0,5 < Z < 1,5) = (1,5) (0,5) mediante = 0,9332 0,6915 = 0,2417. Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).
Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).

22

3.3.3 Aproximacin normal a la distribucin de Poisson

Pastor-Barriuso R.

35

La distribucin normal tambin puede emplearse como aproximacin a la distribucin

moderadamente elevado, tpicamente 10. As, para una variable aleatoria X que siga
Variables aleatorias y distribuciones deprobabilidad

a una distribucin de Poisson con parmetro moderadamente grande, la probabilidad

P(k1 X k2) puede aproximarse la distribucin de Poisson 3.3.3 Aproximacin normal a mediante el rea bajo la curva de la distribucin
La distribucin normal tambin puede emplearse como aproximacin a la distribucin de Poisson normal N(, ) entre k1 - 1/2 y k2 + 1/2. cuando el nmero esperado de casos es moderadamente grande. En la Figura 3.7 se representan las distribuciones de Poisson con parmetros = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar el nmero esperado de casos, las probabilidades de Poisson tienden a distribuirse de forma normal. En [Figura 3.7 aproximadamente aqu] trminos generales, una distribucin de Poisson con parmetro se aproxima a una distribucin normal con media y varianza iguales a , cuando el nmero esperado de casos es moderadamente elevado, tpicamente 10. As, para una variable aleatoria X que siga a una distribucin de Poisson con parmetro 3.14 Si el nmero de casosprobabilidad P(k1 X a lo )largo de un ao en mediante Ejemplo moderadamente grande, la de una enfermedad k2 puede aproximarse el rea bajo la curva de la distribucin normal N(, ) entre k1 1/2 y k2 + 1/2. una determinada poblacin sigue una distribucin de Poisson X de parmetro = Ejemplo 3.14 Si el nmero de casos de una enfermedad a lo largo de un ao en una determinada poblacin sigue o ms casos en un mismo ao es exactamente 10, la probabilidad de tener 15 una distribucin de Poisson X de parmetro = 10, la probabilidad de tener 15 o ms casos en un mismo ao es exactamente
e 10 10 k P(X 15) = = 0,0835, k! k 15 que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como

23

Y 10 14,5 10 P(X 15) P(Y > 14,5) = P > 10 10 = P(Z > 1,42) = 1 (1,42) = 1 0,9222 = 0,0778.
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la Figura 3.7(d). Esta aproximacin corresponde al rea sombreada bajo la curva normal en la

Figura 3.7(d).
0,3

0,4

0,4 0,3 0,2

P(X = k) 0,2

0,1 0,1 3.4 COMBINACIN LINEAL DE VARIABLES ALEATORIAS

En este apartado se introducen algunas propiedades de la combinacin lineal de


0 5 10 15 20 0 5 10

15

20

(a) (b) variables aleatorias (discretas o continuas) que sern tiles para la estimacin e
0,4 0,4

inferencia estadstica. En particular, se pretende derivar el valor esperado y la varianza 0,3 0,3
P(X = k) 0,2 0,2 de la combinacin lineal c1X1 + ... + ckXk, donde c1, ..., ck son constantes arbitrarias y X1,

..., Xk son variables aleatorias con esperanzas 1, ..., k y varianzas 12 , ..., k2 . Como el
0 0

0,1

0,1

valor esperado de la suma 5 variables aleatorias es igual a0la suma de sus respectivas de 0 10 15 20 5 10 15 esperanzas, se tiene que
k (c) k (d)

20

Figura 3.7 Distribuciones de Poisson con parmetros k = 1 (a), 2,5 (b), 5 (c) y 10 (d). En el panel d, se rek k k presenta adems la funcin de densidad de una distribucin normal con media y varianza iguales a = 10.
36 Pastor-Barriuso R.

E c i X i = E (c i X i ) = c i E ( X i ) = c i i , i =1 i =1 i =1 i =1

ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables

k k = ci2 E ( X i2 ) + 2 ci c j E ( X i X j ) ci2 i2 + 2 ci c j i j N LINEAL DE VARIABLES ALEATORIAS variables aleatorias (discretas o continuas) que sern1i < j k para la estimacin e tiles i =1 1 i < j k i =1

introducen algunas propiedades de la combinacin linealpretende derivar}el valor c i c j {E ( X yX j ) i j } = se { inferencia estadstica. En particular, cde E ( X ) + 2 esperado i la varianza
i =1 k k k 2 i 2 i 2 i 1 i < j k

Combinacin lineal de variables aleatorias

(discretas o continuas)combinacin lineal c1X1 estimacin ,2edonde c1,ALEATORIAS c son constantes arbitrarias y X1, la que sern tiles para la + DE c Xk 2 2 3.4de COMBINACIN LINEAL2... + VARIABLES ..., c k {E ( X X ) }. k k = ci i + 2 ci j i j i j var ci X i = E ci X i ci i 1i < j k i =1 2 ca. En particular, se pretende derivarintroducen con esperanzas 1, ..., k y varianzas , ..., 2 . de variables = En..., Xk i =1 variables el valor esperado iy1la varianza de la combinacin lineal Como el este son apartado aleatorias se i =1 algunas propiedades k 1 aleatorias (discretas o continuas) que sern tiles para la estimacin e inferencia estadstica. En k k + ckXk, donde c1, ..., ckderivar X valor una combinacin lineal no depende slo lineal lineal c1X1 + ... particular, se pretendela i2 E ( el i2 ) + 2esperado E (y X1, j ) lai2combinacin idej i cj1X1 + ... As,sonvarianza de arbitrarias la varianza de c i2 + 2 c c la varianza especfica de =la suma de variables aleatorias ies iguala la suma de sus respectivas c constantes ci c j y X X valor esperado de = 1 j k 1 i < j k 1 + ckXk, donde c1, ..., ic1 son constantesi <arbitrarias y X1, ...,i =Xk son variables aleatorias con k 2 2 aleatorias con esperanzas 1,, ..., cada variable 1 , ...,2 k .. Comode los trminos E(XiXjla- suma que variables como el valor esperado de de se conocen 1 k k k y varianzas esperanzas, se tiene que2 {E ( X 2 ) sino tambinc c {E ( X X ) ) ij, = ci de sus respectivas esperanzas, sei tiene que j } i } + 2 i j aleatorias es igual a la suma i j i i =1 1 i < j k a suma de variables aleatorias es igualk a la suma de sus respectivas i y Xj. En general, la covarianza poblacional entre dos covarianzas entre k variables X las k k k2 2 = c i i X i = cEc c{X () =i X j c i X)j }. ci i , E c + 2 i ( j i E i X ) E( i i = e que variables aleatorias kX e Y con esperanzas x yi =y se define como 1 i =1 1i <i =1 i =1 i =1 j

ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables aleatorias 2 k kk k ya que E(ciXi) lineal ). k E esperanza k es la combinacinde i (Xde Es decir, la linealXno2)de E{(Xcombinacin linealXYespecfica de cov( - xy, As, la varianza =Ec una i= ksus esperanzas. , Y = una - x)(Y - )} = E( de)variables E ci X i = E (c i Xvar= ci iX i(X i ) combinacin ci i depende slo de lay varianza ) c c iX ii , = E ci i i =1 i =1 A partir deii==11 resultado,=1 recordando1que var(X) = E(X2) 2, puede calcularse la varianza este ii=1y i= aleatorias es la k, sino tambin de de trminos E(X X ) - , que se conocen como 2 k k cada variable i2combinacin lineal los2sus esperanzas. entre ambas variables. Si valores altos (o bajos) de deuna combinacin lineal de variables aleatorias comoi j k i j k y es una medida de la relacin lineal var ci X i = E ci= ci2 (2ci + i2 ci c j E ( X i X j ) ci2 i2 + 2 ci c j i j Xi E Xi ) E(Xi). Es decir, la i =1 A partir deeste resultado, iy1linealde j k que 2var(X) = i(X2) - 2, puedek calcularse la esperanza de una1 combinacin recordando k i= k = 2 1i <k variables E =1 i =1 1 i < j entre Xtienden a asociarse. con general,k la covarianza poblacional entre dospositiva; y Xj En valores altos (o bajos) de Y, la covarianza ser covarianzas kc X las=variablesXXi c k var i 2i E ci i 2 i i E2 2 2 2 2 mbinacin lineal de sus esperanzas.icombinacin(lineal j dei(ivariablescaleatoriasX 2) ccj } i j i X i 2 X i = i 2 varianza ==1 c mientras+queic)c E Xaltos)de i{ci ( X i + j se relacionan valores bajos de la otra de una E (= )ci i=1{E si valores}1+X j c j variable i i j como i una con i Y i =1 1 < jk 1 i < y j i= variables aleatorias X e=k1 coniesperanzas x1i <ykse1 define comoj k k 2 2 2 2 2 2 k k E ci X i ) + 2 ci c j E X resultado, y recordando que var(X) = = (X2 ) 2- E2( , puede calcularse (la i X j ) ci i + 2 ci c j i j 2 2 2 }. } = ) } ci j i k E X X i i = E = ci variable,i i+ + 2 <cj{c j (negativa. obstante, resultacomplicado determinar el {E ( X=1 c la icovarianzacser{X i(X ji ) j )No ji 1j i i 1i 1 i < j k i =1 1 i <1j ik j k < i =1 cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy, k mbinacin lineal de variables aleatorias como k grado de i2 {E ( X i2 )lineal}entre dos variables X partir ide } magnitud de la covarianza, ya = c relacin 2 + 2 c c {E ( X i a j ) j la = c i2 i2 +i =2 c i c j {E ( X i iX j ) 1 kj i}. j <i 1 combinacin lineal no idepende slo de la varianza especfica de j As, la varianza de una1 i < j k i =1 y es una medida de la stadepende de entre ambas variables. Si valores altos (o bajos) de alternativa del k que relacin lineal las unidades de medida de las variables. Una medida = c i2 i2 + 2 c i c j {E ( X i X j ) i j }. cada variable i2 , sino tambin dei <los trminos E(XiXj) - ij, que se conocen como i =1 1 j X tienden deasociarse con valores altoskdepende slo de la covarianza ser positiva; coeficiente de grado de asociacin (o bajos) dos , la varianza especfica de As, la varianza a una combinacin lineal nolineal entre de Yvariables aleatorias X e Y es el 24 As, covarianzas de una combinacin y Xj. En general, la covarianzavarianza especficados cada la varianza entre las variables Xi lineal no depende slo de la poblacional entre de mientras 2 varianzacorrelacin poblacional(Xxyse -isejque se con valores bajos de la otra As, la , sino tambin de los trminoslinealiXj) relacionansecomo varianza de una combinacin E de la sino tambin de los una variable j,) quei ,defineconocen como covarianzas entre cada variable ique si valores altos detrminosE(XiXnodepende slo conocen como especfica de j, que las variables Xaleatorias general, la covarianzax poblacional entre dos variables aleatorias X e Y variables i y Xj. En X e Y con esperanzas y y se define como variable, la covarianza define como No obstante, (XiXj) - ij que conocen complicado determinar el con cada variablex y y, se ser negativa.los trminos 24resulta cov(,X , Y )se entre doscomo esperanzas i2 sino tambin de E covarianzas entre las variables Xi y Xj. En general, la covarianza poblacional xy = , ) cov(X, ) = variables a y de E XY x yx , grado de relacin lineal entreYdosE{(X x)(Ypartir)} =la (magnitud yde la covarianza, ya variables covarianzas entre lasesperanzasXi xyyXj.yEn define como aleatorias X e Y con variables se general, la covarianza poblacional entre dos y es una medida de la relacin lineal entre ambas variables. Si valores altos (o bajos) de X quevariablesmedida de la unidades de medida de las variables. Una medida (o bajos)de correlacin carece sta depende de las e lineal entre y es una aleatorias X relacin esperanzas ambas variables. Si valores altos alternativa del de tienden a asociarse donde xYycon son(o bajos)x y lase definede X e Y.positiva; mientras que si con valores altos las desviaciones covarianza ser El coeficiente de Y, y tpicas como y cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy, valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza X tienden a asociarse conentre dos variables aleatorias covarianza ser positiva; de Y forma que si grado de asociacin lineal valores altos (o bajos) de Y, la eldeetal es el coeficiente= entre dos ser negativa. No obstante, resulta complicado entre -1 y 1; Xgrado de relacin lineal1, las variables de unidades y toma valores determinar xy cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy, y es una medida de la relacinmagnitud de ambas variables. Sique sta altos (o bajos) deunidades de variables a partir si valores altosentre lavariable se relacionan con valores bajos de la otra de la lineal de una covarianza, ya valores depende de las mientras poblacional correlacin que presentan xy medida alternativa medida de las variables. Una, que se define comodel grado de asociacin lineal entre dos una relacin lineal positiva perfecta, y si xy = -1, las variables presentan una X tiendeny es una medidaXde Y es el coeficiente de correlacin poblacional determinarbajos)como a asociarse covarianzarelacin lineal No obstante, resulta complicado xy que (o el con e la ser negativa. entre ambas variables. Si positiva; variables aleatorias valores altos (o bajos) de Y, la covarianza ser valores, altosse define de variable, la 25 cov( X , Y ) mientras que si valores altos decon valoresvariablesbajos) de ,Ylala covarianzade covarianza, ya xy X tiendenrelacin lineal entre dos altosrelacionan con ,valores bajos la la otra a asociarse una variablese= (o a partir de magnitud de ser positiva; grado de
x y

variable, la covarianza silasde las altosNo obstante, resultarelacionan con valores bajos de la otra de mientras yque ser desviaciones tpicas de deelascomplicado determinar el que y son valores unidades de variable donde xsta depende negativa. de una medida X se Y. variables. Una medida alternativa del El coeficiente de correlacin carece unidades y toma valores entre 1 y 1; de tal de X e Y. El coeficiente de correlacin carece forma que si xy = 1, las variables presentan una donde gradorelacinx y lineal entredesviaciones tpicas las variables presentancovarianza, ya de relacin y son lasperfecta, negativa.No obstante, resultade es el coeficientelineal negativa variable, la covarianza ser y si dos=variables la magnitude complicado determinar el grado de asociacin lineal entre xya partir de aleatorias X Y la una relacin de 1, lineal positiva dos variables perfecta. Cuando xy = 0, se dice que las variables estn incorrelacionadas. Notar que si dos de unidades y las unidades de en dossede las variables. Una magnituddel valor que forma que sta depende deindependientes,entre -1 variablescomo el de la medida alternativa del toma una grado de toma lineal entre el y define tal partir que si xy = las variables correlacin poblacional medida 1; de variables sonrelacin valores xy, que sentido de aque conocimiento1,de la covarianza, ya grado presentan unalineal entre dos variables perfecta, yXsi xy =el coeficiente de presentan unaR. de asociacin relacin las unidades de aleatorias las Y es -1, las variables alternativa del que sta depende de lineal positiva medida de e variables. Una medida Pastor-Barriuso cov( X , Y ) xy = , grado de asociacin lineal define como x aleatorias X e Y es el coeficiente de correlacin poblacional xy, que se entre dos variables y 25
37

xy

Variables aleatorias y distribuciones deprobabilidad

implica necesariamente independencia, ya en ellas variables podran presentar una correlacin se discutirn en mayor detalle que Tema 10. dependencia node una aun cuando xy = 0. de variables aspectos sobre elentonces de La varianza lineal combinacin lineal Este y otros aleatorias queda coeficiente

correlacin se discutirn informacin sobre el valor de variable no aporta ningunaen mayor detalle en el Tema 10. la otra variable, entonces estn determinada por incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya que La varianza de presentar una dependencia no lineal aun cuando entonces las variables podranuna combinacin lineal de variables aleatorias queda xy = 0. Este y otros k k aspectos sobre el coeficiente dei X i = ci2 i2 discutirnc j cov( X i ,detalle en el Tema 10. var c correlacin se + 2 ci en mayor X j ) determinada por 1 i < j k i =1 i =1 La varianza de una combinacin lineal- de variables80 = 50 mm Hg entonces determinada por E(X1 - X2) = 1k 2 = 130 - aleatorias queda = k c 2 2 + 2 ci c j i j ij , k i2 i2 i =1 < + 21i80 k= j cov( varianza de la var - iX2)i = ci2=i ambas j ci c50 mmlai , E la c X = 1 - y, teniendo en cuenta(X=1 correlacin entre130 1- variables, XHgX j ) i < j k i 1 i =1 donde ij es elpulso vendra dada por c 2 2 + 2 i y Xj.cEn el caso de que las variables presin del coeficiente de correlacin entre X ci j i j la = i i y, teniendo en cuenta la correlacin entre ambas variables,ij , varianza de la sean mutuamente independientes por 2 la condicin menos restrictiva de que presin del pulso X1 - X2) dada2 (bastara21212 var( vendra = 1 + donde ij es el coeficiente de correlacin2 entre Xi y Xj. En el caso de que las variables sean donde ij incorrelacionadas), la varianzaentre Xi y j. En el restrictiva las variables estuvieran independientes (bastara la de la combinacin lineal que mutuamente es el coeficiente de correlacin condicin Xmenos caso dees de que estuvieran 2 2 2 2 20 12 var(X1 - X2) dela + 102 - 212lineal es 2 incorrelacionadas), la varianza = 20 combinacin100,60 = 260 (mm Hg) , 1 sean mutuamente independientes (bastara la condicin menos restrictiva de que k k 2 2 var102c-i Xi20= ci2 = .260 (mm Hg)2, para una desviacin tpica= 20 +==1 2 mm10=10,60 260 16,1 combinacin lineal es estuvieran incorrelacionadas), la varianza dela Hg. i i i
Ejemplo 3.15 Supongamos que 16,1 mm yk la para una desviacin tpica 260 =kla media Hg. desviacin tpica de la presin arterial Lossistlica X1 en una determinada poblacin son 1 = variable aleatoria. 20 mm Hg, y la media resultados anteriores son vlidos para X = c 2 2 mm Hg y 1 = No obstante, var ci cualquier i130 . i i Ejemplo 3.15 Supongamos que=la media yi =la desviacin tpica de la presin y la desviacin tpica(de laX2) = 1 arterialdiastlica X2 son 2 = 80 mm Hg y 2 = 10 mm presini 1 2 = 130 -1 80 = 50 mm Hg E X1 si las variables X1,anteriores son que el coeficientenormal, puede probarsepresin arterial sistlica Los Hg. Supongamoskadems X2) = 1 para = 130 - correlacin aleatoria.que la resultados ..., X siguen una distribucin de 80variable entre la No obstante, ( 1 en vlidos - 2 cualquier = 50 mm Hg arterial sistlicaEXX1 - una determinada poblacin son valor esperado de 1 = 20 y diastlica de los sujetos de esta poblacin es 12 = 0,60. El1 = 130 mm Hg yla presin del y, teniendo en la kXk de c X siguencorrelacin seguir combinacin definidacuentala+diferencia entre ambas variables, la varianza conla pulso, lineal3.15 k + ... cuna tambinmedia y una distribucin normal la la distribucin normal, puede probarse de la presin si las variables X1, ...,1X1Supongamos queentre la presin arterial sistlica y diastlica, sera Ejemplo como la la desviacin tpica que mm Hg, y cuenta la correlacin entre ambas variables, la varianza de la la y, teniendo en la media y desviacin tpica de la presin arterial diastlica X2 son 2 E anteriormente. presin del descritas (X1 dada porEste resultado se 50 mm Hg los temas de pulso vendra X2 ) = 1 2 = 130 80 = utilizar en media y varianza combinacin lineal c1X1 + X1 + cunatambin seguir una distribucin 130 mmcon la 1 = 20 arterial sistlica ... en kXk determinada poblacin son 1 = normal Hg y = 80 mm Hg vendra correlacin presin del pulso y 2 =la dada por Supongamos adems quela varianza de de presin del y, teniendo en cuenta 10 mm Hg. entre ambas variables, el coeficiente la inferencia. vendravar(X1por 2correlacin Este21212 se utilizarvarianza de lade y, varianza descritas - la ) = 2 + entreresultado teniendo en cuentaanteriormente. 2 - ambas variables, la en los temas pulso dada media y mm Hg, y la mediaXy la desviacin tpica de la presin arterial diastlica X2 son 2 1 2 correlacin entre la presin arterial sistlica y diastlica de los sujetos de esta 2 2 var(X1 X2) = 1 por 2 2 1 2 12 + presin 2 inferencia. 80del pulsoyvendra dada2 2 + 102 - 220100,60 = 260 (mmcoeficiente de = 20 Hg. Supongamos adems que elpoblacin sigue = Ejemplo mm Hg 12 2 = 10 mm valorlas mujeres0,60 = 260 una pulso,,,definida como 3.16 El = 0,60. 20 + 10 22010 adultas de del Hg) = El poblacin es colesterol HDL en 2esperado de la presin (mm Hg)2
2 var(X1 X 1 12 + 2 2 = 2 unacorrelacin entre-la 2)X=con arterial- sistlica12 y diastlica, serasujetossigue distribucin colesterol 260 = 16,1 11,25 y para una desviacin la presinmedia mujeres adultas y una poblacin de esta Ejemplo 3.16 El entretpica HDL arterial1sistlicammol/lde desviacin tpica 1 = la diferencia normalpresin en las mm Hg. diastlica de los = 16,1 mm i =1 1 i < j k k

parapoblaciny en 12 tpica = 202valor 2 2mm 10 poblacin sigue una 2distribucin 26 260 10 esperado Hg. 0,35 una desviacin =hombres += 16,1 cualquier presin(mm Hg) No 1 como mmol/l, es los 0,60. vlidos para dicha la = 260 aleatoria. una distribucin normal X1 El media 1 20 demmol/l y desviacin definida = Los resultados anteriores soncon adultos-de= 1,250,60variable del pulso,,tpicaobstante, si las Los resultados k siguen una distribucin normal, puede probarse que la combinacin variables X1, ..., Xanteriores son vlidos para cualquier variable aleatoria. No obstante, lineal X normal c 2 y en los hombres mmol/l y dichanormal con 2 media y X1 0,35 unakXcon media seguir 260 arterial mm Hg. y diastlica, = 0,30 distribucin +resultados anteriores2 = 1,10adultos de desviacin tpicasigue una mmol/l. As, ...la+diferencia entre la presin distribucin poblacin la sera c1Lospara mmol/l,tambin tpica vlidos= 16,1 sistlica variable aleatoria. No varianza descritas k obstante, desviacin son una para cualquier si las variables Este resultado seuna distribucintemas de puede probarse que la anteriormente. X1, ..., Xk siguen utilizar en los normal, inferencia. 26 la diferencia del colesterol1,10 mmol/llasdesviacin tpica 2 = 0,30 mmol/l. As, HDL entre y normal X2 con media 2 = una distribucinmujeres y los hombres de esta poblacin normal, puede probarse que la si las variables X1, ..., Xk siguen combinacin lineal c1X1 +colesterol tambin seguir una distribucin normal con la sigue una LosEjemplo 3.16 El ... + cvlidos para cualquier variable aleatoria. No obstante, resultados anteriores son kXk HDL en las mujeres adultas de una poblacin se distribuir segn X normal con media distribucin c1 1 + ... 1+ c HDL entre seguir una distribucin normal poblacin la diferencia normaluna con k tambin las mujeres y y desviacin tpicacon la combinacin linealdelXcolesterolkXmedia 1 = 1,25 mmol/l los hombres de esta1 = 0,35 mmol/l, mediay en los hombres adultos de dicha poblacin sigue puede probarselos temas X2 con media y varianza ..., X siguen una distribucin normal, se utilizar en que la si las variables X1,descritas anteriormente. Este resultado una distribucin normal de k = 1,10 mmol/l E una normal con media - 1,10 = As, la diferencia del de y 1 - X2) = tpica 2 1,25 distribuir segn(desviacin 1 - Este resultado se utilizar en se 2varianza descritasXanteriormente. 2== 0,30 mmol/l.0,15 mmol/l los temascolesterol HDL media y inferencia. las mujeres y los + c X tambin seguir una distribuir segn una normal entre combinacin lineal c1X1 + ...hombres de esta poblacin se distribucin normal con la con media k k inferencia. E(X1 X2 ) = 1 2 = 1,25 1,10 = 0,15 mmol/l y varianza media y varianza descritas anteriormente. Este resultado se utilizar en los temas de Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una poblacin sigue y varianza y varianza var(X1 X2) = 2 + en2las 0,352 + 0,302 = 0,213 (mmol/l)2, sigue Ejemplo 3.16 El colesterol HDL 2 = mujeres adultas de una poblacin inferencia. 1 una distribucin normal X1 con media 1 = 1,25 mmol/l y desviacin tpica 1 =
38

una distribucin normal X1 con media 1 = 21,25 mmol/l y desviacin tpica 1 = 2 var(X1 - X2) = 2 = 0,35 + 0,302 = 0,213 (mmol/l)2, 0,35 mmol/l, El colesterol 1= + 2 las mujeres poblacin sigue una distribucin Ejemplo o desviacin tpica 0,213 HDL enmmol/l, ya que los valores poblacin sigue 0,46 Pastor-Barriuso R. 3.16 y en los hombres adultos de dicha adultas de unapara distintos 0,35 mmol/l, y en los hombres adultos de dicha poblacin sigue una distribucin tpica 2 = 0,30 mmol/l. As, normal X2 con media = una distribucin normal2X1 1,10 mmol/l y desviacin 0. sujetos son independientes con consecuencia,que los valores para distintos o desviacin tpica 0,213 y, enmedia 1 = 1,25mmol/l y desviacin tpica 1 = = 0,46 mmol/l, ya 12 =

y varianza
Referencias

var(X1 - X2) = + = 0,35 + 0,30 = 0,213 (mmol/l) ,


2 1 2 2

o desviacin tpica 0,213 = 0,46 mmol/l, ya que los valores para distintos sujetos son ya que los valores para distintos independientes y, en consecuencia, 12 = 0.

sujetos son independientes y, en consecuencia, 12 = 0. 3.5 REFERENCIAS

27 1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume 1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2. 3. 4. 5. 6. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. New York: John Wiley & Sons, 1968. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory, Sixth Edition. London: Edward Arnold, 1994.

Pastor-Barriuso R.

39

TEMA 4 PRINCIPIOS DE MUESTREO Y ESTIMACIN


4.1 INTRODUCCIN

Un primer paso en la realizacin de un estudio o proyecto de investigacin es definir la poblacin de la cual se desea conocer una determinada caracterstica o parmetro. Ocasionalmente, resulta factible obtener informacin para todos los elementos de la poblacin mediante registros o censos. Sin embargo, en la mayora de los estudios no es posible obtener informacin de toda la poblacin, por lo que debemos limitarnos a la recogida de datos en una pequea fraccin del total o muestra. La utilizacin de muestras presenta varias ventajas con respecto a la enumeracin completa de la poblacin: y Coste reducido. Si los datos se obtienen de una pequea fraccin del total, los gastos se reducen. Incluso si la obtencin de informacin en toda la poblacin es factible, suele ser mucho ms eficiente la utilizacin de tcnicas de muestreo. y Mayor rapidez. Los datos pueden ser ms fcilmente recolectados y estudiados si se utiliza una muestra que si se emplean todos los elementos de la poblacin. Por tanto, el uso de tcnicas de muestreo es especialmente importante cuando se necesita la informacin con carcter urgente. y Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros completos es limitada. Muy a menudo, la nica alternativa posible para la realizacin de un estudio es la obtencin de datos por muestreo. y Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un nmero menor de efectivos, resulta ms fcil recoger un nmero mayor de variables por individuo, as como tener un mejor control de la calidad del proceso de recogida de datos. Si se dispone de informacin para todas las unidades de la poblacin, el parmetro poblacional de inters quedar determinado con total precisin. Sin embargo, si se emplea nicamente una fraccin del total, el parmetro poblacional desconocido ha de estimarse a partir de la muestra, con el consiguiente error derivado tanto por el carcter parcial de la muestra como por su posible falta de representatividad poblacional. La teora de muestreo persigue un doble objetivo. Por un lado, estudia las tcnicas que permiten obtener muestras representativas de la poblacin de forma eficiente. Por otro lado, la teora de muestreo indica cmo utilizar los resultados del muestreo para estimar los parmetros poblacionales, conociendo a la vez el grado de incertidumbre de las estimaciones. As, la teora de muestreo pretende dar respuesta a varias preguntas de inters: y Cmo se eligen a los individuos que componen la muestra? y Cuntos individuos formarn parte de la muestra? y Cmo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra y los que hubiramos obtenido si el estudio se hubiera llevado a cabo en toda la poblacin?
Pastor-Barriuso R. 41

Principios de muestreo y estimacin

Estas cuestiones estn estrechamente relacionadas entre s. As, por ejemplo, al aumentar el tamao muestral aumenta la exactitud en las estimaciones. La determinacin del tamao muestral se tratar ms adelante (vase Tema 9). En el presente tema, se discuten los principales tipos de muestreo probabilstico, as como la estimacin en el muestreo aleatorio simple. Antes de ello, es conveniente revisar la definicin de algunos conceptos que se utilizan de forma repetida a lo largo del captulo: y Poblacin o universo muestral es la coleccin de elementos o unidades de anlisis acerca de los cuales se desea informacin. Con frecuencia, no se puede obtener informacin de toda la poblacin, sino tan slo de unidades que cumplen una serie de caractersticas (criterios de inclusin/exclusin). La poblacin marco es aquella sobre la que es posible obtener informacin. La muestra se obtiene de la poblacin marco, por lo que debe recordarse que las conclusiones extradas de la muestra son generalizables a la poblacin marco y no necesariamente a la poblacin de inicio o universo. y Dentro del proceso de seleccin de una muestra, la poblacin suele dividirse en unidades de muestreo, que deben constituir una particin de toda la poblacin. Estas unidades de muestreo pueden coincidir con las unidades de anlisis, pero tambin pueden estar constituidas por un conjunto de distintas unidades de anlisis. Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una poblacin de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se eligen a su vez algunos ancianos que formarn parte de la muestra definitiva. En tal caso, la seleccin de la muestra se habra realizado en dos etapas: las residencias constituiran las unidades de muestreo de primera etapa y los ancianos (unidades de anlisis) seran las unidades de muestreo de segunda etapa. y Muestreo probabilstico es aquel en que todas las unidades de la poblacin tienen una probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo probabilstico minimiza la probabilidad de sesgos (si el tamao muestral no es muy limitado, la muestra ser muy probablemente representativa de la poblacin) y permite cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad aleatoria. La teora del muestreo se basa fundamentalmente en el muestreo probabilstico, ya que otros tipos de muestreo (de conveniencia, por cuotas) estn sujetos a una mayor probabilidad de sesgos y es ms difcil extrapolar los resultados a la poblacin. y En el muestreo con reposicin, cada vez que se elige un nuevo elemento muestral se dispone de toda la poblacin para realizar la seleccin, mientras que en el muestreo sin reposicin los elementos que ya han aparecido en la muestra no estn disponibles para ser elegidos de nuevo. En el muestreo con reposicin, por tanto, una unidad poblacional puede aparecer ms de una vez en la muestra. En la prctica, el muestreo suele realizarse sin reposicin. No obstante, si el tamao de la poblacin es muy grande con respecto al tamao muestral, la probabilidad de que un elemento de la poblacin sea elegido ms de una vez en la muestra es tan pequea que ambos tipos de muestreo son similares. 4.2 PRINCIPALES TIPOS DE MUESTREO PROBABILSTICO

En este apartado se describen brevemente los principales procedimientos probabilsticos de seleccin de muestras, tales como los muestreos aleatorio simple, sistemtico, estratificado, por
42 Pastor-Barriuso R.

Principales tipos de muestreo probabilstico

conglomerados y polietpico. Un tratamiento ms extenso de estos procedimientos puede encontrarse en los libros de muestreo referenciados al final del tema. 4.2.1 Muestreo aleatorio simple

El muestreo aleatorio simple es el ms sencillo y conocido de los distintos tipos de muestreo probabilstico. Supongamos que se pretende seleccionar una muestra de tamao n a partir de una poblacin de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier subconjunto de tamao n tiene la misma probabilidad de ser seleccionado. Puede probarse que el muestreo aleatorio simple es un procedimiento equiprobabilstico; es decir, todas las unidades de la poblacin tienen la misma probabilidad n/N de ser elegidas en la muestra. Para la seleccin de una muestra aleatoria simple, se enumeran previamente las unidades del universo o poblacin de 1 a N y a continuacin se seleccionan n nmeros distintos entre 1 y N utilizando algn procedimiento aleatorio, tpicamente mediante una tabla de nmeros aleatorios o un generador de nmeros aleatorios por ordenador. y Las tablas de nmeros aleatorios son tablas con los dgitos 0, 1, 2, ..., 9, donde cada dgito tiene la misma probabilidad de ocurrir y el valor de un dgito concreto es independiente del valor de cualquier otro dgito de la tabla. En la Tabla 4 del Apndice se facilitan 1000 dgitos aleatorios. y La mayora de los programas de anlisis estadstico contienen generadores de nmeros aleatorios. Estos generadores producen grandes secuencias de dgitos pseudoaleatorios, que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas anteriormente. Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa de los N = 875 ancianos institucionalizados en dicha poblacin, de los cuales se desean seleccionar n = 10. La seleccin de una muestra aleatoria simple de este tamao puede realizarse a partir de la Tabla 4 del Apndice como sigue. Comenzando en cualquier lugar de esta tabla y leyendo grupos de 3 dgitos en cualquier direccin, seleccionar los 10 primeros nmeros distintos entre 1 y 875. Por ejemplo, empezando en el primer dgito de la tercera fila y de izquierda a derecha, estos nmeros son: 339, 117, 619, 68, 440, 788, 696, 716, 183 y 546. Notar que los nmeros 897 y 898 han sido descartados por ser superiores a N = 875. La muestra aleatoria simple estara as constituida por aquellos ancianos de la poblacin numerados previamente por estos 10 valores. Puede probarse que, como el muestreo aleatorio simple es un procedimiento equiprobabilstico, una media o una proporcin poblacional se estiman simplemente mediante la media o proporcin muestral. La estimacin de parmetros poblacionales a partir de una muestra aleatoria simple, as como la varianza o error de las estimaciones, se discutir en detalle al final de este tema. 4.2.2 Muestreo sistemtico

En ocasiones, la numeracin consecutiva de las unidades de la poblacin y la posterior seleccin de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un procedimiento alternativo ms sencillo es el llamado muestreo sistemtico. Bajo este procedimiento, no siempre es necesario numerar previamente los elementos de la poblacin, sino que basta con disponer de alguna ordenacin explcita (por ejemplo, orden de archivo de historias clnicas o visitas sucesivas de pacientes a una consulta mdica).
Pastor-Barriuso R. 43

Principios de muestreo y estimacin

Para la seleccin de una muestra sistemtica de tamao n de una poblacin de N unidades, se elige aleatoriamente un nmero de arranque r entre 1 y k, donde k es la parte entera de N/n, y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de amplitud k hasta completar la muestra deseada. As, la muestra estar constituida por los elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n 1)k. Como en general N no es mltiplo de n, este mtodo de seleccin no es necesariamente equiprobabilstico (si N/n no es un nmero entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrn formar parte de la muestra). Una modificacin a este procedimiento, que garantiza la obtencin de una muestra equiprobabilstica, consiste en seleccionar el nmero aleatorio de arranque r entre 1 y N, y tomar cada k-sima unidad a partir de ah, continuando en el primer elemento al alcanzar el final de la lista. Ejemplo 4.3 Para seleccionar una muestra sistemtica de tamao n = 10 de la poblacin de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de seleccin como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara el nmero de arranque r entre 1 y 87, el ltimo anciano seleccionado ocupara en el lugar r + (n 1)k = r + (10 1)87 = r + 783, que sera siempre inferior o igual a 870 (dado que r 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podran formar parte de la muestra. Para asegurar un muestreo equiprobabilstico, el nmero de arranque se selecciona aleatoriamente entre 1 y 875. Suponiendo que este nmero de arranque fue r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemtica quedara integrada por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335. En el muestreo sistemtico, la ordenacin de los elementos de la poblacin determinar las posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad relacionada con las variables a estudio. As, por ejemplo, si para estimar el nivel de contaminacin atmosfrica en una ciudad se toma una muestra sistemtica de das con k = 7, la muestra estar formada por los mismos das de la semana y presentar un claro sesgo por falta de representatividad. No obstante, estas periodicidades son muy infrecuentes en la prctica y pueden solventarse con facilidad (en el ejemplo anterior, bastara con utilizar un intervalo de seleccin distinto de 7). En general, si la ordenacin de las unidades de la poblacin es esencialmente aleatoria, la estimacin de parmetros y sus correspondientes errores en un muestreo sistemtico se realiza igual que en un muestreo aleatorio simple. 4.2.3 Muestreo estratificado

En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente aleatorios. As, si el tamao muestral es suficientemente grande, la muestra ser muy probablemente representativa de la poblacin. Sin embargo, no existe una garanta absoluta de que la muestra finalmente seleccionada sea representativa para cualquier variable de inters. Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la poblacin, la alternativa ms sencilla es seleccionar por separado distintas submuestras dentro de cada estrato. Este procedimiento de seleccin se conoce como muestreo estratificado. Los estratos han de definir subgrupos de poblacin que sean internamente homogneos con respecto a la caracterstica o parmetro de inters y, por tanto, heterogneos entre s. En la prctica, los estratos se definen en funcin de variables fciles de medir previamente y relevantes para el tema objeto de estudio (por ejemplo, edad, sexo, raza o rea geogrfica de residencia). En general, el nmero de estratos ha de ser reducido (rara vez resulta eficiente utilizar ms de 5 estratos) y el tamao por estrato no debe ser muy pequeo.
44 Pastor-Barriuso R.

respectivamente, cuya suma ser igual al tamao total n de la muestra. La seleccin dentro de cada estrato suele realizarse por muestreo aleatorioPrincipales o sistemtico, y el simple tipos de muestreo probabilstico procedimiento se denomina entonces muestreo aleatorio estratificado. Para la seleccin de una muestra estratificada de tamao n, lase distribuye elN unidades se En el muestreo estratificado, es necesario determinar cmo poblacin de tamao divide en K estratos de tamaos N1, N2, ..., NK, cuya suma es igual a N. Los estratos son mutuamentetotal n entre los distintos estratos; tal decir, laque cada elemento de la poblacin muestral excluyentes y exhaustivos, de es forma asignacin de los tamaos pertenece a uno y slo a uno de los estratos. Una vez determinados estos estratos, se selecciona pormuestralesuna n , ..., n de cada estrato dedistintos n1, n2,de asignacin en funcin cuya suma separado n , muestra . Aunque existen tamao tipos ..., nK, respectivamente, del 1 2 K ser igual al tamao total n de la muestra. La seleccin dentro de cada estrato suele realizarse portamao y varianza por estrato (vase referencias al final del se denomina entonces muestreo muestreo aleatorio simple o sistemtico, y el procedimiento tema), nos limitaremos aqu aleatorio estratificado. a la asignacin proporcional, necesario determinar cmo se distribuye el tamao muestral En el muestreo estratificado, esque es el procedimiento utilizado con mayor frecuencia. total n entre los distintos estratos; es decir, la asignacin de los tamaos muestrales n1, n2, ..., nK. En la existen distintos tipos de muestra total funcin del tamao y varianza por Aunque asignacin proporcional, laasignacin en se reparte entre los estratos de forma estrato (vase referencias al final del tema), nos limitaremos aqu a la asignacin proporcional, que es proporcional al tamao con mayor frecuencia. En la asignacin la proporcin el procedimiento utilizado de cada estrato en la poblacin. As, comoproporcional, la muestra total se reparte entre los estratos de forma proporcional al tamao de cada estrato en la poblacin. poblacional en cada estrato es Nk/N, el tamao muestral del el tamao muestral As, como la proporcin poblacional en cada estrato es Nk/N, estrato k-simo ser del estrato k-simo ser nk = n

Nk . N

Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica. Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica. Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida con la edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60% Ejemplo 4.4 75 aos (N1 funcional de los ancianos disminuye ms aos (N2 = tienen menos deLa capacidad = 525) y el restante 40% tienen 75 o en gran medida 350). Para simplificar la exposicin, supongamos adems que los ancianos menores de 75 aos con la edad. los primeros 525 los N = de la lista. institucionalizados, ancianos corresponden aSupongamos que, denmeros 875 ancianos As, de los n = 10se seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser sabe de 75 aos. Esto es, por simple variabilidad aleatoria, los 40% tienen 75 o mayoresque el 60% tienen menos de 75 aos (N1 = 525) y el restantemayores de 75 aos estn ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad ms aos (N2 obtenida de esta muestra podra infraestimar la verdadera capacidad funcional media = 350). Para simplificar la exposicin, supongamos adems que los funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad ancianos edad, podra realizarse un muestreo los primeros 525 nmeros proporcional muestral pormenores de 75 aos corresponden aestratificado con asignacinde la lista. a ambos estratos de edad. Es decir, de la muestra de tamao n = 10, seleccionaramos 6 As, de los n = de 75 aos (n = nN /N = 100,6 = 6) 4 mayores de en el ancianos menores 10 ancianos seleccionados por muestreoyaleatorio simple75 aos (n2 = 1 1 nN2/N = 100,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los Ejemplo 4.2, la mitad entre 1 y 525 fueron 505, aos. Esto es, 371 y 265, 6 nmeros seleccionadosresultaron ser mayores de 75 493, 24, 402, por simple y los 4 nmeros seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada variabilidad aleatoria, los por los de 75 aos correspondientes proporcional estara formada mayores10 ancianos estn ligeramentea dichos nmeros. 9 Cabe resear aqu dos caractersticas importantes del muestreo estratificado. Por un lado, la asignacin proporcional es la nica que produce muestras equiprobabilsticas y, en consecuencia, la media y proporcin poblacional se estiman mediante la media y la proporcin muestral. Para cualquier otra asignacin, la estimacin de parmetros poblacionales requiere de la inclusin de pesos para cada observacin muestral (tpicamente, el inverso de la probabilidad de seleccin). Por otra parte, para un mismo tamao muestral, el muestreo estratificado facilita estimaciones ligeramente ms precisas (con menor error) que el muestreo aleatorio simple. Este resultado es debido a que, cuanto ms homogneos sean los estratos, ms precisas sern las estimaciones en dichos estratos y esto redundar en una mayor precisin de las estimaciones para toda la poblacin.
Pastor-Barriuso R. 45

Principios de muestreo y estimacin

4.2.4

Muestreo por conglomerados

La aplicacin de los diseos muestrales anteriores requiere de la enumeracin u ordenacin de todos los elementos de la poblacin. Sin embargo, a menudo no se dispone de una lista completa o, aun disponiendo de tal lista, resulta muy costoso obtener informacin de las unidades muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos de una gran ciudad, los individuos seleccionados estaran muy dispersos y la recogida de informacin sera extraordinariamente laboriosa. En tales circunstancias, una alternativa consiste en clasificar a la poblacin en grupos o conglomerados, para as seleccionar una muestra de estos conglomerados y despus tomar a todas o a una parte de las unidades incluidas dentro de los conglomerados seleccionados. Este mtodo de seleccin se denomina muestreo por conglomerados y presenta dos ventajas fundamentales: y Este muestreo es la nica alternativa posible cuando no se dispone de una lista con todas las unidades de la poblacin. En el muestreo por conglomerados, nicamente es necesario contar con listas de las unidades que integran los conglomerados seleccionados. y Aun cuando otras tcnicas de muestreo sean posibles, con frecuencia el muestreo por conglomerados resulta ms econmico, ya que las unidades muestrales estn concentradas en los conglomerados seleccionados. Notar que, a diferencia de la estratificacin, donde interesa que los estratos sean lo ms homogneos posible, los conglomerados deben ser heterogneos: en cada conglomerado debe haber unidades representativas de toda la poblacin, de lo contrario se perdera informacin al seleccionar nicamente algunos de ellos. El nmero de conglomerados es tpicamente elevado, de los cuales suele seleccionarse un nmero relativamente pequeo para resolver el problema de la dispersin muestral. Supongamos que se pretende extraer una muestra de tamao n a partir de una poblacin de N unidades agrupadas en M conglomerados de tamaos N1, N2, ..., NM. Entre los distintos mtodos de seleccin por conglomerados, el muestreo por conglomerados con probabilidad proporcional a su tamao resulta particularmente til en la prctica. Para llevar a cabo este muestreo, se procede como sigue: 1. Ordenar arbitrariamente los conglomerados y calcular los tamaos acumulados. Estos tamaos acumulados delimitarn, para cada conglomerado, un rango de valores de amplitud igual a su tamao poblacional. 2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemtica de tamao m entre 1 y N. Los conglomerados seleccionados sern aquellos cuyo rango incluya alguno de los valores muestreados. 3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o sistemtica de tamao n/m. Ejemplo 4.5 Con cualquiera de las tcnicas de muestreo utilizadas en los ejemplos anteriores, la muestra incluira muy probablemente ancianos institucionalizados en mltiples residencias, con el consiguiente inconveniente en la recogida de informacin. Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en M = 15 residencias con los tamaos especificados en la Tabla 4.1. Para optimizar el trabajo de campo, se decide extraer la muestra de tamao n = 10 a partir de m = 2 residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus tamaos.
46 Pastor-Barriuso R.

Principales tipos de muestreo probabilstico

Tabla 4.1 Distribucin del nmero de ancianos institucionalizados por residencia.


Residencia (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Tamao (Ni) 50 30 35 70 55 45 125 80 20 100 65 35 40 75 50 Tamao acumulado 50 80 115 185 240 285 410 490 510 610 675 710 750 825 875 Rango asignado 1 50 51 80 81 115 116 185 186 240 241 285 286 410 411 490 491 510 511 610 611 675 676 710 711 750 751 825 826 875

En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamao (Tabla 4.1). A continuacin, se extrae una muestra sistemtica de tamao 2 entre 1 y 875: si el nmero de arranque result ser 316, los valores muestreados son 316 y 753 (ver apartado de muestreo sistemtico). As, como el valor 316 est incluido dentro del rango asignado a la residencia 7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14. Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias simples de tamao n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados en la residencia 7, se seleccionaron los nmeros 74, 23, 104, 111 y 57; y de los 75 ancianos de la residencia 14, los nmeros 38, 51, 25, 34 y 41. En conclusin, la muestra total estar formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia nmero 7, ms aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia nmero 14. El muestreo por conglomerados con probabilidades proporcionales a sus tamaos facilita muestras equiprobabilsticas, as la media y la proporcin poblacional pueden estimarse mediante sus correspondientes funciones muestrales. En general, para un tamao muestral constante, la precisin de las estimaciones en un muestreo por conglomerados es menor que en un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar correlacionadas y, en consecuencia, aportan menos informacin que los elementos seleccionados de forma ms dispersa mediante un muestreo aleatorio simple. 4.2.5 Muestreo polietpico

Los diseos muestrales empleados en la prctica se realizan combinando las tcnicas descritas anteriormente. En muchas situaciones, resulta ms apropiado obtener la muestra final en diferentes etapas o pasos. En un muestreo polietpico, la poblacin se divide en grupos exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y as sucesivamente, hasta llegar en una ltima etapa a los elementos o unidades de anlisis. La seleccin de unidades en cada una de las etapas se realiza mediante una tcnica de muestreo diferente y la muestra final ser la resultante de aplicar sucesivamente cada una de estas tcnicas.
Pastor-Barriuso R. 47

Principios de muestreo y estimacin

Ejemplo 4.6 En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra definitiva. Este procedimiento de seleccin es, de hecho, un muestreo bietpico: las residencias constituiran las unidades de muestreo de primera etapa y los ancianos seran las unidades de muestreo de segunda etapa. Una tcnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo estratificado polietpico. Bajo esta tcnica, las unidades de primera etapa se clasifican en distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de primera etapa. La muestra final resultar de aplicar sucesivas etapas de muestreo dentro de las unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una mayor representatividad muestral al seleccionar unidades dentro de todos los estratos. Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las residencias 4, 7, 8, 10 y 14 son pblicas, con un total de 450 ancianos (51,4%), y las restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo 4.5, las 2 residencias seleccionadas (7 y 14) fueron pblicas; es decir, la muestra final no incluy a ningn anciano institucionalizado en residencias privadas. Para garantizar la representatividad de los ancianos institucionalizados tanto en residencias pblicas como privadas, bastara con seleccionar una residencia de cada uno de estos estratos. En la Tabla 4.2, se muestran las 15 residencias reorganizadas segn su carcter pblico o privado. Para las residencias pblicas, se escogi aleatoriamente el nmero 20 entre 1 y 450, resultando as seleccionada la residencia 4, cuyo rango incluye dicho nmero. Para las residencias privadas, se extrajo aleatoriamente el nmero 326 entre 1 y 425, resultando seleccionada la residencia 12. A continuacin, se procedera a escoger aleatoriamente 5 ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente el mismo tamao, la muestra resultante sera equiprobabilstica. Apuntar, por ltimo, que en la mayora de los muestreos polietpicos el error muestral es sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlacin entre los elementos que integran las unidades de primera etapa. Tabla 4.2 Distribucin del nmero de ancianos institucionalizados en residencias pblicas y privadas.
Residencia (i) Pblica 4 7 8 10 14 Privada 1 2 3 5 6 9 11 12 13 15
48 Pastor-Barriuso R.

Tamao (Ni) 70 125 80 100 75 50 30 35 55 45 20 65 35 40 50

Tamao acumulado 70 195 275 375 450 50 80 115 170 215 235 300 335 375 425

Rango asignado 1 70 71 195 196 275 276 375 376 450 1 50 51 80 81 115 116 170 171 215 216 235 236 300 301 335 336 375 376 425

puede realizarse con mltiples propsitos, nos centraremos aqu en la estimacin de una media y de una proporcin poblacional.
Estimacin en el muestreo aleatorio simple

4.3 ESTIMACIN EN EL de una media ALEATORIO SIMPLE 4.3.1 Estimacin puntual MUESTREO poblacional

Una vez descritas las, x2, ..., xn sontcnicas de obtenidos en una muestra nostamao n Supongamos que x1 principales los valores muestreo probabilstico, de ocuparemos a continuacin de la estimacin de parmetros poblacionales. En adelante, se asume que la muestrauna ha obtenido mediante un muestreo aleatorio resultado partir de Un estimador de parmetro poblacional se le poblacional y varianza 2 desconocidas. dicha para se variable con mediadenomina estimador, y al simple a de aplicaruna poblacin tamao esencialmente infinito. funcin a la media poblacional es la llama estimacin. An cuando elconocimiento del El clculo del valor exacto de un parmetro poblacional requiere del muestreo natural de una determinada muestra se lemedia muestral valor de la variable objeto de estudio para todos y cada uno de los elementos de la poblacin. puede ha comentado anteriormente, en la mayora de las aqu en la estimacin de de Como se realizarse con mltiples propsitos, nosncentraremos ocasiones no se dispone unaesta 1.2 MEDIDASsino TENDENCIAtan slo con 1 muestra. A la funcin de los valores de una informacin, DE que se cuenta CENTRALuna x i . x= media y de una proporcin poblacional. n 1.2 MEDIDAS DE TENDENCIA CENTRAL muestra que permite hacerse una idea acerca del valor del parmetro poblacional se le denomina i =1 estimador,de tendencia centralaplicar dicha funcin a unaeldeterminada muestra se le llama y al resultado de informan acerca de cul es valor ms representativo Las medidas estimacin. An cuando el muestreoinformanpoblacionalmltiples propsitos, nos centraremos 4.3.1 Estimacin puntual de unapuede realizarse con Las medidasmuestral quedar completamente determinada unavalorobtenida la muestra, Esta media de tendencia central media acerca de cul es el vez ms representativo aqu en la estimacin de una media y de una proporcin poblacional. DE TENDENCIA CENTRAL de una determinada variable o, dicho de forma equivalente, estos estimadores indican 1.2 MEDIDAS , x2, ..., n dicho en funcin de la en estos estimadores As, Supongamos de laxestimacinson los de forma equivalente,una muestra de tamao nla que 1variablexo, variarvalores obtenidos muestra seleccionada.indican de una determinada pero el valor alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia 4.3.1 Estimacin puntual de una media poblacional 2medidas de tendencia central informan acerca de c Las para una de qu con considerarse como observados. desconocidas. Un estimador alrededor variablevalor media poblacional una variable aleatoria, cuyo valor depender media muestral puede se agrupan los datos y varianza Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para n para una Supongamos que x1, x2, ..., xn son los valores obtenidos en una muestra de variable o, dicho de forma equival de una determinada tamao centralcon la muestrapoblacional para resumir muestral los resultados observados naturalde media poblacional y varianza 2 desconocidas. Un estimador como para lan de de la media sirven tanto es la media todas las posibles muestrasnatural de media variablemuestra finalmente seleccionada sobre de la de tamao realizar inferenciasla mediade los parmetros poblacionales correspondientes. A poblacional es acerca muestral alrededor de qu valor se agrupan los datos observado realizar inferencias acerca de los parmetros poblacionales correspondientes. A n la TENDENCIA CENTRAL 1.2 MEDIDAS DEpoblacin de referencia. A la distribucin de los valores de x sobre todas las posibles 1 continuacin se describen los principales estimadoresi de la tendencia central de una x = x . central de la muestra sirven tanto para resumir los resu n i =1 continuacin se describen los principales estimadores de la tendencia central de una muestras central informan acerca de cul es el valor ms representativo x . Las razones del mismo tamao se le denomina distribucin muestral de Las medidasvariable. de tendencia Esta media muestral quedar completamente determinada una vez obtenidaacerca de lospero el realizar inferencias la muestra, parmetros poblacion variable. estimacin variar en funcin de la muestra seleccionada. As, la media muestral valor de la quemuestral quedar completamente determinada una vez obtenida de muestra, Esta media justifican la tericas de una determinada variable o, dicho dela utilizacin de la mediaestimadores indican forma equivalente, estos muestral como estimador la media puede considerarse como una variable aleatoria, cuyo valor depender de la muestra finalmente estimadores 1.2.1 Media aritmtica continuacin se describen los principales seleccionada dearitmtica las posibles muestras dede la muestraesta distribucinreferencia. A entre a otros 1.2.1 Media frenteestimacin variar en funcin se basannen la poblacin de muestral. pero el valor de la todas posibles estimadores, tamao de seleccionada. As, la alrededor de qu poblacional, valor se agrupan los datos observados. Las medidas de tendencia la distribucin de denotada de La media aritmtica,los valorespor x ,sobre todas las posibles muestras delde los tamao se le se define como la suma de cada uno mismo variable. denominamuestral puede considerarsexcomo razones valoraleatoria, cuyo uno de los La A partir de los resultados del Apartadouna variable esperadocada valor utilizacin de la media aritmtica, muestral de se 3.4, el tericas que justifican la depender media distribucindenotada por ., Lasdefine como la suma de de la distribucin central de la muestra sirven tanto para resumir los resultados observados como para media muestral como estimador nmero de poblacional, frente a otros posibles estimadores, se valores muestrales dividida por el de la media observaciones realizadas. Si denotamos 1.2.1 Media aritmtica basan la muestra finalmente seleccionada sobre todas las posibles muestras de tamao n de de en muestrales valoresesta distribucin muestral. nmero de observaciones realizadas. Si denotamos x parmetros poblacionales correspondientes. A muestral de loses dividida por el realizar inferencias acerca de por nA partir de los resultados del iApartadoobservado para el sujeto la distribucin muestral de es el tamao muestral y por x el valor 3.4, el valor esperado de i-simo, i = 1, ..., n, La media aritmtica, denotada por x , se define como la n el tamao referencia. A la el valor observado para el sujeto i-simo, i las ..., n, porpoblacin de muestral y por xidistribucin de los valores de x sobre todas= 1, posibles continuacin se describen los principales estimadores de n tendencia central de una la la media vendra dada por 1 1 n E ( x ) muestrales dividida por el nmero de observac E( x ) = E x i = valores= ; la media vendra dada por se le denomina distribucini muestral de x . Las razones muestras del mismo tamao n i =1 n i =1 variable. n por el tamao muestral y por xi x + es tericas que justifican laxutilizacinn= x1 +media... +aleatoria estn centradas alrededor el valor observado pa decir, las medias muestrales 1 x i de la variable x n . ncomo estimador de la media de su = de cualquier x 2+ x muestral + ... verdadera las medias muestrales 11 cualquier variable + x n . 1.2.1 Media aritmtica media poblacional no,i =de x i de forma equivalente, estnmedias muestrales no es decir, x = dicho = 1 n 2 laaleatoria las centradas alrededor media vendra dada por n 1 n sobreestiman nifrente a otros sistemticamente la media poblacional. En trminos estadsticos, poblacional, infraestiman posiblesi =estimadores, se basan en esta distribucin muestral. se demedia es la por x , dedefine como centrado oforma equivalente, conveniencia de utilizar dice verdadera media tendencia central ms insesgado de . La media aritmtica, denotada medida sepoblacional o, dicho deutilizada y de los La las medias muestrales La suentonces que es un estimador la suma de cada uno de ms fcil estimadores insesgados parece tendencia centralcaso contrario, y deestimaciones del parmetro x1 + x 2 + ... A media es la resultados del Apartado 3.4, el valor esperado ms distribucin 1 n La partir de los medida de clara ya que, en ms utilizada las de la fcil x medidas poblacional por el sistemticamente sesgadas respecto a denotamos valores muestrales divididaestarannmero de observaciones realizadas. Si su verdadero valor. Otras = n x i = n interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su i =1 muestrales de tendencia central,centro la mediana o de los datos de la muestra. Su general x Corresponde al como de gravedad la media geomtrica, son en es muestral 16 interpretacin. estimadores por xies valor media poblacional. por i-simo, i = 1, ..., n, por n el tamao muestral y sesgadosque la observado para el sujeto los valores extremos y, en este el de est muy influenciada principal limitacin La media es la medida de tendencia central ms uti principal limitacin es que est muy influenciada por los valores extremos y, en este n 1grupo 1 n del estudio EURAMIC constituye toda la la media vendra dada por ser un fiel reflejoxdequetendenciacentral de(la ) = ; Ejemplo = E( ) la el caso, puede no 4.8 Supongamos = E x i control E x i distribucin. n i =1 poblacional de la distribucin. la tendencia i =1 interpretacin. HDL es = 1,09 mmol/l. poblacin o universo a estudio, cuya media ncentral del colesterolCorresponde al centro de gravedad d caso, puede no ser un fiel reflejo de x + x 2 + ... + x 1 n principal limitacin es que est . x = x iy= 1los sucesivos nejemplos sobre estimadores muestrales, se muy influenciada por l Ejemplo 1.4 En este en es decir, las medias1 muestrales de cualquier variable aleatoria estn centradas alrededor n i= n Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se reflejo de Pastor-Barriuso R. 49 utilizarn los valores del colesterol HDL obtenidoscaso, puede no ser un fielmuestrales la tendencia centra de su verdadera media poblacional o, dicho de formaen los 10 primeros sujetos del equivalente, las medias utilizarn los valores del colesterol HDL obtenidos La media es la medida de tendencia central ms utilizada y de ms fcilen los 10 primeros sujetos del estudio European Study on Antioxidants, Myocardial Infarction and Cancer of Ejemplo 1.4 En este y en los sucesivos ejemplos

realizar inferencias acerca de los parmetros una realizar continuacin se describen los principales estimadores de la tendencia A inferencias acerca de los parmetros poblacionales correspondientes. central de poblac variable. continuacin se describen Principios de muestreo y estimacin

continuacin la tendencia central de una los principales estimadores dese describen los principales estimador

variable. variable. 1.2.1 Media aritmtica A partir de esta poblacin, se obtienen 1000 muestras aleatorias simples de tamao n = 10 del define aritmtica y, en cada una Media aritmtica la media muestral 1.2.1 Media como la suma de cada uno de los ellas, se aritmtica, denotada por x , se colesterol HDL. El histograma 1.2.1 deLa mediacalcula de estas medias muestrales se representa en la Figura 4.1(a), que constituye una La media la suma denotada aproximacin a la distribucin muestralpor x ., Como puededearitmtica,los valorespor los se define com La media aritmtica, denotada de por el nmero apreciarse,de cada uno de x Si denotamos valores muestrales dividida se define como observaciones realizadas. , difieren entre las distintas muestras, pero su distribucin conjunta est centrada alrededor de la verdadera media el tamao muestral ynmero de observaciones realizadas.por denotamos de observ por n poblacional = 1,09 por xi el(lnea vertical en trazo discontinuo). valor muestrales dividida Si el nmero valores muestrales dividida por el mmol/l valoresobservado para el sujeto i-simo, i = 1, ..., n, En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la por n el tamao sujeto i-simo, = valor observado media geomtricatamao muestral dada porel valor observado para elmuestral y presentan ..., n, para estas mismas por xi por n el la media vendra y muestras. Ambas distribuciones muestrales por xii el 1, un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero la media vendra dada por valor de 1,09 mmol/l. la media vendra dada por x1 + x + ... + x n 1 n x = acadmico ya2 que, en la. prctica, se Notar que el inters de este ejemplo es meramente x i = n i =1 n x + x2 + desconoce la verdadera media poblacional1y n dispone de una nica muestra. se 1 n x1 + x 2 + ... + x n x = xi = 1 . x = xi = n i =1 n n i= n La media es la medida de 1tendencia central ms utilizada y de ms fcil
25 20 10 0

interpretacin. Corresponde al centralLa media es la de los datos de de gravedad medida de tendencia central ms La media es la medida de tendencia centro ms utilizada y de ms fcil la muestra. Su u

15 interpretacin. Corresponde al centro principal limitacin al centro muy influenciada por los de la muestra. Su y, en este interpretacin. Corresponde es que estde gravedad de los datos valores extremosde gravedad

principal limitacin que est y, en este 5 caso, puede es ser est muy influenciada por los valoresde la distribucin. principal limitacin no que un fiel reflejo de la tendencia centralesextremos muy influenciada po

Frecuencia relativa (%) en muestras de tamao 10

caso, central de la un fiel reflejo caso, puede no ser un fiel reflejo de la tendencia puede no ser distribucin. de la tendencia cen 0,7 Ejemplo 0,9 En 1 0,8 1.4 este y1,1 los1,2 1,3 ejemplos sobre estimadores muestrales, s en sucesivos 1,4 1,5
(a) Media muestral del colesterol HDL (mmol/l)

utilizarn los valores del colesterolEjemplo 1.4 En este y en los sucesivos ejemp HDL obtenidos en los 10 primeros se Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales,sujetos de
25 20 10 0

utilizarn los valores del colesterol del estudio European Study on Antioxidants, en los 10 primeros sujetos HDL obte utilizarn los valores del colesterol HDL obtenidosMyocardial Infarction and Cancer of

15 estudio

estudio European Study on Antioxidants, My the Breast (EURAMIC), un estudio multicntrico de casos y controles European Study on Antioxidants, Myocardial Infarction and Cancer of realizado

the 5

the Breast (EURAMIC), un el efecto entre 1991 y 1992 en ocho pases Europeos e casos y controles estudio multicn Breast (EURAMIC), un estudio multicntrico deIsrael para evaluarrealizado de los
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5

entre 1991 y evaluar el efecto de los entre 1991 y 1992 en ocho pases Europeos e Israel para1992 en ocho pases Europeos e
(b) Mediana del colesterol HDL (mmol/l)

25 20 15 10 5 0 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5

(c) Media geomtrica del colesterol HDL (mmol/l)


Figura 4.1 Distribucin muestral de la media aritmtica (a), la mediana (b) y la media geomtrica (c) del Figura 4.1 colesterol HDL en 1000 muestras aleatorias simples de tamao n = 10 obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde a la media poblacional = 1,09 mmol/l de colesterol HDL.
50 Pastor-Barriuso R.

central de la muestra media muestral 4.3.2 Error estndar de la sirven tanto para resumir los resultados observados como para realizar inferencias acerca estimador insesgado de la media poblacional, aleatorio Dado que la media muestral es unde los parmetros poblacionales correspondientes. A simple Estimacin en el muestreo todas

continuacin se describen los principales estimadores de la media poblacional. las posibles medias muestrales estarn distribuidas alrededor de la tendencia central de una [Figura 4.2 aproximadamente aqu] 4.3.2 Error estndar de la media muestral variable. No obstante, queda por determinar el grado de variabilidad o dispersin de estas medias [Figura poblacional, todas las Dado que la media muestral es un estimador insesgado de la media4.2 aproximadamente aqu] Aun cuando en mediasde carece poblacional. No obstante, muestrales x de tamao n muestrales alrededor de . La dispersin de las la prcticala mediade sentido tomar repetidas muestras, las posibles medias muestrales estarn distribuidas alrededor 1.2.1 Media aritmtica queda por determinar el grado de variabilidad o dispersin de estas medias muestrales alrededor propiedades x de tamao como la determinada por utilizarse Aun su determinada por la denotada por distribucin muestral,sumade x pueden de repetidas muestras, las de vendrLa media aritmtica,varianza de cuando en la prcticamuestral essentidounola varianza para cuantifica . La dispersin de las medias muestralesde ,la distribucin carece de igual a tomar los se define n vendr que de cada de su distribucin muestral, que es igual a propiedades estimacin a partir de realizadas. Si denotamos cometido n la de la de observacionesuna de x muestra de tamao n. cuantifi valores muestrales dividida por en nmero distribucin muestral nica pueden utilizarse para La desvi el 2 1 1 n var( x ) = var x i = 2 var( x i ) = , n i =1 1.2 MEDIDAS DE TENDENCIA CENTRALpor de el valor observado partirel sujetonica muestra de tamao n. La des estndar = enla estimacin a paran de x es cometido por n el tamao muestral y n ixi1 la distribucin muestral de una i-simo, i = 1, ..., n, [Figura 4.2 aproximadamente aqu] DE TENDENCIA CENTRAL 1.2 MEDIDAS dado que los distintos valores de la muestra son independientes (vase Apartado 3.4). Puede la los distintos valores estndar de la distribucin tanto mayor es Las medidas de tendencia central informan por lamedias muestrales sermuestral de xcuanto mayor sea la observarse que la variabilidad dede muestra sonel valor ms representativo las dado quemedia vendra dada acerca de cul es independientes (vase Apartado 3.4). SE( x ) = var( x Las parte, muestras, las ) = n , varianza poblacional la 2prctica carece deestudio. tomar repetidas esta variabilidad disminuye de la variable a sentido Por otra medidas de tendencia central informan acerca de c Aun cuando en de una determinada variable o, el tamaoforma equivalente,es decir,xal + ... + ser tanto mayor cuanto las conformeobservarse dicho de n de la muestra; estos muestrales xindican aumentar Puede aumenta que la variabilidad de1 n medias1 estimadores n el tamao muestral, las x + var( x ) SE( = x = deprximas a la2 verdadera.x ) = variable =error, de una determinada poblacional. medias de las distintas muestras estarn ms x ipueden utilizarse para cuantificar elo, dicho de forma equival media propiedades de la distribucin muestral n x n n 1.2 MEDIDAS DE TENDENCIA que facilita la valor promedio de Por otra alrededor de qu valor se agrupan los datos observados.i =1variableCENTRAL distancia de estadistintas medias muestrale a estudio. la mayor sea la varianza poblacional 2 deunLas medidas de tendencia parte, las alrededor de qu La desviacin cometido en4.9 estimacin a partir de una nica muestra de tamao n. valor se agrupan HDL Ejemplo la En las Figuras 4.2(a), (b) y (c) se presentan las medias del colesterol los datos observado tamao n respecto de promedio de lade 100, respectivamente, queaumenta un tamao ms 10, 25paraes decir, las central de la muestra1000 disminuyealeatorias defacilitacentral informanutilizada y cul Esta cantidad SE( x ) se conoce c sirven tanto es la medidatendencia de tamao medida muestra;de ms deal distintas medias muestra para resumir lostendencia valorla nnde la poblacional. es el valor ms representativo resultados observados acerca distancia fcil Las La media medidas de variabilidad muestras conforme simples el central = como y en central aqu] estndar de laadistribucin muestral de deles obtenidas partir de los controles x aproximadamente de laEn estas sirven tanto puede [Figura 4.2 estudio EURAMIC. muestra grficas se para resumir los resu tamao del o, lade de muestras y permite Esta estimadores error al n detamao la medida poblacional. estos cantidad media muestral realizar inferencias acercatamaoparmetroslas mediasrespectogravedad de las datos de muestrales estn indican de deindependientementecentrodedichomuestral, los estarn msmuestra. Su SE( x ) de incertid losunaCorresponde estndarlas distintasforma equivalente, la prximasel grado se conoce poblacionales correspondientes. A medias cuantificar interpretacin. determinada variable de aumentar el que, muestral, apreciar realizar inferencias acerca aumentar el centradas alrededor de la media poblacional de 1,09 mmol/l. Sin embargo, alde los parmetros poblacion errorxestndartendencia ,a observados. extremos lacarecedisminucintomardatos muestraluna muestra y, medias continuacin selatamao muestral, se observaestimacin de una)media central devariabilidad de las en esten. describen losalrededor deestimadores sentidodesubstancial losla unapermite cuantificar el grado de incer principaleses que est)muy var( x la mediapartir muestras, las de tamao de la valor principal limitacin quSE( = a Aun cuando en la poblacional. de= agrupan los repetidas valores Las medidas de tendencia verdadera media prctica una se influenciada por de de y n continuacin nivel medio de principales muestrales. As, por ejemplo, la proporcin de muestras con unse describen los colesterol estimadores Enes del 48,7% para media a69,1%la distribucin. dees necesario obtener la sirven x tendencia centrallos el error= 25 y 95,4% prctica,pueden = 10, partir para n muestra tamao la reflejo de ladepara poder calcular resultados observados como para estimacintanto para utilizarsede decuantificar el error para n. una n resumir para una estndar, variable. caso, de centralser la fiel propiedadespuededistribucin muestral de la y de mmol/l HDL entre 1,03 no1,15 un muestra Ejemplo 4.9 En las Figuras 4.2(a), (b) y de las variable. medias muestrales de 2 n = 100. que facilita un valor promedio de En distancia (c) se distintas las medias del colesterol necesario obtener la la prctica, parapresentan poder la varianza poblacional previamente unalosmuestra de tamao n. La desviacin es la variable a estu cometido estimacin a partir acerca de estimacin de calcular el error estndar, de 1.2.1 Media aritmticaen la realizar inferencias de una nica parmetros poblacionales correspondientes. A Ejemplo 1.4 En aleatorias simples de ejemplos sobre25 100, estimadores muestrales, se HDL en 1000 muestraseste y en los sucesivosrepetidas = 10, se conoce Aun cuando en la prctica carece de sentido tomarcantidad n muestras,ylas propiedades de la 1.2.1 SE( x tamao n respecto de la medida poblacional. Esta tamaoMedia )aritmtica como 2 una estede xpara cuantificar uno dedesconocido. la varianza poblacional parmetro es tpicamente varianza tendencia a continuacin quedescriben los principalesel error los de laen Laestimacinde la variable 2 pu sepreviamentesumaestimacin de la cometido poblacionalcentral de una a e estimadores estndar muestral de distribucin de la distribucin muestral La media aritmtica, denotada por x ,pueden utilizarse laes se define como de cada utilizarn los primeros sujetos del 1.2 MEDIDASuna nica muestra obtenidas a partir de los controles del estudio EURAMIC. En de x , se define como DE TENDENCIA valores del colesterol HDL obtenidos en los 10 denotada por partir de respectivamente, de CENTRALy desviacin estndar de grado de incertidumbre en es tamao n. La La media aritmtica, error estndar de la media muestral permite cuantificar el la distribucin muestral que esteaparmetrola propiaSi denotamos es tpicamente desconocido. La varianza poblacional 2 variable. valores muestrales dividida por el nmero estimarse partir de de observaciones realizadas. muestra mediante la varianza muestral estudio European Study que, var( x ) = Myocardial tamao muestral, las Infarction estas grficas se puede apreciar )on deindependientementen.representativoand Cancer of de observac SE( x = Antioxidants, , muestrales dividida por el nmero valores Las medidasestimacin de central informan acerca muestra el valor msdel la de tendencia una media a partir de una cul es de tamao n estimarse por n el tamao muestral y por xi elMediaobservado para el sujeto i-simo,muestra mediante la varianza muestral = 1.2.1 valor aritmtica a partir de la propia i 2 1, ..., n, n 1 the Breast (EURAMIC), un estudio multicntricopoblacional(de x 2 .realizado mediasvalor para poderdecentradas error estndar, es necesariomuestralesyde)tamao n observado pa muestrales estn forma equivalente, estos estimadores obtenerx i 1,09 x el valor s de casos y controles por n el tamao muestral por i un de una que facilita prctica, promediode la distancia de las distintas mediasn 1 determinada variable o, dicho calcular el alrededor de la media = indican En la i =1 la media vendra dada pormedidamedia aritmtica, distancia de las )distintas medias muestrales de 2 unola los error respecto de la un valorpoblacional. Esta cantidadpor x , se conocecomo la sumaestndar de de que facilita La promedio de la denotada SE( define como 1 n de cada 2 entre 1991 1992 para evaluar mmol/l. agrupanylos en ocho pases Europeos e2Israelobserva el efecto .de los muestral, ) alrededor previamente una estimacinal aumentar el tamao medidasdeensla = ndada estudio,xdado de muestral sepermite cuantificar varianza poblacionalmedia vendra una ( x i mediaqu valor ySin embargo, datos observados. incertidumbre setendencia1a pordeuna media estimacin de la el grado de Las la dela variable i =1 Puede a partir de una muestra de muestrales dividida por ellacantidad SE( x ) se conocerealizadas. Si denotamos varia tamao n respecto de n tamao n. probarse que nmero demuestral es un estimador insesgado de la la valores medida+poblacional. Esta varianza observaciones como x x 2 + ... + x n disminucin 1 central de que este parmetrosubstancial1de la variabilidad La observadosmuestrales. As, por la muestra sirven tanto para resumir los resultados las medias como para 2 puede . x = es tpicamente desconocido. de varianza poblacional previamente una 5x + x + ... n xi = En la prctica, para poder calcular el error estndar, es necesario obtener 2 es sujetox = 1 muestral por x el valor observado i-simo, error estndarpor n el1 poblacional probarse que el valor esperado para elun estimadoresitodas..., n,la var de n i = tamaoPueden 2 dees decir, la varianzagrado de incertidumbre sobrei = 1, 1 las posib la media poblacional;y la variable a estudio, dado que sobreparmetro x = muestral y permite icuantificar el muestral s este todas eninsesgado de 2 estimacin de la varianza ejemplo, la proporcin de muestras con un nivel medio de colesterol HDL entren i =1 n realizar inferencias acerca de los propia muestra mediante la varianza muestral estimarse a partir de la parmetros poblacionales correspondientes. A tpicamente desconocido. La varianza poblacional 2 puede estimarse a partir de la propia 2 2 2 poblacional; ) = El valor esperado s sobre muestral se estima enton muestras la estimacin la media central dadautilizada decir,mserror estndar dela media todas La media es la medida dede una mediamuestral dees E(ses =y10, .69,1% paran. = 25de 95,4% para n =sobre todas las pos ms para de el fcil muestra mediante tendenciavendra48,7%por muestra de tamao n la varianza a partir una y continuacin se1,03 y 1,15los principales estimadores n la tendencia central de medida de tendencia central ms uti describen mmol/l es del de La media es la una n 2 2 En la prctica, para poders/ muestrasde E(sestndar,la erroruna Suobtener media la media muestral x fa calcular 1error () =nx ) es necesario n . As, una vez 1 . . x + estndar x la interpretacin. Corresponde al centro de gravedadel eslos datosde 2El muestra. + ... + de concreta, muestral se estima ento s2 = xiseleccionada x 2 muestra . 100. n n 1 i =x = x i = 1 variable. 1 interpretacin. Corresponde al centro de gravedad d n n previamente est muy influenciada por los valoresi =1 insesgado variable de estimacin estimador de 2 media poblacional poblacional; s/ n . es un insesgada principal limitacin es que que la varianza unala varianza poblacional ladey, en estevarianza y el error de dicha estimaci extremos la de muestra concreta, la Puede probarse una estimacin muestralAs, una vez seleccionada una la a estudio, dado media muestral x principal limitacin varianza 1.2.1 Media aritmticaesperadovarianza muestrallas posibles muestras es E(s2de laes 2que estestndar es decir, el valor que la de s2 sobre todas es un estimador insesgado ) = 2. El error muy influenciada por l Puede probarse 18 es tpicamente centralpor s/ n As, de la ms utilizada puede caso, puede no serestefiel reflejoLa media es una desconocido.distribucin. poblacional y de ms error de dicha estima la medida de de que un parmetro de estimadeterminado de tendencia centralvez seleccionada una el fcil la media muestral se la tendencia estimacinla La..varianza media poblacional y muestra entonces como insesgada una La media poblacional; es decir,por valor esperado de s2la suma caso,sobre dede ser un fiel reflejo dey el aritmtica, denotada el se define como sobre todas puede la media poblacional la tendencia centra insesgada todas las concreta, la media muestral x ,facilitar una estimacin de cada uno no los posibles estimarse a estimacin vendr muestra mediante la varianza muestral los datos de la muestra. Su partir de la propia determinado por s/ n .. de gravedad de interpretacin. Corresponde al centro error de dicha Ejemplo 1.4 En dividida por 2 nmero de observaciones realizadas. y en estimadores muestrales, se valores muestralesesteE(s2) los sucesivos ejemplos sobre media muestralSi denotamos = elEl error estndar de la . se estima entonces como muestras es Ejemplo 1.4 En este y en los sucesivos ejemplos principal limitacin es que est muy influenciada por los valores extremos y, en este n 1 en 2 2 utilizarn los muestral y por xi el valor observado para x i sujeto i-simo, i = 1,del obtenidos el 10 primeros sujetos ..., = por n el tamaovalores del colesterol HDL suna muestra (los x ) .la media muestral n, facilitar R. 51 x Pastor-Barriuso s/ n . As, una vez seleccionada concreta, utilizarn los valores del colesterol HDL obtenid n 1 i =1 caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. laestudio vendra dada por on Antioxidants, Myocardial Infarction and Cancer of media European Study una estimacin insesgada de la media poblacional y el error de dicha estimacin vendr estudio European Study Puede probarse que la varianza muestral es un estimador insesgado de la varianza on Antioxidants, Myoc

Principios de muestreo y estimacin

30 20 10 0 0,8 0,9 1 1,1 1,2 1,3 1,4

(a) Media del colesterol HDL (mmol/l) en muestras de tamao 10


30 Frecuencia relativa (%) 20 10 0 0,8 0,9 1 1,1 1,2 1,3 1,4

(b) Media del colesterol HDL (mmol/l) en muestras de tamao 25


30 20 10 0 0,8 0,9 1 1,1 1,2 1,3 1,4 Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una
Figura 4.2 Figura 4.2 Distribucin muestral de la media del colesterol HDL en 1000 muestras aleatorias simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir 10, grupo control del estudio EURAMIC. La lnea verdel cuyos valores de colesterol HDL son muestra aleatoria 0,82, 0,92,tamao n = 0,88, 0,97 y 0,63 mmol/l. La media simple de 1,46, 1,10, tical en 1,45, discontinuo corresponde a la media poblacional = 1,09 mmol/l de colesterol HDL. trazo 1,32, 1,74,

Ejemplo aleatoria simple de tamao n = 10, cuyos EURAMIC, se ha obtenidoson muestra 4.10 A partir de los controles del estudio valores de colesterol HDL una

(c) Media del colesterol HDL (mmol/l) en muestras de tamao 100

52

1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media muestral es Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una muestra aleatoria simple de tamao n = 10, cuyos valores de colesterol HDL son 1,45, muestral es 1 10 1, 0,88, 0,97 y + 0, mmol/l. La media muestral es 1,32, 1,74, 0,82, 0,92, 1,46, 1,10,45 + 1,32 + ... 0,6363 x = xi = = 1,13 mmol/l 10 10 1 10 i= 1 1,45 + 1,32 + ... + 0,63 x = xi = = 1,13 mmol/l 10 i =1 10 y la varianza muestral y la varianza muestral y la varianza muestral 1 n s2 = ( xi x ) 2 n 1 in=1 1 ( xi 2 + 2 s 2 = (1,451,13) x )... + (0,63 1,13) 2 n 1 i1 = = = 0,12 (mmol/l) 2 . 9 (1,45 1,13) 2 + ... + (0,63 1,13) 2 = = 0,12 (mmol/l) 2 . 9 Por tanto, la estimacin puntual de la media poblacional del colesterol HDL es x Pastor-Barriuso R. Por tanto, la estimacin puntual dees media poblacional del colesterol HDL es x = 1,13 mmol/l y su error estndar la

(1,45 1,13) 2 +alrededor de1,13) 2valor se agrupan 2los datos observados. Las medidas d ... + (0,63 qu = = 0,12 (mmol/l) . variable. 9 muestra sirven tanto para resumir los resultados observados como para Estimacin para resumir los resultados observad central de DE TENDENCIA CENTRAL 1.2 MEDIDASla muestra sirven tantoen el muestreo aleatorio simple ncias acerca de los parmetros poblacionales correspondientes. A 1.2.1 Mediadel colesterol HDL es x Por tanto, la estimacin puntual de la media poblacional aritmtica realizar inferencias acerca de los parmetros poblacionales correspond Las medidas de tendencia central informan acerca de cul es el valor ms r e describen los principales estimadores de la tendencia es media La media aritmtica, denotada por x ,=se define como la su una Por tanto, la estimacin puntual decentral de poblacional del colesterol HDL es 1,13 = 1,13 mmol/l y su error estndar la continuacin se describen los principales estimadores de la tendencia mmol/l y su error estndar esde una determinada variable o, dicho de forma equivalente, estos estimador valores muestrales dividida por el nmero de observacione s 0,35 SE( xalrededor de qu valor se agrupan los datos observados. Las medidas de ten ) = variable. = 0,11 mmol/l. = n 10 por n el tamao muestral y por xi el valor observado para e 1.2 MEDIDAS DE TENDENCIA CENTRAL ritmtica

1.2.1 Media de la estimacin muestral es exactamente Notar que, en este ejemplo ilustrativo, el error aritmtica central de la muestra sirven tanto para resumir los resultados observados co la mtica, denotada portendencia1,13 como la sumaacerca deunoel eslos valor ms representativo exacto no puede = central informan de cada cul prctica, sin vendra dadaerror 1,09 = 0,04 ilustrativo, de el media embargo, el por Las medidas de x ,se define este ejemplo mmol/l. En la error de la estimacin muestral es Notar que, en La en consecuencia, de los parmetros define como calcularse ya que es desconocido y,inferencias acercase empleapor x ), como estimacincorrespondiente realizar media aritmtica, denotada SE( sepoblacionales la suma de cada rales dividida por el nmero depromedio = 1,13 - 1,09 = 0,04denotamos la prctica, sin embargo, en todas las + x + ... + x del error observacionescabra esperar en estos estimadores indican de una determinada variable o, x - queforma equivalente, similares circunstancias (esto es, el n dicho de realizadas. Si mmol/l. En exactamente x1 1 2 n x de valores se describen los principales estimadores de la posibles muestras del mismocontinuacinmuestrales dividida por el nmero= observaciones realizadas tamao obtenidas de la poblacin de referencia). x i = tendencia centr n valor observado para calcularse ya que 1, ..., n, o muestral y por qu valor exacto no puede el sujeto i-simo,Lases desconocido y, en consecuencia,n i =1 alrededor de xi el error se agrupan los datos observados. i= medidas de tendencia se por variable. n el tamao muestral y por xi el valor observado para el sujeto i-s Teorema ra dada por la muestra sirven tanto para estimacin del error promedio quecomo para central de 4.3.3 emplea SE(central del lmite los resultados observados cabra medida de tendencia central ms utilizad resumir La media es la esperar en x ) como la media vendra dada por En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor esperado y 1.2.1 Media aritmtica realizar inferencias acercala+distribucin de las es, en todas correspondientes./n, respectivamente. No se ha los parmetros poblacionales lasinterpretacin. Corresponde al centro n posibles y 2 A la varianza dex1de x 2 + ... + x n (esto medias muestrales son muestras del mismo tamao de gravedad de los 1 similares circunstancias . x = x i sin embargo, el aspecto global de la distribucin muestral de . Retomando el ejemplo x analizado, = se como + ... + La media aritmtica, denotada por x , 1 ndefine x1 + x la suma de cada uno n i =1 n continuacin se describen los principaleslas de referencia). tendencia central de x = que x i = muy influenciada por los v estimadores de la principal limitacin es observarse 2que la n . una obtenidas de la poblacin medias de colesterol HDL (Figura 4.2), puede est de la distribucin muestral de n i =1 n forma de esta distribucin tiende a valores muestrales dividida por normal conforme aumenta el realizadas. Si d aproximarse a una distribucin el nmero de observaciones s la variable.de tendencia central ms utilizada y de ms fcil medida tamao muestral. Esta caracterstica puede resultar caso, puede no lgica, fielque la distribucin intuitivamente ser un ya reflejo de la tendencia central de subyacente del colesteroldel lmite por n el La presenta un aspecto aproximadamente normal (ver sujetoyi-simo, tamao muestral y por xi tendencia central para el 4.3.3 Teorema central HDL en la poblacin media es la medida de el valor observadoms utilizada de ms Corresponde al aritmtica gravedadDado que muchas de las variables utilizadas en la prctica no presentan una centro de Tema 1). de los datos de la muestra. Su Figura 1.2 del 1.2.1 Media Ejemplo 1.4 En este y en los sucesivos ejemplos sob distribucin poblacional normal, probado que, para dadaesta tendenciacentro deel valor de de los datos de la preguntarse si por la media vendra cualquier variable a la normalidad En los apartados anteriores se ha cabrainterpretacin. Corresponde al aleatoria, gravedad la acin es que est muy influenciadapor x , se defineextremossuma de cada uno de los La media aritmtica, denotada por los valores como cualquiereste de variable aleatoria. distribucin muestral de se mantiene para la y, en tipo utilizarn est muy 2 del principal limitacin es que los valores/n, colesterol HDL obtenidos e por esperado y la varianza de la distribucin de las medias muestrales son n y influenciada + x los valores extre 1 o servalores muestralesla tendencia central de la distribucin. un fiel reflejo deEjemplo 4.11 el nmero de observaciones realizadas. Si denotamos = x1 + x 2 + ... en dividida por En la Figura 4.3 se muestra la distribucin x =los x i de b-caroteno n . estudio de n i niveles Antioxidants, Myocardia caso,estudio no ser un fielEuropean la tendencia central de la distribuc puede EURAMIC, que presenta una onn reflejo de Study distribucin = tejido adiposo se ha analizado, sin embargo, el aspecto global de1 la distribucin respectivamente. Noen el grupo control del por n el tamao muestral y por xiasimtrica con una media de = 0,37 mg/g.= 1, ..., n, marcadamente el valor observado para el sujeto i-simo, i Las Figuras 4.4(a), (b) y (c) the 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se Breast (EURAMIC), un estudio multicntrico de 20 La media es la medida de tendencia central msejemplos sobrems fcil Ejemplo 1.4 En este y en los sucesivos utilizada y de estimado la media vendra dada por 250 entre 1991 y 1992 en ocho pases Europeos e Israel p n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del interpretacin. Corresponde al centro de gravedadobtenidos en de la mue utilizarn los valores del colesterol HDL de los datos los 10 pri n 1 European Study on Antioxidants, Myocardial x1 + x 2 + ...and nCancer of Infarction + x . 200 x = x i = principal limitacin es que est muy on Antioxidants, Myocardial extremos estudio European Study influenciada por los valores Infarction n i =1 n st (EURAMIC), un estudio multicntrico de casos y controles realizado caso, puede noBreastfiel reflejo de la tendenciamulticntrico distribucin. the ser un (EURAMIC), un estudio central de la de casos y co 150 La media es pases Europeos e Israelcentral ms utilizada y de los fcil la medida de tendencia para evaluar el efecto de ms 91 y 1992 en ocho entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar interpretacin. Corresponde al centro de gravedadEjemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores m de los datos de la muestra. Su 100 5 utilizarn los valores del en este principal limitacin es que est muy influenciada por los valores extremos y, colesterol HDL obtenidos en los 10 primero
Frecuencia absoluta

50 estudio European Study caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. on Antioxidants, Myocardial Infarction and

the Breast (EURAMIC), un estudio multicntrico de casos y control Ejemplo 1.4 En este0y en los sucesivos ejemplos sobre estimadores muestrales, se entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el ef utilizarn los valores del colesterol HDL obtenidos 0,8 los 10 primeros 1,4 en sujetos del 1,8 0 0,2 0,4 0,6 1 1,2 1,6 2
-caroteno (g/g) estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Figura 4.3

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

Figura 4.3

Distribucin de frecuencias del nivel de -caroteno en el grupo control del estudio EURAMIC.
Pastor-Barriuso R. 53

Principios de muestreo y estimacin

30 20 10 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

(a)
30 Frecuencia relativa (%) 20 10 0 0,1

Media de -caroteno (g/g) en muestras de tamao 10

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

(b)
30 20 10 0 0,1

Media de -caroteno (g/g) en muestras de tamao 25

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

(c)

Media de -caroteno (g/g) en muestras de tamao 100


Figura 4.4

Figura 4.4 Distribucin muestral de la media de -caroteno en 1000 muestras aleatorias simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde a la media poblacional = 0,37 g/g de -caroteno.

representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamao n = 10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC. En estas grficas puede observarse, de forma emprica, las siguientes propiedades: Ausencia de sesgo: para cualquier tamao muestral, el promedio de las medias muestrales es similar a la media poblacional. Disminucin del error estndar: al aumentar el tamao muestral, disminuye la variabilidad en la distribucin de las medias. Aproximacin a la distribucin normal: al aumentar el tamao muestral, la distribucin de las medias se aproxima a una distribucin normal centrada en la media poblacional. En los ejemplos anteriores, se ha comprobado de forma emprica que, independientemente de la forma de la variable aleatoria en la poblacin, la distribucin de las medias muestrales tiende a
54 Pastor-Barriuso R.

estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para Las medidas de tendencia central informan acerca de cu estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para 2 cualquier variable aleatoria X con media y varianza una la distribucin de las medias simple Estimacin variable o, dicho de , determinada en el muestreo aleatorio de forma equivalen cualquier variable aleatoria X con media y varianza 2, la distribucin de las medias en muestras aleatorias simples de tamao n se aproxima, al aumentar el tamao alrededor de qu valor se agrupan los datos observados. L en muestras aleatorias simples de tamao n se aproxima, al aumentar el tamao ~ N(1,09, 0,00086). x 2 seguir una distribucin normal,normal con cuando aumenta el tamao de la muestra. Uno de muestral, a una distribucin particularmente y varianza la/n; es decir, al aumentar resumir los resulta media sirven tanto para losmuestral, a una distribucin normal con media ycentral de 2/n; es decir, al aumentar principales resultados en estadstica, conocido como teorema muestra del lmite, formaliza varianza central esta intuicin:por ejemplo, la variable aleatoriaque la media y colesterolHDL en una varianza 2, la distribucin de las As, para cualquier probabilidad de X con media deinferencias acerca de los parmetros poblacional n, realizar al aumentar el tamao muestral, medias en muestras aleatorias simples de tamao n se aproxima, n, a una distribucinde tamao n media y varianza 2/n; es decir, al y 1,15 mmol/l puede muestra normal con = 100 est comprendida entre 1,03 aumentar n, los principales estimadores de 2 continuacin se describen ~ , x N , 2 ~ calcularse como x N , n , variable. n ~ donde el smbolo significa 1,15) = P 1 03 1,09 xMedia como. 1,09 aun cuando la donde el smbolo P(1,03 x distribuirse ,aproximadamente09 aritmticaaun cuando significa distribuirse aproximadamente 1,15As, 1.2.1 1, como. As, ~ significa distribuirse aproximadamente como. As, aun cuando donde el de una 0 ser 0 el teorema central del distribucinsmbolo variable en la poblacin diste mucho de,029 normal,,029 0,029 la distribucin de una variable en la normal como La media aritmtica, denotada de mucho de ser normal, el teorema lmite permite utilizar la distribucin poblacin disteaproximacin a la distribucinpor x ,si el se define como la s la distribucin es suficientemente grande. Aunque el2,05) diste tamao ser normal, el teorema tamao muestral de una variable en la poblacin Z mucho de muestral necesario variar en = P(-2,05 central del variable objeto de estudio, esta aproximacin ser razonablemente la el nmero funcin de lalmite permite utilizar la distribucin normal como aproximacin aprecisa siempre de observacion valores muestrales dividida por central del lmite 50. que n sea superior a permite utilizar la distribucin normal como aproximacin a la = 2 (2,05) - 1 = 0,9596. distribucin de x si el tamao muestral es suficientemente tamao muestralel tamao valor observado para por n el grande. Aunque y por xi el ~ N(1,09, 0,00086). distribucin de x siLa tamaoymuestral es suficientementeHDL en los controles del estudio Ejemplo 4.12 el media la xvarianza del colesterol grande. Aunque el tamao En el Ejemplo 4.9 enmmol/l yde = variable objeto deproporcin de muestras lmite, muestral necesario variarse comprob 2 la 0,086 (mmol/l)2laPor el teorema central delde funcin empricamente que . vendra dada por la media estudio, esta EURAMIC son = 1,09 muestral por ejemplo, la probabilidad muestras media de colesterol HDL en una la distribucin de las medias en de que la de tamao de = 100 ser aproximadamente As, necesario variar en funcin de la variable objeto n estudio, esta tamao n = 100 con un nivel medio de colesterol sea entre = a y aproximacin ser razonablemente precisa siempreque =HDLsuperior 0,00086 (mmol/l)es normal con media = 1,09 mmol/l y varianza 2/n n 0,086/100 1,0350.1,15 mmol/ln 2, x + x 2 + ... + x aproximacin ser razonablemente precisa siempre que 1,03 ysuperior a 50. puede 1 x i = 1 x= muestra de tamao n = 100 est ~ comprendida entre n sea 1,15 mmol/l n del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la n i =1 x N(1,09, 0,00086). Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del calcularse como probabilidad de que la media de As, por ejemplo, lamedia y la varianza del colesterol colesterol HDL en una muestra de Ejemplo 4.12 La HDL en los controles del aproximacin normal. As, por = 100 est comprendida entre la mediaLa media puede calcularse como de colesterol HDL en de tamao nejemplo, la probabilidad de que1,03 y21,15 mmol/l es la medida unatendencia central ms utiliza estudio EURAMIC son = 1,09 mmol/l y = 0,086 (mmol/l)2. Por el teorema Por estudio EURAMIC son = 1,09 mmol/l y 2 =x0,086 (mmol/l)2.,09 el teorema 1 Corresponde muestra deP(1,03 nxlos siguientestemas, 1,09interpretacin.,15mmol/lpuede centro de gravedad de l 100 est P 1,03 el entre 1,09 1,15 1 Como se deltamaoen = 1,15) =comprendidateorema central de tamaoconstituye la mostrar la distribucin de las medias en 1,03 y del lmite n =al central lmite, 100 0muestras 0,029 ,029 0,029 central del lmite, la distribucin de las medias en muestras de tamao n = 100 influenciada por los calcularse como proceso de inferencia estadstica, dado que posibilita tanto muy = P( 2,05 Z 1,09 mmol/l y varianza /n = 2,05) base ser aproximadamente normal con media =principal limitacin es que2estla fundamental del ser aproximadamente normal 2 (2,05) = 1,09puede noyser un fiel 2/n = de la tendencia central d = con media caso, mmol/l varianza construccin de=intervalos(mmol/l)2, 1,como ,el1contraste de hiptesis09 reflejo de confianza 03 1 09 = 0,9596. 1,15 1, acerca de la x 1,09 0,086/100 0,00086 1,15) = P P(1,03 se En0,086/100 = 4.9 xcomprob empricamente 0,la proporcin de muestras de tamao el Ejemplo 0,00086 (mmol/l)2, 0,029 que 029 0,029 media poblacionalnivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es y en95,4%, que ejemplos so n = 100 con un . Ejemplo 1.4 En este del los sucesivos coincide casi perfectamente con el resultado obtenido bajo la aproximacin normal. En el Ejemplo 4.9 se comprob P(-2,05 Z 2,05) la proporcin de muestras de = empricamente que 22 utilizarn los valores del colesterol HDL obtenidos 4.3.4 Estimacin de una proporcin poblacional 22 Como se mostrar en los siguientes temas,colesterol HDL entre 1,03 y 1,15 mmol/l es base tamao n = 100 con un nivel medio de el teorema central del lmite constituye la = 2 (2,05) - 1 = 0,9596. fundamental del que el inters del estudio se centradado que posibilita tanto laStudy on Antioxidants, Myocard estudio European construccin de Supongamos proceso de inferencia estadstica, en estimar la proporcin de intervalos 95,4%, que coincide casi perfectamente con acerca de la media poblacional . de confianza como el contraste de hiptesis el resultado obtenido bajo la del En el Ejemplo 4.9 sede la poblacin que cumplen una determinada caracterstica. En the Breast (EURAMIC), un individuos o elementos comprob empricamente que la proporcin de muestras de estudio multicntrico aproximacin normal. 4.3.4 tamao n = 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es Estimacin de una proporcin poblacional entre 1991 y 1992 en ocho los tal caso, resulta conveniente definir una variable aleatoria X que toma el valor 1 en pases Europeos e Israel Supongamos que el inters del estudio se centra en estimar la proporcin de individuos o Como se mostrar en los siguientes temas, el teorema central del lmite constituye la del de la presentan dicha perfectamente 0 en quienes no obtenido bajo caso, resulta individuos queque coincide casicaracterstica y con el resultado la presentan. La elementos95,4%, poblacin que cumplen una determinada caracterstica. En tal la media conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan base fundamental del proceso de inferencia estadstica, dado que posibilita tanto la poblacional de esta variable aleatoria la presentan. dicha aproximacin normal. quienes no discreta es La media poblacional de esta variable caracterstica y 0 en aleatoria discreta es construccin de intervalos de confianza como el contraste de hiptesis acerca de la 1 Como se mostrar en los siguientes temas, el teorema central del lmite constituye la = k P( X = k ) = media poblacional . k =0 base fundamental del proceso de inferencia estadstica, dado que posibilita tanto la 23 4.3.4 Estimacin de una de confianza como el contraste de hiptesis acerca de la construccin de intervalos proporcin poblacional Pastor-Barriuso R. Supongamos que media poblacionalel .inters del estudio se centra en estimar la proporcin de
55

Si se selecciona una muestra aleatoria simple de tamao n, en la cual k individuos


Principios de muestreo y estimacin

presentan la caracterstica de=inters = 1) (y los k ) (k (xi ) P X = restantes n - k individuos no la


2
2

k =0

La muestral varianza muestral de p viene determinada por (1 - )/n; as, al aumentar el 1 tamao muestral, las proporciones muestrales estarn ms prximas a la verdadera Si se selecciona una muestra aleatoria )simple = k tamao n, en la cual k individuos 2 = ( k 2 P ( X de ) tamao muestral, las proporciones muestrales estarn ms prximas a la verdadera k =0 k 1 n proporcin poblacional. p = i = 1) x i2 restantes n - k individuos no la presentan la caracterstica de inters (x = y los = x . 2 n (1 = proporcin poblacional.= (1 ) + n i1 ) = (1 ). Al aumentar el tamao muestral, la distribucin de las proporciones muestrales presentan (xi = una estimador natural de la de tamao n, en la cual k la proporcin Si se selecciona0), elmuestra aleatoria simpleproporcin poblacional es individuos presentan Al aumentar el tamao muestral, la distribucin de las proporciones A partir de esta notacin, es y los restantes n Esta aproximacin es muestrales la caracterstica de inters (xuna1)evidente que una proporcin muestralcual k individuos0), el tiende a aproximarse amuestra aleatoria normal.de tamao n, en lalaes un caso (xi = Si se una i = distribucin simple k individuos no presentan muestral selecciona proporcin poblacional es la proporcin muestral estimador naturalaproximarse a una distribucin normal. Esta aproximacin es de la tiende una particular de a media muestral para una variable dicotmica con la codificacin arriba suficientemente precisa si n(1 - ) (xi5. 1) y los restantes n - k individuos no la presentan la caracterstica de inters = 1 n suficientemente precisa si del =-k) 5. x = x . indicada. As, el teorema centraln(1lmite puedei aplicarse a la forma particular de esta p = presentan (xi = 0), el estimador natural denlai =proporcin poblacional es la proporcin n 1 Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de variable X para obtener el siguiente resultado: la distribucin muestral de una muestral Ejemplo 4.13 En las Figuras 4.5(a), proporcin muestral las proporciones de A partir de esta notacin, es evidente que una(b) y (c) se presentan es un caso particular de una A partir deactuales en 1000 muestras que una proporcin muestral es= 10, esta notacin, es evidente un caso mediafumadorespara una variableaumentar elaleatorias simples deuna distribucin 25 y teorema muestral se aproxima, al dicotmica tamao muestral, a arriba indicada. As, el con la codificacin tamao n proporcin p normal fumadores actuales en 1000 muestras aleatorias simples de X para n = 10, 25 y central del lmite puede aplicarse a la forma particular de esta variable tamaoobtener el siguiente n k 1 particular de una media muestral para una variable dicotmica con la codificacin arriba 100, la distribucin muestral de ppartir del grupop xse aproxima, al aumentar el tamao resultado: respectivamente, obtenidas auna proporcin =control del estudio EURAMIC, = = xi . con media y varianza (1 - )/n, n y=1 grupo control del estudio EURAMIC, n del i varianza (1 )/n, muestral,100, respectivamente, obtenidas a partir a una distribucin normal con media indicada. la proporcin decentral del lmite puede = 0,37. Para forma particular de esta donde As, el teorema fumadores actuales es aplicarse a la cualquier tamao n

presentan (xi = 0), el estimador natural de la proporcin poblacional es la proporcin 2 su varianza yLa varianza muestral de p= (1 determinada) por (1 --)/n; as, al aumentar el viene - ) + (1 - 2 = (1 ). su varianza

~ actuales Adonde la proporcin siguiente N que unaes ) = 0,37. Para cualquier tamao n partir de obtener el de fumadores (1 . esta muestral es un caso variablemuestra, las notacin, es evidente , estnproporcin muestral de de la de la X para proporciones p resultado: landistribucin alrededor una muestrales distribuidas de la de una media proporciones una variable dicotmica alrededor particular muestra, lasextraerse las muestrales estn distribuidasproporcinde la al aumentar sesgo). Al aumentar la distribucin normal En proporcin p se aproxima, (ausenciasiguientes propiedades deunacon la codificacin arriba consecuencia,poblacionalmuestral para el tamao muestral, an,unadistribucin muestral: proporcin pueden de EnLa proporcin poblacionales un estimador insesgado de la de unadistribucin consecuencia, muestralextraerse las siguientes propiedades proporcin poblacional ; es pueden p (ausencia de sesgo). Al aumentar n, la proporcin y indicada. As, el teorema central del lmite puede aplicarse a la forma particular de esta con media y= . muestral de varianza (1 fumadores actuales presenta una menor variabilidad decir, E(p) la proporcin-de)/n, muestral: muestral de la proporcin de determinada por (1 )/n; as, al de variabilidad y variable X para obtenerde p viene fumadores actuales presentamuestralaumentar el tamao La varianza muestral el siguiente resultado: la distribucin una menor una y se aproxima a una distribucin normal centrada)en la proporcin poblacional prximas a la verdadera proporcin ~ muestral, las proporciones p esp N estarnms . de la proporcin poblacional muestrales , (1insesgado La proporcin muestral un estimador y se aproxima a una distribucin normal centrada en la a una distribucin normal proporcin p se aproxima, al aumentar el tamao muestral, proporcin poblacional n poblacional. = 0,37. ;0,37. es decir, tamao . y Al aumentar el E(p) = muestral, la distribucin de las proporciones muestrales tiende a = con media y varianza (1 - )/n, aproximarse a una distribucin normal. Esta aproximacin de una proporcin precisa si En consecuencia, pueden extraerse las siguientes propiedades es suficientemente n(1 ) 5. [Figura 4.5 ~ (1 ) aqu] aproximadamente muestral: p N , . Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de fumadores [Figura 4.5 aproximadamente aqu] n actuales en 1000 muestras aleatorias simples de tamao nde 10, 25 y 100, respectivamente, La proporcin muestral p es un estimador insesgado = la proporcin poblacional A partir de las partir del grupo control del estudio EURAMIC, donde la proporcin de fumadores obtenidas a propiedades anteriores se deduce que, para una muestra aleatoria de En consecuencia, pueden .cualquier tamaodeducemuestra, las proporciones muestrales estn A partir decir, propiedades anteriores se n de la que, para una una proporcin actuales es las0,37. Para extraerse las siguientes propiedades demuestra aleatoria de ; es de = E(p) = tamao n, la proporcin muestral proporcin poblacional (ausencia de sesgo). Al aumentar24 la distribuidas alrededor de la p es un estimador insesgado de la proporcin n, muestral: tamao n, la proporcinde la proporcin deestimador insesgado de la proporcin variabilidad muestral p es un fumadores actuales presenta una menor distribucin muestral poblacional y su error estndar viene determinado por la raz cuadrada de la varianza y se aproxima a una distribucin normal centrada en la proporcin poblacional = 0,37. La proporcin muestral p viene determinado por la de cuadrada de poblacional poblacional y su error estndar es un estimador insesgadoraz la proporcinla varianza muestral dede las propiedades anteriores se deduce que, para una muestra aleatoria de tamao n, A partir p, es decir, p es un muestral ;de p, la proporcin muestralE(p) = .estimador insesgado de la proporcin poblacional y su error estndar viene determinado por la raz cuadrada de la ) (1 varianza muestral de p, 24 , SE(p) = var( p) = n (1 ) , SE( p) = var( p) = n que puede estimarse a partir de la propia muestra mediante p (1 p ) / n .. que puede estimarse a partir que puede estimarse a partir de la propia muestra mediante p (1 p ) / n .
56 Pastor-Barriuso R.

25 24 25

Estimacin en el muestreo aleatorio simple

30 20 10 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

(a) Proporcin de fumadores actuales en muestras de tamao 10


30 Frecuencia relativa (%) 20 10 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

(b) Proporcin de fumadores actuales en muestras de tamao 25


30 20 10 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

Figura muestras aleatorias Figura 4.5 Distribucin muestral de la proporcin de fumadores actuales en 1000 4.5 simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La Ejemplo trazo discontinuo una muestra aleatoria simple de n = 100estimacindel estudio 4.14 A partir obtuvieron k = 35 fumadores actuales. La controles lnea vertical enEURAMIC, sedecorresponde a la proporcin poblacional de fumadores actuales = 0,37.

Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del

(c) Proporcin de fumadores actuales en muestras de tamao 100

estudio EURAMIC, se obtuvieron k = 35 fumadores actuales. La estimacin puntual de la proporcin de fumadores actuales es Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio EURAMIC, se obtuvieron k = 35 fumadores actuales. La estimacin puntual de la puntual de la proporcin de fumadores actuales es k 35 proporcin de fumadores actuales=es = = 0,35, p n 100 k 35 p= = = 0,35, n 100 y su error estndar es y su error estndar es y su error estndar es p (1 p) 0,35(1 0,35) SE(p) = = 0,05, = n 100 0,35(1 0,35) p (1 p) SE(p) promedio que=cabra esperar entre todas las posibles muestras de = 0,05, que corresponde al error = 100 n tamao 100 de la poblacin a estudio. que corresponde al error promedio que cabra esperar entre todas las posibles

que corresponde al error promedio que cabra esperar entre todas las posibles muestras de tamao 100 de la poblacin a estudio. muestras de tamao 100 de la poblacin a estudio. En este apartado se ha discutido la estimacin puntual de una proporcin poblacional
Pastor-Barriuso R. 57

Principios de muestreo y estimacin

En este apartado se ha discutido la estimacin puntual de una proporcin poblacional y su correspondiente error estndar. No obstante, no se ha hecho un uso prctico de la aproximacin normal a la distribucin muestral de p. Esta aproximacin se retomar ms adelante para obtener intervalos de confianza y pruebas de hiptesis sobre la proporcin poblacional (vase Tema 7). 4.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. REFERENCIAS Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer Verlag, 1998. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third Edition. New York: John Wiley & Sons, 1999. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons, 1980. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin Sanitaria. Madrid: Daz de Santos, 2000. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory, Sixth Edition. London: Edward Arnold, 1994.

58

Pastor-Barriuso R.

TEMA 5 INFERENCIA ESTADSTICA


5.1 INTRODUCCIN

La teora del muestreo aporta diversos mtodos formales para seleccionar muestras a partir de una determinada poblacin. La informacin obtenida de dichas muestras puede resumirse utilizando tcnicas de estadstica descriptiva. Sin embargo, cuando se trabaja con una muestra, rara vez nos interesa la muestra como tal, sino que sta interesa por su capacidad para aportar informacin con respecto a otros sujetos o a otras situaciones. En los estudios descriptivos, el inters radica en seleccionar una muestra representativa de la poblacin de referencia, o dicho ms concretamente, la muestra ha de presentar el mismo grado de diversidad que la poblacin respecto al parmetro o caracterstica objeto de estudio. Las tcnicas de muestreo probabilstico descritas en el tema anterior facilitan muestras que sern muy probablemente representativas de la poblacin si el tamao muestral es suficientemente grande. De esta forma, los resultados de la muestra podrn inferirse a toda poblacin con un grado razonable de certidumbre. Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene informacin de una muestra representativa a nivel provincial o nacional. Esta muestra interesa por la informacin que aporta sobre toda la poblacin. En este caso, la representatividad de la muestra es determinante para la validez de las conclusiones derivadas del proceso inferencial. En los estudios epidemiolgicos analticos, los resultados son interesantes porque pueden aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseo es asegurar la comparabilidad o semejanza de los grupos de estudio, ms que la representatividad poblacional de la muestra. En los ensayos clnicos randomizados, los sujetos se asignan a los distintos grupos de tratamiento mediante algn mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio simple). As, si el tamao muestral es grande, las caractersticas basales de los sujetos asignados a los distintos grupos sern muy similares. En consecuencia, las diferencias observadas entre estos grupos a lo largo del seguimiento podrn atribuirse al tratamiento objeto de estudio. Ejemplo 5.2 El primer ensayo clnico publicado sobre el papel de la aspirina en la prevencin primaria de enfermedades cardiovasculares se realiz en mdicos americanos participantes en el Physicians Health Study, seleccionados adems por otras caractersticas de salud. En este caso, los sujetos a estudio no son representativos de la poblacin a la que se aplicarn posteriormente los resultados (poblacin general de hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se garantiz la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban mediante la asignacin aleatoria del tratamiento y el uso de la tcnica del doble ciego (tanto el investigador como el paciente desconocan el tratamiento asignado). La estadstica inferencial aporta las tcnicas necesarias para extraer conclusiones sobre el valor poblacional de un determinado parmetro a partir de la evaluacin de una nica muestra.
Pastor-Barriuso R. 59

Inferencia estadstica

Como se discuti en el tema anterior, las conclusiones derivadas de este proceso inferencial siempre estarn sujetas a error como consecuencia de la variabilidad aleatoria inherente al propio procedimiento de seleccin muestral. Por ello, resulta necesario disponer no slo de una estimacin puntual, sino tambin de un intervalo de confianza, que facilite un rango de valores verosmiles para el parmetro poblacional, as como de una prueba de significacin estadstica, que permita determinar el grado de compatibilidad de los datos muestrales con una hiptesis predeterminada. En este tema, se revisan los fundamentos y la interpretacin de las tcnicas estadsticas de inferencia: la estimacin puntual, el intervalo de confianza y el contraste de hiptesis. Para simplificar la exposicin, se asume que la muestra se obtiene por muestreo aleatorio simple y que la poblacin de referencia es de tamao muy superior a la muestra. 5.2 ESTIMACIN PUNTUAL

Una forma natural de estimar muchos parmetros poblacionales consiste en utilizar el estadstico muestral correspondiente. As, la media muestral es un estimador puntualDEla media poblacional 1.2 MEDIDAS de TENDENCIA CENTRAL y la proporcin de casos de una enfermedadsatisfacer un buen estimador muestral en la DE TENDENCIA CENTRAL de la muestra es un estimador puntual 1.2 MEDIDAS principales propiedades estadsticas que ha de probabilidad de tener la enfermedad en la poblacin. No obstante, para un determinado Las medidas de alternativos. Algunos parmetro poblacional, pueden contemplarse distintos estimadores tendencia central informan acerca de c cabe destacar las siguientes: Las medidas de tendencia central informan acerca de cul es el valor m estimadores de la media poblacional distintos de la media muestral podran ser, por ejemplo, la o, dicho de mediana, la media del 50% central de laes insesgado side una determinada variable lasmnimo. forma equival Ausencia de sesgo. Un estimador muestra o la media de los valores mximo y su valor medio sobre todas decriterios estadsticos que justificande forma equivalente, estos estima una determinada variable o, dicho la eleccin de un En este apartado se presentan algunos alrededor de qu valor se agrupan los datos observados determinado estimador frente a otras coincide alternativas. posibles muestras de tamao n posibles con el parmetro poblacional.datos observados. Las medidas de alrededor de qu valor se agrupan los La Los mritos de un estimador no se juzgan por la central de la resultante en una muestra estimacin muestra sirven tanto para resumir los resu insesgadez de un estimador de todos losde la muestra sirvenestimaciones a que pueda dar es una propiedad deseable yao tanto para resumir los resultados observado concreta, sino por la distribucin central posibles valores que sus estimaciones no lugar; esto es, por las propiedades de su distribucin muestral. Entre las principalesde los parmetros poblacion realizar inferencias acerca propiedades diferirn sistemticamenteun buen estimador muestral cabede los parmetros poblacionales correspondi del parmetro poblacional. estadsticas que ha de satisfacer realizar inferencias acerca destacar las siguientes: y Ausencia de sesgo. Un estimador es insesgado si continuacin se sobre todas las posibles estimadores d su valor medio describen los principales continuacin se describen los principales estimadores un la tendencia ce muestras 5.3 Como senprob en el con el parmetro poblacional. La insesgadez de de Ejemplo de tamao coincide tema anterior, la media y la proporcin muestral variable. estimador es una propiedad deseable ya que sus estimaciones no diferirn sistemticamente variable. del parmetro poblacional. de la media y la proporcin poblacional, son estimadores insesgados 1.2.1 Media aritmtica Ejemplo 5.3 Como se=prob en el tema anterior, la la varianza proporcin muestral son 1.2.1 . Sin embargo, media y la muestral definida respectivamente, E( x ) y E(p) = Media aritmtica estimadores insesgados de la media y la proporcin poblacional, respectivamente, E( x ), = define como l La media aritmtica, denotada por se 2Sin embargo, la varianza muestral definida por S(x x ),2/n es un estimador suma de cada u y E(p) -= x ) /n es un estimador La mediade la varianza poblacional, ya que se define como la i por (xi . sesgado aritmtica, denotada por valores muestrales dividida por el nmero de observac sesgado de la varianza poblacional, ya que valores muestrales dividida por el nmero de observaciones realizadas. 2 n n 1 por n el2 tamao muestral y por xi el valor observado pa 1 1 n 2 1 n 2 2 E ( x i x ) = E por x i el tamao muestral ) E x el valor observado para el sujeto i-sim x = n E ( xi y por ni xi i =1 i =1 n i =1 n i =1 n la media vendra dada por n n 1 1 = la ( x i2 ) vendra E ( x i2 )por E ( x i ) E ( x j ) E media 2 dada + 2 n i =1 n i =1 1 i < j n x + x 2 + ... 1 n x = xi = 1 n n + i =1 x + x 2 n ... + x n 2 n 1 1 n = 2 E ( x i2 ) 2 E ( x i ) E ( x j = x i = 1 . x) n i =1 n n i =1 n 1i < j n

60

n 1 2 n 1 La media es2la medida de tendencia central ms util n 1 ( + 2 ) 2 = ; n n La media es n medida de tendencia central ms utilizada y de ms f la interpretacin. Corresponde al centro de gravedad de interpretacin. Corresponde al centro de gravedad de los datos de la m es decir, este estadstico tiende a infraestimar la varianza poblacional 2 por un principal limitacin es que est muy influenciada por l Pastor-Barriuso R. principal limitacin es que est muy influenciada por los valores extrem factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el caso, puede no ser un fiel reflejo de la tendencia centra caso, puede no ser un fiel reflejo de la tendencia central de la distribuci tamao muestral. En consecuencia, es preferible utilizar la varianza muestral =

es decir, este estadstico tiende a infraestimar la varianza poblacional por un forma, que las una mayor confianza difieran lo menos se resultante de principales estimadores de la t tambinse tendrdistintas estimaciones en que la estimacin describen los la continuacin posible de dicho factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el Estimacin puntual 1.2 varianza muestral del al TENDENCIA sea mnima. muestra finalmente que la MEDIDAS prxima estimador CENTRAL De esta parmetro, es decir, seleccionada estarDE variable.parmetro poblacional. Por tamao muestral. En consecuencia, es preferible utilizar la varianza muestral ello, entre los distintos estimadores deen que la estimacin resultante de de es forma, se tendr una mayormedidas insesgados decentral informan acercala cul es el valor ms represe confianza tendencia un determinado parmetro, es decir, este 2 = (xi - Las /(n infraestimar la varianza poblacional 2 por 1.2.1 Media aritmtica )2 definida por sestadsticoxtiendea1) como estimador insesgado de la varianza un factor de (n 1)/n. Notar que este sesgo ser presente unacuanto menor sea el de forma tanto mayor menor varianza (o, tamao muestral. En conveniente seleccionar aqueldeterminada variable o, dicho poblacional. Por 2 muestra finalmente seleccionada estar prxima al parmetrode forma equivalente, estos estimadores ind de una que 2 consecuencia, La media aritmtica, denotada por se 1) poblacional, es preferible utilizar la varianza muestral definida por s = S(xi x ), /(n define como la sum como estimador menor error estndar). En general,un determinado parmetro,la insesgado de la varianza poblacional, equivalente, distintos alrededor de insesgadosse agrupan los datos observados. Las medidas de tendenc ello, entre losun estimadores qu valor de puede demostrase que, si es valores muestrales dividida por el nmero de observaciones 1 n 2 2 distribucin poblacional subyacentemuestrauna la) 2tanto x. y resumir forma E(s ) = E la es i x conveniente seleccionar aquel que presente( xsirvenmedia para la (o, de los muestral observados como p central de n 1 normal,nmenor=varianza varianza resultados observado para el s el tamao muestral y por xi el valor i =1 por

los estndar). insesgados de 2 con menor varianza. equivalente, un menor errorestimadoresEn general,de los ydemostrasepoblacionales correspondientes. A s2 son respectivamente realizar inferencias acerca puedeparmetros que, si la la media vendra dada que y Mnima varianza. Adems de la insesgadez de un estimador, por garantiza que las estimaciones poblacional subyacente es normal, la media x y la varianza muestral que parmetro poblacional, interesa distribucin estarn centradas alrededor del p es el estimador insesgado de tambin con De la misma forma, la continuacin proporcin muestral las distintas estimaciones difieran lo se describen losde dicho parmetro; es decir, que la menos posible principales estimadores de la tendencia central de x + x + ... + x n 1 n 4 varianza muestral del estimador sea mnima. De esta forma, se tendr una mayor x i = 1 . x = confianza 2 2 2 s son respectivamente variable. menor error estndar. los estimadores insesgados de y con menor varianza. n i =1 en que la estimacin resultante de la muestra finalmente seleccionada estn prxima al parmetro poblacional. Por ello, entre los distintos estimadores insesgados de un De la misma forma, la proporcin muestral p es el estimador insesgado de con determinado parmetro,1.2.1 distribucin poblacional, la es lapresente una menor varianza ms utilizada es conveniente seleccionar aquel que medida de tendencia central La Ejemplo 5.4 Para cualquier Media aritmtica media media muestral es un (o, de forma equivalente, un menor error estndar). En general, puede demostrarse que, si menor error estndar. 2 la distribucin poblacional media aritmtica, denotada por Correspondecomo la suma soncada uno de los interpretacin. y la es estimador insesgado deLa subyacente es normal, la media x , se define al muestralde gravedad de los d la media poblacional y su error estndar varianza centro s de respectivamente los estimadores insesgados de y 2 con menor varianza. De la misma valores es el estimador insesgado de conque est un influenciada por denota forma, la proporcin muestral pmuestrales dividida por el nmero de observaciones realizadas. Silos val principal la media es menor muy Ejemplo 5.4 Para cualquier distribucin poblacional,limitacinmuestral es error estndar. . SE( x ) = pormedia poblacional y su por lael valormuestral es para el sujeto central = la n distribucin poblacional, estndar observado de la tendencia n Ejemplo 5.4 Para cualquierel tamao muestral y errorxno ser unes reflejoun estimador i-simo, i de1, caso, puede i media fiel estimador insesgado de la insesgado de la media poblacional y su error estndar es la media vendra dada por En el caso de que la distribucin subyacente normal, puede probarse que la sea SE( x ) = . Ejemplo 1.4 En este y en los sucesivos ejemplos sobre n n x y que su mediana tambin es un estimador insesgado de la media1poblacional+ x 2 + ... + x n utilizarn los ivalores del colesterol HDL obtenidos en . x = x = 1 n i =1 En el caso de que la distribucin subyacente sea normal, puede probarse n la mediana que error estndar estimador insesgado En el caso de queaproximadamente de la medianormal, puede probarse que la tambin es un es la distribucin subyacente sea estudio European Study on estndar es Myocardial poblacional y que su error Antioxidants, aproximadamente La media es la medida media poblacional que su mediana tambin es un estimador insesgado de lade tendencia centralyms utilizada y de ms fcil the Breast (EURAMIC), un estudio multicntrico de c SE(mediana) 1,25 . interpretacin. al error estndar es aproximadamente Corresponde n centro de gravedad de los datos de la muestra. S entre 1991 y 1992 en ocho pases Europeos e Israel par As, aunque ambos estimadores son insesgados, el error estndar de la mediana es un 25% principal limitacin es la mediana tender a facilitar estimaciones est mayor que el de la media muestral y, por tanto, que muy influenciada por los valores extremos y, en . menos precisas que la media SE(mediana) 1,25 muestral. caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. n

y Consistencia. Las propiedades de insesgadez y mnima varianza se refieren a la distribucin muestral del estimador para un tamao n fijo de la muestra. La consistencia, Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice que 5 un estimador es consistente si,utilizarn losel tamao decolesterol HDL obtenidos en los 10 primeros suje al aumentar valores del la muestra, la probabilidad de que el estimador difiera del verdadero parmetro poblacional se reduce progresivamente. La consistencia es, por tanto, un requerimiento bsico paraon Antioxidants, Myocardial Infarction and Canc estudio European Study un buen estimador ya que bastar con aumentar el tamao muestral para obtener estimaciones arbitrariamente prximas al 5 verdadero parmetro. Por supuesto, la media, la varianza estudio multicntrico de casos y controles rea y la proporcin muestral son the Breast (EURAMIC), un estimadores consistentes de sus respectivos parmetros poblacionales.

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto d Ejemplo 5.5 En el Ejemplo 4.9 se evalu empricamente el comportamiento de la media muestral de colesterol HDL en muestras de tamao n = 10, 25 y 100 obtenidas a partir de los controles del estudio EURAMIC, donde la media poblacional del colesterol HDL
Pastor-Barriuso R. 61

Inferencia estadstica

es = 1,09 mmol/l. La proporcin de muestras con niveles medios de colesterol HDL prximos a = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aument de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado corrobora empricamente la consistencia de la media muestral como estimador de la media poblacional: la probabilidad de obtener estimaciones prximas al verdadero nivel medio aumenta progresivamente conforme aumenta el tamao muestral. En los problemas de estimacin ms simples, como es el caso de una media o una proporcin poblacional, se dispone de un estimador natural que cumple las propiedades descritas anteriormente. En otros problemas ms complejos, como por ejemplo en la estimacin de parmetros en modelos de regresin, la eleccin de un estimador razonable no es tan directa. En general, existen diversos mtodos formales para obtener estimadores con buenas propiedades estadsticas, entre los que destacan el mtodo de mxima verosimilitud, el mtodo de mnimos cuadrados y el mtodo de los momentos. Los mtodos de mnimos cuadrados y mxima verosimilitud se presentarn en el contexto particular de los modelos de regresin lineal (Temas 10 y 11) y logstica (Tema 12), respectivamente. No obstante, los principios generales de estos procesos de estimacin y la evaluacin de los estimadores resultantes pueden consultarse en los textos de estadstica matemtica referenciados al final del tema.

TENDENCIA CENTRAL

5.3 ESTIMACIN POR INTERVALO dencia central informan acerca de cul es el valor ms representativo Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra diferirn del parmetro poblacional y, en consecuencia, variable o, dicho de forma equivalente, estos estimadores indican quedar un margen de incertidumbre que se expresa en trminos del error estndar del estimador. As, resulta natural la pretensin de disponer de una5.3.1 Distribucin t de poblacional que incorpore tanto la estimacin puntual como su error medida del parmetro Student or se agrupan los datos observados. Las medidas de tendencia estndar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se encontrar el verdadero deobservados como para a sirven tanto para 5.3.1 Distribucin tvalor del parmetro poblacional conde confianza se de confianza. En este resumir los resultados Student El mtodo ms extendido para el clculo de intervalos un cierto grado basa en las apartado se describe detenidamente el procedimiento para la construccin de un intervalo de confianza poblacionales correspondientes. del intervalos Por el teorema central del lmite acerca de los parmetros para ms extendido para muestralA de estimador. declculo e interpretacinlas intervalos El mtodo lade la distribucin el clculo propiedades media poblacional. Los principios bsicos del confianza se basa en de de confianza para otros parmetros son similares y se discutirn en los siguientes temas. criben los principales estimadores la distribucin muestralde una con media yteorema central del lmite propiedades de de la tendencia central del estimador. Por el varianza 2, la sabemos que, para cualquier variable aleatoria

5.3.1 Distribucin t de Student sabemos que, para cualquier variable aleatoria con media y varianza 2,media y distribucin de las medias muestrales x es aproximadamente normal con la El mtodo ms extendido para el clculo de intervalos de confianza se basa en las propiedades de distribucin/n si el medias muestrales xsuficientementecentral normal consabemos que, para la distribucin muestral delmuestral es Por aproximadamente del lmite media y tica varianza 2 de las tamao estimador. es el teorema grande; es decir, cualquier variable aleatoria con media y varianza 2, la distribucin de las medias muestrales , denotada por x es aproximadamente tamaocon mediaesysuficientementeel tamaoes decir, es suficientemente , varianza 2/n sila suma de muestral de los se define como el normal cada uno varianza 2/n si grande; muestral 2 ~ grande; es decir, x N , ividida por el nmero de observaciones realizadas. Si denotamos n2 ~ N , x estral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n o, de forma equivalente, aplicando la estandarizacin de una distribucin normal o, de forma equivalente, aplicando la estandarizacin de una distribucin normal da por o, de forma equivalente, aplicando la estandarizacin de una distribucin normal x ~ N (0, 1) . x1 + x 2 + ... + x n 1 n . x = xi = x ~ n N (0, 1) . n i =1 n

n Esta cantidad estandarizada depende de dos parmetros desconocidos: la media edida de tendencia central ms utilizada y de ms fcil 62 Pastor-Barriuso R. Esta cantidad ,estandarizada depende de dos parmetros desconocidos: la media poblacional que es el parmetro objeto de inferencia, y la desviacin tpica esponde al centro de gravedad de los datos de la muestra. Su

poblacional ,, que es el parmetro objeto denecesario para conocer el error estndar en poblacional que es un parmetro auxiliar inferencia, y la desviacin tpica es que est muy influenciada por los valores extremos y, en este

s probabilidad en los extremos (Figura 5.1). Los grados de libertad de la estimacin de . Parece entonces lgico sustituir en la expresin anterior el valor

Estimacin por intervalo t de Student determinan su dispersin: al aumentar los grados de desconocido de por la desviacin tpica muestral s. Sin embargo, como s es un uye la variabilidad y la distribucint de Student se aproxima a una estimador de que conlleva a su vez un error de muestreo, el estadstico poblacional , Esta cantidad estandarizada depende de dos parmetros desconocidos: la media resultante ( x -que mal estandarizada. Cuanto menor seade inferencia, y la n, mayor ser poblacional , que es un parmetro es el parmetro objeto el tamao muestral desviacin tpica auxiliar necesario para conocer el error estndar en la estimacinque . Parece entonceseste )/(s/ n ) presentar una mayor imprecisin. Puede probarse de la distribucin de lgico t de sustituir en la expresin anterior el valor desconocido de por la desviacin tpica muestral s. Sinestadstico ya no ser normal, sino t de Studentaproximadamente una error dealrededor de 0 y de aspecto embargo, como sLa distribucin que seguir conlleva a su vez un distribucin es un estimador de que es una distribucin simtrica muestreo, el una mayo estadstico resultante (x )/(s/ n ) presentar una mayor imprecisin. Puede probarse que la distribucin como tparecido al deya nnodistribucin libertad que seguir por aunque menos apuntada en el estadstico una grados de normal y denotada aproximadamente una conocida de estede Student con - 1ser normal, sino estandarizada, tn-1, ral es grande,s distribucin conocida como t de Student con n 1 grados de libertad y denotada por tn1, facilitar un estimacin precisa de centro y con ms probabilidad en los extremos (Figura 5.1). Los grados de libertad de x ~ tn icho estadstico ser aproximadamente normal. En la Tabla 5 del1 . s una distribucin t de Student determinan su dispersin: al aumentar los grados de n entan los percentiles de la distribucint de Student para distintos La distribucin tlibertad, disminuye la variabilidad y la alrededor det0 y de aspecto parecido a una de Student es una distribucin simtrica distribucin de Student se aproxima ad. al de una distribucin normal estandarizada, aunque menos apuntada en el centro y con ms n, probabilidad en los distribucin normal estandarizada. Cuanto menor distribucin t de Student mayor ser extremos (Figura 5.1). Los grados de libertad de una sea el tamao muestral determinan su dispersin: al aumentar los grados de libertad, disminuye la variabilidad y la 8 [Figura 5.1 aproximadamente aproxima a una distribucin normal estandarizada. Cuanto menor sea t de distribucin t de Student se aqu] el tamao muestral n, mayor ser el error de la desviacin tpica muestral s y, en consecuencia, la distribucin t de Student otorgaruna mayor dispersin al estadstico (x )/(s/ n ). Por el Student otorgar una mayo contrario, si el tamao muestral es grande, 97,5 en unauna estimacin precisa de , de tal forma 6 De la Tabla 5 del Apndice se obtiene que el percentil s facilitar que la distribucin de dichomuestral es grande,s facilitar un estimacin En la Tabla 5 del el tamao estadstico ser aproximadamente normal. precisa de Apndice seypresentan los percentiles respectivamente t de Student para distintos grados de n t de Student con 2, 5, 10 30 grados de libertad es de la distribucin libertad. distribucin de dicho estadstico ser aproximadamente normal. En la Tabla 5 del 303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de Ejemplo 5.6 ApndiceTabla 5 del Apndice se obtiene distribucint de Studenten una De la se presentan los percentiles de la que el percentil 97,5 para distintos distribucin t de Student con 2, 5, 10 y 30 grados nes simtricas en 0, el percentil 2,5 coincide con el correspondiente de libertad es respectivamente t2;0,975 = 4,303, t5;0,975 grados de tlibertad. 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones = 2,571, 10;0,975 = simtricas t2;0,025 = -4,303, t 2,5 coincide con el correspondiente percentil 97,5 con signo 7,5 con signo opuesto; es decir, en 0, el percentil 5;0,025 = -2,571, t10;0,025 opuesto; es decir, t2;0,025 = 4,303, t5;0,025 = 2,571, t10;0,025 = 2,228 y t30;0,025 = 2,042. Por de tanto, el 95% 0 y de de distribucin tt [Figura 5.1 aproximadamente aqu] t30;0,025 = -2,042. Portanto, el 95% central de lala distribucin de Student con 2, 5, 10 y 30 grados de libertad distribucin simtrica alrededor de centralaspecto est comprendido entre 4,303, 2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la dispersin n estandarizada, aunque menos apuntada en el deentre 4,303, t de Student disminuye al aumentar los l 2, 5, 10 y 30 grados de libertad est comprendido la distribucin grados de libertad, aproximndose a una distribucin normal estandarizada (95% de los Ejemplo 5.6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en una valores entre de libertad de 228 y 2,042, respectivamente. As, puede observarse que extremos (Figura 5.1). Los grados 1,96, Ejemplo 3.11). la distribucin t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente de la distribucin alde Student los grados de aumentar los grados de an su dispersin: t aumentar disminuye al para una media poblacional 5.3.2 Intervalo de confianza t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de a distribucint de partir de se aproxima a anteriores puede construirse un intervalo de confianza para la media A Student los resultados una poblacional. En general, la estimacin por intervalo lleva asociada una probabilidad oel correspondiente distribuciones simtricas en 0, el percentil 2,5 coincide con nivel de uanto menor sea el tamaodenotada en trminos porcentuales por 100(1 )%, que indica la cobertura del n, confianza, muestral mayor ser parmetro poblacional. Aunque en97,5 con signoutilizan casi decir, t2;0,025 = -4,303, t5;0,025 = de percentil la prctica se opuesto; es exclusivamente los intervalos -2,571, t10;0,025 9 t de confianza al 95% ( = 0,05), nos referiremos aqu de forma genrica al intervalo de confianza = -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de estadstico t al 100(1 )% para la media poblacional. Utilizando la aproximacin t de Student alla distribucin de (x )/(s/ n ), se sigue que hay una probabilidad 1 de que dicho estadstico est Student con 2, 5, 10 y 30 grados de libertad est comprendido entre 4,303, ar un estimacin precisa de 2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la aproximadamente normal. En la Tabla 5 del dispersin de la distribucin t de Student disminuye al aumentar los grados de de la distribucint de Student para distintos Pastor-Barriuso R. 63

libertad, aproximndose a una distribucin normal estandarizada (95% de los


Inferencia estadstica valores

entre 1,96, Ejemplo 3.11).

libertad, aproximndose a una distribucin normal estandarizada (95% de los 5.3.2 Intervalo de confianza para una media poblacional f(x) valores entre 1,96, Ejemplo 3.11). A partir de los resultados anteriores puede construirse un intervalo de confianza para la

N(0, 1) t30 mediaIntervalo de confianza para una media poblacional 5.3.2 poblacional. En general, la estimacin por intervalo lleva asociada una t10 t5 probabilidad o resultados anterioresdenotada en trminos porcentualesconfianza para la A partir de los nivel de confianza, puede construirse un intervalo de por 100(1 - )%, t2

que indica la cobertura del parmetro poblacional. Aunque en la prctica una media poblacional. En general, la estimacin por intervalo lleva asociada se utilizan casi exclusivamente los intervalos de confianza al 95% ( = 0,05), nos referiremos aqu )%, probabilidad o nivel de confianza, denotada en trminos porcentuales por 100(1 - de forma genrica al intervalo de confianza al 100(1 )% para la prctica se utilizan que indica la cobertura del parmetro poblacional.- Aunque enla media poblacional. casi exclusivamente los intervalos de confianza al 95% ( = 0,05), nos referiremos que de Utilizando la aproximacin t de Student al estadstico ( x - )/(s/ n ), se sigue aqu hay forma genrica al intervalo de confianza al 100(1 - comprendido entre los percentiles una probabilidad 1 - de que dicho estadstico est)% para la media poblacional.

/2 y 1 - la aproximacin t de t de Student con n ( grados de n ), se sigue que hay Utilizando /2 de una distribucinStudent al estadstico 1 x - )/(s/ libertad, denotados
-3 -2 -1 0 1 2 3

x respectivamente 1 - de y t dicho esto es, una probabilidadpor tn-1,/2quen-1,1-/2;estadstico est comprendido entre los percentiles Figura 5.1 Funcin de densidad de la distribucin t de Student con 2, 5, 10 y 30 grados de libertad, y 5.1 Figura fun1.2 MEDIDAS DE TENDENCIA CENTRAL cin de densidad normal estandarizada. /2 y 1 - /2 de una distribucin t de Student con n 1 grados de libertad, denotados Las medidas /de< x < tcentral2 informan. acerca de cul es el valor ms representativ tendencia n 1,1 / = 1 P t n /2 comprendido entre los percentiles1, y ;1esto es, una distribucin t de Student con n 1 grados y respectivamente por tn-1,/2 tn-1,1- 2 /2 /2 de s de libertad, denotados respectivamente por tn1,/2 y tn1,1/2; esto es, n de de aspecto una determinada variable o, dicho de forma equivalente, estos estimadores indican a distribucin simtrica alrededor de 0 y

alrededor al estandarizada, aunque menos se representa el de qu valoren<la Figura 5.2.datos.la simetra deLas medidas de tendencia Este resultado apuntada en t n 1, / 2 < x se agrupan los1 observados. la grficamente t n 1,1 / 2 = Por P s de extremos (Figuradistribucin t de Student, tn-1,/2 = -tn-1,1-/2ny la expresin anterior puede rescribirse 5.1). Los grados decentral de muestra sirven tanto para resumir los resultados observados como para libertad la

Este resultado selos grados de inferencias acerca de los parmetros poblacionales correspondientes. A realizar nan su dispersin:como al aumentar representa grficamente en la Figura 5.2. Por la simetra de la distribucin t de Este resultadose representa grficamente en la Figura 5.2. Por la simetra de la Student, tn1,/2 = tn1,1/2 y la expresin anterior puede rescribirse como continuacin se describen los principales estimadores de la tendencia central de una la distribucint de Student se aproxima a una distribucin t de Student, n-1,/2 = -tn-1,1-/2 y la expresin anterior puede rescribirse t x Cuanto menor sea el tamao muestral variable.t n 1,1 / 2 < n, mayor P ser < t n 1,1 / 2 = 1 . como s n t de s s 1.2.1 Media aritmtica x + t =1 . P x t n 1,1 / 2 << n 1,1 / 2 n Para despejar la media poblacional, se n multiplica cada trminode la desigualdad por el error x muestral )/(s/ n ) la media poblacional,2 la media < t n 1,por x ,,=se de desigualdad por cada (x Para estndardespejara continuacin tse 1restase multiplica cada/ 2trmino . lacomo la suma de el uno de los y La media naritmtica, denotada 1 resultando que 1 define P ,1 / < s s de As, el intervalo de confianza (IC) al 100(1n )% para muestral poblacional viene s y continuacin se resta la media la media , resultando que valores ar un estimacinerror estndar s/ nP xa t n muestrales<dividida por,1el nmero= 1xobservaciones realizadas. Si denotamos precisa de < x + t n 1 / 2 . 1,1 / 2 n n determinado por el Para despejarpormedia poblacional, muestral y por xi el valor observado para el sujeto 10 aproximadamente normal. En la Tabla 5ndel tamao se multiplica cada trmino de la desigualdad por eli-simo, i = 1, ..., n, As, el intervalo de confianza (IC) al 100(1 )% para la media poblacional viene determinado por para de la distribucinAs, el intervalo dedistintos vendra 100(1porla media la media poblacional viene t de estndar s/ confianza (IC) al dada - )% s errorStudent para n la media y a continuacin se resta muestral x , resultando que x t n 1,1 / 2 , n determinado por 10 x + x 2 + ... + x n 1 n . x = xi = 1 n 64 Pastor-Barriuso R. que depende tanto de la estimacin puntual x (valor n i =1 del intervalo) como de su s central , x t n 1,1 / 2 .1 aproximadamente aqu] n error estndar s/ n . La media es la medida de tendencia central ms utilizada y de ms fcil

Estimacin por intervalo

tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL


La distribucin tLas Student es una distribucin simtrica alrededor de 0 y es el valor ms representativo de medidas de tendencia central informan acerca de cul de aspecto
1- parecido al de una de una determinada variable o, dicho de forma equivalente, estos estimadores indican distribucin normal estandarizada, aunque menos apuntada en el

a distribucin simtrica alrededor de 0 y de aspecto centro y con ms probabilidad en los extremos (Figura 5.1). Los grados deLas medidas de tendencia alrededor de qu valor se agrupan los datos observados. libertad de

al estandarizada, aunque menos apuntada en el una distribucin t de Student determinansirven tanto para resumir loslos grados de central de la muestra su dispersin: al aumentar resultados observados como para /2 /2 extremos (Figura 5.1). Los grados de libertad de libertad, disminuyerealizar inferencias acerca de lost parmetros poblacionales correspondientes. A la variabilidad y la distribucin de Student se aproxima a una 0 tn-1, tn-1,1-/2 nan su dispersin: al aumentar los/2grados de distribucin normal estandarizada.describen los principales estimadores n, mayor ser central de una tamao muestral la tendencia continuacin se Cuanto menor sea el de x s la distribucint de Student se aproxima a una n t de variable. Figura 5.2 uanto menor sea el tamao muestral mayor ser n, Figura 5.2 Distribucin Student otorgar una mayo muestral del estadstico (x )/(s/ n ). 1.2.1 Media aritmtica t de el tamao muestralLa mediade la estimacinestimacin ,precisacentral del intervalo)cada uno de los es grande,s facilitar un puntual que depende tanto aritmtica, denotada por x (valor de se define como la suma de como de su error DIDAS DE TENDENCIA CENTRAL estndar (x )/(s/ n .) 1.2 MEDIDAS DE TENDENCIA CENTRAL distribucin de dicho estadstico ser aproximadamente normal.observaciones realizadas. Si denotamos En la Tabla valores muestrales dividida por el por datos muestrales y, en5 del Los lmites del intervalo estn determinadosnmero de consecuencia, el intervalo didasun estimacincentral informan acerca de cul es el valor ms representativo ar de tendenciaconfianzade precisa variar en funcin de de presentan los percentiles de la muestra seleccionada. El principio fundamental de la estimacin ApndiceLas medidas deel tamao muestraldistribucint de Studentes el valor ms representativo 1, ..., n, se la y por xi acerca observado para el sujeto por n tendencia central informan el valorde cul para distintos i-simo, i = por intervalo radica en que, de todas las posibles muestras del mismo tamao de la poblacin de determinada variable o, dicho dela Tabla 5 del forma aproximadamente normal. 100(1 )%equivalente, estos estimadores indican referencia, el En de grados dede una determinada variable o, dicho deresultantes incluir elestos estimadores indican aunque libertad.la media vendra los intervalos forma equivalente, parmetro poblacional. As, dada por no es posible saber si efectivamente un intervalo concreto incluye o no el parmetro desconocido, se or de qu valor se agrupan los datos observados. Las medidas de tendencia de la distribucint de Student paradel 100(1 )% en que tendr En confianza distintos disponible l estudio EURAMIC. unacada una de las agrupan los datos elnnico intervalo medidas deest entre aquellos que alrededor de qu valor se observados. Las tendencia contienen dicho parmetro. En otras palabras,1 nivel dexconfianza de un intervalo hace referencia a el [Figura 5.1 aproximadamente aqu] + x 2 + ... + x n 1 de la muestra sirven tanto para resumir los resultados observadosi como para . x = x = la frecuencia con la cual el mtodo producenintervalos certeros y no a la probabilidad de que el n mo i= central de la muestra sirven tanto para resumir1 los resultados observados como para intervalo obtenido en una muestra concreta incluya el parmetro poblacional. inferencias acerca de los parmetros poblacionales correspondientes. A del estudio EURAMIC. una realizar inferencias es los controlestendenciaque el percentil En cada de ms .1 aproximadamente obtenidas Tabla 5delade los parmetros poblacionales correspondientes.de las aqu] la a partir del medida Ejemplo Ejemplo 5.7 acercaFigura 5.3dese presentancentral ms utilizadaen mediaA fcil s s 5.6 De La media la Apndicese obtiene los IC al 95% 97,5 la una poblacional del y En para = se 2,262 , acin x describen los principales estimadores de la tendencia central de una 10 10 muestras, el IC al 95% se calcul como colesterol HDL en 100 muestras aleatorias de tamaotendenciaobtenidas auna de los n = 10 central de partir continuacin Student con 2, 5,principales estimadores de la respectivamente distribucin tinterpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su de se describen los 10 y 30 grados de libertad es controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calcul como . Apndiceyse t variable.tpicas muestrales.t una = 2,228 s t obtiene que t 97,5 en s medias desviaciones el percentil2,571, 10;0,975 est muy influenciada sPor tratarse de y 30;0,975 = 2,042.por los valores extremos y, en este 2;0,975 = 4,303, 5;0,975 = principal limitacin es t x que;0,975 = x 2,262 , 9 edia aritmtica 10 10 5, 10 y 30 grados de libertad es respectivamente distribuciones simtricas tal ser un fiel reflejo coincide con el correspondiente = 1,20 y s = 0,30, de no tra se obtuvo x 1.2.1 Media aritmtica 0, el percentil 2,5 de la tendencia central de la distribucin. caso, puede en donde , s define como la suma medias uno de los a aritmtica, denotada por x y seson las correspondientesde cada y desviaciones tpicas muestrales. As, por ejemplo, 0;0,975 = 2,228 y t30;0,975 = 2,042. s son las percentildondecon y Por opuesto; de decir,se define-4,303,la tal forma cada testimacin 97,5 x signo tratarse por a media poblacional de colesterol muestra correspondientes medias y desviacionesque launo de los puntual de la en la primera HDL se obtuvo , 1,20 y s 0,30, t suma -2,571, 10;0,025 La media aritmtica, denotadaes x = t2;0,025 ==como de5;0,025 =de tpicas muestrales. Ejemplo muestrales 2,5 coincide el nmero de observaciones y en los sucesivos ejemplos sobre estimadores muestrales, se media poblacional 1.4 En este realizadas. Si denotamos al el percentil dividida port30;0,025ejemplo, de colesterol HDL result ser 1,20 mmol/l y su IC= 0,30, 1,20 2,2620,30/ con el= -2,042. Por primera muestra se obtuvo x = 1,20 y t de 95% de tal correspondiente central de la distribucin = -2,228 As, por y10 = (0,99; 1,41);en es por elpartir de esta observacionesafirmarse con una confianza del 95% s la tanto, el 95%de muestra puede realizadas. Si denotamos es valores (0,99; 1,41); decir, a nmero % 1,20 2,2620,30/ muestrales dividida utilizarn los valores del colesterol i = 1, ..., n, que el tamao muestral = por xila t valor = -2,571, t para el sujetoHDL se encuentra entre 0,99 ylos 10 primeros sujetos del y -4,303, media poblacional del colesterol i-simo, HDL obtenidos en 1,41 mmol/l. observado o; es decir, t2;0,025 5;0,025 10;0,025 Studentncontamao la estimacin de libertad la media poblacional de colesterol HDL por forma 5, 1095% que la puntual de est comprendido entre 4,303, el 2, que y 30 grados afirmarse con una confianza del muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, estudio European Study on Antioxidants, Myocardial Infarction and Cancer of Pastor-Barriuso R. 65 a tanto, eldada por vendra 95% central de la distribucin de t 2,571,media vendra1,20 mmol/l y su IC al 95% puede observarse que la= (0,99; 1,41); es 0,99 y yser2,042, respectivamente. As, 1,20 2,2620,30/ 10 2,228 1,41 mmol/l. dada por la L se encuentra entre result the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado x1 x t + s de libertaddispersin de1landistribucin 2 de... + x n disminuye al aumentar los grados de est comprendido entre +4,303, Student

Inferencia estadstica

En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional = 1,09 mmol/l, puede comprobarse empricamente el significado del nivel de confianza al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional, mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el parmetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que se encuentre dentro de un intervalo concreto. La estimacin por intervalo facilita un rango de valores verosmiles o compatibles con la media poblacional , cuya amplitud depende de: y El nivel de confianza 100(1 )%. Cuanto mayor sea la confianza deseada para un intervalo, mayor ser la amplitud del mismo.

0,6

0,8

1,2

1,4

1,6
Figura 5.3

Nivel medio de colesterol HDL (mmol/l)

Figura 5.3 Estimaciones puntuales (crculos) e intervalos de confianza al 95% (lneas horizontales) para la media poblacional del colesterol HDL en 100 muestras aleatorias de tamao n = 10 obtenidas a partir de los controles del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde al verdadero nivel medio = 1,09 mmol/l de colesterol HDL.
66 Pastor-Barriuso R.

estimacin, mayor ser la amplitud del que este intervalo la amplitudContraste de hiptesis de un mmol/l con una confianza del 99%. Notar intervalo. Es decir,es ms amplio que el medidas de tendencia central informan acerca de cul es delvalor msanterior, el IC al 99% ( = 0,01) Ejemplo 5.8 En la primera muestra el ejemplo representativo s 0,30 x t 9 ,995 = 1,20 3,250 = (0,89; 1,51); intervalo de intervalo al 95% (0,99; 1,41). correspondienteconfianza;0aporta una medida de la precisin de la estimacin. 10 na determinada variable o, dicho de En la primera muestra del ejemplo10indican el IC al 99% ( = 0,01) se forma equivalente, estos estimadores se calculara como Ejemplo 5.8 anterior, calculara como Ejemplo media poblacional del colesterol HDL n encuentra entre 0,89 1,51 dedor de qu valor se agrupan los5.9 En observados. Las medidas tamao se= 100 de los controlesydel esto es, la datos una muestra aleatoria de de ,tendencia El error estndar de la estimacin SE( x ) = s/ 0n . Cuanto mayor sea el error de la 30 s x t 9;0,995 = 1,20 3,250 = (0,89; 1,51); 10 EURAMIC se obtuvo resultadosyobservados 10 ral de la muestra sirven mmol/l con una confianza del 99%. = 0,31,que este intervalo al 95% amplio que el tanto para resumir los x = 1,09 s Notar resultando un IC es ms para la media como para estimacin, mayor ser la amplitud del intervalo. Es decir, la amplitud de un esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l poblacional de izar inferencias acerca deuna la media poblacional al 95% (0,99;intervalo es ms amplio que el correspondiente correspondiente poblacionales correspondientes. A esto es, confianza del 99%. Notarcolesterol 1,41). se encuentra entre 0,89 y 1,51 con los parmetros intervalo del que este de la precisin de la estimacin. intervalo de confianza aporta una medida HDL intervalo al 95% (0,99; 1,41). tinuacin se describen los principales confianza delde s tendencia central 31 una es ms amplio que el la mmol/l con una estimadores 99%. Notar que este0, de intervalo 1,0 x ) = s/ tlaestimacin SE(9 1,984 n =Cuanto mayor sea el el error la la x 99;0, 975 El error estndar muestra aleatoria . = (1,03; 1,15). y El error estndar dede estimacin de tamao n 10100 de los controles del de de Ejemplo 5.9 En una la = Cuanto mayor sea error 100 able. estimacin, mayor ser la amplitud del intervalo. Es decir, la amplitud de un intervalo de correspondiente intervalo al 95% (0,99; 1,41). confianza aporta una medida de la s = 0,31,intervalo. Es decir, la amplitud la media estimacin, mayor x = 1,09 y precisin de la estimacin. EURAMIC se obtuvo ser la amplitud del resultando un IC al 95% para de un As, a partir de esta muestra de mayor tamao, se concluye que la media 1 Media aritmtica intervalo El error estndar de lamuestra aleatoria de tamao n = 100 dede la sea el error de la . precisin los controles del Ejemplo 5.9 deEn una estimacin SE( x ) = s/denla Cuanto mayor estimacin.EURAMIC poblacional de confianza aporta una medida poblacional1,09 colesterol la suma de cadaIC al de los y la media poblacional de del y s = 0,31,HDL se encuentra entre 1,03 1,15 mmol/l con un se obtuvo = media aritmtica, denotada por x , se define como resultando un uno 95% para estimacin, mayor ser la amplitud del intervalo. Es decir, la amplitud de un s nivel nmero det observaciones1,intervalo 0,31 n = 100 1,15). ores muestrales dividida Ejemplo confianza del 95%. Esterealizadas.es mucho ms de los controles del por elde 5.9 En una0,muestra aleatoria 1,984Si denotamos preciso que los x 99; 975 = 09 de tamao = (1,03; 10 100 intervalo de confianza aporta una medida de la precisin de la estimacin. intervalos representados = la Figura i-simo, i = 1, un IC EURAMIC se obtuvo x en1,09 y s = 5.3 para muestras n, al 95% = 10. n el tamao muestral y por xi el valor observado para el sujeto0,31, resultando...,de tamao n para la media As, a partir de esta muestra de mayor tamao, se concluye que la media poblacional del As, a partir de colesterol HDL esta muestra de mayor tamao, se concluye que la media Ejemplo 5.9 En se encuentra entre 1,03 y 1,15 mmol/l con un nivel de confianza del 95%. una media vendra dada por poblacional de muestra aleatoria de tamao n = 100 de los controles del Este intervalo es mucho ms preciso que los intervalos representados en la Figura 5.3 para Como se ver ms adelante, el clculo de los intervalos de confianza es similar para poblacional tamao n muestras de del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un x= EURAMIC se obtuvo = 10.1,09 y s = 0,31, resultando un IC al 95% para la media x x x99;+,975 + x = 1,09 de confianza al 100(1 - )% 1 n todos los parmetros. 1 + general, elnintervalo 1,984 0,31 = (1,03; 1,15). para un En t 2 0 ... s . x x = nivel = confianza del 95%. clculo de los intervalos de preciso que similar para todos 10 100 Como seden dei adelante,nel Este intervalo es mucho msconfianza es los ver= i poblacional1ms los determinado parmetro poblacional se construye como 100(1 )% para un determinado parmetros. En general, el intervalo de confianza al intervalos representados en la Figura parmetro poblacional se construye como 5.3 para muestras de tamao n = 10. As, a partir de esta muestra de mayor tamao,31 La media es la medida de tendencia central ms utilizada y de ms fcil se concluye que la media s 0, x t 99;0,975 estimador09 1,984 x SE, = 1, puntual = (1,03; 1,15). 1/2 100 se encuentra 10 1,03 y 1,15 mmol/l con un entre Como al centro deadelante, el de los de los la muestra. confianza es similar para se ver ms gravedad clculo rpretacin. Correspondepoblacional del colesterol HDL datos deintervalos deSu donde x1/2 denota el percentil 1 /2 de la distribucin muestral del estimador. 13 a muy de En muestra los valores extremos y, al ms todos As,parmetros.esta general, de Este intervalo es mucho 100(1 - media un losnivel de influenciada 95%. mayor tamao, se concluye preciso para cipal limitacin es que est partirconfianza delporel intervalo de confianzaen esteque la)% que los 5.4 CONTRASTE DE HIPTESIS intervalos tendencia central poblacional del colesterol HDLdeFigura 5.3 para encuentra entre determinado de la representados en la construye como 1,03 y de mmol/l = 10. o, puede no ser un fiel reflejoparmetro poblacional sese la distribucin.muestras1,15tamao ncon un En ocasiones, el inters de la investigacin se centra no tanto en estimar un parmetro desconocido, sino en dilucidar si dicho parmetro es compatiblemucho ms preciso que los nivel de confianza del 95%. Este intervalo es con un valor predeterminado. A partir de estimador puntual lgico,SE, Como los sucesivos ejemplos clculo de los intervalos de confianza es similar para conocimientos previos o mediante un razonamiento x1-/2muestrales,elaborar hiptesis o conjeturas Ejemplo 1.4 En este y en se ver ms adelante, elsobre estimadores se pueden se sobre intervalos representados en la Figura 5.3 para muestras de tamao nla hiptesis de que la el fenmeno o parmetro objeto de estudio (por ejemplo, establecer = 10. todos los parmetros. En general, el intervalo deLa validez de 100(1 - )% poblacionales media dedel colesterol HDL obtenidos en los 10 primeros sujetosestas hiptesispara un 13 ha utilizarn los valores una poblacin toma un valor determinado). confianza al del de ser contrastada estadsticamente a partir de la informacin disponible en la muestra. Las tcnicas que permiten evaluar el grado de compatibilidad de los datos of determinado parmetro poblacional se construye and Cancer muestrales con una hiptesis Como se on Antioxidants, Myocardial Infarction como estudio European Study ver ms adelante, el clculo de los intervalos de confianza es similar para predeterminada se conocen genricamente con el nombre de tests (pruebas o contrastes) de hiptesis. todos los parmetros. En general, el intervalo de controles realizado al the Breast (EURAMIC), un estudio multicntrico de casos y confianzaSE,100(1 - )% para un estimador puntual x
5.4.1 Formulacin de hiptesis entre 1991 y determinado parmetro poblacional se para evaluar el efecto de los 1992 en ocho pases Europeos e Israel construye como Los tests de hiptesis parten del planteamiento de una hiptesis nula, denotada por H013 , que representa el valor preestablecido del parmetro x poblacional. Esta hiptesis nula se aceptar si estimador puntual 1-/2 SE, 5 los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si se cuenta con pruebas suficientes para contradecir la hiptesis nula, sta se rechazar en favor 13 de una hiptesis alternativa, denotada por H1, que corresponde generalmente a la negacin de la
Pastor-Barriuso R.
1-/2

El error estndar de la estimacin SE( x ) = s/ n . Cuanto mayor sea el error de la esto es, la CENTRAL MEDIDAS DE TENDENCIA media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 se calculara como

67

Inferencia estadstica

tratamiento; es decir, la presin arterial media eficacia de un tratada Ejemplo 5.10 En un estudio para determinar lade la poblacin frmacocon el frmaco T es igual compara lade la poblacin no tratada P. La hiptesistratados antihipertensivo, se a la media presin arterial de un grupo de pacientes

alternativafrmacopunto, de un grupo de presiones arteriales mediasla hiptesis hiptesis nula. En estepor el la cabe incidir las pacientes tratados con placebo.ambas nula no con dicho sera, con contrario, que en que el trmino aceptar de La implica que dicha hiptesis sea efectivamente cierta, sino que se carece de evidencia suficiente poblaciones son distintas. msel contraste de hiptesis quedara formulado como para rechazarla. Como se ver As,este caso, eslas hiptesis de no efecto del ser corroboradas nunca pueden hiptesis nula ms natural, en adelante, la completamente, quedando siempre un margen o probabilidad de error. tratamiento; es decir, la presin arterialT = Pde la poblacin tratada con el H0: media , Ejemplo 5.10 En un estudio para determinar la eficacia de un frmaco antihipertensivo, se compara es presin la media de lagrupo de .no tratada P. Lacon dicho frmaco con la poblacin frmaco T la igual a arterial de unH1: T pacientes tratados hiptesis P de un grupo de pacientes tratados con placebo. La hiptesis nula ms natural, en este caso, es la hiptesis de no contrario, tratamiento; es decir, la presin de ambas alternativa sera, por elefecto del que las presiones arteriales mediasarterial media de la La hiptesis nula se aceptar a noT es igual aresultadosde la poblacin no tratada P. La poblacin tratada con el frmaco ser que los la media del ensayo clnico hiptesis alternativa sera, por contraste que las presiones arteriales medias de poblaciones son distintas. As, el contrario, de hiptesis quedara formulado como ambas muestren una gran diferencia entre los grupos hiptesis quedara formuladocon poblaciones son distintas. As, el contraste de que resulte poco compatible como H0 : una ausencia de efecto del tratamiento. T = P , H1 : T P . Supongamos hipotticamente que el grupo control del estudio EURAMIC La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico muestren una sentidos. En algunas circunstancias, donderesulte poco si la de la hiptesis nuladel de efecto gran diferencia entre los grupos que las desviaciones media con una ausencia constituye lanula se aceptar a no Para contrastar compatible poblacional en La hiptesis poblacin a estudio. ser que los resultados del ensayo clnico del tratamiento. algn sentido carecen de importancia o son simplemente inconcebibles, es posible colesteroluna hipotticamente entreel grupo controlresulte poco compatible1constituye la Supongamos gran diferencia determinado valor, del estudio EURAMIC muestren HDL es igual a unque los grupos que pongamos por ejemplo con poblacin a estudio. Para contrastar si la media poblacional del colesterol HDL es igual formular un contraste unilateral, aceptando como evidencia contra H0 nicamente las mmol/l, el test de valor, pongamos por ejemplo a un determinado hiptesis se formulara una ausencia de efecto del tratamiento. como1 mmol/l, el test de hiptesis se formulara como diferencias en un sentido. Supongamos hipotticamente que el H0 : = 1, grupo control del estudio EURAMIC H1 : 1. constituye la poblacin a estudio.eficacia del frmaco antihipertensivo, sedel Ejemplo 5.11 En el estudio de la Para contrastar si la media poblacional formul La eleccin entre ambas hiptesis depender de los resultados obtenidos en una muestra colesterol HDL esestudio EURAMIC. P. En este caso, sepor ejemplo 1 de los controles del igual a un determinado valor, pongamos admite que la una hiptesis alternativa bilateral H1: T La eleccin entre ambas hiptesis depender de los resultados obtenidos en una evidencia testanteriores, hiptesis nula puedehiptesis tanto por un efecto nocivo En mmol/l, elen contra de la se se formulara comoprovenir alternativa bilateral; es decir, se los ejemplos de hiptesis ha planteado una muestra de los controles del estudio EURAMIC. aceptan como evidencia contra la hiptesis nula las diferencias en ambos sentidos. En algunas circunstancias, donde las P) como por la eficacia del mismo (en < P). Si en fases del tratamiento ( T > desviaciones de0:la = 1, H hiptesis nula T algn sentido carecen de importancia o son anteriores, se ha planteado una hiptesis formular un contrastees En los ejemplos simplemente inconcebibles, es posible alternativa bilateral; unilateral, aceptando como evidencia contra H0 nicamentelas diferencias en un sentido. previas del ensayo clnico se ha comprobado1. ausencia de efectos secundarios H : la
1

decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos del tratamiento, Enposibilidadde la eficacia del frmaco media de los tratados sea Ejemplo 5.11 la el estudio de que la presin arterial antihipertensivo, se formul una La eleccin entre ambas hiptesis depender de los resultados obtenidos en evidencia en hiptesis alternativa bilateral H1: T P. En este caso, se admite que la una superior a la media de los nopuede provenirP) carecera de sentido y slo podra contra de hiptesis nula tratados (T > tanto por un efecto nocivo del tratamiento 15 muestra)de los controles del estudio EURAMIC. ). Si en fases previas del ensayo clnico (T > P como por la eficacia del mismo (T < P explicarse por variabilidad aleatoria. En tal caso, cabra plantearse el siguiente se ha comprobado la ausencia de efectos secundarios del tratamiento, la posibilidad de que la presin arterial media de los tratados sea superior a la media de los no tratados En contraste de hiptesis unilateral los ejemplos anteriores, se ha planteado una hiptesis alternativa bilateral; es (T > P) carecera de sentido y slo podra explicarse por variabilidad aleatoria. En tal caso, cabra plantearse el siguiente contraste de hiptesis unilateral decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos H0 : T = P , H1 : T < P , 15 donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento antihipertensivo sea eficaz. donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento
68

antihipertensivo Pastor-Barriuso R.

sea eficaz.

Los contrates bilaterales son ms conservadores que sus correspondientes contrates

1.2 MEDIDAS DE TENDENCIA CENTRAL

Contraste de hiptesis

muestra o, ms concretamente, de la compatibilidad de la media muestral x ,condefine como la suma de La media aritmtica, denotada por se el valor variable. predeterminado 0Media aritmtica muestral es un estimador sujeto a error, el objetivo es 1.2.1 . Como la media valores muestrales dividida por el nmero para la determinar si CENTRAL EDIDAS DE TENDENCIAla variabilidad inherente al muestreo constituye una explicacin probablede observaciones realiz diferencia observada entre 1.2.1 Media aritmticaseel valorcomo la suma de cada uno de los la media muestral La media aritmtica, denotada por x ,y define predeterminado 0 de la media por n el tamao muestral y por x nula, una media poblacional. Para ello, se calcula la probabilidad de que bajo la hiptesisi el valor observado para el sujeto edidas de tendencia centraloinforman acerca de divididael valor nmero de observaciones realizadas. suma de cada uno de los rechaza inferior valores muestralesmediaeshiptesis nula o, forma.,equivalente, se afirma denotamos igual que se La 0 que el valor observadopor x Esta probabilidad Si que por el denotada de muestral difiera tanto o ms de cullaaritmtica,ms representativo define como la se conoce se la media el grado de por como valor P del contraste de hiptesis y determinavendra dada compatibilidad de los datos determinada variableresultadosla el tamao muestral yeste estimadorespor el contrario, siobservaciones a sern..., n, Si denotam los o, dicho n hiptesis nula. muestrales divididaobservado para el P es i-simo, i = 1, por son estadsticamente significativos; es indican los datos muestrales valores Si por valor P muestrales con de forma equivalente, estos xi el valoren caso nmero de sujeto superior realizadas. elevado, compatibles con el valor 0 de la media poblacional, careciendo as de evidencia para rechazar 1 n dor de qu valor se agrupannula. Por vendra dadaLas medidas los tendencia el valor observado resultar + x 2 + ... + x n i. = 1, . los datos el nula, concluyendo que es resultados del test muestral para elx1 poco media observados. por se acepta la hiptesis contrario, si el valor P de pequeo,i la media no x = x i = sujeto i-simo, son por n el tamao muestral y por x la hiptesis n i =1 n compatible con el valor preestablecido , concluyendo entonces que los datos aportan suficiente l de la muestra sirven tanto pararechazar los resultados 0observados como para menor sea el valor P, menos resumir dicha hiptesis. En general, cuanto estadsticamente significativos. vendra dada por la media evidencia para x + x 2 + ... + x n 1 n x nula. x i = 1 compatibles sern los datos con la hiptesis = La media es la medida de.tendencia central ms utilizada y de n r inferencias acerca de losconocer el valor P del contraste es n i =1tanto necesario calcular la probabilidad Para parmetros poblacionales correspondientes. A por x + x 2 + preestablecido 1 n La decisin de rechazar la hiptesis nula se basa en la definicin de un1 umbral ... + x n x Corresponde al centro de . interpretacin. =valor Pi es inferior o igual gravedad de los datos x = o nivel principales estimadores significacin , tradicionalmente = 0,05. Si eluna = que uacin se describen losde las medias de todas lasde la tendencia centraltamao in1difieran tanto o ms de se n de que posibles muestras de de n La nula o, de forma equivalente, se afirma que los utilizada son ms fcil 0 rechaza la hiptesis media es la medida de tendencia central msresultadosy de estadsticamente principal se acepta es que est nula, concluyendo significativos; en caso contrario, si P es superior a limitacin la hiptesis muy influenciada por los valores e le. que el valor observado de x , asumiendola medida de tendencia central 0msde la muestra. Su fcil interpretacin. Correspondees centromedia poblacionallos datos utilizada y de ms La estadsticamente significativos. de es . Bajo media al que la de gravedad que los resultados del test no son caso, puede no ser un fiel reflejo de la tendencia central de la dist Media aritmtica Para conocer el valor P 0interpretacin. Corresponde al centro alrededor de dede tal en de la muestra. Su principal limitacinmedias muestrales senecesario calcular la probabilidad de que , las es que es por tanto distribuirn de valores extremos y, hiptesis nula H0: = del contraste est muy influenciada por los gravedad 0, los datos este las medias de todas las posibles muestras de tamao n difieran tanto o ms de 0 que el valor observado de x ,,asumiendo principal limitacin laque est 1.4central de en los sucesivos 0, las dia aritmtica, denotada por caso,desviaciones estandarizadas deesEjemplo Bajo la este y la distribucin. ejemplos sobre estim define comola fiel reflejo uno de los En hiptesis nula los valores extremos y, en e ser la suma de cada tendencia forma que sussepuede noque unmedia poblacional es 0. muy influenciada porH0: = medias muestrales se distribuirn alrededor de 0, de tal forma que sus desviaciones estandarizadas s muestrales dividida por el nmero de observaciones realizadas. fieldenotamosvalores del colesterol HDL obtenidos en los 1 Si reflejo de caso, puede no ser un utilizarn los la tendencia central de la distribucin. x sucesivos ejemplos sobre estimadores muestrales, se Ejemplo 1.4 En este y en los 0 t= s estudio European Study on Antioxidants, Myocardial Infar el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n utilizarn los valores del colesterol HDLlos sucesivos ejemplos sobre estimadores muestra Ejemplo 1.4 En este y en obtenidos en los 10 primeros sujetos del the Breast (EURAMIC), un estudio multicntrico de casos ia vendra dada por seguirn aproximadamente una distribucin t de Student con n 1 grados de libertad (Apartado estudio European Studyestadstico tdelpartir n - los datos de libertad los 10 primeros sujet on t de Student con de 1 grados observados en la Antioxidants, Myocardial Infarction en utilizarn los valores a colesterol HDL obtenidosand Cancer of seguirn aproximadamente una de este 5.3.1). Una vez calculado el valor distribucin entre 1991 y 1992 en ocho pases Europeos e Israel para eva muestra, el valor P del1contraste vendr determinado por el rea bajo la curva de la distribucin x + x 2 + ... + x n 1 n the Breastcalculado elEuropean Study on Antioxidants, de los datos Infarction and Cance (EURAMIC), un de este estadstico t a partir Myocardial realizado estudio valor estudio multicntrico de casos y controles . x = 5.3.1). tn1 (Apartado x i valoresvez o ms distantes de 0 que el valor observado de t (esto es, para aquellos = Una tanto n i =1 n desviaciones de 0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la entre 1991 y valor en ocho pases Europeos estudio multicntrico de casos y los efecto the observados en la muestra, el 1992 Breast (EURAMIC), un e Israel para evaluar elbajo de controles real Figura 5.4 se representa grficamente P del contraste vendrpara este contraste de hiptesis. el clculo del valor P determinado por el rea media es la medida de tendencia central ms utilizada y de ms fcil entre 1991 y valores ocho pases Europeos e 0 que el la curva de la distribucin tn-1 para aquellos 1992 en tanto o ms distantes de Israel para evaluar el efecto de 5 Pastor-Barriuso R. 69 etacin. Corresponde al centro de gravedad de los datos de la muestra. Su valor observado de t (esto es, desviaciones de 0 mayores o iguales que la observada en pal limitacin es que est muy influenciada por los valores extremos y, en este

Las medidas de tendencia central informan acerca de cul es el va Los contrastes bilaterales son ms conservadores que sus correspondientes contrastes 1.2 MEDIDAS DE TENDENCIA CENTRAL unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la de una determinada variable o, dicho de forma equivalente, estos mayor parte de las aplicaciones prcticas se utilizan hiptesis CENTRAL bilaterales, ya que alternativas 1.2 MEDIDAS DE TENDENCIA de cul es el valor ms representativo Las medidas de tendencia central informan acerca resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. As, alrededor de qu valor se agrupan los datos observados. Las medi todos los contrastes de hiptesis planteados a lo largo de este texto estn basados en hiptesis de una determinada variablede tendenciaforma equivalente, estos de cul es el indican represen Las medidas o, dicho de central informan acerca estimadores valor ms alternativas bilaterales. central de la muestra sirven tanto para resumir los resultados obse alrededor de qu valordeterminada los datos o, dicho de forma equivalente, estos estimadores indi de una se agrupan variable observados. Las medidas de tendencia realizar inferencias 5.4.2 Contraste estadstico para la media de una poblacinacerca de los parmetros poblacionales corres central de la muestra sirven qu valor se agrupan los datos observados. Las medidas de tendencia alrededor de tanto para resumir los resultados observados como para En este apartado se discuten los conceptos continuacin se describen los principales estimadores de la tenden bsicos para la realizacin e interpretacin de un contraste de hiptesisinferencias acerca media de una poblacin. Esto es, correspondientes. A bilateral sobre la de los parmetros poblacionales selos resultados observados como pa realizar central de la muestra sirven tanto para resumir pretende contrastar la hiptesis nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0, donde 0 es un variable. valor predeterminado de la realizarpoblacional.acerca de los parmetros tendencia as como la continuacin semedia inferencias El contraste de otros parmetros, central de una describen los principales estimadores de la poblacionales correspondientes. A comparacin de parmetros entre distintas poblaciones, se presentar en temas posteriores. 1.2.1 Media aritmtica variable. continuacin se describen los principales estimadores de la tendencia La eleccin entre las hiptesis nula y alternativa depender de los resultados obtenidos en la central de u

Inferencia estadstica

Distribuci n de t =

x 0 bajo H 0 : = 0 s n

tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cul es el valor ms representativo P/2 P/2
-t
0

de una determinada variable o, dicho de forma equivalente, estos estimadores indican


t
Figura 5.4

alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia (valor observado) MEDIDAS DE TENDENCIA CENTRAL central de la muestra sirven tanto para el contraste bilateral de la observados como para Figura 5.4 Valor P para resumir los resultados media de una poblacin.

medidas de tendencia central informan acerca de cul es el valor ms representativo H correspondientes. A realizar inferencias acerca de los parmetros poblacionales 0: = 1, Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del na determinada variable o, dicho de forma equivalente, estos estimadores indican colesterol HDL en los controles de H : 1. es igual a 1 mmol/l mediante el test de EURAMIC continuacin se describen los principales estimadores del la 1tendencia central de una hiptesis bilateral edor de qu valor se agrupan los datos observados. Las medidas de tendencia variable. Para ello, se obtiene una muestra de H0 : = 1,= 10 donde la media y desviacin tamao n al de la muestra sirven tanto para resumir los resultados observados como para H1 : 1. 1.2.1 Media aritmtica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula tpica zar inferencias acercaPara ello, se obtiene una muestracorrespondientes. Adonde la media y desviacin tpica de los parmetros poblacionales de tamao n = 10 1,20 y s mmol/l. A La media aritmtica, resultaronpor del=contraste = 0,30la suma de cada uno estos datos se calcula el estadstico denotada ser el estadstico x , se define como de tamao partir de de los Para ello, se estimadores de la n = 10 donde nuacin se describen del contraste obtiene una muestra tendencia central de una la media y desviacin los principales valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos y s 0,301,20 1 A partir de estos datos se calcula mmol/l. tpica resultaron ser x = 1,20 x = 0 ble. t= = 2,11, = s 0,30 por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n el estadstico del contraste 10 Media aritmtica la media vendra dada por que determina la diferencia estandarizada (dividida por el error estndar) entre la media 1 que por y el valor como estandariza 1,20 uno por el muestral x , se definepredeterminado .(dividida de 2,11,muestral de este estadstico bajo edia aritmtica, denotadadetermina la diferencia = x 0de0cadadistribucinerror estndar) entre la = los t la suma = La s seguir aproximadamente una t de Student con 9 grados de la hiptesis 1 n H0: 1= 1 2 + ... + x n 0,30 nula x +x n 10 media muestral de observacionessi la .hiptesis denotamos es muestrales dividida por el x =n1x i y=el1valor predeterminado 0. nula fuera ciertamuestral de la verdadera nmero 10 = 9). n libertad (n =x As, realizadas. Si La distribucin (esto es, si este i =1 media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos el tamao muestral y porunael valorla diferencia estandariza= i-simo, ipor1, ..., n, estndar) entre la estadstico bajo observado para el sujeto(dividida mmol/l (mayor o igual t de con determina de colesterol nula H0: o igual a 1,20 = el error que xi media la hiptesis superior 1 seguir aproximadamente una desviacin que La media es la medida de tendenciala derecha) outilizada o de ms fcil mmol/l (mayor o igual desviacin la observada por central ms inferior y igual a 0,80 edia vendra dada porque la observadaxporel valor predeterminado- . La distribucin muestral de este Student con 9 grados la izquierda) sera= 10 10 = 9). As, si la hiptesis nula fuera media muestral y de libertad (n - 1 interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su cierta (esto es, six + x + ... + media poblacional fuera 1 mmol/l), la probabilidad la verdadera x 1 n estadstico bajo la1 hiptesis nula H0: = 1 seguir aproximadamente una t de 2 principal limitacin es que est muy influenciada porn los valores extremos y, en este . x = xi = n n 70 Pastor-Barriuso R. i =1una muestra de 10 sujetos con una media de colesterol superior o igual de obtener caso, puede no ser unStudent con degrados de libertad (n de1la distribucin.As, si la hiptesis nula fuera fiel reflejo 9 la tendencia central - = 10 - 1 = 9). mmol/l a media es la medida a 1,20 (esto es, (mayor o igual desviacin que la observada por la derecha) o de tendencia centralverdadera mediade ms fcil fuera 1 mmol/l), la probabilidad cierta si la ms utilizada y poblacional

a 1,20 mmol/l (mayor o igual desviacin que la observada por la derecha) o inferior o igual a 0,80 mmol/l (mayor o igual desviacin que la observada por la izquierda) sera P = P( x 1,20 | H0 ) + P( x 0,80 | H0 )
x 0 1,20 0 x 0 0,80 0 = P H 0 + P H0 s s s s n n n n
Contraste de hiptesis

P(t9 2,11) + P(t9 2,11) = 2P(t9 2,11) = 0,064,

que corresponde al rea bajo la curva de la distribucin t9 para valores superiores a 2,11 (valor observado del estadstico) o inferiores a 2,11. Notar que el valor exacto de P se que obtenido por al rea bajo la curva de la distribucin la para valores superiores puede ha corresponde ordenador. No obstante, utilizando t9 Tabla 5 del Apndice, S DE TENDENCIAcomprobarse que el estadstico t = 2,11 est comprendido entre los percentiles t9;0,95 = CENTRAL a 2,11 y t estadstico) o la desigualdad 0,025 < que el valor 1,833 (valor observado del cual se deduceinferiores a -2,11. NotarP(t9 2,11) < 0,05, que 9;0,975 = 2,262, de lo equivale a un valor P bilateral comprendido entre 0,05 e tendencia central informan acerca de cul es el valor ms representativo < P < 0,10. exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del Si se adopta el nivel de significacin = 0,05 como regla de decisin, los resultados de inada variable o, dicho demuestra no aportan suficiente evidencia para rechazar la hiptesis nula (P = 0,064 > 1.2 MEDIDAS DE TENDENCIA esta forma equivalente, estos estimadores indican CENTRAL 19 0,05), concluyendo que la verdadera media poblacional del colesterol HDL no resulta u valor se agrupan los datos observados. Las medidas de tendencia significativamente distinta de 1 mmol/l. Las medidas de tendencia central informan acerca de cul es el valor ms representativ

muestra sirven tanto para resumir los resultados observados como para resultados de un contraste de hiptesis, El valor P determinade significacin estadstica deo, dicho de forma equivalente, estos estimadores indican la una determinada variable los y depende tanto de la magnitud de la diferencia entre el verdadero valor del parmetro y su ncias acerca de valor predeterminado bajo H ,correspondientes. A los parmetros poblacionales como del tamao muestral. As, una pequea diferencia puede 0 alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia resultar estadsticamente significativa si el tamao muestral es suficientemente grande y, por el e describen loscontrario, una granque se plantea el mismo contraste significacin estadsticanula H0: principales estimadores de la tendencia central de la bilateral de la hiptesis si la muestra es Supongamos diferencia de la muestra sirven una para resumir los resultados observados como para central puede no alcanzar tanto insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud de la diferencia o de una muestra de de estudio. 100 con parmetros poblacionales correspondientes. A = 1 a partir asociacin objeto tamao n = de los media x = 1,09 mmol/l y realizar inferencias acerca

Ejemplo 5.13 En= 0,31 mmol/l. El estadstico del contraste es desviacin tpica continuacin se describenobserv una diferencia en el colesterol HDL s el ejemplo anterior se los principales estimadores de la tendencia central de una Supongamos que se el valor determinado bajo bilateral de la hiptesis nula H0 de 0,20 mmol/l entreplantea el mismo contrastela hiptesis nula 0 = 1 mmol/l y:la media mtica, denotada por Supongamoscomose plantea elcadade tamaon bilateral de resultados del test no fueron x ,= 1,20 mmol/l variable.muestra contraste1 = 10. Los la hiptesis nula H : se define que en una de mismo de los la suma x uno 1 100 0 = 1 a partir de una muestra tde tamao n =,09 con 2,90 x =de la mmol/l y 0 = = (P = 0,064) pero = media estadsticamente significativos la magnitud 1,09 diferencia podra ser s 0,31 rales dividida por el nmero de observaciones de confirmarse en estudios con mayor tamao muestral. clnicamente importante realizadas.nSi denotamos 10 = 1 a partir tpica 1.2.1 Media aritmtica 100 con media x = es mmol/l y desviacin de una muestra de tamaoestadstico del contraste 1,09 s = 0,31 mmol/l. El n = Supongamos que se plantea el mismo contraste bilateral de la hiptesis nula H0: = 1 a o muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, partir tanto, muestraPde tamao n = estadstico del x ,=se define como desviacin tpica media 1,09 es desviacin tpica La 0,31 aritmtica, denotada s = vendra determinado por y, por de unael valor mediammol/l. El 1001con 1por contraste mmol/l y la suma de cada uno de los x 0 ,09 s = 0,31 mmol/l. El estadstico del contraste es = 2,90 = t= ra dada por s 0,31por valores muestrales dividida 1 el nmero de observaciones realizadas. Si denotamos x 0 -2,90) 102P(t 2,90) = 0,005. n = 1,09 = = 2,90 P = P(t99 2,90)=+ P(t99 99 t 0 31 smuestral ,y por x el valor observado para el sujeto i-simo, i = 1, ..., n, n x + x 2 + ... + x nel tamao n 1 por n 10 i . x = xi = 1 y, por tanto, aproximacin normal a la distribucin t de Student con 99 grados de valor P vendra determinado por n iUtilizando lael n =1 y, por tanto, el valormedia vendra dada por por la P vendra determinado y, por tanto, el valor P vendra determinado por libertad, el valor P tambin puede aproximarse a partir de la Tabla 3 del Apndice P = utilizada y de P(t fcil s la medida de tendencia central ms P(t99 2,90) +ms99 2,90) = 2P(t99 2,90) = 0,005. x + x 2 + ... + x n 1 n = t Student 0,005. x 2P(t99 x2,90)1 =con 99 grados. de libertad, como Utilizando la aproximacin normal 99 la distribucin de i = P = P(t99 2,90) + P(t a -2,90) = n n Corresponde al centro de gravedad de los datos de la muestra. Su Utilizando la aproximacin normal a a partir de la it=1 3 del Apndice como de el valor P tambin puede aproximarsela distribucinTablaStudent con 99 grados de

ritmtica

acin es que est muy influenciadaaproximacin 99 2,90) la 2{1 este partir = Student con del grados de Utilizando la por los=valores extremos y, en (2,90)} de la Tabla 3 99 Apndice a distribucin libertad, el valor P PLa 2P(t normalaproximarse a t de central ms utilizada y de ms fcil tambin puede medida de tendencia 0,004. media es la la media muestral o ser un fiel reflejo deEn tendencia central de ladiferencia entre el valor predeterminado 3ydel Apndice la este caso, aunque la distribucin. libertad, el valor P tambin puede aproximarse a partir de la Tabla como caso, sensiblemente menor (0,09valor centro de gravedad de los test fueronmuestra. Su En este ser aunque la diferencia entre el mmol/l), los resultados del datos de la interpretacin. Corresponde al predeterminado y la media result
como sensiblemente menor (0,09 mmol/l), 0,004. test principal limitacin muestrales, se 1.4 En este y en los muestral result serP = 2P(t99 2,90) es 2{1 -est muy influenciada por los Pastor-Barriuso R. 71 y, en este sucesivos ejemplos sobre estimadores que (2,90)} = los resultados del valores extremos

fueron estadsticamente2P(t9910 2,90) (P = 0,005), aportando suficiente evidencia P caso, puede noprimeros sujetos del n los valores del colesterol HDL obtenidos=ensignificativos fiel reflejo de la= 0,004. central de la distribucin. los ser un 2{1 - (2,90)} tendencia En este caso, aunque la diferencia entre el valor predeterminado y la media

Inferencia estadstica

estadsticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar la hiptesis nula. La realizacin de una prueba de hiptesis presenta la misma estructura bsica para todos los parmetros. En general, se calcula primero un estadstico del contraste, cuyo numerador corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la hiptesis nula, y cuyo denominador representa la variabilidad o error estndar de la estimacin. El valor P se obtiene entonces como la probabilidad de obtener un valor del estadstico tanto o ms extremo que el observado en el estudio, asumiendo que la hiptesis nula es cierta.

El contraste de hiptesis para un determinado parmetro est relacionado con su correspondiente intervalo de confianza. Si se contrasta la hiptesis nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0, el resultado ser estadsticamente significativo para un nivel = 0,05 si el IC al 95% para no incluye el valor 0. Por el contrario, este contraste no resultar estadsticamente significativo si el IC al 95% para contiene al valor 1.2 MEDIDAS DE TENDENCIA CENTRAL 0. No obstante, ambos mtodos facilitan informacin complementaria. El intervalo de confianza aporta una medida de la magnitud y precisin en la estimacin del parmetro, aunque no facilita el valor exacto de P Las medidas de tendencia central informan acercanula o el grado de compatibilidad con una hiptesis de cul es el valor de inters. El valor P s determina la compatibilidad de los datos con una determinada hiptesis, pero no facilita una medida de la magnitud del parmetro o asociacin objeto de de una determinada variable o, dicho de forma equivalente, estos esti estudio. En general, el uso de los contrastes de hiptesis como forma exclusiva de presentar los resultados de un estudio est siendo ampliamente cuestionado enlos datos observados. Las medidas alrededor de qu valor se agrupan la actualidad. La presentacin de los resultados de un estudio ha de consistir fundamentalmente en el estimador puntual y el intervalo de confianza,de la pueden completarse para el valor los resultados observa central que muestra sirven tanto con resumir P de la hiptesis correspondiente. realizar inferencias acerca de los parmetros poblacionales correspon Ejemplo 5.14 En la primera muestra de tamao n = 10 del Ejemplo 5.7 se obtuvo una media de 1,20 mmol/l y una desviacin tpica de 0,30 mmol/l, de tal formaestimadores de la tendencia continuacin se describen los principales que el IC al 95% para la media poblacional del colesterol HDL result ser (0,99; 1,41). Estos mismos datos muestrales se emplearon en el Ejemplo 5.12 para el contraste bilateral de la hiptesis variable. nula H0: = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hiptesis nula y, por 1.2.1 Media aritmtica tanto, el contraste no resulta estadsticamente significativo para un nivel = 0,05.

1,09 mmol/l y En el Ejemplo 5.9, a partir de una muestra aritmtica, denotada con x ,=se define como la suma de cada La media de tamao n = 100 por s = 0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de valores de H0: = dividida por el 1 se de observaciones realizada (1,03; 1,15). El correspondiente contraste muestrales 1 frente a H1: nmerorealiz en el Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera por el tamao muestral por xi el valor del test son de los lmites de confianza al 95% ny, en consecuencia, ylos resultados observado para el sujeto i- estadsticamente significativos. la media vendra dada por 5.4.3 Errores y potencia de un contraste de hiptesis

x + x 2 + ... + x n 1 n . x = xi = 1 Como se coment anteriormente, las hiptesis nunca pueden ser corroboradas completamente, n i =1 n quedando siempre un margen o probabilidad de error. La eleccin entre las hiptesis nula y alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la La media es la medida de cuando central ms es hiptesis nula cuando sta es cierta, o si se rechaza la hiptesis nulatendenciala alternativautilizada y de ms cierta, se habr tomado una decisin correcta. Sin embargo, es posible cometer alguno de los siguientes tipos de error en un contraste interpretacin. Corresponde al centro de gravedad de los datos de l de hiptesis:
72 Pastor-Barriuso R.

principal limitacin es que est muy influenciada por los valores extr

caso, puede no ser un fiel reflejo de la tendencia central de la distribu

P(error de tipo I) = P(rechazar H0 | H0 cierta)

Contraste de hiptesis

P(error de tipo I) = P(rechazar H0 | H0 cierta) = P(t tn-1,1-/2 | H0 cierta) + P(t t de /2 | H0 cierta) Tabla 5.1 Resultados posibles en un contrasten-1,hiptesis. + = P(t t t /2 | H0 cierta) t P(t ) t= /2 +H0/2 = , n-1, ) + P(t Realidad /2 | cierta) = P(t n-1,1n-1 n-1,1-/2 n-1 n-1,/2

es decir, la

Decisin H0 cierta H1 cierta Correcto Aceptar H0 = P(tn-1 tn-1,1-/2) + P(tn-1 tn-1,Error= /2 + /2 = , /2) de tipo II probabilidad de cometerErrorerror de tipo I viene determinada de un de tipo I Correcto Rechazar H0

esantemano probabilidad de cometer un . As, por ejemplo, para un test con un decir, la por el nivel de significacin error de tipo I viene determinada de y El error de tipo I consiste en rechazar la hiptesis nula cuando sta es, en realidad, cierta. Como de coment anteriormente, probabilidad de incurrir se utiliza para clasificar los antemano significacinde = 0,05, lael nivel As, por ejemplo, para error de con un nivel se por el nivel significacin . de significacin en un un test tipo I resultados obtenidos en un test como significativos si el valor P , en cuyo caso se rechaza la hiptesis = ohiptesis nula es cierta, incurrir , en cuyo caso se acepta la ser del 0,05; esto es, si la como no significativos si se en un error de tipo I nivel de significacinnula, 0,05, la probabilidad de staP >rechazar errneamente hiptesis nula. Con esta regla de decisin, puede comprobarse a partir de la Figura 5.4 que en del 0,05; los es, si la hiptesis nula es cierta, sta todas las posibles ser un 5% de estocontrastes de hiptesis |realizados sobrese rechazar errneamente P(error de tipo I) = P(rechazar H 0 H 0 cierta) = P(t muestras del mismo tamao. tn 1,1 /2 | H 0 cierta) + P(t tn , /2 | H 0 cierta) en un 5% de los contrastes de hiptesis realizados sobre todas1las posibles EDIDAS DE TENDENCIA CENTRAL = P(tn 1 tn 1,1 /2 ) + P(t n 1 t n 1 , /2 ) = /2 + /2 = ; muestras la probabilidad de cometer un error de tipo I viene determinada de antemano por es decir, del mismo tamao. controles del EURAMIC se obtienen 1000 muestras Ejemplo 5.15 A partir de los didas de tendencia central informan acerca de . As, por ejemplo, representativo un nivel de significacin el nivel de significacin cul es el valor ms para un test con = 0,05, la probabilidad10 incurrir en un error de tipo I ser del 0,05; esto es, si la de aleatorias de de ellas, se Ejemplo nulatamao n = los y, en cada una EURAMICrealiza el contraste dede determinada variablehiptesis5.15forma equivalente, estosundel errneamente en un 5% 1000 muestras de o, dicho probabilidad de cometer estimadores indican es decir, la de A partir desta controles error de tipo I se obtienen de los contrastes viene determinada es cierta, se rechazar hiptesis realizados sobre todas las posibles muestras del mismo tamao. hiptesis bilateral para la media poblacional del colesterol HDL aleatorias datos observados. Las medidas de tendencia or de qu valor se agrupan losde tamao n = 10 y, en cada una de ellas, se realiza el contraste de antemano por el nivel de significacin . As, por ejemplo, para un test con un Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras H0: = 1,09, de la muestra sirven tanto para resumirparanla media en cada una de ellas, se realiza el contraste de hiptesis hiptesis bilateral los resultadospoblacional como para aleatorias de tamao = 10 y, observados del colesterol HDL = 0,05, la del colesterol HDL nivel de significacin poblacionalprobabilidad de incurrir en un error de tipo I bilateral para la media inferencias acerca de los parmetros poblacionales correspondientes. A H1: 1,09, H0 : = 1,09, ser del 0,05; esto es, si la hiptesis nula es cierta, sta se rechazar errneamente H1 : central acin se describen los principales estimadores de la tendencia 1,09, de una mediante el estadstico en En este de los contrastes de hiptesis nula es cierta ya que la media poblacional un 5% ejemplo ilustrativo, la hiptesis realizados sobre todas las posibles mediante el estadstico e. x 1,09 del colesterol HDL en mediante el mismo tamao. muestras del estadstico el grupo control del EURAMIC es efectivamente = 1,09 , t= s Media aritmtica 10 mmol/l. Por lo tanto, se tom la decisin correcta de aceptar H0 en el 94,4% de las x 1,09 donde s define correspondientes medias ,desviaciones tpicas muestrales. En cada ia aritmtica, denotada por 5.15 A partir de los suma de=cada unoyde los t Ejemplo x ,yse son lascomo la controles del EURAMIC se obtienen 1000 muestras s muestras seseson lasel valor P como el medias y desviaciones tpicas muestrales. valores donde x y calcula correspondientes 0 (error de tipo I) de la distribucin t9 para muestra, y s rechazo errneamente Hrea bajo la curva en el restante 5,6%, que 10 muestrales dividida por el o ms distantes de10queen cada unaSi denotamosrealiza el contrastela hiptesis realizadas. de ellas, t, tanto nmero aleatorias de caside observacionesel valor observado de sey se decide rechazar de tamao n = 0 y, con el nivel de significacin = 0,05 concuerda 0,05. As, la hiptesis nula se acept en un 94,4% de las muestras (944 de perfectamente En cada nula si Pmuestra, se calcula el valor P como el rea bajo la curva de la tamao muestral ydonde elyvalor observado para el (56 de medias yi desviaciones tpicas muestrales. por xi x y srechaz correspondientes i-simo, = 1, ..., n, 1000) se son un 5,6% sujeto 1000). hiptesis bilaterallas en la media poblacional del colesterol HDL para contraste. preestablecido para valores tanto o ms distantes de 0 que el valor observado de t, el distribucin t9 En este ejemplo ilustrativo, la hiptesis nula es cierta ya que la media poblacional del a vendra dada por En cada muestra, se calcula el valor P como el rea bajo la curva de la colesterol HDL en el grupo control del EURAMIC es efectivamente = 1,09 mmol/l. Por y se decide rechazar la hiptesis nula0: P 1,09, As, la hiptesis nula se acept H side 0,05. lo tanto, se tom la decisin aceptar =aceptar nula cuando, en de las muestras y se El error de tipo II consiste encorrecta la hiptesis H0 en el 94,4% realidad, es distribucin t9 para valores+tanto o de tipo I) en el restante 5,6%, observado de t, casi x + x2 + H xn 1 rechazn errneamente ...0 (error ms distantes de 0 que el valor que concuerda . x un x i = en= 94,4% de1 las muestras (944 de 1000) 1,09, H1: y se rechaz en un 5,6% (56 de 1000). perfectamente con el nivel de significacin 0,05 preestablecido para el contraste. cierta la 1hiptesis alternativa. La probabilidad=de cometer un error de tipo II se n i= n y se decide rechazar la hiptesis nula si P 0,05. As, la hiptesis nula se acept y El error de, II consiste en aceptar la hiptesis nula cuando, en realidad, es cierta la denota por tipo media es la medidamediante el estadstico utilizada y de ms fcilse rechaz en un 5,6% (56 de 1000). de tendencia central ms en un 94,4% de las muestras (944 de 1000) y un error de tipo II se denota por , hiptesis alternativa. La probabilidad de cometer 24 etacin. Corresponde al centro de gravedad de tipodatos de la muestra.| Su cierta) = . los II) = P(aceptar H0 H1 P(error x 1,09 t= , s al limitacin es que est muy influenciada por los valores extremos y, en este Pastor-Barriuso Si la hiptesis alternativa es cierta, la probabilidad de tomar la decisin correcta y, R. 10 24 uede no ser un fiel reflejo de la tendencia central de la distribucin. por tanto, rechazar la hiptesis nula se conoce como potencia del test, donde x y s son las correspondientes medias y desviaciones tpicas muestrales.

73

Las medidas de tendencia central informan acerca de cul es el valor ms representativo Si la hiptesis alternativa es cierta, la probabilidad medidas de decisin correcta y, Las de tomar la tendencia central informan acerca de cu de una determinada variable o, dicho de forma equivalente, estos estimadores indican Si la tanto, rechazar la hiptesis nulala probabilidad dedeterminadatest, correcta y, de forma equivalen por hiptesis alternativa es cierta, se conoce como potenciala decisin o, dicho por de una tomar del variable tanto,de qu valorhiptesis nula se conoce como potencia del test, tendencia rechazar la se agrupan los datos observados. Las medidas de alrededor H1 cierta) Potencia = P(rechazar H0 |alrededor de qu valor se agrupan los datos observados. central de la muestra sirven tanto para resumir los resultados observados como para = 1 P(error de tipo II) = 1 . central de la muestra sirven tanto para resumir los resulta realizar inferencias acerca de los parmetros poblacionales correspondientes. A La probabilidad de error de tipo II y la potencia de un contraste 1 no estn realizar inferencias acerca de los parmetros poblacional predeterminadas de antemanotipo II sela potencia de continuacin, dependen de distintos a La probabilidad de error2 de y, como y comprobarla un contraste 1 - de una continuacin se describen los principales estimadores de tendencia central no estn factores, como el nivel significacin , la desviacin del verdadero 2/n) si parmetro aproximadamente N(0, de /n) si H0 es cierta o, en caso contrario, N(1,valor del H1 es continuacin se describen los principales estimadores de respecto al valor nuloantemano dispersin de los datos ay el tamao muestral n. predeterminadas de 0, la y, como se comprobar continuacin, dependen 2 2 variable. aproximadamente N(0muestral de0 x bajo las hiptesis contrario, N(1, se representa cierta. La distribucin , /n) si H es cierta o, en caso nula y alternativa /n) si H1 es variable. Supongamos, para simplificar la exposicin, que una variable aleatoria tiene media de distintos factores, como el nivel de significacin , la desviacin del verdadero cierta.Figura varianza conocida y que las hiptesis nula y de hiptesis nula H0: desconocida y5.5. Para un nivel de 2significacin , el contraste alternativa seno resultar = 0 1.2.1 Media aritmtica muestral de , x bajose pretende contrastar la hiptesis representa en la La distribucin frente a la hiptesis alternativa H1: = 1, donde 1 0. Por el teorema central del lmite, se 1.2.1 Media aritmtica valor del parmetro respecto al valor nulo - , la dispersin de los datos y el Para un nivel sabe queFigura 5.5. > denotada porde significacin tamao n serde hiptesis no resultar 2/n) La en la la distribucin ) si el estadsticomuestras de , el contraste cada uno de los N(0, media aritmtica, muestral de x en define como0la suma de aproximadamente , se significativo (P si H0 es cierta o, en caso contrario, N(1, 2/n) si H1 esLa media aritmtica, denotada por x , se define como la cierta. La distribucin muestral de bajo tamao muestral n. valores muestrales > ) si el estadstico de observaciones realizadas. Si denotamos las significativo (P dividida porse representa en la Figura 5.5. Para un nivel de significacin , hiptesis nula y alternativa el nmero el contraste de hiptesis no resultar-z1-/2 < x (P < z1-si el estadstico significativo 0 valores muestrales dividida por el nmero de observacio > ) /2 Supongamos, para simplificar la exposicin, que una variable aleatoria tiene media por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, x n 0 < z1 /2el tamao muestral y por xi el valor observado para z12 /2 < por n desconocida y dada por la media vendra varianza conocida , y quese pretende contrastar la hiptesis nula H0: n la media vendra dada por o, de forma equivalente, si de 0 frente a la hiptesis o, = forma equivalente, si alternativa H1: = 1, donde x 1 0. Por el teorema central x1 + x 2 + ... + n 1 n o, de forma equivalente, si = x i = . x n x + x + ... + n = x del lmite, se sabe que la distribucinmuestralxde n 0 en z1 /2 / nde tamao n serx = 1 0 z1 i/21 / n < < + muestras ; xi = 1 2 n n i =1 0 - z1-/2/ n < x < 0 + z1-/2/ n ; La decir, la hipotes Distribuciaceptar central ms Distribucin de x ms Huna media x 25 utilizada y de con 0 es media es la medida de tendencia en todas aquellas muestrasbajo fcil nula se n de x bajo H1 La , 2/n)es la medida de tendencia central ms utiliz media , 2/n) N( 0 es decir, la CorrespondeN(aceptar de gravedad de muestras con muestra. Su interpretacin.hipotes nula se centro en todas aquellaslos datos de la una media x regin al 1 z / n , que se denomina comnmente como comprendida en la regin 0 1-/2 interpretacin. Corresponde al centro de gravedad de l principal limitacinla regin 0 muy /2/ n , quepordenomina comnmente como regin comprendida en es que est z1- influenciada se los valores extremos y, en este de aceptacin. As, la probabilidad de un error de tipo I est determinada por el rea principal limitacin es que est muy influenciada por los caso, puede no serAs,fielprobabilidad de un error de tipo I est determinada por el rea un la reflejo de la tendencia central de la distribucin. de aceptacin.para H situada fuera de la regin de aceptacin (rea en gris oscuro de la bajo la curva 0 caso, puede no ser un fiel reflejo de la tendencia central bajo la curvay la probabilidadfuera de la regin de aceptacin bajo la curva oscuro de la para Figura 5.5),1.4 EnH0 situadalos sucesivos tipo II por el rea (rea en gris para H1se Ejemplo este y en de error de ejemplos sobre estimadores muestrales, Ejemplo 1.4 En este y en los sucesivos ejemplos so bajo la curva para Figura 5.5), y la probabilidad de error de tipo IIen por el reade la Figura 5.5). H1 situada dentro de la regin de aceptacin (rea gris en los 10 primeros sujetos del utilizarn los valores del colesterol HDL obtenidos claro utilizarn los valores del colesterol HDL obtenidos situada dentro de la regin de aceptacin (rea en gris claro de la Figura 5.5). estudio European Study on Antioxidants, Myocardial Infarction and Cancer of /2 [Figura /2 aproximadamente aqu]European Study on Antioxidants, Myocar 5.5 estudio the Breast (EURAMIC), estudio aproximadamente un [Figura 5.5 multicntrico de casos y controles realizado aqu] 1 the0Breast (EURAMIC), un estudio multicntrico El balance entre las ocho pases Europeos de error de tipo I evaluar puede observarse entre 1991 y 1992 enprobabilidades / 2un n e Israel para y tipo II el efecto / 2los n en 0 z1 / 0 + z1 de / entre 1991 1992 en ocho pases Europeos e Israe El balance Si se reduce la probabilidad de error de tipo y tipo IIyes, se observarse la Figura 5.5. entre las probabilidades de un error de tipo I I (esto puede aumenta la en 5 Regin (esto H0 la Figura 5.5. Si se reduce la probabilidad de error de de aceptacin de es, se aumenta si tipo I tipo II , mientras que la regin de aceptacin), aumenta la probabilidad de error de

Inferencia estadstica

1.2 MEDIDAS DE TENDENCIA CENTRAL P(error de tipo II) = P(aceptar 1.2 MEDIDAS=DE TENDENCIA CENTRAL H0 | H1 cierta) .

Figura 5.5 Errores de tipo I y II para el contraste bilateral de la hiptesis nula H0: = 0 frente a la hipsi regin de aceptacin), aumenta la probabilidad de conocida. tipo II , mientras que Figura 5.5 error de tesisaumenta, disminuyeen.una distribucin conestrategia habitual es fijar en el nivel alternativa H1: = 1 En la prctica, la varianza
74

predeterminado Pastor-Barriuso R.

aumenta, disminuye . En la prctica, laeestrategiaminimizar fijar forma nivel (tpicamente = 0,05) intentar habitual es o, de en el equivalente,

predeterminado (tpicamentedel= 0,05) e intentar minimizar o, de forma depende de la maximizar la potencia 1 - contraste. Para fijo, la potencia de 1 - equivalente,

TENDENCIA CENTRAL
Contraste de hiptesis

variable. 0 z1-/2 el < x ms representativo dencia central informan acerca-de cul /es n valor< 0 + z1-/2/ n ;

1.2.1 Media aritmtica variable o, dicho de forma equivalente, estos estimadores indican

es decir, la hipotes nula se aceptar en todas aquellas muestras con una media x

es datos la hipotesis Las se aceptar tendencia media muestras denotada por comprendida La or se agrupan los decir, observados. nula medidas de en todas aquellasaritmtica,con una media x , se define como la suma de comprendida en la regin 0 z1 /2/ n , que se denomina comnmente como regin de aceptacin. As, la regin valores probabilidad deresultadosde tipo I est determinada por el rea bajo lapor el nmero0 de observaciones realiz a sirven tanto para resumir los un error observados como para muestrales dividida curva para H situada de aceptacin.fuera de la regin de aceptacin (rea en gris oscuro de la Figura 5.5), yel rea As, la probabilidad de un error de tipo I est determinada por la probabilidad de error de tipo II por el rea bajo la curva para A situada dentro muestral y de xi el valor (rea en acerca de los parmetros poblacionales correspondientes.H1por n el tamaode la regin por aceptacin observado para el sujeto gris claro de la Figura 5.5). bajo la curva para H0 situada fuera de la regin de aceptacin (rea en gris oscuro de la media vendra criben los principales balance entre las probabilidades de dela error de tipo I dada por puede observarse en la El estimadores de la tendencia central ununa y tipo II

y La diferencia subyacente 1 0. La potencia para detectar una hiptesis alternativa cierta de los datos interpretacin. Corresponde al centro de gravedad ividida por el nmero de observaciones realizadas. Si denotamos ser tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parmetro 1 y El balance entreel valor nulo 0. Esta situacin se ilustra principal II puede observarse en un incremento las probabilidades de un error de tipo Ila Figura 5.6(a), donde se observa en y tipo estral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, limitacin es que est muy influenciada por los valores de la potencia como consecuencia de una mayor diferencia entre 1 y 0. la Figura 5.5. Si se reduce la probabilidad de error de tipo I (estono ser un fiel reflejo de la tendencia central de la dist caso, puede es, se aumenta la da por
~ H1 : x N ( 1, 2 / n) ~ H 0 : x N ( 0 , 2 / n)

x + 2 1 aceptacin), aumenta la probabilidad de error de tipo II ; mientras que si aumenta, disminuyex.+ ... + x n . x = xi = 1 n i =1 situada dentroEn la prctica,de estrategia habitual en fijar en un nivel predeterminado (tpicamente = 0,05)n de la regin la aceptacin (rea es gris claro de la Figura 5.5). e intentar minimizar o, de forma equivalente, maximizar la potencia 1 del contraste. Para tica fijo, la potencia 1 depende de la superposicin de las distribuciones nula y alternativa de vez determinada por los siguientes factores: , denotada por x ,, quedefine como la suma de cada uno de los La media es la medida de tendencia central ms utilizada y de se est a su[Figura 5.5 aproximadamente aqu]

Figura 5.5), y Figura 5.5. Si se de errorla probabilidad deel reade tipo I curva para se1aumenta la regin de la probabilidad reduce de tipo II por error bajo la (esto es, H n

x + x + ... + x n Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estim 1 . xi = 1 2 n n i =1 aumenta, disminuye . En la prctica, la estrategia habitual es fijar en el nivel del colesterol HDL obtenidos en los 1 utilizarn los valores x=

regin de aceptacin), aumenta la probabilidad de error de tipo II , mientras que si n

edida de tendencia central ms utilizada y e intentar minimizar o, de forma equivalente, Antioxidants, Myocardial Infar predeterminado (tpicamente = 0,05) de ms fcil estudio European Study on
/2
1 / 2

esponde al centro de gravedad de los datos Para fijo, laSu the Breast depende de un estudio multicntrico de casos maximizar la potencia 1 - del contraste. de la muestra. potencia de 1 - (EURAMIC), la
/2
1 0
1 / 2

es que est muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho pases Europeos e Israel para ev 0 z / n 0 + z / n
(a) ~ H 0 : x N ( 0 , 2 / n)

n fiel reflejo de la tendencia central de la distribucin.


~ H1 : x N ( 1, 2 / n)

n este y en los sucesivos ejemplos sobre estimadores muestrales, se

26

valores del colesterol HDL obtenidos en los 10 primeros sujetos del

pean Study on Antioxidants, Myocardial Infarction and Cancer of

URAMIC), un estudio multicntrico de casos y controles realizado

992 en ocho pases Europeos e Israel para evaluar el efecto de los


/2 /2

5 1 0 z1 / 2 / n
(b)

0 + z1 / 2 / n

Figura 5.6 Errores de tipo I y II para una mayor diferencia 0 1 (a) y para un mayor tamao muestral n (b). Figura 5.6
Pastor-Barriuso R. 75

S DE TENDENCIA CENTRAL
Inferencia estadstica

superposicin acerca de cul es el nula ms representativo e tendencia central informan de las distribucionesvalor y alternativa de x , que est a su vez

nada variable determinadaforma equivalente, factores: o, dicho de por los siguientes estos estimadores indican Tabla 5.2 Porcentaje de muestras de tamao n = 10, 25 y 100 con resultados significativos (P 0,05) para el contraste bilateral La datos observados. Las medidas de tendencia u valor se agrupan los diferencia subyacente 1 - 0. La potencia paradetectar una hiptesis de las hiptesis nulas H0: = 1 y 1,05 mmol/l sobre la media poblacional del cierta ser tantoobservados como paraestudio EURAMIC. el uestra sirven tanto para resumircolesterol HDLmayor cuando mayor sea la diferencia entre alternativa los resultados en los controles del
Hiptesis nula H0: = 0 Tamao muestral (n) 25 100 0 = 1 26,9 85,7 0 = 1,05 8,0 23,0

ncias acerca de los parmetros poblacionales correspondientes. A verdadero valor del parmetro 1 y el valor nulo 0. Esta situacin se ilustra en la

5,0 e describen los principales estimadores de la tendencia central de una la potencia como consecuencia Figura 5.6(a), donde se10 observa un incremento11,2 de

de una mayor diferencia entre 1 y 0.


y

El error estndar El error estndar / n . Al aumentar el tamao muestral n,n, disminuye el error Al aumentar el tamao muestral disminuye el error estndar de la media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de mtica, denotada por estndar de lacomo lamuestral y, en consecuencia, la variabilidad de del contraste aumenta x .,As, para un nivel de significacin predeterminado, la potencia las se define media suma de cada uno de los conforme aumenta el tamao de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse ales dividida por el nmero de observaciones realizadas.xSiAs, parauna niveldeterminado el tamao muestral, denotamos tanto para calcular la potencia de distribuciones nula y alternativade un .contraste un vez de significacin como para estimar a priori el tamao muestral necesario para una determinada potencia. valor observado potencia del contraste = 1, ..., n, o muestral y por xi elEste ltimo puntopara el sujeto i-simo, idetalle en conforme aumenta el tamao tamao predeterminado, lase discutir con mayor aumenta el Tema 9 de determinacin del muestral. a dada por de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse tanto para calcular la Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras n potenciaxde de tamaox n una vez determinado elcada unamuestral, como para el contraste x + ... + n 1 aleatorias+un2 contraste = 10, 25 y 100 y, en tamao de ellas, se realiza . x = xi = 1 bilateral de las hiptesis nulas H0: = 1 y 1,05 mmol/l para la media poblacional del n i =1 n estimar a priori el Para cada muestra y contraste, el valor P se calcula segn Este colesterol HDL. tamao muestral necesario para una determinada potencia. los mtodos del Apartado 5.4.2 y la hiptesis nula se rechaza si P 0,05. En la Tabla 5.2 se presenta ltimo punto se de muestras con resultados significativos determinacin del tamaos la medida de tendencia porcentaje discutir con mayorfcil el central ms utilizada y de ms detalle en el Tema 9 de para los distintos muestrales e hiptesis nulas. tamao muestral. Corresponde al centro de gravedad de los datos de la muestra. Su En este caso, ambas hiptesis nulas son falsas dado que la verdadera media del colesterol acin es que est muyHDL en los controlesvalores extremos y, en este 1,09 mmol/l. As, los porcentajes de la influenciada por los del estudio EURAMIC es Tabla 5.2 representan [Figura empricos de la potenciaaqu] contraste. Para una desviacin valores 5.6 aproximadamente de cada = la distribucin. subyacente de 0 de1,09 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol ser un fiel reflejo de la tendencia central HDL y el valor nulo, la potencia result ser del 11,2% para n = 10, 26,9% para n = 25 y 85,7% para n = 100. Para una desviacin de 0 = 1,09 1,05 = 0,04 mmol/l, la potencia Ejemplo 5.16 A 5,0% para estimadores del EURAMIC se obtienen 1000 100. Como puede 1.4 En este y en los sucesivos ejemplos sobrelos = 10, 8,0% para n = 25 y 23,0% para n = muestras se redujo a un partir de n controles muestrales, se apreciarse, slo se alcanza una potencia aceptable para detectar una diferencia de 0,09 aleatoriasconobtenidos en10, 25 y de 100,en cada una desera necesaria una muestra mayor n los valores del colesterol HDL tamao n = muestralprimeros mientras que ellas, se realiza el mmol/l de un tamao los 10 100 y, sujetos del para poder detectar una diferencia de 0,04 mmol/l. contraste bilateral de las hiptesis nulas H0: = 1of 1,05 mmol/l para la media European Study on Antioxidants, Myocardial Infarction and Cancer y

ritmtica

5.5 REFERENCIAS st (EURAMIC), unpoblacional del colesterolcasos yPara cada muestra y contraste, el valor P se estudio multicntrico de HDL. controles realizado

1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. calcula segn los mtodos del Apartado 5.4.2 y los 91 y 1992 en ocho pases Europeos e Israel Prentice Hall,el efecto de la hiptesis nula se rechaza si P Englewood Cliffs, NJ: para evaluar 1977. 2. 3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 5 2001. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.

27

76

Pastor-Barriuso R.

Referencias

4. 5. 6. 7. 8. 9.

Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag, 1997. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer Verlag, 1998. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

Pastor-Barriuso R.

77

TEMA 6 INFERENCIA SOBRE MEDIAS


6.1 INTRODUCCIN

En el presente tema se revisan las tcnicas bsicas de inferencia a partir de datos de carcter cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se centra en el estudio de parmetros subyacentes tales como la media y la varianza poblacional. A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas: y La estimacin de la media y la varianza de una poblacin. Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una muestra representativa de la poblacin de referencia del estudio. A partir de los valores de colesterol HDL obtenidos en los controles, cul es la estimacin y el intervalo de confianza al 95% para la media y la varianza del colesterol HDL en la poblacin de referencia? Son estos datos muestrales compatibles con una verdadera media poblacional de 1 mmol/l? y La comparacin de medias y varianzas poblacionales a partir de dos muestras independientes. Ejemplo 6.2 En el estudio EURAMIC se comparan dos muestras independientes: una muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos, y una muestra independiente de controles, representativos de la poblacin de la que proceden los casos. Cul es entonces la estimacin y el intervalo de confianza al 95% para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los sujetos libres de la enfermedad? Es esta diferencia estadsticamente significativa? En un ensayo clnico para evaluar la eficacia antihipertensiva de un nuevo medicamento, se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de tratamiento: un grupo que toma la medicacin a estudio y otro que toma un placebo. Despus de 4 semanas de tratamiento, se compararon las medias de presin arterial sistlica entre ambos grupos como medida de la eficacia de dicho medicamento. Cul es la estimacin puntual y el intervalo de confianza al 95% para la reduccin en el nivel medio de presin arterial sistlica? Cmo se determina si esta reduccin es efecto del tratamiento o se debe a simple variabilidad aleatoria? y La comparacin de medias poblacionales a partir de dos muestras dependientes. Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en el riesgo de desarrollar infarto de miocardio, cada caso se emparej por grupo de edad y sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de los casos y de los controles no pueden analizarse como medidas procedentes de muestras independientes, ya que es esperable un cierto grado de correlacin entre los valores de
Pastor-Barriuso R. 79

Inferencia sobre medias

colesterol HDL en cada pareja caso-control. Cmo contrastar entonces si existe una asociacin significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de miocardio? Para evaluar la eficacia de un frmaco antihipertensivo, se seleccionaron 50 pacientes hipertensos y se administr a todos ellos dicho frmaco durante 4 semanas. La presin arterial sistlica de cada paciente se determin tanto al comienzo del estudio como despus de las 4 semanas de tratamiento. En tal caso, los valores medios de presin arterial antes y despus del tratamiento no son independientes, ya que los datos recogidos en un mismo paciente estn correlacionados. En estas circunstancias, cmo estimar la reduccin media de presin arterial sistlica al administrar dicho tratamiento? 1.2 MEDIDAS DE TENDENCIA CENTRAL

Para cada uno de estos problemas, se facilitan las tcnicas de inferencia apropiadas para Las medidas de tendencia central informan acerca de cul es el valor obtener estimaciones puntuales y por intervalo del parmetro poblacional objeto de estudio, as como para el contraste de hiptesis preestablecidas. Estos procedimientos van a permitir inferir de una de forma clara y sucinta. los resultados del estudio al mbito poblacionaldeterminada variable o, dicho de forma equivalente, estos estim

alrededor de qu valor se agrupan los datos observados. Las medidas 6.2 INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL central de la muestra sirven tanto para resumir los resultados observad La media y la varianza poblacional son parmetros que representan la tendencia central y dispersin de la distribucin subyacente de una variable aleatoria. Estos parmetros son realizar inferencias acerca de los parmetros poblacionales correspon tpicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores observados de dicha variable en una muestra. En esta describense presentan losestimadores de la tendencia continuacin se seccin, los principales mtodos de estimacin y contraste para la media y la varianza de una distribucin poblacional. variable. 6.2.1

Inferencia sobre la media de una poblacin 1.2.1 Media aritmtica La estimacin e inferencia de una media poblacional se discuti en el tema anterior. Para Utilizando las propiedades ha comprobado aritmtica,de la media, es ,es un estimador La media muestral denotada por se define como cualquier variable aleatoria, se de la distribucinque la media muestral xposible obtener la suma de cada insesgado y consistente de y que, en el caso de distribuciones normales, es el estimador con un error estndar. Estas caractersticas hacen de la poblacional el un buen observaciones realizada menorintervalo de confianza al 100(1 - )% para la media media muestral nmero deestimador valores muestrales dividida por como Utilizando las propiedades de la distribucin muestral de la media, es posible obtener puntual de la media poblacional. n el y por el valor s Utilizando las confianza al 100(1 - xport nparatamao. muestral media,x como observado para el sujeto i-s )% 1,1 muestral de la un intervalo de propiedades de la distribucin /la media poblacional ies posible obtener un 2 intervalo de confianza al 100(1 )% para la media poblacional como n la media vendra dada por s x t n 1,1 / 2 . A su vez, el contraste de la hiptesis nula H0: = 0 frente a la hiptesis nalternativa n x + x 2 + ... + x n 1 . x = xi = 1 n i =1 n A su vez, el H : de la hiptesis nula H0: = 0 frente a la hiptesis alternativa bilateral H1: contraste puede realizarse mediante el estadstico bilateral 1 0 A 0 puede el contraste de la hiptesis nula H0: = 0 frente a la hiptesis alternativa su vez, realizarse mediante el estadstico

80

Laxmedia es la medida de tendencia central ms utilizada y de ms el bilateral H1: 0 puede realizarse mediante 0 estadstico t= . s interpretacin. Corresponde al centro de gravedad de los datos de la n x 0 t= . Bajo la hiptesis nula, este estadstico seguir aproximadamente una distribucin t de Student valores extre principal limitacin es que est muy influenciada por los s Bajo 1 grados de libertad y, estadstico seguir aproximadamente una puede calcularse como la hiptesis nula, este en consecuencia, elnvalor P del contraste distribucin t de con n el rea bajo la curva de esta distribucincaso, aquellos valores fiel reflejo de la tendencia que el de la distribu para puede no ser un tanto o ms distantes de 0 central Student con n de t. En general, el planteamiento de unael valor P del contraste puedepuede - 1 grados de libertad y, en consecuencia, determinada hiptesis nula valor observado Bajo hiptesis nula, este o de hiptesis biolgicas respecto una distribucin t de procederlade estudios previos estadstico seguir aproximadamente al comportamiento de las calcularse como el rea bajo la curva de esta distribucin para aquellos valores tanto o Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimado Student con n - 1 grados de libertad y, en consecuencia, el valor P del contraste puede Pastor-Barriuso R. ms distantes de 0 que el valor observado de t. En general, el planteamiento deHDL obtenidos en los 10 pr utilizarn los valores del colesterol una calcularse como el rea bajo la curva de esta distribucin para aquellos valores tanto o determinada hiptesis nula puede proceder estudio European Studyde hiptesis de estudios anteriores o on Antioxidants, Myocardial Infarctio

n 539 media poblacional los contrastes deinferencias acerca resultar un tanto artificiales. hiptesis pueden de los parmetros poblacionales correspondientes. A realizar
Inferencia sobre una media y varianza poblacional

cuya distribucin bajo la hiptesis nula ser t538 o, de forma equivalente, normal continuacin se describen los principales estimadores de la tendencia central de un Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con estandarizada. De la Tabla 3 del Apndice se desprende que la probabilidad de variable. variables, aunque en el caso de una nica media poblacional los contrastes de hiptesis pueden determinaciones del colesterol HDL, la media y desviacin tpica fueron x = 1,09 resultar un tanto artificiales. obtener valores superiores a 7,21 en una distribucin normal estandarizada es 1.2.1 Media aritmtica y s = 0,29 mmol/l. As, el IC al 95% para la media de colesterol HDL en la Ejemplo 6.4 Entre los nlo que el valor P bilateral serEURAMIC con determinaciones virtualmente nula, por = 539 controles del estudio inferior a 0,001. En La media desviacin tpica fueron 1,09 y s como mmol/l. As, del colesterol HDL, la media y aritmtica, denotada por x ,=se define = 0,29la suma de cada uno de los poblacin de referencia result ser el IC al 95% para la media de colesterol HDL en la poblacin de difiere conclusin, el nivel medio de colesterol HDL en esta poblacin referencia result ser valores muestrales dividida por el nmero de observaciones realizadas. Si denotam 0,29 (P < 0,001). De hecho, la media poblacional de significativamente de 1 mmol/l = 1,09 1,960,012 = (1,07; 1,11). 1,09 t 538;0,975 por n el 539 tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, .. colesterol HDL se estim en 1,09 mmol/l, con un intervalo de confianza al 95% Estos datos muestrales media vendra dada porpara el contraste bilateral de la hiptesis la tambin se emplearon EstosH0: =muestrales1,07 y 1,11 mmol/l. para el contraste bilateral de la nula datos 1. Para ello, se calcul el estadstico del comprendido entre tambin se emplearon
n x +x + 1,09 el x = 1 hiptesis nula H0: = 1. Para x 0 =calcul 1 estadstico x =contraste ... + x n . = 7,21, del t = ello, se i 1 2n n i =1 0,29 s 6.2.2 Inferencia sobre la varianza de una poblacin n 539

la hiptesis medida de 538 o, de una variable aleatoria y En cuya distribucin bajo centra en estimar noser la media deforma ms utilizada 4 de ms fcil ocasiones, el inters se La media es lanula slo ttendencia central equivalente, normal cuya distribucin la Tabla 3 del Apndice t538 o, de forma equivalente, normal estandarizada. De bajo la hiptesis nula serse desprende que la probabilidad de obtener valores superiores a 7,21 en una distribucin normal estandarizada Apartado los datos de interpretacin. Corresponde al centro de gravedad de 5.2 del continua, sino tambin su varianza poblacional. Como se mostr en el es virtualmente nula, la muestra. Su estandarizada.valor P bilateral ser inferior a 0,001. En conclusin, el nivel medio de De la Tabla 3 del Apndice se desprende que la probabilidad de por lo que el principal limitacin es que est muy influenciada por < valores extremos y, en es tema anterior, la varianza muestral s2difiereestimador insesgado y 1 mmol/l (Plos 0,001). De colesterol HDL en esta poblacin es un significativamente de consistente de la obtener valores poblacional de colesterol distribucin normal estandarizada es intervalo superiores a 7,21 en una HDL se estim en 1,09 mmol/l, con un hecho, la media varianza poblacional 2comprendido variable fiel reflejosiendotendencia central de la distribucin. de cualquier entre 1,07 y 1,11 de la de confianza al 95% caso, puede no ser un aleatoria,mmol/l. adems el estimador virtualmente nula, por lo que el valor P bilateral ser inferior a 0,001. En insesgado con menor error estndar para distribuciones normales. 6.2.2 conclusin, el nivella varianza de una poblacinen los sucesivos ejemplos sobre estimadores muestral Inferencia sobre medio Ejemplo 1.4 En este yesta poblacin difiere de colesterol HDL en Al igual que ocurra en el caso de una media, los intervalos de confianza y las En ocasiones, el inters se centra utilizarn 0,001). De media de una variable aleatoriaen los 10 primeros sujeto en estimar no slo la del colesterol HDL obtenidos significativamente de 1 mmol/l (P < los valores hecho, la media poblacional de continua, sino tambin su varianza poblacional. Como se mostr en el Apartado 5.2 del tema anterior, la pruebas de hiptesis sobre la varianza poblacional 2 se basan en la distribucin 2 varianza muestral s2 es un estimador insesgado y consistente Antioxidants, Myocardial Infarction and Cance estudio European un intervalo de confianza al 95% colesterol HDL se estim en 1,09 mmol/l, con Study on de la varianza poblacional de cualquier variable aleatoria, siendo adems el estimador insesgado con menor error estndar muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse para distribuciones normales. y 1,11Breast (EURAMIC), un estudio multicntrico de casos y controles reali comprendido entre 1,07 the mmol/l. Al igual que ocurra en 1)s2/ 2 sigue una distribucin denominada chi-cuadrado con n que el estadstico (n el caso de una media, los intervalos de confianza y las pruebas de hiptesis sobre la varianza poblacional 2 entre 1991en 1992 en ocho pases Europeos e Israel para evaluar el efecto de se basan y la distribucin muestral de s2. Si la distribucin 2 subyacente de la sobre y denotada porpuede,poblacinque el estadstico (n 1)s2/2 sigue una 6.2.2grados de libertad la varianza de n 1 probarse 1 Inferencia variable es normal, una distribucin denominada chi-cuadrado con n 1 grados de libertad y denotada por 2n1, En ocasiones, el inters se centra en estimar no slo la media de una variable aleatoria (n 1) s 2 2 ~ n . continua, sino tambin su varianza poblacional. Como1 se mostr en el Apartado 5.2 del 2 Como puede varianza muestral s2 es 6.1, la distribucin chi-cuadrado slo la tema anterior, la apreciarse en la Figuraun estimador insesgado y consistente de toma valores positivos y est sesgada a la derecha. Los grados de libertad de una distribucin chi-cuadrado determinan su tendenciade cualquier variableyaleatoria, siendo adems losestimador libertad, varianza poblacional 2 central, dispersin asimetra: al aumentar el grados de 5 aumenta la media y la varianza de la distribucin y disminuye su sesgo a la derecha. En la Tabla 6 del Apndice se presentan los percentiles de la distribucin chi-cuadrado para distintos grados insesgado con menor error estndar para distribuciones normales. de libertad. Al igual que ocurra en el caso de una media, los intervalos de confianza y las pruebas de hiptesis sobre la varianza poblacional 2 se basan en la distribucin muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse Pastor-Barriuso R. que el estadstico (n 1)s2/ 2 sigue una distribucin denominada chi-cuadrado con n 81

Inferencia sobre medias Como puede

apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma

Como puede apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma valores positivos y est sesgada a la derecha. Los grados de libertad de una distribucin valores positivos y est sesgada a la derecha. Los grados dechi-cuadrado2 slo toma Como puede apreciarse en la Figura 6.1, la dispersin y libertad de una distribucin 0,6 chi-cuadrado determinan su tendencia central, distribucin asimetra: al 1aumentar los
2 chi-cuadrado determinan su tendencia central,Los grados deasimetra: aluna distribucin aumentar los valores de libertad, aumenta la mediaderecha. dispersin y libertad dedisminuye su grados positivos y est sesgada a la y la varianza de la distribucin y 23

2 2

0,5

grados de libertad, aumenta la media ycentral, dispersin y asimetra: al 5aumentarsu la varianza de la distribucin y disminuye chi-cuadrado determinan Tabla 6 del Apndice se presentan los percentiles de la los sesgo a la derecha. En la su tendencia sesgo ade libertad, aumenta la media Apndice se presentan los percentiles de la su 6 del y grados la derecha. En la Tabla distintosla varianza libertad. distribucin chi-cuadrado para grados de de la distribucin y disminuye
f(x) distribucin chi-cuadradoTabla distintos grados se presentan los percentiles de la sesgo a la 0,3 derecha. En la para 6 del Apndice de libertad. [Figura 6.1 aproximadamente aqu] distribucin chi-cuadrado para distintos grados de libertad. 0,2 [Figura 6.1 aproximadamente aqu]
2 A partir de la distribucin n 1 del estadstico (n 1)s2/ 2 resulta sencillo calcular [Figura 6.1 aproximadamente aqu] 0,1 2 A partir de la distribucin n 1 del estadstico (n 1)s2/ 2 resulta sencillo calcular un intervalo de confianza para la varianza poblacional. El 100(1 - )% de la

0,4

0 2 2 2 un A partir de la distribucin la1 del estadstico (n 1)s 100(1 - )% de la calcular intervalo de confianza para n varianza poblacional. El / resulta sencillo distribucin muestral de este estadstico est comprendido entre los percentiles /2 y 1 -

un intervalo de confianza para la varianza poblacional. El entre - percentiles 2 distribucin muestral de este estadstico est comprendido 100(1 los )% de la /2 y 1 /2 de la distribucin chi-cuadrado con n - 1 grados de libertad, denotados por n 1, / 2 x

10

12

2 Figura distribucin muestral de este estadstico est comprendido entre los percentiles /2 y 1 -6.1 y n 1,1 / 2 , 1.2 MEDIDAS DE TENDENCIA CENTRAL 2 2 de grados y /2 n 1,1la /distribucin chi-cuadrado con n - 1 (n 1)s2de2 libertad, denotados por n intervalo A partir 2 la distribucin 2n1 del estadstico de , / resulta sencillo calcular un 1, / 2 Las de confianza para la varianza poblacional. 1) s 100(1 2 )% lainforman acerca de cul es el valor ms repre de 2 medidas El 2tendencia central distribucin muestral de este (n de 2 P entre los < n ,1 2 de la y n 1,1 / 2 , comprendido n 1, / 2 < percentiles /21y 1 / = 1 .distribucin chi-cuadrado estadstico est /2 2 2 denotados n 1)2 2 y 2 2 ( por s variable 1 de o, con n 1 grados de libertad, nde,una determinada n1,n1,1/2,=dicho . forma equivalente, estos estimadores i P 1 / 2 < < 1 / 2 n1,/2 2 2 2 ( qu varianza 2 alrededornde 1) s valor se poblacional, se observados. Manipulado esta desigualdad1,para<despejar la< n 1,1agrupanlos datosobtiene que Las medidas de tenden P n / 2 /2 =1 . 2 Manipulado esta desigualdad para despejar la varianza poblacional, se obtieneresultados observados como central de la muestra sirven tanto para resumir los que Manipulando esta desigualdad (n 1) s 2 para despejar 2la varianza2poblacional, se obtiene que (n 1) s < la 2 =1 ; P para despejar < varianzapoblacional, se obtiene que Manipulado esta desigualdad 2 inferencias acerca los parmetros poblacionales correspondientes. A n 1) / 2 de realizar/22 (n 1, s 2 1 (nn 1,1)s =1 ; P 2 < 2 < 2 n 1, / 2 n 1,1 / 2 2 continuacin se describen principales estimadores de la tendencia central d los (n 1) s (n 1) s 2 = 2 ; para la varianza 2 es decir, el IC al 100(1 - )% 2 < 2 poblacional 21 viene determinado Ppara la varianza < poblacional viene determinado por por es decir, el IC al 100(1 )% n 1, / 2 n 1,1 / 2 variable. es decir, el IC al 100(1 - )% para la varianza poblacional 2 viene determinado por 2 2 intervalos de confianza para 1)s2 / n 1,1 / 2 , (n 1)s2 / n 1, de],s2, particularmente [(n 2 no son simtricos alrededor / 2 1.2.1 2 Media aritmtica 2 2 es decir, el IC al 100(1 - )% para la 2varianza poblacional 2 viene determinado por [(n partir 1, cuyos lmitestamao muestral esareducido.1los , (n 1)s / n 1, / 2en la muestra. A diferencia de pueden calcularse 1)s / nde / 2 datos observados ], cuando el se define como loscuyos lmites confianza paraLa quepartir de los datos observados ,en la muestra. de confianza cada uno de l intervalos de pueden calcularse a2 estn centrados alrededor de x ,los intervalos A la suma de , media2aritmtica, denotada por 2 2 [(n 1)s / de1,1s2, / 2 , (n 1)s2/ n 1,cuando el tamao muestral es 2 / 2 ], n para no son pueden calcularsede partir de particularmente nula H0: muestra.2 A De igual forma, el contraste a cuyos lmites simtricos alrededoruna determinada hiptesis en la = 0 frente a los datos observados diferencia de los intervalos de confianza para dividida porcentrados alrededor de x , losrealizadas. Si deno valores muestrales , que estn el nmero de observaciones reducido.

/2 de distribucin chi-cuadrado con n - chi-cuadrado con 1, 2, y 5 grados por n 1, Figura 6.1 laFuncin de densidad de la distribucin 1 grados de libertad,3denotados de libertad. / 2 2

2 cuyos lmites pueden calcularse H partirpara puede observados =alrededor a la x , a muestra. A diferencia de losel contraste de una1determinadadatos realizarseH0:en2 la 02 el estadsticolos De igual forma, intervalos confianzade 0 hiptesis nula mediante frente de hiptesis la hiptesis alternativa bilateral n el tamaolos, que estn centrados observado para el sujeto i-simo, i = 2 por : muestral y por xi el valor 2 2 alternativa bilateral H1: 0 puede realizarse mediante el estadstico diferencia de los intervalos de confianza para , que estn centrados alrededor de x , los la media vendra dada 2por (n 1) s 6 2 = , 2

82

x + x 2 + ... + x n 6 1 n . x = xi = 1 n i =1 n que bajo H0 sigue una distribucin chi-cuadrado con n - 1 grados de libertad. As, el 6 Pastor-Barriuso R.
valor P del test se obtiene como el doblees larea a la de tendencia este estadstico bajo y de ms fcil La media del medida izquierda de central ms utilizada

2 2 2 s2 > 0 . Es importante notar1 , si s2 0 , o como el doble del dista a la derecha del estadstico, si la distribucin n que, si la distribucin subyacente rea mucho de ser menos fiables que para la media, en cuyo caso conviene proceder con cautela. Comparacin de medias en normal, los 2 intervalos de confianza y los contrastes para la varianza poblacional son dos muestras independientes 2 s > 0 . Es importante notar que, si la distribucin subyacente dista mucho de ser menos fiables que para la media, en cuyoEjemplo 6.5 Utilizando la desviacin tpica s = 0,29 mmol/l del colesterol HDL caso conviene proceder con cautela. normal, los intervalos de confianza y los contrastes para la varianza poblacional son que bajo H0 sigue una distribucin chi-cuadrado con n 1 grados de libertad. As, el valor P del en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacio test se obtiene como el doble del rea a la izquierda de este estadstico bajo la distribucin 2n1, menos Utilizandopara la media, tpica s 0,29 mmol/l proceder con cautela. en Ejemplo2 6.5fiables que el doble del rea acuyo=caso convienedel colesterol HDLEs importante notar si s 02, o como la desviacin la derecha del estadstico, si s2 > 02 . viene determinado por que, si la distribucin subyacente dista mucho de ser normal, los intervalos de confianza y los en los n = 539 controlesvarianza poblacional son95% para la varianzapara la media, en cuyo caso del EURAMIC, el IC al menos contrastes para6.5 Utilizando la desviacin tpica s =fiables que poblacional HDL Ejemplo la 0,29 mmol/l del colesterol 2 2 (5380,292/ 538;0,975 , 5380,292/ 538;0,025 ) conviene proceder con cautela. viene determinado por en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional = (45,25/604,16; 45,25/475,62) = (0,075; Ejemplo 6.5 Utilizando la desviacin tpica s = 0,29 mmol/l del colesterol HDL en los0,095), 2 2 2 2 n(5380,29 / 538;0,975del EURAMIC, ,025 ) = determinado , viene539 controles por5380,29 / 538;0el IC al 95% para la varianza poblacional viene determinado por ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grado = (45,25/604,16; 45,25/475,62) 2(0,075; 0,095), 2 2 = 2 (5380,29 / 538;0,975 , 5380,29 / 538;0,025 ) 2 2 de libertad son respectivamente 538;0,025 = 475,62 y 538;0,975 = 604,16. As, el = (45,25/604,16; 45,25/475,62) = (0,075; 0,095), ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grados ya que los percentiles 2,5al 97,5 de la distribucin chi-cuadrado con 538 grados de libertad y 95% para la desviacin tpica del colesterol HDL en la poblacin de referenc 2 2 de libertad son respectivamente 538;0,025 = 475,62 y 538;0,975 = 604,16. As, el IC al 95% para la son el IC ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grados es desviacin tpica del colesterol HDL en la poblacin de referencia es Para determinar si los niveles de colesterol HDL en los2controles del EURAMIC al 95% para la desviacin tpica del colesterol HDL en la poblacin de referencia 2 de libertad son respectivamente 538;0,025 = 475,62 y 538;0,975 = 604,16. As, el IC ( 0,075 ; 0,095 ) = (0,27; 0,31). son compatibles con una desviacin tpica poblacional de 0,30 mmol/l, se es Para determinar si los niveles del colesterol HDL en la controles del EURAMIC son al 95% para la desviacin tpicade colesterol HDL en los poblacin de referencia compatibles con una desviacin tpica poblacional 2 de 0,30 mmol/l, se contrast 2 ( 0,075 ; contrast bilateralmente la hiptesis nula H0:2 = 0,30 mediante el estadstico 0,095 ) = (0,27; 0,31). bilateralmente la hiptesis nula H0: 2 = 0,30 mediante el estadstico es

2 2 ( 0,075 ; 0,095 ) = (0,27; (n 1) s = 538 0,29 = 502,73. 2 = 0,31). 2 0 0,30 2 1.2 MEDIDAS DE TENDENCIA CENTRAL 1.2 MEDIDAS DE TENDENCIA CENTRAL 7 2 Como s < 0, el valor P corresponde a 2P( 538 502,73) = 20,140TENDENCIA CENTRAL 1.22 MEDIDAS DE TENDENCIA es decir, el 1.2 MEDIDAS DE = 0,280; CENTRAL contraste , Las medidas de tendencia central informan = 20,140 = 0,280; valor ms representativo Como s <no 0result estadsticamente significativo, 502,73)acerca de cul cul es el valor ms representat el valor P corresponde a 2P( 538 careciendo entonces de evidencia para Las medidas de tendencia central informan acerca de es el es 7 rechazar la hiptesis nula. La conclusin de este contraste es consistente con el intervalo medidas de tendencia central informan acerca de de es Las de tendencia central informan acerca de confianza para no determinada variableLasdichomedidas forma mmol/l. estosestos estimadorescul cu de una result estadsticamentevalor nulo de 0,30 equivalente, de una que ste incluye el significativo, equivalente, o, de forma indican decir, el contraste , dado determinada variable o, dicho 0 =careciendo entoncesestimadores indican

de una determinada variable o, dicho de forma equivalente, e de una determinada variable o, dicho de forma equivalen alrededor de lade qu valor se La conclusin de este contraste es medidas de tendencia alrededor hiptesis agrupan los los datos observados. Las de evidencia para rechazar qu valor senula. agrupandatos observados. Las medidas de tendencia 6.3 COMPARACIN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTESlos datos observados. m alrededor de qu valor se agrupan los datos observados. Las L alrededor de qu valor se agrupan central de lade laconfianzasirven tanto resumir los los resultados observados como central de muestra tanto dado que ste incluye el valor consistente con el intervalomuestra sirvenpara ,para para resumirresultados observados como para para Hasta ahora se han revisado las tcnicas estadsticas para realizar inferencias sobre el valor de central de la muestra sirven tanto parapara resumirresultados central de la muestra sirven tanto resumir los los resulta un parmetro0 en 0,30 poblacin. Sin embargo, una los parmetros poblacionales correspondientes. A A realizar mmol/l. inferencias acerca de los parmetros poblacionales la prctica nulo = unarealizar inferencias acerca de situacin mucho ms frecuente en correspondientes. es la comparacin de un determinado parmetro entre dos poblaciones distintas. En este apartado realizar inferencias acerca de los parmetros poblacionales co realizar inferencias acerca de los parmetros poblacionale se presentan los mtodos para comparardescribenprincipales estimadores de ladecuantitativa acentral de una continuacin se describen los los principales estimadores tendencia central de una continuacin se la media poblacional de una variable la tendencia partir de dos muestras independientes, donde las observaciones de una muestra no estn continuacin se describen los principales estimadores de la te continuacin se describen los principales estimadores de relacionadas o emparejadas con las observaciones de la otra muestra. 6.3 COMPARACIN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTES variable. variable. En adelante, la media y la varianza de la variable aleatoria en la primera poblacin se denotan variable. variable. Hasta1 ahora y en la segunda poblacinaritmtica2. Elpara realizarcentra en estimar la diferencia por y 12, se han revisado las tcnicas estadsticas objetivo se inferencias sobre el 1.2.11.2.1 Media por 2 y 2 Media aritmtica entre ambas medias poblacionales 1 2 a partir de dos muestras independientes de dichas 1.2.1 Media aritmtica 1.2.1 Media aritmtica valor de un parmetro ennunanpoblacin. Sin embargo, unaysituacincomo la1ms 22.de cadacada de los los La media aritmtica, denotada por por 2, y varianzas s yla suma de uno uno de se define como s poblaciones de tamaos Laymedia aritmtica, denotada x 1, sexdefine mucho 2suma 1 2 con medias respectivas

La media aritmtica, denotada que Como cabra esperar, el estimador puntual es laLa media aritmtica, denotada por porse 2, se define como la s diferencia de las medias muestrales x , x define como la suma frecuente en la prctica es lamuestrales dividida por el nmeroparmetro entre dos 1realizadas. Si denotamos valores comparacin de un determinado de observaciones realizadas. Si denotamos valores muestrales dividida por el nmero de observaciones representa adems un estimador insesgado y consistente de la diferencia subyacente 1 2 en la valores de medias poblacionales, nmero de observaciones r valores muestrales dividida por necesario poblacin. Para realizar inferencias esta diferenciamuestrales dividida por el esel nmero de observacion poblaciones distintas. Enpor tamaosobremuestral yxpor mtodos para comparar la el sujeto i-simo, i ...,1, ..., n por n este apartado se presentan los xi el valor observado para media el n el tamao muestral y por i el valor observado para el sujeto i-simo, i = 1, = n,
Pastor-Barriuso R. 83

por n el n el tamao muestral y x el xi el valor observado para por tamao muestral y por por valor observado para el su poblacional de una variablemedia vendra dada por dos muestras independientes, idonde la mediacuantitativa a partir de la vendra dada por la media vendra dadadada por la media vendra por las observaciones de una muestra no estn relacionadas n emparejadas con las o + ... + ... 1 1 n x1 + x1 + x 2 + x n + x n . . = = x = x x i x i = 2

2 continuacin ), describen los principales estimadores de la de la ten distribuciones normales N(1, muestrales x1 2continuacin se describen los principales estimadores tendenc , x 2 seguirn aproximadamente las central del lmite), las medias y 12 /n1) y N( y 2 /n2serespectivamente. As, al tratarse 2 n Apartado 3.4), la distribucin muestral el teorema ambos tamaos muestrales n(vaseson suficientemente grandes (recurdesede la 1 de muestras independientes variable. variable. variable. 2 la distribucin muestral de la Inferencia sobre medias de muestras normales N( 1 12 Apartado variable. 3.4), distribuciones central del deindependientes(vase/n1) y N(1 2, 22 /n2), respectivamente. As, al tratarse diferencia lmite), lastambin ,muestrales x y x seguirn aproximadamente las medias medias ser aproximadamente normal con media 1.2.1 Media aritmtica 1.2.1 Media aritmtica diferencia deindependientes (vaseaproximadamente distribucin media 1.2.1 Media aritmtica 2 la normal con de muestras medias tambin, ser/n1) y1.2.12Media aritmtica N( E( x ) respectivamente. distribuciones normales N(1x -12 x Apartado)3.4),/n2), = - muestral de la 2 E(depor se)definecomo la2suma 1de cada uno n2As, suficientemente = E( x1 , - tamaos muestrales n1 y unolos al tratarse x se define de de La media la distribucin muestral 1 x 1, 2 2,. Si ambos como la suma 2 cada deson los La media aritmtica, denotada conocer aritmtica, denotada por La las aritmtica, denotada y grandes (recurdese el teoremax ser aproximadamente)normaldenotada por x por x 2, se define como la suma central = La mediamedia = - muestrales 1, se define como la suma de ca del x ) - E( x mediascon media lmite),aritmtica, seguirn diferencia de medias tambin - Apartado 3.4), la2 distribucin muestral de la E((vase E( 1 1 22 de muestras independientes el 1 el x 2 ) de observaciones realizadas. Si denotamos 2 valores muestrales dividida por por normales N(1, 1 /n1) y N(2realizadas. Si denotamos As, al valores muestrales dividida nmero aproximadamente las distribuciones nmero de observaciones , 2 /n2), respectivamente. y varianza valores muestrales dividida por el nmero de observaciones realizad valores la distribucin muestral el la diferencia tratarse de muestras independientes (vase Apartado 3.4),muestrales dividida por de nmero de observaciones re diferencia de medias y porE( xserxaproximadamentepara1 - con mediai = 1, = 1,n, n, tambinelxvalor observado E( x 2 ) =sujeto i-simo, ) =normal - para el el sujeto i-simo, i ..., ..., E( x1 ) con media 1 - el 2valor observado normal 2 y varianza por n el n el tambin muestral y xi i por depor tamao muestral aproximadamente medias tamao ser var( x1 - x 2 ) = var( xpor nvar( x 2 el= 12 /n1 muestral.yi porvalor valor observadoel sujetosu el tamao muestral y2 /n2 1 ) + por n ) tamao + 2 por x el xi el observado para para el i la media vendra dada por por E( x1 x 2 ) = E( x1 ) E( x 2 ) = 1 2 2 la media vendra dada y varianza var( x1 - x 2 ) = var( x1 ) + var( x 2 ) = 12 /n1 + 2 /n2. la mediamedia vendra por por la vendra dada dada En consecuencia, se tiene que y varianza n + x 2 1 n y varianza var( x1x = 1 var( x1 ) xx 2++x... + ...n+. x2 . 2 En consecuencia, se tiene xx ) = x xx1= +1var( 2x 2 ) = 1n/n1 + 2 /n2 . que = i = i + x + x ... 1 n 1 n x1 + xx + ... 2 + n + x n n i =1n i =1 n n 2 2 . . x = x =x i x i = 2 1 1 2 n ==1 ~ En consecuencia, se tiene que x1 x 2 N 1 2 , + n n 2 + var( x 2 )n= 12n/n1+ 2 /n2. n i =1 i 2 2 En consecuencia, var( x1 - que) = var( x1 ) se tiene x 2 1 ~ N , 1 + 22 msms utilizada msms fcil La media es la medida de tendencia2 central 1 utilizada y de de fcil La media es la medida dextendencia central 2 y 1 x 1 2 La mediamedianes medida de tendencia centralutilizada y de m La nes la medida de tendencia central ms ms utilizada y la Enaplicando la estandarizacin de una distribucin 12 2 o, consecuencia, se tiene que centrogravedad de normal,2datosla muestra. Su Su ~ N gravedadlos +los de de la muestra. interpretacin.la estandarizacinxdeuna de 1 normal, o, interpretacin. Corresponde al x 2de aplicando Corresponde al centro distribucin 2 , de datos 1 interpretacin. n 2 Corresponde al centro de gravedad datos de 1 interpretacin. o, aplicando la estandarizacin de una distribucin n2 Corresponde al centro de gravedad de losde los da normal, 2 principal limitacin es que que est muy~influenciada los1 valoresextremos y, en este este principal limitacin es est muy x 2 ( 1 por ~ los 2 valores extremos y, en x1 influenciada ) por N (limitacin es que est muy influenciada por los valo , x1 x 2 N 1 2 2limitacin)es que est muy influenciada por los valores ex +, 1 . 0 2 principal n 2 principal n1 2 1 o, aplicando laun fiel reflejo de la xla tendencia) centralla distribucin. estandarizacin detendencia central normal,la distribucin. x1 deuna (distribucin de de 2 2 ~ 21 caso, puede no ser ser un fiel reflejo caso, puede no + N (0, 1) . n12 caso, puedepuede no ser un fiel reflejo tendencia central de la distrib n2 1 22 caso, no ser un fiel reflejo de la de la tendencia central de la o, aplicando la estandarizacin1 de x 2 ladistribucincomparacin de dos medias poblacionales x una + n 2 ) ~ Esta distribucin muestral constituye 1 ( 1 2 para la normal,) . n base N 0 1 Ejemplo 1.4 En este este ylos sucesivos ejemplos sobre ,estimadores muestrales, se se Ejemplo 1.4 En y en en los sucesivos ejemplos (sobre estimadores muestrales, a partir de muestras independientes. No12obstante, para hacer uso de este de dos medias Esta distribucin muestral constituye la 2base para la comparacin resultado, es necesario sobre sobre e 2 Ejemplo 1.4 En este yestelosen los sucesivos ejemplos estima Ejemplo 1.4 En en y sucesivos ejemplos estimar previamente las varianzascolesterol 1HDLobtenidoslos 10 primeros sujetos del del desconocidas ) ~ en ambas poblaciones. La estimacin 2 x1 x 2n (+ n 2 12 y 22 de en los 10 primeros sujetos utilizarn los valores del colesterol 1HDL obtenidos la0comparacin de dos medias utilizarn los valores del Esta distribucin muestral constituye la base para ( , 1) . No N 2 poblacionales a partir de muestras independientes. utilizarn los para 12delusoen cuyoobtenidos en los 10 se simplifica notablemente si se asume que las dos varianzas son igualeshacer colesterol HDL obtenidos en lo 2 los valores del colesterol HDL 12 2 utilizarn obstante, valores = 2 , de este caso + es posible obtener una estimacin combinada Myocardial Infarction paraand Cancer of estudio European Study on Antioxidants, de la varianza comn and ambas poblaciones. estudio European2 muestrasAntioxidants, No obstante, para hacer uso de on independientes. poblacionales a partir de Studyconstituye n 2 base Myocardial Infarction Cancer of este n1 poblacional deber estimarse dos medias 2 2 Esta distribucinmuestral previamente las varianzas desconocidaspor12separado, siendo para la comparacin de Por el contrario necesario 2 , cada varianza la estudio European Study Study y Antioxidants, Myocardial I resultado, es si 1 estimar estudio European on Antioxidants, Myocardial Infarct on 2 de entoncesthe Breast (EURAMIC),estudio multicntrico de casos y controles realizado ms impreciso el procesoun estudio multicntrico de casos y controles comparacin de inferencia. la 2 the Breast (EURAMIC), un previamente lasParece razonable pensar que y 2 de resultado, es necesariode muestras independientes. No obstante, para haceren realizado 2 poblacionales acomplicada enconstituye la base varianzas variabilidad que1quedistribuciones partir estimardistribuciones con distinta desconocidas dos usolas dos de este de ambas poblaciones. La estimacin se simplifica para laBreast si se asume estudio multicntrico de casos ca medias distribucin muestral Esta es ms the notablemente (EURAMIC), un estudio multicntrico de y Breast (EURAMIC), un medias the comparacin de con entre 1991 y 1992 en La igualdad de varianzas no Israel para evaluar el efectolos los sino una entre 1991 y 1992 en ocho pases Europeos e es una evaluar elpuramente terica, misma varianza. asuncin e notablemente si se asume ambas implicacionesLa ocho pases sepuede apreciarseparael siguienteefectoquede de poblaciones. prcticas como simplificavarianzas desconocidas 12 de las dos estimacin EuropeoslasIsrael en resultado, es a partir de muestras independientes. entre 1991 y 1992 hacer uso Europeos e Israel para para y 2 que tiene ejemplo. 2 poblacionalesnecesario estimar previamente entre 1991 y 1992 en ocho pasespases Europeos e Israelevalu No obstante, para en ocho de este 9 5 2 ambas poblaciones. el estimacin se simplifica notablemente si se asume y lasde 5 Ejemplo necesario ensayo clnico del Ejemplo 6.2 se pretende comparar 2 dos resultado, es6.6 EnLaestimar previamente las varianzas desconocidas 12 quelas medias de 9 presin arterial sistlica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo. Si este tratamiento produjera una reduccin del nivel de presin asume que las dos ambas poblaciones. La estimacin se simplifica notablemente si searterial aproximadamente 9 igual en todos los pacientes, cabra esperar que la distribucin de la presin arterial en los tratados presentara un nivel medio inferior que en el grupo placebo manteniendo inalterable la variabilidad. En tal caso, estaramos ante una comparacin de medias en 9 distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento produjera una disminucin de la presin arterial sistlica proporcional al nivel basal de cada paciente (esto es, mayor reduccin en los sujetos con niveles ms altos), la presin arterial en el grupo tratado tendra menor nivel medio y dispersin que en el grupo placebo. Bajo esta circunstancia, nos encontraramos con una comparacin de medias en distribuciones con distinta varianza (Figura 6.2(b)).

84

Pastor-Barriuso R.

Comparacin de medias en dos muestras independientes

Tratamiento

Placebo

trat

plac

(a) Efecto constante

6.3.1 Comparacin de medias en distribuciones con igual varianza


2 Si se asume que las varianzas poblaciones son iguales 12 = 2 , resulta natural estimar

Tratamiento

Placebo

una nica varianza combinada a partir de la informacin disponible en ambas muestras.


trat plac As, se obtendr un estimador ms estable de la varianza poblacional, lo que redundar
Figura 6.2 Distribucin de la presin arterial sistlica en los grupos placebo y tratamiento de un hipottico ensayo clnico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.

en una mayor precisin de la estimacin de la diferencia de medias y en una mayor 6.1 Figura potencia del contraste.

(b) Efecto proporcional

2 6.3.1 La media de las varianzas muestrales s12 y s 2 con igual varianza estimador Comparacin de medias en distribuciones podra utilizarse como

Si se asume que las varianzas poblacionales son iguales 12 = 22, resulta natural estimar una combinado combinada a Esta de la informacin disponible en ambas muestras. nica varianzade la varianza. partirmedia es, sin embargo, ineficiente ya que otorga el As, se obtendr un estimador ms estable de la varianza poblacional, lo que redundar en una mayor mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de precisin de la estimacin de la diferencia de medias y en una mayor potencia del contraste.
2 2 La media de las varianzas muestrales s1 y s2 podra utilizarse como estimador combinado de una muestra mayor sea ms fiable. Para dar ms peso a los resultados obtenidos con la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas varianzas tamao muestral, la estimacin combinada deala varianza se obtiene como lasea ms mayor muestrales, aun cuando la varianza estimada partir de una muestra mayor fiable. Para dar ms peso a los resultados obtenidos con mayor tamao muestral, la estimacin 2 2 2 combinada desla varianza se obtiene comocorrespondientes 2grados de libertad correspondientes media de 12 y s 2 ponderada por sus la media de s1 y s ponderada por sus grados de libertad

s2 =

2 (n1 1) s12 + (n 2 1) s 2 n1 + n 2 2

( xi x1 ) 2 + ( x j x 2 ) 2
i =1 j =1

n1

n2

n1 + n 2 2

El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la 2 El de cada grupo, es simplemente la suma de las al nmero de cuadrado respecto de medianumerador de s y el denominador corresponde desviaciones algrados de libertad para el clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda, (n1 la 1) + (n2 cada n1 + n2 2. denominador corresponde al nmero de grados de libertad media de 1) = grupo, y el para el clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda, (n1 1) + (n2 1) = n1 + n2 2.
Pastor-Barriuso R. 85

En la distribucin muestral de la diferencia de medias, las varianzas desconocidas

A partir de este resultado, y siguiendo un seguir aproximadamente una de la diferencia de medias ya no ser normal, sino queprocedimiento anlogo al utilizado para una
distribucin mediala diferencia 1 + mediasgrados ser normal, sino queconfianza al 100(1 - )% para t de Student con n de n2 puede derivarse un intervalo de seguir aproximadamente una de (Apartado 5.3.2), 2 ya no de libertad,
Inferencia sobre medias

la diferencia detmedias poblacionales 1 -22 comode libertad, distribucin de1 Student 1 n1la diferencia de medias, las varianzas desconocidas 2 y 2 x x 2 ( con ) ~ En la distribucin muestral de 2 + n2 grados 1 2 t n1 + n2 . puedendiferenciasustituirse por la estimacin 2combinada de la varianza s2. Sin embargo, como entonces de medias ya no ser normal, sino que seguir aproximadamente una de la 1 1 s + esta estimacin s2 est sujeta al error del ( 1 2 )la~ muestreo, 1 distribucin de la diferencia de medias ya x 1 n1 x1n x1 x 21 + n2 2,1 / 2 s t+1 + n2 2, . 2 n 2 tn no ser normal, de Student1.2 MEDIDAS DE TENDENCIA CENTRAL distribucin t sino que seguirn1 + n2 2 grados de 1libertad, con aproximadamente una distribucin t de Student con n1 + n2 2 1 1 n n2 s + grados de libertad, DE TENDENCIA CENTRAL 1.2 MEDIDAS n1 n 2 A partir de este resultado, y siguiendo un procedimiento anlogo MEDIDAS para TENDENCIA CENTRAL al utilizado una Las la 1diferencia 21.2~ 1.2 MEDIDAS acerca de cul es el CENTRAL x x 2 de tendencia central informan DE TENDENCIA valor ms represen ) muestralesDE que est centrado alrededor de medidas ( 1de medias t y cuya amplitud de 2 2 . Las medidas derivarse central informan acerca n1 + ncul - )% valor media (Apartado partir de este de tendencia siguiendo un confianza al 100(1 es elal params representativo 1 1 A 5.3.2), puede resultado, un intervalo de procedimiento anlogo utilizado para una y de una determinada variable o, dicho de forma equivalente, estos estimadores indic + s Las medidas de tendencia central informan acerca de cul es Las medidasquetendencia central informan acerca de c de este intervalo es depende de su error estndar SE( x1 - xn1) = s 2 1 / n1 + 1 / n 2 . Notar 2 n de una determinada variable o, dicho de forma equivalente, estos estimadores indican la diferencia de medias poblacionales puedecomo - 2 derivarse media (Apartado 5.3.2),alrededor de qu un intervalo de confianza al 100(1 - )% para 1 valor de una determinada utilizado o, dicho medidas equivalente, se agrupan determinada variable o, dicho de forma equivale observados. de anlogo al variable para una A partir de este resultado, y natural del un procedimiento una los datos poblacional. Las de forma de tendencia siguiendo una generalizacin bastante se agrupan intervalo para la media de medidas de tendencia media una alrededor de qu valor los observados.al 100(1 )% Las (Apartado de este puede derivarse un intervalo de confianzaanlogo al utilizado para una diferencia A partir 5.3.2), resultado, y siguiendo 1datoscomo la diferencia de medias poblacionales un-procedimientode qu valorvalorpara la los datosdatos observados 2 alrededor para resumir los resultados observados como Las central de la muestra sirven alrededor de qu se agrupan tanto se agrupan los observados. par 1 de medias poblacionales 1 2 como 1 x1 x 2 t 1 + n2 2,1 / 2 s , central de la muestra nsirventanto para+ n1 resumir los resultados observados como para Ejemplo 6.7 5.3.2), puede derivarse un media y de confianza al 100(1 la media (ApartadoEn el estudio EURAMIC, n 2intervalo la desviacin tpica del - )% para realizar inferencias acerca de1los la de la muestra sirven tanto resumir los resultados central de parmetrossirven tanto para para resumir los A central1 muestra poblacionales correspondientes. resul x x 2 parmetros 2 s + , realizar inferencias acerca 1de los t n1 + n2 2,1 / poblacionales correspondientes. A casos de infarto = colesterol HDL entre los nca = 462 - 2 como n1 de miocardio la diferencia de medias poblacionales se1muestralesloscuyanamplitud fueron x cade la tendencia central de un 2 continuacin que est centrado alrededor de la diferencia de medias describen y principales estimadores parmetros poblacionales c realizar inferencias acerca de los los parmetros poblacion realizar inferencias acerca continuacin se describen los principales medias muestrales y cuya amplitud depende que est centrado alrededor de la diferencia de estimadores de la tendencia central de una de 0,98 y sca = 0,25 mmol/l, y entre los n = 539 controles fueron x co = 1,09 y scoprincipales = que est centrado x1 xvariable. diferencia . Notar continuacin se describengeneralizacin estimadores t medias muestrales y cuya los los s 1 n depende de su error estndar SE(alrededor=de la / n1 + 1 /co 2 decontinuacin se describen una principales estimadores de la d que este intervalo es amplitud 2) 1 1 x1 x t n1 + 2 1 s + variable. bastante natural del intervalo para la2media nde2,una/ 2poblacin. , n1 n 0,29 mmol/l. De estos datos se deduce que la estimacin2 puntual de la diferencia variable. n 2 . +1 depende de su error del1.2.1 Media-aritmtica / n variable. Notar que una generalizacin bastante naturalestndar SE( xparaxla) media de1una /poblacional. este intervalo es intervalo 1 2 = s 1 Ejemplo 6.7 En el estudio EURAMIC, la media y la desviacin=tpica del colesterol HDL 1.2.1 Media aritmtica en el nivel medio de colesterol HDL es x ca - x co = 0,98 - 1,09 -0,11 mmol/l. Si que entrecentrado alrededor mediadiferencia de1.2.11.2.1mediase aritmtica 0,25 mmol/l,cada uno de los est los nca = 462 casos de infarto de miocardio fueron x ca = define sca = la suma medias muestralesuna y como La natural del intervalo para por aritmticapoblacional. Media , de y una generalizacin bastantede la aritmtica, denotadala Media 0,98cuya amplitud de y Ejemplo 6.7entre los n = 539 controles la media , se1,09 y scomo la suma de De estos datos se deduce En el estudio EURAMIC, fueron x y = define = 0,29 mmol/l. cada uno de los la desviacin tpica del La media aritmtica, denotada por co co asumimosco misma variabilidad del colesterol HDL en casos y controles, la una valores muestrales s el/ n1 por /el 2nmero que este intervalo esco se define la sum que de su error puntual SE( diferencia en Lanivel medio. Notarde observaciones, sexdefine comocomo l 1 media aritmtica, denotada por por , = + n aritmtica, HDL es dependela estimacinestndar de lax1 - x 2 ) =dividida La1mediade colesteroldenotadax carealizadas. Si denotam colesterol HDL entre losdesviacin casos Si el nmero de = mismafueron realizadas.colesterol HDL en Ejemplo 6.7 0,11el estudio EURAMIC, una 0, y desviacin valores 1,09 =ncaEndividida por asumimos la media074variabilidad del Si del 0,98decir,combinada mmol/l. de infarto de miocardio la = 0,272 mmol/l, cuyo es muestrales 462 tpica combinada vendra determinadoxpor= tpica denotamos la = de ambas muestras es s observaciones ca varianza por n el tamao muestral y pormuestrales dividida por el el el valores x el muestrales dividida por sujeto i-simo, i = 1, .. valores valor una poblacional. una casos y controles, la varianza combinada de ambas muestras vendra determinado pornmero de observaci generalizacin bastante natural del intervalo para la imedia deobservado paranmero de observaciones 0,98 y sca =por colesterol HDL entre nco = cax=elcontroles de infarto de ellos controles quei en 1, ..., n, 0,25 mmol/l, y entre los a la n 539462 casos fueron x co = miocardio = n el tamao prxima y por i valor observado para 1,09 y s i-simo, = valor est ms muestral los desviacin tpica observada en sujetoco fueron x ca = 2 la media 1) s ca + (n co 1) s conportamao muestral y poryxpor valorvalor observado el (n ca vendra dada por2 el n el tamao muestral i el xi el observado para pa s2 = la los estos ca = 0,25deduce queentren co 2 = media As, la error estndar de la mediay 6.7 En mmol/l, n ca + los n primeros). y la el fueron x tpica del 0,29 mmol/l. De casossdatos setamao muestral de losco la 539 controles diferencia = 1,09 y sco = la estimacin 0,98 vendra dada por Ejemplo (mayor el estudioyEURAMIC, puntual de desviacin co la la,074 =n vendra por +cuyo es decir, la desviacin tpica combinada es s =media vendra dada dada por + x 0 media 0,272 x + x ... mmol/l, 1 2 2 n 29 2 = 1 x= 0,98 + en el nivel medio demmol/l. DeHDLlos n 1=1462 =como dela1estimacinmmol/l. Si la diferencia colesterolentre es calcularse + (539 infarto+de 0,puntual fueron x ca .= diferencia de medias= (462xca se x25 casos - 1,090= -0,11miocardiode puede ca )-0,deduce que x ) + ,... x i074; n co 0,29 colesterol HDL estos datos x1 = 2 n x=n1 . n x = 462 + tpica observada ien los controles que enn x = valor est ms prxima a la desviacini539 2 n x x 1 1 n x + x 1 + ...2++x... + n n i =1 . = x i = xmmol/l.xSi= x1i = 2 asumimos una en el nivel medio dedel colesterol HDL en539xcontroles - 1,09 = x = 1,09 y s = misma variabilidad colesterol HDL n =cacasos y=controles, la -0,11 es x - co 0,98 fueron 0,98 y sla desviacin tpica combinada co s = 0,074 =1 = 0,25 mmol/l, y combinada es entre los1 1 1 co n =1 co 1 n n n es decir, la desviacin tpica es decir, ca SE( x - x ) = s 0,2720,017. cuyo ivalori =est mmol/l, + = 0,272 + = La media de los primeros). As, el central ms utilizada ca co los casos (mayor tamao muestrales la medida de tendenciaerror estndar de la y de ms fcil ms prximo a la desviacin tpica determinado por controles que en los casos (mayor 462 n ca observada en los 539 n co varianza combinada de ambasmisma variabilidad del colesterolutilizada y de ms fcil La media es la medida de vendra central ms asumimos una muestras tendencia en 0,29 muestral deestos a la desviacinel que la HDL en casos y controles, la tamaommol/l. prximaprimeros).deduce errorobservadade lapuntual de dede los 12puede la muestra. Su medias valor est de medias interpretacin. Correspondeestimacin los gravedadque en datos de ms utilizada ms De los datos se As,como La al La media diferencia la diferencia central ms util tpica estndar es la escontrolestendencia central centro de la medida de tendencia media medida de diferencia puede calcularse calcularse como interpretacin. Corresponde al centro de gravedad de los datos por la teniendo Su Avarianza combinada de ambas muestras vendra su error estndar, y muestra. partir de la diferencia de medias muestrales y de determinado de 2 ( ca tamao muestralcode los ca - x co 1) 2 en els nivelnmedio ca colesterolsHDL esprimeros). = 0,98 - 1,09 = -0,11 centro de gravedad y, en de 2 los casos=(mayor 1) sde + (n co limitacin esxque est As, el error estndar de al centro de gravedad es principal muy Corresponde al mmol/l. Si interpretacin.influenciada por losla interpretacin. Corresponde valores extremos de los d 1 1 n n 2 1 nca en cuenta que la ca + co co est muy+influenciada porco valores 0,017. principal limitacincaesxque= s t de Student= 0,272 2 n1los 2 = 999 grados de y, en este SE( x distribucin 1) s 2 + (ncon 1) s + ) (n + = extremos ca n ca n como co co 462 diferencia de mediascaso, puede ca ser un2fiel reflejolimitacin es quecentral de la distribucin. los val puede asumimos una misma =2 calcularseco colesterol HDLla tendenciaesest muy la influenciada por lo en 2 variabilidad del no1) 0,29 principal de 539 casos y controles, muy principal limitacin que est influenciada por s (462 1) 0,25 + (539 libertad = virtualmente reflejo de la tendencia,074; de la distribucin. es ca + co 2 0 central = caso, puede no ser un fielidnticana unandistribucin normal estandarizada, el IC al Avarianza combinada de ambas 2 muestrales y de su error estndar, y teniendo en cuenta partir de la diferencia de 539 muestras vendra determinado por 462 + medias caso,caso, puede no ser unreflejo de la de la tendencia centra puede no ser un fiel fiel reflejo tendencia central de l 1 A95% para diferenciaStudentpor ) muestrales 2 yen los sucesivos ejemplos virtualmente partir de la - de dado 1 n25 2 n este de999 29 2 estndar, y teniendo medias 1.4 que la distribucin tvienedeEjemplo0,ca 1Enco(539 = 1su ,error1 de libertad es sobre estimadores muestral y 462 con + + + 0,272 ) 0 grados = 0,017. SE( xco - x co ) (= s = ca ca = normal estandarizada, el IC al + = 0,074; viene dado por idntica a una distribucin y en los sucesivos ejemplos sobre estimadorescomuestrales, se n ca 462co 539 2 462 95% para ca n+ 539 Ejemplo 1.4 En este 2 2 (n ca de s ca los(valoresca Ejemplo 1.4 HDL obtenidos sucesivos ejemplos sobre + n co n del colesterol Engrados de y en los sucesivos ejemplos en cuenta que la distribucin t 1)Student con 1) s co nco Ejemplo 1.4 En y en los en los 10 primeros sujeto + 2 = 999 este este 2 utilizarn x ca s x co t999;0,975 + n( x ca x co ) = 12 n SE co 2 utilizarndiferencia de medias muestrales obtenidos en estndar, y teniendo colesterol HDL y de A partires virtualmente idntica acauna1,960,017 = (su error los 10 primeros sujetos del de la los valores del 0,11 distribucin normal estandarizada, el IC al libertad = 0,14; 0,08).los valores del colesterol HDL obtenid estudio European Study on Antioxidants, Myocardial Infarction and Cancer utilizarn los valores del colesterol HDL obtenidos en utilizarn 2 (462 on ) 0,25 2 + (539Myocardial Infarction and Cancer 12 1 estudio European=Studyt 1Antioxidants,nca + )n0,292 = 999 grados de of = 0,074; con en cuenta que distribucin de co 95% para ca - laco viene dado por Student539 2estudioestudio multicntrico deon Antioxidants, Myoca 462 + the Breast (EURAMIC), un European Study on Antioxidants, Myocardial casos y controles reali estudio European Study De los resultados del estudio EURAMIC puede entonces de casos y que el nivel al the es virtualmente idntica a estudio multicntrico concluirse controles IC Breast (EURAMIC), un una distribucin normal estandarizada, el realizado libertad 86 Pastor-Barriuso R. the Breast (EURAMIC), un estudio multicntric x ca - x co entre 1991 y 1992 en ochoBreastEuropeos e Israel para evaluar el efecto de t999;0,975 SE( x ca - x co )the pases (EURAMIC), un estudio multicntrico medio de 1991 y 1992 en en los pasesde infarto es Israel para 0,11 mmol/l al de los colesterol HDL ocho casos Europeos e inferior en evaluar el efecto entre - viene dado por 95% para ca co 12 entreentre 1991 en ocho pases Europeos e Israel pa 1991 y 1992 = -0,11 1,960,017 = (-0,14; -0,08). y 1992 en ocho pases Europeos e Isra

medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al


Comparacin de medias nivel medio de los sujetos libres de la enfermedad, estando estaen dos muestras independientes diferencia

que sigue aproximadamente una distribucin t de Student con n1 + n2 - 2 grados de comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%. De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de libertad si la hiptesis nula H0: 1 = 2 es cierta. Por tanto, el valor P se obtiene como el colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los En el caso de la comparacin de medias entre dos poblaciones, la hiptesis nula ms0,14 sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y rea bajo la distribucin t n1 +n2 2 para95%. mmol/l con una confianza del valores ms extremos que el valor observado de t. natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta Esta prueba de hiptesis se conoce genricamente como el test de la t de Student para En el caso de la comparacin de medias entre dos poblaciones, la hiptesis nula ms natural hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 a partir de es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta2 hiptesis nula muestras independientes con igual varianza. H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de dos muestras dos muestras independientes de igual varianza, se emplea el siguiente test estadstico independientes de igual varianza, se emplea el siguiente test estadstico Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente ms bajo en x1 x 2 x1 x 2 t= = , los casos de infarto que en losSE ( x1 libres de enfermedad sera compatible con sujetos x 2 ) 1 1 s que sigue aproximadamente una distribucin t de Student con n1 + n+ - 2 grados de n1 2 n 2 la hiptesis de que el colesterol HDL es un factor protector en el infarto de libertad si laque sigue aproximadamente una distribucin t de valor P se obtienen2 2 grados de libertad si hiptesis nula H0: 1 = 2 es cierta. Por tanto, el Student con n1 + como el la hiptesis nula En :este = 2 es cierta. Por tanto, el valor P hiptesis a partir de los bajo la miocardio. H0 1 ejemplo, se pretende contrastar esta se obtiene como el rea valores ms extremos que valor observado de t. rea bajo la distribucin t n1 +n2 2 para valores ms extremos que elel valor observado de t. Esta prueba de 13 niveles de colesterol HDL observados en los de Student para del estudio hiptesis se conoce genricamente como el test de la tcasos y controles muestras independientes Esta prueba conhiptesis se conoce genricamente como el test de la t de Student para de igual varianza. EURAMIC. El resultado de este contraste, junto con la estimacin puntual y por muestras independientes con igual nivel medio de colesterol HDL significativamente ms bajo en los Ejemplo 6.8 Un varianza. intervalo infarto que en los sujetos libres de enfermedad sera compatible con la hiptesis casos de obtenida en el ejemplo anterior, permiten evaluar no slo la de que el colesterol HDL es un factor protector para el infarto de miocardio. En este Ejemplo 6.8significacinpretende contrastar estasignificativamente de los niveles pblica del HDL Un nivel medio de colesterol HDL la relevancia clnica y de salud ejemplo, se estadstica sino tambinhiptesis a partir ms bajo en de colesterol observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, los casos dehallazgo. la en los sujetos libresyde enfermedadobtenidas en el ejemplo anterior, permiten infarto que junto con estimacin puntual por intervalo sera compatible con evaluar no slo la significacin estadstica sino tambin la relevancia clnica y de salud la hiptesis Asumiendo hallazgo. de varianzas poblacionales, el contrastede de que el colesterol HDL es un factor protector en el infarto bilateral de la pblica del igualdad Asumiendo igualdad = varianzas poblacionales, estadstico miocardio. En este ejemplo, 0sepretendese realiza mediante elel contraste bilateral de la hiptesis nula hiptesis nula H : cade co contrastar esta hiptesis a partir de los H0: ca = co se realiza mediante el estadstico niveles de colesterol HDL observados en los casos y controles del estudio x ca x co 0,11 = 6,35. t= = SE x ca x co 0,017 EURAMIC. El resultado de este contraste,(junto con) la estimacin puntual y por Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico sera t999 o intervalo obtenida en medias poblacionales fueran iguales, la distribucin de este estadstico evaluar Si ambas el ejemplo anterior, permitenEl valor Pno slo la obtiene entonces como el doble aproximadamente normal estandarizada. bilateral se de la probabilidad a la izquierda de 6,35 en la distribucin normal estandarizada, que corresponde significacin estadstica sino tambin la relevancia clnica y de salud pblica del se obtiene sera t0,001. As, puede concluirse que existen diferencias muy significativas en el nivel medio a P < 999 o aproximadamente normal estandarizada. El valor P bilateral de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo anterior, puesto que ste no contena al el contraste bilateral de la Asumiendo distribucin varianzas poblacionales,cero (valor nulo para < 0,001. As, puede igualdad de normal estandarizada, que corresponde a P la diferencia de medias). en este mediante el estadstico hiptesis Los mtodos descritos realiza apartado pueden extenderse aen comparacin de de o ms medias nula H0: ca = co existen diferencias muy significativas la el nivel medio tres concluirse que se para comparar medias en mltiples muestras independientes se conocen poblacionales. Las tcnicas con el nombre de anlisis de la varianza de una va y pueden consultarse en los libros referenciados colesterol HDL entre los co x ca x infartados y los sujetos tratan explcitamente en - 0,11 al final del tema.t Aunque estos procedimientos no selibres de enfermedad. Estaeste texto, la = = = -6,35. comparacin de mltiples ( x ca xa partir de datos independientes tambin puede abordarse mediante SE medias co ) 0,017 los modelos de regresin lineal que se presentarn ms adelante (Temas 10 y 11). 14 Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico

sera t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de -6,35 en la

Pastor-Barriuso R.

87

para contrastar estadsticamente la hiptesis de homogeneidad de varianzas en dos


Inferencia sobre medias

muestras independientes. El test para la igualdad de varianzas poblacionales se basa en la comparacin de las Contraste para la igualdad de varianzas

6.3.2

2 varianzas muestrales s12 y s 2 . Como se apunt anteriormente (Apartado 6.2.2), si la La comparacin de medias presentada en el apartado anterior se fundamenta en la asuncin de igualdad de varianzas. Esta asuncin es determinante para poder calcular una estimacin distribucin la varianza. la este apartado se presentan los mtodos para contrastar combinada de subyacente de Envariable es normal en ambas poblaciones, los estadsticos estadsticamente2 la hiptesis de homogeneidad de varianzas en dos muestras independientes. 2 2 (n1 1) s12 / 1 y (n2 1) s 2 / 2 se distribuyen como una chi-cuadrado con n1 - 1 y n2 El test para la igualdad de varianzas poblacionales se basa en la comparacin de las varianzas 2 muestrales s12 ylibertad, respectivamente. Combinando la distribucinla distribucin subyacente 1 grados de s2 . Como se apunt anteriormente (Apartado 6.2.2), si de2 estos estadsticos 2 de la variable es normal en ambas poblaciones, los estadsticos (n1 1)s1 /12 y (n2 1)s22/2 se distribuyen como una independientes, se n1 1 y n2 1 grados de libertad, respectivamente. en ambas muestras chi-cuadrado con obtiene que Combinando la distribucin de estos estadsticos en ambas muestras independientes, se obtiene que A la derecha de esta expresin se tiene el cociente de dos variables independientes chi-

2 A la derecha de esta expresin se tiene por sus respectivosvariables /(n1 1) que se conoce como la s12 / 2 n1 independientes chicuadrado divididas el cociente de dos1 grados 1de libertad, . ~ 2 2 2 s 2 / 2 n2 1 /(n 2 1) uadrado divididas distribucin F de Fisher con n - 1 grados de libertad como numerador y n - 1 en el por sus respectivos grados de libertad, que se conoce en el la 1 2 A la derecha de esta expresin se tiene el cociente de dos variables independientes chiistribucin F de Fisher con n1 - 1 grados de libertad en el numerador y n2 queen el 2 - 1 se conoce 2como la distribucin 2 2 cuadrado divididas se denota por F 15 denominador, y por sus respectivos 2grados de libertad, n1 1, n 1 . As, la razn entre s1 / 1 y s 2 / 2 sigue una F de Fisher con n1 1 grados de libertad en el numerador y n2 1 en el denominador, y 2 2 enominador, y se denota por Fn1 1, n2 1 . As, la razn entre s112/1212y y22s 2 2/2sigue una distribucin F con n1 1 y s 2 / s / 2 sigue una denota por distribucin F con n1 - 1 y n2 - 1 grados de libertad, n2 1 grados de libertad, istribucin F con n1 - 1 y n2 - 1 grados de libertad, 2 s12 / 1 ~ Fn1 1, n2 1 . 2 2 2 2 s2 / 2 s1 / 1 ~ Fn1 1, n2 1 . 2 s2 / 2 La distribucin F2 de Fisher toma slo valores positivos y est sesgada positivamente con un valor La distribucin(moda) menor de 1 y una media mayor y est Al aumentar los grados de ms frecuente F de Fisher toma slo valores positivos de 1. sesgada positivamente libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1 La distribucin F de un valor msslo valores positivos y est 1 y una media mayor de 1. Al aumentar con Fisher toma frecuente (moda) menor de sesgada positivamente (Figura 6.3). Los percentiles de la distribucin F de Fisher para distintos grados de libertad del numerador y denominador se presentan en la Tabla 7 del Apndice. on un valor ms frecuente (moda) menordel numerador y denominador, Al aumentar como la moda se los grados de libertad de 1 y una media mayor de 1. tanto la media

os grados de libertad del0,8 al valor 1 (Figura 6.3). tantopercentiles de lala moda se F de Fisher para F numerador y denominador, Los la media como distribucin 0,8 F aproximan
5,5

F5,10 F10,5 proximan al valor distintos grados de libertad del de la distribucin F de Fisher para 1 (Figura 6.3). Los percentiles numerador y denominador se presentan en la Tabla 7 del F5,30 F30,5
0,6 0,4 0,2 0 0,6 0,4

5,5

istintos grados de libertad del numerador y denominador se presentan en la Tabla 7 del Apndice.
f(x)

Apndice.

[Figura 6.3 aproximadamente aqu] 0,2 [Figura 6.3 aproximadamente aqu]


0

Ejemplo 6.9 Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una


0 1 2 3 0 1

Ejemplo 6.9 Utilizando la TablaF de Fisher con 5el percentillibertad en el numerador y denominador distribucin 7 del Apndice, grados de 97,5 de una
x x

distribucin F de Fisher con 5 = 7,15, de(a) 30 gradosnumerador y denominador grados y para libertad en el de libertad en ambos es F es F
5;5;0,975

(b) 30;30;0,975

= 2,07.
Figura 6.1

Funcin de = 7,15, y para 30 grados de libertad en ambos es inferiores,= 2,07. comprobarse libertad es F5;5;0,975Figura 6.3Aunque esta densidad de la distribucin F de Fisher al aumentar los grados de que el del detabla no facilita percentiles F30;30;0,975 puede nominador (a) y del numerador (b).

Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , = del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , =
88 Pastor-Barriuso R.

or y denominador, la distribucin F

distribucin F de Fisher con 5 grados de libertad en el numerador y d

rica alrededor del valor 1.

Comparacin de medias en dos muestras independientes es F5;5;0,975 = 7,15, y para 30 grados de libertad en ambos es F30;30;0,975

distribucin F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar puede comprobar Aunque esta tabla no facilita percentiles inferiores,

2 2 cociente entre s12 / 12Ejemplo 2 , Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una distribucin F y s 2 / 6.9 el nmero de grados de libertadpercentil en unadenominador,F con d y d grados de libertad es igu del numerador y distribucin la distribucin F 1 2 de Fisher con 5 grados de libertad en el numerador y denominador es F5;5;0,975 = 7,15, y para 30 ara la razn de dos varianzas grados hace menos dispersa y ms 30;30;0,975 = alrededor del valor 1. de Fisher se de libertad en ambos es F simtrica 2,07. Aunque esta tabla no facilita del percentil 1 - en una en una distribucin 2 con d percentiles inferiores, puede comprobarse que el percentil distribucin F con dF y d1 grados de libertad 1 y d2 grados de libertad es igual al inverso del percentil 1 en una distribucin F con d2 utilidad prctica, nos centraremos 2 y partir de F30,30 entre Fd1 , 2 = 1/ F1 2 , , 1 . As, el percentil 2,5 2 las 2 / 2 , el percentil 12 en aumentar A d1 gradosla distribucin muestral Fnd1dn2,11entonces observarsesque, 1al y distribuciones anteriores es F5; distribucin de libertad, 0,48dy,2,07. Puede del cociente entre 2,5/en las s 2distribuciones anteriores es traste bilateral de la hiptesis nula F5;5;0,025 = 1/F5;5;0,975 = 1/7,15 = 0,14 y F30;30;0,025 = 1/F30;30;0,975 = 1/2,07 = 0,48. Por sencillo grados un intervalo de confianza y denominador, 30;30;0,025 = 1/F F 1/F5;5;0,975 5,5 est comprendido distribucin el nmero de95% central de la distribucin F= para la razn y la entre 0,14 y 7,15, y = resulta tanto, el calcular de libertad del numerador 1/7,15 = 0,14 deFdos varianzas 30;30;0,975de 1/2,07 = 0,48. e basa en la razn de la distribucin F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el las varianzas nmero de gradosmenosobstante, por sucentral de la distribucindistribucin F de Fisher 95% mayor utilidad prctica, F5,5 1. de Fisher se 12 / 2 . No dispersa numerador y denominador, la nos est comprendido entre 0,14 y 7,15 poblacionales hace 2 de libertad del y ms simtrica alrededor del valor centraremos se hace menos dispersa y ms simtrica alrededor del valor 1.

aqu en el test para la igualdad de varianzas. El contraste bilateral de la hiptesis nula 2 2 2 A partir de la distribucin muestral Fn1 1, n2 1 del cociente entre ss212 /1 y s2/2 ,/ 2 , sencillo del cociente entre 1/ 2 12 y2 s 2 resulta la distribucin muestral 2 2 2 calcular un = 2 frente confianza para la razn2 de dos varianzas poblacionaleslas/2 . No obstante, H0: 12 intervalo de a la alternativa H1: 1 2 se basa en la razn de 1 varianzas 2 por su sencillo calcular un intervalo de confianza para el test para la igualdad de resulta mayor utilidad prctica, nos centraremos aqu en la razn de dos varianzas varianzas. El 2 2 2 2 contraste bilateral de la hiptesis nula H0: 1 = 2 frente a la alternativa H1: 1 2 se basa en la muestrales 2 2 razn de las varianzas muestrales 2 2 es cierta, lapoblacionales 1 / 2 . No obstante, por su mayor utilidad prctica, nos centraremos razn

s12 aqu en el test para la igualdad de varianzas. El contraste bilateral de la hiptesis nula F= 2 . que este estadstico se distribuir s2 2 2 2 H : = frente a la alternativa H1: 1 2 2 se basa en la razn de las2varianzas 2 2 2 2 2 en el numerador 0 la 21- 1 en2elnula de igualdad de varianzas 1 = 2 es cierta, la razn (s1/1)/(s2 /2 ) se reduce Siy n hiptesis 2 2 2 2 a s1 /s2lade tal forma que este estadstico se distribuir 2 es cierta, de razn con n1 1 grados Si , hiptesis nula de igualdad de varianzas 1 = segn una F la Fisher tonces como elmuestrales en el numerador y n2 1 en el denominador. El valor P del contraste se calcula doble de la de libertad 2 2 entonces 12 )/( s 2el 2 ) se de la probabilidad a talizquierda de este estadstico bajo la distribucin ( s12 / como2 / doble reduce a s12 / s 2 , de la forma que este estadstico se distribuir 22 2 2 2 2 s 2, la la distribucin Fn1 1, n2 1, si ss1 2, so como el doble del rea a s12 derecha del estadstico, si s1 > s2. 1 F= 2 . segn una F de Fisher con n1 - 1 grados de 2 s libertad en el numerador y n2 - 1 en el 2 2 2 2 Ejemplo 6.10 En los Ejemplos 6.7 y 6.8 se compar la media del colesterol HDL entre s ca 0,25 o, si s1 > s 2 . F= 2 = los casos y controles del contraste se calcula entonces como el doble de la denominador. El valor Pdel EURAMIC bajo2la asuncin de homogeneidad de varianzas. La s co 0,29 2 2 Si la hiptesisde estos resultadosde varianzas cumplimiento de dicha hiptesis. Para contrastar validez nula de igualdad depender del 1 = 2 es cierta, la razn 2 bilateralmente ompar la media del colesterol HDLla hiptesis nula H0: 2 = 2 bajo la distribucin estadsticosi s12 s 2 , probabilidad a la izquierda de este estadsticoco , se calcula el test Fn1 1, n2 1 , ca que sigue distribuir una distribucin F con nca 1 = 461 2 2 2 2 2 2 ( s1 / 1 )/( s 2 / 2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se 2 s ca 0,25 2 jo la asuncin de homogeneidad de 2 2 s2 . o como el doble del rea a la derecha del= = 0,74, F = 2 estadstico, si s1 > bajo H0. Como sca < sco, el valor P es igual a 2 de 0,29 2 segn una F de Fisher con n1 - 1 grados s co libertad en el numerador y n2 - 1 en el ender del cumplimiento de dicha que sigue una distribucin F con n calcula461 y nco como 0,001. Notarla libertad valor P sera idntico si 1= grados bajo denominador. El valor En loscontraste seca y 6.8,entonces 1 = 538doble dedeque esteHDL H0. Ejemplo 6.10 P del P es igual a 2P(F secompar = 538 gradoscolesterol Ejemplos 6.7 la el media del de libertad 2 Como sca < sco,distribucin F con nca 1 = 461 y0,74) = 20,0005 = 0,001. Notar que este 2 que sigue nco 1 461,538 ptesis nula H0: ca = co , se una el valor 2 2 valor Pa la izquierda de se hubiera utilizado el estadstico inverso F = si co /2 s s 2 1,35. En tal caso, el val sera idntico si este estadstico bajo la distribucin F probabilidad los casos y controles del EURAMIC bajo la asuncin nde, n2 1 , s s1 ca =2 ,de 1 1 homogeneidad entre. Como s P< s obtendra aPpartir de la 2P(F bajo H0 tal caso, el valor ca se co, el valor es igual a distribucin F538,461= 20,0005 = 461,538 0,74) como 2P(F538,461 1,35) = 20,0005 = 0,001. como 2P(F538,461 1,35) 2 2 distribucin F varianzas. rea a depender del cumplimiento538,461 de dicha o como el doble delLa validez de estos resultados si se hubiera 2utilizado el estadstico 0,001. Notar que estela derecha del idntico significativamente menor entre los casos de valor P sera estadstico, si s1 > s . La variabilidad del colesterol HDL resulta La variabilidad del colesterol HDL resulta sig infarto que entre los individuos libres de la enfermedad, nula lo 0cualcano puedese hiptesis. Para 2 contrastar bilateralmente la hiptesis con H : 2 = 2 , aceptarse la 2 inverso Fde igualdad de varianzas.caso, el valor P se los procedimientos utilizados en los = s co / s ca = 1,35. En tal En consecuencia, obtendra a partir decola hiptesis Ejemplo 6.10 17 los Ejemplos 6.7 y 6.8, se compar la media del colesterol HDL En casos de infarto que entre los individuos libre Ejemplos 6.7test estadstico y 6.8 son inadecuados para comparar los niveles medios de colesterol HDL calcula el distribucin controles. entre casos yF y controles del EURAMIC bajo la asuncin de homogeneidad de entre los casos538,461 como 2P(F538,461 1,35) = 20,0005 = 0,001. puede aceptarse la hiptesis de igualdad de va La variabilidad del colesterol HDL significativamente varianzas. La validez estadsticas resultala comparacin demenor entre los Existen otras tcnicas de estos resultados depender del cumplimiento de dicha muestras Ejemplos 6.7 para varianzas en procedimientos utilizados en los independientes, tales comoentre los individuos libres de lade Levene. En general, estas tcnicas el test de Bartlett la prueba enfermedad, casos de Para contrastar bilateralmenteola hiptesis nula H : 2 con lo ,cual no 17 2 hiptesis.infarto que ca = co se 0 comparar los niveles medios de colesterol HD puede aceptarse la hiptesis de igualdad de varianzas. En consecuencia, los Pastor-Barriuso R. 89 calcula el test estadstico Existen otras para procedimientos utilizados en los Ejemplos 6.7 y 6.8 son inadecuadostcnicas estadsticas para la compa

Inferencia sobre medias

2 2 As, sustituyendo 12 por s12 y 2 por s 2 en la distribucin muestral de la

diferencia de medias, se obtiene el estadstico permiten comparar varianzas entre dos o msgrupos) y, en el caso del test de Levene, la x1 x 2 ( 1 2 . comparacin no requiere que la distribucin subyacente de la variable sea normal. Los lectores 2 s12 s 2en las referencias incluidas al final del tema. interesados pueden consultar estos procedimientos + n1 n 2
2 2 6.3.3 As, sustituyendode 12 por s12en distribucionesla distribucin muestral de la Comparacin medias y 2 por s 2 en con distinta varianza Aunque resulta complicado derivar la distribucin exacta de este estadstico, existen Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimacin diferencia de medias, se obtiene el estadstico combinada de la varianza, yaque funcionan bien en la sobreestimar la variabilidad especfica de diversas aproximaciones que sta infraestimar o prctica. El mtodo ms utilizado es cada poblacin. En este caso, aun perdiendo algo de precisin, es preferible estimar por separado las 2 As, sustituyendo 12 2 s12 y x1 2 sus correspondientes 2 2 2 1 distribucin muestral estadstico varianzas poblacionalesWelch,22que permitexaproximarla)distribucin de este de la s12 y s22 . la aproximacin de 1y pormediante pors( en la 2 . varianzas muestrales 2 2 2 2 2 2 la s 2 As, sustituyendo 1 por s1 y 2 por s2 en s1 distribucin muestral de la diferencia de medias, +grados de libertad diferencia de medias, mediante estadstico se obtiene el estadstico se obtiene el una t de Student con los siguientes n 2 n1

x1 ( 2x 2 n (+ s 2/ 2 ) 2 1 1 / 1 2 Aunque resulta complicado derivar la sdistribucin n 2 ) . de este estadstico, existen exacta d= 2 . 2 2 2 s121) +s(2s 2 / n 2 ) 2 /(n 2 1) ( s1 / n1 ) /(n1 + n1 n diversas aproximaciones que funcionan bien en 2la prctica. El mtodo ms utilizado es

Aunque resulta complicadodderivar la distribucinigual a nde esteestadstico, existen diversas Puede comprobarse que es siempre inferior o exacta 1 + n2 2; es decir, esta la aproximacin de Welch, que permite aproximar la distribucin de este estadstico Aunque resulta complicado bien en la prctica. El exacta ms utilizado es la aproximacin aproximaciones que funcionan derivar la distribucin mtodode este estadstico, existen de distribucin permite aproximar la distribucin de este estadstico mediante una t dede Welch, que t de Student ser ms dispersa que la empleada en el caso de igualdad Student mediante una t de Student con los siguientes grados de libertad diversas aproximaciones que funcionan bien en la prctica. El mtodo ms utilizado es con los siguientes grados de libertad varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la 2 la aproximacin de Welch, que permite aproximarn 2 )distribucin de este estadstico ( s12 / n1 + s 2 / la 2 distribucin resultante d =de 2 / n ) 2 /(n 1) + ( s 2 / n ) 2 /(n 1conllevar una ha ( s reflejar mayor incertidumbre. Esto ) . 1 1 1 2 2 2 mediante una t de Student con los siguientes grados de libertad disminucin tanto en d precisin de los intervalos a n1 + n2 2; es decir, esta distribucin Puede comprobarse que la es siempre inferior o igual de confianza como en la potencia de t de Puede comprobarse que d que la empleada en el igualden1 + n2 2; es decir, esta es lo que Student ser ms dispersa es siempre inferior o caso a2 igualdad de varianzas. Esto 2 ( s12 / n1 + s 2 / n 2 ) los esperar ya cabra contrastes. que, al d = 2 por 2separado las varianzas, la distribucin resultante ha de estimar . ( / n /(n1 que s 2 / n 2 ) 2 /(n 1) distribucin incertidumbre. sEsto 1 )dispersa1) una empleada 2en el caso de igualdad de reflejar mayor t de Student ser1 msconllevar + (la2disminucin tanto en la precisin de los En el caso de distribuciones potencia de los contrastes. intervalos de confianza como en lacon distinta varianza, el intervalo de confianza al 100(1 varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la Puedecaso de distribuciones con distinta varianza, el a n1 + n2 2;confianza esta En el comprobarse que d es siempre inferior o igual intervalo de es decir, al 100(1 )% )% para la diferencia de medias poblacionales 1 - 2 vendr determinado por para la diferencia de medias poblacionales 1 incertidumbre. Esto conllevar una distribucin resultante ha de reflejar mayor 2 vendr determinado por distribucin t de Student ser ms dispersa que la empleada en el caso de igualdad de

90

s s2 disminucin tanto en la precisin de los intervalos1de confianza como en la potencia de + x x 2 t d que, varianzas. Esto es lo que cabra 1esperar ya,1 / 2 al estimar ,por separado las varianzas, la n1 n 2 los contrastes. distribucin grados de libertad calculados segn la frmula anterior. De una donde d son losresultante ha de reflejar mayor incertidumbre. Esto conllevarigual forma, para donde el son los grados H : 1 = frente a la alternativa H1: de a partir igual 100(1 contrastardla hiptesis nulade 0libertad 2calculados segn la frmula1 anterior. De de dos muestras En caso de distribuciones con distinta varianza, el intervalo 2 confianza al forma, disminucin con distintaprecisin de los intervalos de confianza como en la potencia de independientes tanto en la varianza, se emplea el estadstico para para la diferencia de medias 0: 1 = 2 frente - vendr determinado 2 a )% contrastar la hiptesis nula Hpoblacionales 1 a la2alternativa H1: 1 por partir de los contrastes. x1 x 2 , t= 2 dos muestras independientes con distinta varianza, se emplea el estadstico s12 s 2 2 En el caso de distribuciones con distinta varianza, el 2 + s1 s 2intervalo de confianza al 100(1 , x1 x 2 t d ,1n / 2 n 2 + 1 n1 n 2 )% para la diferencia se distribuye aproximadamente segn determinado por que bajo la hiptesis nula,de medias poblacionales 1 - 2 vendruna t de Student con d grados 19 de que bajo As, el valor nula, se distribuyela probabilidad de obteneruna t de ms extremos que libertad. la hiptesis P viene dado por aproximadamente segn valores Student con d donde d son los grados de distribucin t . Este contraste2 se conoce con De igual de test el valor observado de t bajo lalibertad calculados segn la frmula anterior.el nombre forma, de d s12 s 2 grados de libertad. muestras independientes/ con la probabilidad de obtener valores ms As, el valor1P viene tdado 2 distinta, varianza. x 2 d ,1 por + x la t de Student para n1 alternativa H1: 1 2 a partir de para contrastar la hiptesis nula H0: 1 = 2 frente a la n 2 extremos que el valor observado de t bajo la distribucin td. Este contraste se conoce Pastor-Barriuso R. dos muestraslos grados de libertad calculados segn laemplea elanterior. De igual forma, donde d son independientes con distinta varianza, se frmula estadstico con el nombre de test de la t de Student para muestras independientes con distinta

Ejemplo 6.11 En el Ejemplo 6.10 se contrast que HDL difiere significativamente entre los casos de infarto y los sujetos libres de la independientes con distinta varianza. La estimacin puntual de la significativamente entre los casos de i HDL difiere diferencia de enfermedad. Por ello, la comparacin del nivel medio de colesterol HDL entre Comparacin de medias en dos muestras independientes

medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estndar ello, la comparacin del nivel med enfermedad. Por se estima casos y controles ha de realizarse mediante la prueba t de Student para muestras

directamente En Ejemplo 6.11por el Ejemplo 6.10 se contrast quecasos y controles ha colesterol HDL la variabilidad del de realizarse mediante la prue independientes con distinta varianza. La estimacin puntual de la diferencia de difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad. independientes con controles ha de Por ello, la comparacin del nivel2 medio de colesterol HDL entre casos ydistinta varianza. La estimacin medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo ,error estndar se estima 0,25 2 0 29 2 s s2 realizarse mediante la xprueba t ca +Student para muestras independientes con distinta de co = SE( x ca - co ) = + = 0,017. 462 539 n ca landiferencia de medias es x ca x co = 0,98 1,09 = -0,11 mmol/l, c co = - 1,09 = varianza. La estimacin puntual de directamente por 0,11 mmol/l, cuyo error estndar se estima directamente por directamente por En el caso de varianzas heterogneas, los grados de libertad para la distribucin 2 2 2 0,25 0,29 2 s ca s co + = + = 0,017. SE( x ca x co ) = de la diferencia de medias vienencadeterminados por la aproximacin de Welch, a 2 2 462 539 n n co 0,25 2 s ca s co + = SE( x ca - x co ) = 462 n En el caso de varianzas heterogneas, los grados de libertad para la distribucin decala n co saber En el caso de varianzas heterogneas, los por la de libertad para Welch diferencia de medias vienen determinadosgrados aproximacin dela distribucin

En resumen, la comparacin de medias en muestras independientes requiere contrastar en 95% 0,080,14 mmol/l). En este caso, diferencia estimada en 0,11 mmol/l (IC al de la enfermedad (P < varianzas, una despus utilizar segn asumiendo primer lugar la igualdad de 0,001), conpara los resultados obtenidosproceda el test de la t de Student con igual o distinta varianza. Esta distincin no es meramente acadmica: si la homogeneidad o heterogeneidad de varianzas son virtualmente idnticos debido, variabilidad difiere entre ambas poblaciones, los procedimientos de estimacin y contraste 95% 0,080,14 mmol/l). En este caso, los resultados obtenidos asumiendo asumiendo igualdad de varianzas pueden ser muy engaosos, particularmente en muestras en o moderadas heterogeneidad n yvarianzas son virtualmente idnticos pequeasparte, a que ambos tamaos muestrales no difieren sustancialmente. debido, homogeneidad o cuyos tamaos de n2 difieran sustancialmente. 1

2 En el caso de varianzas heterogneas, los grados de ( s 2vienen s co / n co ) 2 de la diferencia de mediasca / n ca +determinados por la aproximacin de Welch, a d en este ejemplo, los grados2 de libertad son casi iguales a los obtenidos = 2 Notar que, ( s / n ) 2 (n 1) + ( s / n ) 2 (n 1) ca ca ca co co co de la diferencia de medias vienen determinados po saber 2 varianzas (n + n 2 2 = 999). A partir de estos 2 bajo laque, en este ejemplo, 25 grados de29 ca/ 539son casi iguales a los obtenidos (0, de ) Notar asuncin de igualdadlos / 462 + 0, libertad co = = 998,97. saber 2 2 2 (0,25 / 462s 2 / 462+ s ) + n0,29 / 539) 2 (539 1) 12 ( ) ( ) ca ( nun IC co /95% 2para ca - co como resultados, es posible calcular cavarianzasco(nca + nco 2 = 999). A partir de estos al bajo la asuncin2 de igualdad de d= 2 2 Notar que, en (este/ ejemplo, ca gradosco / n co ) 2 (n co 1) iguales a los obtenidos/ bajo+la 2 / n ) 2 los 1) + ( s 2de libertad son casi s ca n ca ) (n ( s ca n ca s co co d= 2 asuncin de igualdad calcular un IC(nca 95%copara 999). A partir de estos resultados es 2 + = resultados, es posible de varianzas alSE( n ca 2 co ca - co como ( s ca / n ca ) 2 (n ca 1) + ( s co / n co ) 2 (n co x ca - x co(0,25 2 / 462 + 0,29 2 /-539))2 t998,97;0,975 x x posible calcular un IC al 95% para ca co como = = 998,97. (0,25 2 / 462) 2 (462 1) + (0,29 2 / 539) 2 (539 1) 20 (0,25 2 / 462 + 0,29 2 / 539) x ca x co = -0,11 1,960,017 co)(-0,14; -0,08), t998,97;0,975 SE ( x ca x = = (0,25 2 / 462) 2 (462 1) + (0,29 2 / 539 = 0,11 1,960,017 = (0,14; 0,08), y contrastar la hiptesis nula H0: ca = co mediante el estadstico y contrastar la hiptesis nula H0: ca = co mediante el estadstico 20 y contrastar la hiptesis nula H0ca cax= co mediante el estadstico x : co 0,11 = 6,44, t= = SE ( x ca x co ) 0,017 x co - 0,11 que bajo la distribucint t= x canormal estandarizada, corresponde a un valor P menor = = -6,44, 998,97 o SE ( normal ) 0,017 que bajo la As, se pone t998,97 o x ca x que los casos decorresponde a un valor P medio 0,001. distribucin de manifiesto coestandarizada, infarto presentan un nivel de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad (P <bajo la 0,001.una diferencia normal estandarizada, corresponde a un valor Pun menor que distribucin t poneode manifiesto 0,11 los casos de al 95% presentan mmol/l). que 0,001), con As, se998,97 estimada en que mmol/l (IC infarto 0,08-0,14 En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de varianzas son virtualmente idnticos debido, queparte, a que ambos tamaos muestrales nivel medio de colesterol pone de manifiesto en los casos que los sujetos libresun menor que 0,001. As, se HDL significativamente inferior de infarto presentan no difieren sustancialmente. de la enfermedad (P < 0,001), con una diferencia estimada que0,11 sujetos libres nivel medio de colesterol HDL significativamente inferior en los mmol/l (IC al

en parte, a que ambos tamaos muestrales no difieren sustancialmente. En resumen, la comparacin de medias en muestras independientes requiere contrastar en primer lugar la igualdad de varianzas, para despus utilizar segn proceda En resumen, la comparacin de medias en muestras independientes requiere el test de la t de Student con igual o distinta varianza. Esta distincin no es meramente contrastar en primer lugar la igualdad de varianzas, para despus utilizar segn proceda Pastor-Barriuso R. acadmica: side Student con igual o distinta varianza. Esta distincin no es meramente el test de la t la variabilidad difiere entre ambas poblaciones, los procedimientos de
91

Inferencia sobre medias

6.4

COMPARACIN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES

Los datos dependientes surgen cuando las observaciones recogidas en el estudio estn correlacionadas entre s. A continuacin se presentan algunos mecanismos y diseos epidemiolgicos que generan datos dependientes: y La obtencin de dos o ms determinaciones de la misma variable en un mismo sujeto da lugar a datos dependientes, que pueden presentarse como: Diferentes medidas de la misma variable en un momento determinado, habitualmente para aumentar la fiabilidad del instrumento de medida. Determinaciones de la misma variable en diferentes localizaciones anatmicas. Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones antes y despus de un tratamiento, en ensayos clnicos cruzados o en estudios de medidas repetidas con visitas sucesivas. y La seleccin de los participantes en un estudio emparejndolos por determinadas caractersticas pronsticas genera datos dependientes entre los sujetos emparejados. El ejemplo ms habitual es el emparejamiento en el diseo de los estudios de casos y controles. y Los datos de estudios procedentes de sujetos de una misma familia o de animales pertenecientes a la misma camada suelen ser tambin dependientes. En todos estos casos, la correlacin se limita a los grupos especficos donde se genera la dependencia, que suelen ser habitualmente parejas. As, en un estudio de casos y controles emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas son independientes entre s. Igualmente, en un estudio de medidas repetidas, los datos de un mismo individuo son dependientes, mientras que los resultados en diferentes individuos son independientes entre s. Las muestras dependientes estn constituidas por observaciones en los mismos sujetos o en distintos sujetos emparejados segn ciertas caractersticas pronsticas de inters. De esta forma, la distribucin de dichas caractersticas ser similar en ambas muestras, eliminando as la posibilidad de que estos factores influyan en la comparacin objeto de estudio. En general, el emparejamiento es una tcnica frecuentemente utilizada en el diseo de estudios clnicos o epidemiolgicos con el propsito de controlar por determinados factores de confusin (ver textos de mtodo epidemiolgico referenciados al final del tema). Estos diseos requieren de tcnicas especficas de anlisis que preserven el emparejamiento. En este apartado se revisan los mtodos estadsticos para el tratamiento de un caso especfico de dependencia, en el que se dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes. Ejemplo 6.12 Supongamos que en el estudio EURAMIC se seleccionan aleatoriamente 50 casos de infarto de miocardio. Como la edad es un importante factor pronstico de enfermedades coronarias, cada uno de estos casos se emparej por grupos quinquenales de edad a un control libre de la enfermedad. As, por ejemplo, para un caso de 62 aos de edad se seleccion aleatoriamente un control entre todos los controles disponibles con edades comprendidas entre 60 y 64 aos. La muestra resultante de aplicar este procedimiento constituira un estudio de casos y controles emparejados. En este estudio, cabra esperar un cierto grado de correlacin en la informacin recogida para cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos y controles.
92 Pastor-Barriuso R.

Comparacin de medias en dos muestras dependientes

Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados segn grupos quinquenales de edad.
Colesterol HDL (mmol/l) Pareja 1 Caso 0,81 Control 0,63 d* 0,18 Pareja 26 Colesterol HDL (mmol/l) Caso 0,96 1,33 0,93 0,32 0,86 0,93 1,40 1,50 0,92 0,88 0,82 1,52 1,68 0,81 0,60 1,16 0,75 0,96 1,46 0,76 0,76 1,12 1,01 0,99 0,75 Control 1,29 0,72 1,04 1,54 1,08 1,12 1,75 1,29 1,17 0,93 0,88 0,74 1,45 1,02 1,15 1,49 0,98 1,31 1,15 1,51 1,01 1,26 0,91 1,63 1,45 d*

0,33
0,61 0,11 1,22 0,22 0,19 0,35 0,21 0,25 0,05 0,06 0,78 0,23 0,21 0,55 0,33 0,23 0,35 0,31 0,75 0,25 0,14 0,10 0,64 0,70

2 0,91 0,91 0,00 27 3 0,98 0,76 0,22 28 4 0,91 1,19 0,28 29 5 0,55 0,99 0,44 30 6 0,62 1,14 0,52 31 7 0,79 0,73 0,06 32 8 0,89 1,08 0,19 33 9 1,24 0,87 0,37 34 10 1,76 1,04 0,72 35 11 1,35 1,03 0,32 36 12 0,72 1,09 0,37 37 13 0,94 1,12 0,18 38 14 1,01 1,20 0,19 39 15 0,98 1,62 0,64 40 16 0,92 1,25 0,33 41 17 0,68 1,31 0,63 42 18 1,48 1,00 0,48 43 etar el problema, supongamos que se dispone de n pares0,45 observaciones de 19 1,23 0,78 44 20 0,83 0,95 0,12 45 e aleatoria continua. 21 cada pareja de datos dependientes, una 46 En 0,92 1,13 0,21 22 0,82 0,97 0,15 47 corresponde a la primera muestra y la otra observacin x2 a la segunda 23 1,21 0,74 0,47 48 24 0,78 0,88 0,10 49 jetivo se centra en comparar las medias poblacionales 1 y 2 a partir de 25 0,88 1,14 0,26 50

* Diferencia de colesterol HDL entre caso y control. stras dependientes.

imientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta Para concretar el problema supongamos que se dispone de n pares de observaciones de una variable aleatoria continua. En cada pareja de datos dependientes, una observacin x1 corresponde ue las medias de ambas muestras no son independientes por provenir de a la primera muestra y la otra observacin x2 a la segunda muestra. El objetivo se centra en comparar las medias poblacionales 1 y 2 a partir de estas correlacionadas. Sin embargo, la comparacin se simplifica notablementedos muestras dependientes.

Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situacin, ya las diferencias d = x1 - x2 en cada una de lasmuestras no son emparejadas. que las medias de ambas n observaciones independientes por provenir de observaciones correlacionadas. Sin embargo, la comparacin se simplifica notablemente si se calculan las omo las distintas parejas nodestn x2 en cada una des, estas diferencias emparejadas. Por un lado, como las diferencias = x1 relacionadas entre las n observaciones distintas parejas no estn relacionadas entre s, estas diferencias son independientes. Por otro lado, la media de las diferencias coincide con la entes. Por otro lado, la media de las diferencias d coincide con la diferencia de medias muestrales,

medias muestrales,

d= =

1 n 1 n d i = ( x i1 x i 2 ) n i =1 n i =1 1 1 xi1 n xi 2 = x1 x 2 n i =1 i =1
n n

Pastor-Barriuso R.

93

i =1

i =1

n son independientes. Por otro lado, n rrollados en el Apartado 6.3 no pueden aplicarse=a 1 la media de las diferencias d coincide con la esta x 1 i1 n xi 2 = x1 x 2 Inferencia sobre medias n i =1 i =1 diferencia de medias muestrales, de ambas muestras no son independientes por provenir de donde sd es la desviacin tpica de las diferencias observadas. De igual forma, la das. Sin embargo, y, en consecuencia, d es un estimador insesgado de la diferencia de medias la comparacin se simplifica notablemente1 n 1 n = di = dpoblacionales H : ( x i1=x i 2 ) hiptesis de igualdad de medias 0 1 2 puede contrastarse frente a la n i =1 poblacionales observaciones emparejadas. n i =1 s d = x - x en cada una de las n 1 - 2. As, el problema de la comparacin de medias en dos muestras

1 n 1 n hiptesis alternativa H1: 1 2 mediante el estadstico x x dependientes queda s, estas a= x i1 una simple xi 2 = 1 2 tas parejas no estn relacionadas entrereducido diferencias inferencia sobre la media de una nica n i =1 n i =1

muestra de n diferencias independientes. o lado, la mediay, en consecuencia, d es un estimador insesgado de la diferencia de medias poblacionales 1 2. de las diferencias coincide con la t = d . sd As, el problema de la comparacin de medias en dosde la diferencia de medias y, en consecuencia, d es un estimador insesgado muestras dependientes queda reducido a Los mtodos del Apartado 6.2.1 para la media de una muestra pueden entonces n rales, una simple inferencia sobre la media de una nica muestra de n diferencias independientes. poblacionales el problema de la comparacin medias en entonces Los mtodos 1 - 2. As,intervalo de confianza al 100(1 -de )% pueden dos muestras utilizarse paradel Apartado 6.2.1 para la media de una muestra para 1 - 2 comoutilizarse calcular un Bajo la hiptesis nula, las diferencias observadas )% para 1 2 como para 1 n 1 n calcular un intervalo de confianza al 100(1 se distribuiranaleatoriamente d = d i = ( x i1 x i 2 ) queda reducido a una simple inferencia sobre la media de una nica dependientes n i =1 n i =1 donde d es la desviacin tpica que este diferenciassobservadas. De igual forma, la d alrededor sdel valor 0, de tal forma de las testadstico seguira una distribucin t de d , n n muestra de n diferencias independientes.n 1,1 / 2 n 1 1 = x i1 Student con1de- igualdad de medias poblacionales H0: 1 = 2 puede contrastarse frente a la hiptesis xi 2 = x n x12 grados de liberad. El valor P corresponder, por tanto, a la n i =1 n i =1 dondeLoses la desviacin tpica de las para la media de una muestra pueden entonces sd mtodos del Apartado 6.2.1 diferencias observadas. De igual forma, la hiptesis de igualdad de medias poblacionalestH0:para valores ms extremos que el a la hiptesis alternativa hiptesis bajo la distribucin n-1 1 = 2 puede contrastarse frente valor observado probabilidadalternativa H1: 1 2 mediante el estadstico H1:utilizarsemediante elde medias 1 de la para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 como n estimador insesgado 2 diferencia estadstico 24 de t. Esta prueba se denomina habitualmente como el test de la t de Student para d .s d el problema de la comparacin de medias en dos muestrast = d d t n s,1 / 2 , 1 muestras dependientes. n n o a una simple inferencia sobre la media de una nica Bajo la hiptesis nula, las diferencias observadas se distribuiran aleatoriamente alrededor del Ejemplo 6.13 que las estadstico observadas distribuiran aleatoriamente Bajo de tal formaPara preservar el emparejamientodistribucin t de Student con n la dependientes. valor 0, la hiptesis nula,este diferencias seguira unaseentre los casos y controles de 1 grados ar el problema,de libertad. Elque se P corresponder, por tanto, a la probabilidad bajo la distribucin tn1 para supongamos valor dispone de n pares de observaciones alrededor del se calcula el valor observado de t. Esta d = xca se en cada habitualmente do 6.2.1 para la valoresde unaextremos0, dela diferencia de colesterol HDL prueba unadenominapareja. 24 mediaTabla 6.1, valor pueden entonces este estadstico seguira - xcodistribucin t de ms muestra que tal forma que como el test pareja de datos dependientes, una aleatoria continua. En cada de la t de Student para muestras dependientes. Student con n 1 grados de liberad. El valor P corresponder, por tanto, a un ntervalo de confianzaComo puede)% para 1 -predominan las parejas donde el caso presenta la nivel al 100(1 - - apreciarse, 2 como Ejemplo 6.13 Para preservar el emparejamiento entre los casos y controles de la Tabla 6.1, corresponde a la primera muestra y la otra observacin x2 a la segunda inferior debajo la distribucin t su correspondiente control (diferencias negativas). probabilidad lacolesterol HDL quen-1 para valores x en cada pareja. el valor observado se calcula diferencia de colesterol HDL d = xca ms extremos que Como puede apreciarse, co sd , etivo se d t n 1en comparar las medias poblacionales caso 2 a partir de centra ,1 / 2 predominan las parejas donde el 1 y presenta un nivel inferior de colesterol HDL que su De de t. n hecho, la media de estashabitualmente como el hecho, la media de estas para Esta prueba se denomina diferencias correspondiente control (diferencias negativas). De test de la t de Student diferencias tras dependientes. muestras dependientes. 1 50 0,18 + 0,00 + ... 0,70 d= = = 0,12 d i aplicarse a esta mientos desarrollados en el Apartado 6.3 no50 i =1 pueden 50 Ejemplo 6.13 Para preservar el 24nivel medio es una estimacin independientes emparejamiento entre los casos y controles de la ue las medias de ambas muestras no sonde la diferencia en elprovenir de de colesterol HDL entre los casos de por es una estimacin 2 libres 50 la enfermedad. La varianzacolesterol HDL entre losdada por de infarto y los sujetos la1diferencia en2el nivel medio de de las diferencias viene de sd = Tabla 6.1, se calcula la diferencia de colesterol HDL d = xca - xco en cada pareja. (d i d ) 49 50 correlacionadas. Sin embargo, la comparacin ise simplifica notablemente =1 1 casos de infarto y los sujetos libres de la enfermedad. La varianza de las 2 sd = (d i d ) 2 Como puede apreciarse, predominan las(0,70 + donde el caso presenta un nivel (0observaciones... + parejas 0,12) 2 ,181+ 0,12) 2 + emparejadas. 49 as diferencias d = x1 - x2 en cada una de las n i = = = 0,16, diferencias viene dada por 49 2 2 inferior de colesterol0HDL que )su + ( ,12 correspondiente control (diferencias negativas). mo las distintas parejas no estn relacionadas,18 + 0s, estas... + (0,70 + 0,12) = 0,16, diferencias = entre 49 De hecho, estndar luego el error la media de estas diferencias d es ntes. Por otro lado, laluego elde las estndar de d es media error diferencias coincide con la luego el error estndar de d es 1 50 0 s ,18 + ,40 + ... 0,70 00,00 medias muestrales, d = SE (dd i = d = = 0,057 . = 0,12 ) = 50 i =1 n 50 50 sd 0,40 SE (d ) = = = 0,057 . 25 1 n 1 n n 50 d = d i = ( x i1 x i 2 ) eselR. i =estimacin de la diferencia en el nivel medio de colesterol HDL entre los una 1 95% para la diferencia de medias poblacionales ca - co se obtiene 94 Pastor-Barriuso n al n i =As, IC 1 = 1 ncomo 1 de infarto y los sujetos libres de la enfermedad. La varianza de las As, el ICnal 95% para la diferencia de medias poblacionales ca - co se obtiene casos xi1 n xi 2 = x1 x 2 n i =1 i =1

= = 0,057 . n 50 As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene As, comoel IC al 95% para la diferencia de medias poblacionales ca - co se obtiene
49;0,975

SE (d ) =

Referencias

como As, el IC al 95% para la diferencia de medias poblacionales ca co se obtiene como d t SE( d )
d t49;0,975-0,12 ) 2,010,057 = (-0,23; -0,01), = SE( d = 0,12 2,010,057 = ( 0,23; 0,01),

y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico d 0,12 t= = 2,13, = SE (d ) 0,057 d 0,12 t= = = -2,13, cuyo valor P asociado en la distribucin t0,057P = 2P(t49 2,13) = 20,019 = 0,038. De SE (d ) 49 es cuyo valor de casos y controles emparejados P = 2P(t49 -2,13) = 20,019 la este estudioP asociado en la distribucin t49 espuede entonces concluirse que = media del colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de cuyo 0,038.valor P (IC al 95% 0,01-0,23 mmol/l), siendo esta diferencia estadsticamente los controles asociado en la distribucin t49 es P = 2P(t49 -2,13) = 20,019 = significativa (P = 0,038). Esta conclusin es consistente con la obtenida en el Ejemplo 0,038. De este estudio de casos y controles emparejados, puede entonces concluirse que 6.11 para las muestras completas e independientes de casos y controles. No obstante, cabe destacar las siguientes particularidades. Por un lado, esta estimacin est sujeta a mayor De este del colesterol HDL en slo emparejados, es inferior y 0,12 mmol/l otro la media estudio de casos y controles utiliza infartopuede entonces concluirse al variabilidad aleatoria ya que tan los casos de50 parejas de casos encontroles. Porque lado, el diseo emparejado permite comparar casos con controles de similar edad y, en la media del colesterol HDL casos de infarto es inferior en 0,12 nivel medio de los controles en los95% 0,010,23 mmol/l), siendo estammol/l al consecuencia, la estimacin(IC al menos propensa a posibles sesgos diferencia de la ser derivados diferencia de edad entre casos y controles. nivel medio de significativa (P al 95% 0,010,23 mmol/l), consistente con la estadsticamentelos controles (IC = 0,038). Esta conclusin essiendo esta diferencia Los procedimientos presentados en este apartado se limitan a la comparacin de una variable estadsticamente significativa (P = 0,038). Esta conclusin es consistente de obtenida en el Ejemplo 6.11 para las muestras completas independientes con la continua a partir de dos muestras emparejadas sujeto a sujeto. Eleanlisis de la varianza de dos vas permite extender esta comparacin a casos ms generales de dependencia, tales como el obtenida en el Ejemplo 6.11 para las muestras completas casos y controles. No un sujeto por destacar las ejemplo, e independientes dey controles diseo de parejas con ms deobstante, cabemuestra (por siguientes particularidades. Por un estudio de casos donde cada caso se empareja con 2 controles) o la comparacin de tres o ms muestras casos y esta estimacin Por un lado, controles. No obstante, cabe destacar las siguientes particularidades. solo dependientes (por ejemplo, un est sujeta a mayor variabilidad aleatoria ya que tantratamientos ensayo clnico donde cada paciente recibe diversos alternativos). Los mtodos de anlisis de la varianza de dos vas pueden consultarse en los un lado, esta estimacin est sujeta a mayor variabilidad aleatoria ya que tan solo textosutiliza 50 parejas de a continuacin. Por otro lado, el diseo emparejado estadsticos citados casos y controles. utiliza 50 parejas de casos y controles. Por otro lado, el diseo emparejado 6.5 REFERENCIAS 26

1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 26 Fourth Edition. Oxford: Blackwell Science, 2001. 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980. 4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001. 5. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & Sons, 1986.

Pastor-Barriuso R.

95

Inferencia sobre medias

7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and Quantitative Methods. New York: John Wiley & Sons, 1982. 8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998. 9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008. 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. 12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

96

Pastor-Barriuso R.

7.1 INTRODUCCIN En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas, que reflejan la presencia o ausencia de una determinada caracterstica en los miembros TEMA 7 de una poblacin. El inters radica fundamentalmente en estimar la proporcin de individuos o elementos de la poblacin que presentan dicha caracterstica.

INFERENCIA SOBRE PROPORCIONES

Esta de muestras dependientes es un parmetro desconocido que se estima mediante la partir proporcin poblacional e independientes. Para cada problema de inferencia Brevemente, recordamos donde proporcin muestral p tiende individuos que forma proporcin muestral p = k/n, Para cada problema de inferencia de muestras dependientes e independientes.que una k es el nmero observado de a distribuirse depresentan la sobre proporciones se presentar un aleatoria puntual del La distribucin muestral de caracterstica de inters en una muestraestimadorde tamao n.parmetro poblacional objetouna normal con estimador en el Apartado 4.3.4. Brevemente, recordamos que una proporcin proporcin unse discuti puntual (1 - )/n, proporciones se presentarya media y varianza del parmetro poblacional objeto de estudio, un a distribuirse de forma normal con de significacin. muestral p tiende intervalo de confianza y una pruebamedia y varianza (1 )/n, partir de muestras dependientes e independientes. Para cada problema de inferencia udio, un intervalo de confianza y una prueba de significacin. (1 ) p ~ sobre proporciones se presentar un N , puntual ,del parmetro poblacional objeto estimador n POBLACIONAL 7.2 INFERENCIA SOBRE UNA PROPORCIN NFERENCIA SOBRE UNA un intervalo de es POBLACIONALgrandesignificacin. cuando el tamao muestral confianza y una prueba de y la proporcin poblacional no es de estudio, PROPORCIN suficientemente Con frecuencia se desea conocer que se cumpla la condicin n(1 poseen una cierta cuando el tamao muestral es suficientemente de individuos que) poblacional no es excesivamente extrema, de tal forma la proporcingrande y la proporcin 5. Esta aproximacin se utilizar la proporcin de individuos tema de inferencia sobre datos de carcter binario o recuencia se desea conocerrepetidamente a lo largo de esteque poseen una cierta caracterstica en la poblacin.UNA PROPORCIN POBLACIONAL proporcin dicotmico. 7.2 INFERENCIA SOBRE forma que se cumpla el Apartado 5.2, excesivamente extrema, de tal Como ya se apunt enla condicin n(1 la ) 5. Esta erstica en la poblacin. Como ya se apunt en el Apartado 5.2,medias, este captulo aborda la estimacin de Al igual que en el tema de inferencia sobre la proporcin muestral p es un buen estimador puntual a lola proporcin poblacional, quesobreel de largo de esta tema de es aproximacinpoblacional,repetidamentecomparacin de proporciones yapartirpde muestras una proporcin se utilizarconocer la proporcin de individuos queinferencia cierta a Con frecuencia se desea as como la poseen una ral p es un buen estimador puntual de la proporcin poblacional, ya quede es el dependientes e independientes. Para cada problema p inferencia sobre proporciones se estimador estimador consistente de datos de carcter binario o dicotmico. con menor error estndar. presentar uninsesgado ypuntual del parmetro poblacional objeto de estudio, un intervalo de caracterstica en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin ador insesgado confianza y una prueba de significacin. y consistente de con menor error estndar. Al igual que en el tema de inferencia la distribucineste captulo p, se tiene la Utilizando la aproximacin normal a sobre medias, muestral de aborda la muestral p es un buen estimador puntual de la proporcin poblacional, ya que p es el lizando la aproximacin normal a la distribucin muestral de p, se tiene la 7.2estimacin de una proporcin poblacional, as comoPOBLACIONAL proporciones a INFERENCIA SOBRE UNA PROPORCIN la comparacin de siguiente relacin estimador insesgado y consistente de con menor error estndar. nte relacin Con frecuencia se desea conocer la proporcin de individuos que poseen una cierta caracterstica en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin muestral p es un buen Utilizando la aproximacin normal apla distribucin muestral de p, se tiene la estimador puntual de la proporcin/ 2 P z1 poblacional, ya que z1 / elestimador insesgado y consistente p es 2 1 , 1 (1 ) / n p de con menor errorestndar. z1 / 2 1 , z1 / 2 Psiguiente relacin (1 ) / n Utilizando la aproximacin normal a la distribucin muestral de p, se tiene la siguiente relacin donde z1-/2 es el percentil 1 - /2 de la distribucin normal estandarizada. El mtodo p P 1 / 2 z1 / 2 1 z1-/2 es el percentil 1 - /2 de la distribucinznormal estandarizada. Elmtodo , (1 confianza ms sencillo para obtener un intervalo de ) / n consiste en sustituir el error

Esta proporcin poblacional es un parmetro desconocido que se estima mediante 7.1 INTRODUCCIN la proporcin muestral p = k/n, donde k es el nmero observado de individuos que En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas, que reflejan la presencia o ausenciainters endeterminada caracterstica en losn. La presentan la caracterstica de de una una muestra aleatoria de tamao miembros de una poblacin. El inters radica fundamentalmente en estimar la proporcin de individuos o elementos de lamuestral deque presentan dichase discuti en el Apartado 4.3.4. distribucin poblacin una proporcin ya caracterstica.

encillo para obtener un 1/2 es el de confianzaconsiste la distribucin normal estandarizada. El mtodo ms donde z intervalo percentil 1 /2 de en sustituir el error estndar de es el su estimacin de1 distribucin en sustituir el error poblacional p sencillo para /2 p por percentil 1 - /2 confianza consistenormal estandarizada. El mtodo por su donde z1- obtener un intervalo de p ( la p ) / n y despejar la proporcin estndar de estimacin dar de p por su estimacin p (1 p ) / n y despejar la proporcin poblacional y despejar la proporcin poblacional ms sencillo para obtener un intervalo de confianza consiste en sustituir el error p (1 p) p(1 p) 1 . p z1 / 2 P p z1 / 2 p p 11 p ) p(1 de p) por su estimacin n (p ( )p / n y despejar la n proporcin poblacional 1 . p z1 / 2 P p z1estndar /2 n n viene As, el intervalode confianza al 100(1 - )% para la proporcin poblacional Pastor-Barriuso R. p (1 p) p(1 p) )% z1 / 2la proporcin p z1 / viene 1 . poblacional 2 l intervalo de confianza al 100(1P p para n n dado por

97


Inferencia sobre proporciones

n z

0 (1 0 )

n As, el intervalo de confianza al 100(1 - )% para la proporcin poblacional viene

cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. dado por As, el intervalo de confianza al 100(1 )% para la proporcin poblacional viene dado por El valor P del test corresponde entonces a la probabilidad bajo la distribucin normal p(1 p ) p z1 / 2 . estandarizada para valores ms alejados de 0 que el n valor observado de z.
Para realizar el contraste de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0, puedeEjemplo 7.1 A partir de los controles delnula H0: = 0 frente se la alternativa emplearse el estadstico Para realizar el contraste de la hiptesis estudio EURAMIC, a pretende estimar p 0 puede emplearse estadstico ) , el (1 de bilateral H1: 0, individuos en lazpoblacin referencia de dicho estudio que la proporcin de 0 0

n presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 2 cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. El bajos segn el ser aproximadamente N(0, 1) si Program). En = 158 es n = valor P del test corresponde entonces a la probabilidad bajo la distribucin0normal0estandarizada cuya distribucin National Cholesterol Education la hiptesis nulakH : =de los cierta. para valores ms alejados de 0 que el valor observado de z. 539 controles se observaron valores inferiores o iguales a este distribucin normal El valor P del test corresponde entonces a la probabilidad bajo la umbral, Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la obtenindose una proporcin muestral estandarizada para valores ms alejados de 0 que referencia de dichode z. proporcin de individuos en la poblacin de el valor observado estudio que presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos segn el National Cholesterol Education Program). = 0,293. 158 de los n = 539 controles se p = k/n = 158/539 En k = Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar observaron valores inferiores o iguales a este umbral, obtenindose una proporcin muestral Dadoproporcin p) = 111,7 5, puede emplearse la aproximacin normal para la que np(1 - de individuos en la poblacin de referencia de dicho estudio que p = k/n = 158/539 = 0,293. presentan niveles de colesterol HDL emplearse la como calcular unnp(1al 95% para laproporcin poblacional aproximacin normal para calcular Dado que IC p) = 111,7 5, puede inferiores o iguales a 0,90 mmol/l (niveles un IC al 95% para la proporcin poblacional como bajos segn el National Cholesterol Education Program). En k = 158 de los n = 0,293(1 0,293) 0,293 z 0,975 539 controles se observaron valores inferiores o iguales a este umbral, 539 = 0,293 1,960,020 = (0,255; 0,332); obtenindose una proporcin muestral es decir, la proporcin poblacional de sujetos con niveles bajos de colesterol HDL est comprendida entre el 25,5 y el 33,2% con una confianza del 95%. Asimismo, para determinar p = de = 158/539 niveles es decir, la proporcin poblacional k/n sujetos con= 0,293. bajos de colesterol HDL si los datos muestrales son compatibles con una proporcin subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30 mediante el estadstico est comprendida entre=el 25,5 5, puede emplearse la aproximacin normal para Dado que np(1 - p) 111,7 y el 33,2% con una confianza del 95%. Asimismo, p 0 0,293 0,30 z= = 0,35, para determinar sial 95% 0 (1 proporcincompatibles con una proporcin 0, poblacional calcular un IC los datos muestrales son30(1 0,30) como para la 0 ) n 539 subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30 que corresponde a un valor P = 2P(Z 0,35)293) (0,35)} = 0,726 en las tablas de 0,293(1 0, = 2{1 0,293 z 0,= 2P(Z (Tabla 3 del Apndice). Por tanto, puede concluirse 975 la distribucin normal que corresponde a un valor P mediante el estadstico estandarizada -0,35) = 2{1 - (0,35)} = 0,726 en las 539 que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente distinta del distribucin normal estandarizada (Tabla 3 del Apndice). Por tanto, tablas de la 30%. = 0,293 1,960,020 = (0,255; 0,332); puede concluirse de inferencia presentados en este apartado de colesterol Los procedimientos que la prevalencia poblacional de niveles bajosasumen que el tamao muestral es decir, la proporcin poblacional aplicar la aproximacin normal; es decir,3 ha de es suficientemente grande para de sujetos con niveles bajos de colesterol HDL HDL no es significativamente distinta del ) cumplirse el requerimiento mnimo de que n(130%. 5. No obstante, en el Apndice de este est comprendida entre el 25,5 y el 33,2% estos mtodos que permiten aumentar tema (Apartado 7.8) se facilitan correcciones de con una confianza del 95%. Asimismo, la cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los para determinar si los datos tamao muestral es moderado o pequeo. Esta correccin Los procedimientos de cuando elpresentados en este apartado asumen que el tamao contrastes, particularmenteinferencia muestrales son compatibles con una proporcin
98

muestral subyacente del 30%, se contrast la hiptesis H0: = 0,30 versuses decir, ha de es suficientemente grande para aplicar la aproximacin normal; H1: 0,30
Pastor-Barriuso R.

mediante el estadstico cumplirse el requerimiento mnimo de que n(1 - ) 5. No obstante, en el Apndice de

Comparacin de proporciones en dos muestras independientes

de la aproximacin normal se conoce como correccin por continuidad y es aplicable a la mayora de los procedimientos estadsticos descritos en este tema. En adelante, se tratarn los mtodos de inferencia sin correccin por continuidad. Las correspondientes versiones con correccin se presentan en el Apndice al final del tema. 7.3 COMPARACIN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES

Supongamos ahora que el inters radica en comparar la proporcin de sujetos con una determinada caracterstica en dos muestras independientes. Este planteamiento general es aplicable a las comparaciones realizadas en cualquiera de los siguientes diseos de un estudio: y Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervencin (ensayo clnico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuntos desarrollan la enfermedad. Los tamaos muestrales de ambos grupos n1 y n2 estn fijados de antemano y, en el caso de un ensayo clnico, la intervencin se asigna de forma aleatoria a cada sujeto. El objetivo se centra en comparar la proporcin de sujetos que desarrollan la enfermedad entre los expuestos y los no expuestos. y Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar cuntos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseo, el nmero de casos y controles est predeterminado y, en consecuencia, ha de compararse la proporcin de expuestos entre los sujetos con y sin la enfermedad. y Un estudio transversal es aquel en el que se selecciona un total de n individuos en un instante determinado para establecer en cada sujeto la presencia o ausencia de la exposicin y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de la enfermedad en un instante determinado entre expuestos y no expuestos. Ejemplo 7.2 En el Second National Health and Nutrition Examination Survey (NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se recogieron datos del nivel de colesterol srico total en una muestra representativa de 7.712 sujetos entre 30 y 74 aos de edad sin diagnstico previo de enfermedad cardiovascular o cncer. Tras un seguimiento medio de 15 aos, se determin el estatus vital de cada sujeto y, en su caso, la causa de muerte. As, en este estudio de cohortes prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713 participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles altos segn el National Cholesterol Education Program) y 309 muertes por enfermedad cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores a 6,20 mmol/l. Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasific a los sujetos segn tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL. De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho umbral.

Pastor-Barriuso R.

99

valores de colesterol HDL inferiores a dicho HDL inferiores a dicho umbral. valores de colesterol umbral.
Inferencia sobre proporciones

n general, los resultados de la comparacin de una variable dicotmicauna dos En general, los resultados de la comparacin de en variable dicotmica en dos

tras independientes suelen organizarse en una tablaorganizarse en una tabla 22 (Tabla 7.1). En este muestras independientes suelen 22 (Tabla 7.1). En este Tabla 7.1 Tabla 22 genrica de la 2(1 - 2)/n2). Adems, como ambas muestras son asociacin entre exposicin y enfermedad. ado suponemos que se analizan datos deque estudio prospectivo, un el que se apartado suponemos un se analizan datos de en estudio prospectivo, en el que se Enfermedad 4), se tiene que ~ N( , (1 - )/n ). Adems, como ambas muestras son N(1, 1(1la 1)/n ) diferencia en la entre2 expuestos 2 nde estimar la diferencia en estimar1lay p2 de enfermosproporcin de Noy no Total expuestos y no pretende - proporcin Exposicin 2 enfermos entre S 2 n1 n2
Total m1 m2 n
2

S a b n1 1 (1 1 ) 2 (1 2 ) 1 Estos mtodos pueden aplicarse igualmente a estudios retrospectivos, estudios retrospectivos, pero . independientes (vase Apartado 3.4), se tiene que d a pero estos. 2 , expuestos. Estos mtodos pueden aplicarse igualmente No c n

arando la proporcin de expuestos entre casos y expuestos (ver Ejemplo 7.5).(1 (ver Ejemplo 7.5). comparando la proporcin de controles entre(1 )y controles ) casos 2 1 2 ~ N , 1 p1 p 1 p1 - p2 es un estimador puntual insesgado de2de la comparacin de una . 2 En general, los resultados la variable dicotmica en dos muestras n1 n2 ~ independientes1)/n1) y p2 N(2en 2una- tabla 222 (Tabla 7.1). En este muestras son 1(1 - suelen organizarse , (1 2)/n ). Adems, aqu] N(1,[Tabla 7.1 aproximadamenteaqu] aproximadamentecomo ambas apartado suponemos = prospectivo, en el que se pretende estimar la diferencia en 1 - 2 entre expuestos y no expuestos, de un-estudio 1 que se analizan datos E(p1 p2) [Tabla 7.1 De este resultado se desprende que p la independientes enfermos entre expuestos2 y no expuestos. puntual insesgado de la aplicarse proporcin de (vase Apartado 3.4),1sep es un estimador Estos mtodos pueden tiene que 0(1 - )% para 1 - 2 se obtiene siguiendo el mismo pero comparando la proporcin de expuestos entre casos proporcin de igualmente a la muestra de sujetosen la muestra de sujetos expuestos viene dada por p1 = enfermosproporcin de enfermos expuestos viene dada por p1 = La en estudios retrospectivos, diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 y controles (ver Ejemplo 7.5). 1 (1 1 ) 2 (1 2 ) roporcin como y en la muestra de N(proporcin1)/n1) y de sujetos Nmuestra 2,)/n2). Adems, 2como1ambas muestras son1 y en la sujetos 1no - muestra 1por N(c/n. 21(1n densujetos = . Si n y dada por p1 = a/n p ~ c/n a/n (1 expuestos p2 p 2,2Si-1 y 2 son suficientemente La 1,y en la de enfermos22en lanoexpuestos por p2expuestos viene n2. son suficientemente p ~ = 2 2. El de sujetosde confianza alpor p - c/n .paran 1 y 2 se obtiene intervalo no expuestos 100(1 = )% Si 1 - n son 2suficientemente el mismoestas siguiendo grandes, n n muestra 2 2 1 2 ~ N(forma )/n ) ypp N( , des, estas(1 p1 proporcionesestas proporciones muestralesdede formaanormal, p1 de 1, 1(1 normal, 12 ~ grandes, muestrales tendern a distribuirse forma p1 proporciones(1 p 2 ) (vase Apartado 3.4), se tendernnormal, p1 ) independientes tendern a distribuirse tiene que distribuirse p 2 muestrales 1 1 2 procedimiento utilizado para una proporcin como , / 2 2(1 2)/n2). Adems, como ambasque p1 - p2 es independientespuntualApartado 3.4), la tiene que muestras son un estimador (vase insesgado de se De este resultado se desprende n1 n2

1 (1 1 ) 2 (1 2 ) ~ p1 p 2 N 1 1 2p,1 (1 p1 ) ( no p 2 ) . p diferencia de riesgos subyacente - 2entre expuestos 2y1 expuestos, E(p1 - p2) = 1 n1 n2 6 , p1 amplitud z erencia de proporciones muestrales con una p 2 1 / 2 6 n1 n2 De2. Elresultado se desprende que100(1 2 es)% para 1 - puntual insesgado de la diferencia de este intervalo de confianza al p1 p - un estimador 2 se obtiene siguiendo el mismo macin de su error estndar. De este resultado 1 2 entre expuestos y es expuestos, E(p1 p2) insesgado de la riesgos subyacente se desprende que p1 - p2 no un estimador puntual = 1 2. El intervalo de que es al 100(1 alrededor de siguiendo el mismo procedimiento utilizado confianzasimtrico )% para ladiferencia decomo procedimiento utilizado para una la2 se obtieneproporciones muestrales con una amplitud 1 encias en la probabilidad subyacente de desarrollar proporcin para una proporcin como diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 directamente proporcional a la estimacin de su error estndar. stos y no expuestos, se contrasta la hiptesis nula H0: p1 (1 p ) p (1 p 2 ) 2. El intervalo de confianzapal z1 / 2- )% para 11 22 se obtiene siguiendo el mismo p1 2 100(1 , Para determinar si existen diferencias en la 1probabilidad 2subyacente de desarrollar la n n tiva bilateral H1: 1 2. Bajo la hiptesis nula de procedimiento alrededor de unadiferencia como proporcin que es simtrico utilizado para expuestos y node proporciones muestrales con una amplitud enfermedad entre los sujetos la expuestos, se contrasta la hiptesis nula H0: directamente proporcional a de la diferencia de proporciones 2 = , se cumple que es simtrico alrededorla estimacin de su error estndar.muestrales con una amplitud que 1 = determinar si existenalternativa bilateral H11): 1 p 2 2.Bajo la hiptesis nula de (1 subyacente de desarrollar la Para 2 frente a la hiptesis diferencias p1 (1la p en probabilidad p 2 ) p1 la z1 / 2 directamente proporcionala p 2 estimacinexpuestos, estndar. la hiptesis nula H : = de su error contrasta , enfermedad entre los sujetos expuestos y no se n 2 n1 0 1 2 1 1 ~ , N 0, (1 ) igualdadhiptesis alternativa 1 = 2 = H,1: cumple Bajo la hiptesis nula de igualdad de a la de proporciones H0: bilateral se 1 2. que frente n2 n1 Paradeterminar si existen diferencias en la probabilidad subyacente de desarrollar la proporciones H0: 1 = 2 = , se cumple que que es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud enfermedad entre los sujetos expuestos y no expuestos, se1contrasta la hiptesis nula H0: 1 ~ 1 dad de enfermar comn para expuestos y no pa la p 2 N 0, (1su ) estndar., directamente proporcional estimacin de error1 n 2 n 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2. Bajo la hiptesis nula de ad es desconocida, Para determinarla probabilidad de enfermar la probabilidad subyacente de desarrollar la esta dondesucorresponde a estimarse diferencias en comn para expuestos y no expuestos. Aunque valor puede si existen probabilidadcorresponde a la su0valor= 2 = de, enfermar comn para expuestos y no de enfermos donde es desconocida, H : 1 puede se cumple que igualdad de proporciones probabilidad estimarse mediante la proporcin combinada de enfermos en ambas muestras p = (aa++ c)/(1nexpuestos y As,expuestos, se propuesto para este test nula H0: en ambas muestras los sujetos + +2) = m1/n. no el estadstico contrasta la hiptesis es enfermedad entre = ( c)/(n 1 n desconocida, su valor puede estimarse expuestos. Aunque esta probabilidad es p1 p 2 , z ~ uesto para este testes= 2 frente a la hiptesis1alternativa 0, (11 ) 1 1. , la hiptesis nula de bilateral 1 1 2 H: 1 Bajo 1 p p2 N (1 p ) n1 n 2 mediante la proporcin combinada depenfermos enambas muestras p = (a + c)/(n1 + n1 n 2 igualdad de proporciones H0: 1 = 2 = , se cumple que que 2bajom1/0n. As, el estadstico propuestodistribucin normal estandarizada, lo que permitir n ) = H sigue aproximadamente una para este test es donde corresponde a la probabilidad de enfermar comn para expuestos y no determinar la 0 sigue aproximadamente una distribucin normal estandarizada, lo que que bajo H significacin estadstica de la diferencia entre proporciones. 1 1 ~ p1 p 2 (1 es su , expuestos. Aunque esta significacin N 0,desconocida, n valor entre proporciones. probabilidad estadstica )la diferencia puede estimarse permitir determinar la de n1 2 7
100 Pastor-Barriuso R.

mediante la proporcin combinada de enfermos en ambas muestras p = (a + c)/(n1 + dondeEjemplo 7.4 Enala Tabla 7.2 se presenta el nmero depara expuestos y no corresponde la probabilidad de enfermar comn muertes por enfermedad 7 n ) = m /n. As, el estadstico propuesto para este test es

permitir determinar la significacin estadstica de la diferencia entre proporciones. p2 es un estimador puntual insesgado de la

que bajo H0 sigue aproximadamente una distribucin normal estandarizada, lo que independientes Comparacin de proporciones en dos muestras entre expuestos y no Ejemplo 7.4 En lapTabla 1 - se presenta el nmero de muertes por enfermedad expuestos, E(p1 - 2) = 7.2 permitir determinar la significacin estadstica de la diferencia entre proporciones. )% para 1 - 2 se obtiene siguiendo el mismo durante el seguimiento del estudio NHANES II entre cardiovascular observadas Tabla 7.2 Muertes por enfermedad cardiovascular Ejemplo 7.4 Enniveles altos y moderados-bajos de de muertessrico total (Ejemplo la Tabla 7.2 se presenta el nmero colesterol por enfermedad rcin como los sujetos con(ECV) durante el seguimiento del estudio NHANES II segn niveles del colesterol srico total. cardiovascular observadas durante el seguimiento del estudio NHANES II entre Mortalidad por ECV 7.2). La proporcin de muertes por enfermedad cardiovascular es p1 = 254/2.713 Colesterol p1 (1 p1 ) p 2 (1 p 2 ) , total (mmol/l) S No Total n1 n 2 los sujetos con participantes y moderados-bajos de colesterol srico total (Ejemplo = 0,094 en los niveles altos con niveles de colesterol total superiores a 6,20
6,20 254 2.459 2.713 < 6,20 309 4.690 4.999 7.2). La y con 309/4.999 = niveles mmol/l proporcin de muertes por enfermedad cardiovascular es p 254/2.713 muestrales p2 = una amplitud0,062 en aquellos con7.149 inferiores1a=6,20 mmol/l. Total 563 7.712

cia de proporciones

= tanto, los participantes con de la diferencia de riesgos subyacente 6,20 p2 = Por n de su error estndar.0,094 enla estimacin puntual niveles de colesterol total superiores a es p1 -enfermedad Ejemplo 7.4 En la Tabla 7.2 se presenta el nmero de muertes por cardiovascular309/4.999 0,062 en seguimiento niveles observadas estudio NHANES II mmol/l. mmol/l y p2 = = 0,032 y =durante el aquellos con del 95% inferiores a 6,20entre los sujetos 0,094 - 0,062 de confianza al s en la probabilidad subyacente de desarrollarsu intervalode colesterol srico total (Ejemplo 7.2). La proporcin la con niveles altos y moderados-bajos de tanto, la estimacin puntual de la diferencia = riesgos subyacente es p1 - p2 = Pormuertes por enfermedad cardiovascular es p1 de254/2.713 = 0,094 en los participantes y no expuestos, se contrasta la hiptesis nula total,superiores094) mmol/l y p0,= 309/4.999 = 0,062 en aquellos con niveles de colesterol H0:0 094(1 0, a 6,20 0,062(1 2 062) 0,032 z , con niveles inferiores 0a975 6,20 mmol/l. Por tanto, la estimacin puntual de la diferencia de 2.713 0,094 - 0,062 = 0,032 y su intervalo de confianza al 4.999 95% bilateral H1: 1 2. Bajo la hiptesis nula de p = 0,094 0,062 = 0,032 y su intervalo de confianza al 95% riesgos subyacente es p1 2 cardiovascular en los sujetos con=niveles 1,960,007 = (0,019; 0,045). en 32 0,032 altos de colesterol total excedi 0,094(1 0,094) 0,062(1 0,062) , se cumple que 0,032 z 0,975 2.713 .999 casos por 1.000 a la de los participantes con niveles4ms bajos (IC al 95% entre 19 Para el contraste bilateral de la hiptesis nula de igualdad de proporciones 1 1 = 0,032 1,960,007 = (0,019; P < 0,001). 0, (1 ) y ,45 casos por 1.000), siendo esta diferencia muy significativa (0,045). n1 n 2 poblacionales H0: 1 = 2 se emplea el estadstico Para el contraste bilateral de la hiptesis nula de igualdad de proporciones poblacionales H0: 1 2 se emplea el estadstico Parael=contraste bilateral de la hiptesis nula de igualdad de proporciones 0,032 de enfermar comn para expuestos y no z = [Tabla 7.2 aproximadamente aqu]= 5,13, poblacionales H0: 1 = 2 se emplea el estadstico 1 1 0,073(1 0,073) es desconocida, su valor puede estimarse 2.713 4.999 Ejemplo = La Tabla1 += 0,073 es 0 casos donde la proporcin global de muertes por a + cz =n )/( nfermos en ambas muestras p 7.5(563/7.7127.3 muestra los,032 de infarto de miocardio y los enfermedad = 5,13, 1 donde p = 563/7.712 = 0,073 es la proporcin global de muertes por del test se obtiene cardiovascular en todos los participantes del NHANES II. El valor P enfermedad 1 ( 0,073) controles del 5,13) = 0,0731(5,13)} colesterol .En resumen, despus de 15 aaos de como 2P(Z EURAMIC con valores de 2.713 4 HDL superiores o inferiores 2{1 para este test es < 0,001. 999 seguimiento, laen todos losacumulada de del NHANESenfermedad cardiovascular en los cardiovascular incidencia participantes muertes por II. El valor P del test se 0,90 mmol/l.niveles altosesta colesterol total excedi en 32 casos por 1.000 a la de los sujetos con A partir de de tabla 22, se pretende comparar la proporcin de donde pcomocon (niveles0,073bajos (IC al 95% entre 19 y 45 casos por enfermedad esta participantes 2P Z 5,13) = 2{1la (5,13)} < 0,001. En muertes por 1.000), siendo obtiene = 563/7.712 = ms es - proporcin global de resumen, despus de 15 sujetos conmuy significativa colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 diferencia niveles bajos de (P < 0,001). cardiovascular en todos los participantes del NHANES II. porvalor P del test se aos de seguimiento, la incidencia acumulada de muertes El enfermedad = 193/462 = 0,418Tabla 7.3 muestradlos2 casos de infarto de miocardio y los controles del Ejemplo 7.5 La y controles p2 = /m = 158/539 = 0,293. La diferencia de obtiene como 2Pvalores de7= 2{1 - (5,13)} < 0,001. o inferiores adespus de 15A partir EURAMIC con (Z 5,13) colesterol HDL superiores En resumen, 0,90 mmol/l. 8 proporciones muestrales es p1 - comparar la 0,293 = 0,125 ysujetos con nivelesbajos de de esta tabla 22, se pretende p2 = 0,418 - proporcin de el IC al 95% para 1 aos de seguimiento, la mmol/l) entre casos p1 de c/m1 = 193/462 = 0,418 y controles p2 = colesterol HDL ( 0,90 incidencia acumulada = muertes por enfermedad d/m2 = 158/539 = 2 viene dado por 0,293. La diferencia de proporciones muestrales es p1 p2 = 0,418 8 0,293 = 0,125 y el IC al 95% para 1 2 viene dado por
p1 p 2 z 0,975 p1 (1 p1 ) p 2 (1 p 2 ) m1 m2

= 0,125 1,96

0,418(1 0,418) 0,293(1 0,293) 462 539

= 0,125 1,960,030 = (0,065; 0,184).


Pastor-Barriuso R. 101

El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula

p1 (1 p1 ) p 2 (1 p 2 ) z 0,975 = n es donde p p1 n2/p 2=351/1.001 = 0,351 la proporcin total de sujetos con niveles m1 m2 ia de proporciones muestrales con una amplitud Tabla 7.3 Colesterol HDL en los casos de infarto bajos de colesterolde miocardio y los estadstica del contrate es por tanto P = agudo HDL. La significacin0,418) 0,293(1estudio ) 0,418(1 controles del 0,293 n de su error estndar. = 0,125 1,96 EURAMIC. 539 2{1 - (4,12)} < 0,001. As, los casos 462infarto de miocardio son de Infarto de miocardio en la probabilidad subyacente de desarrollar la Colesterol HDL 0,125propensos a presentar niveles bajos de = ms Caso Control significativamente(mmol/l) 1,960,030 = (0,065; 0,184). Totalcolesterol HDL que y no expuestos, se contrasta la hiptesis nula H0:
> 0,90 269 381 650

2 viene dado por p1 (1 p1 ) p 2 (1 p 2 ) , Inferencia sobre proporciones n1 n2

sujetos libres contraste bilateral de 0,001), con una H 351 = se 0,90 193 158 El los hiptesis nula de la enfermedad (P < la hiptesis nuladiferencia de calcula 0: 1 2 ilateral H1: 1 2. Bajoestadstico para elde la Total 462 539 1.001 proporciones del 12,5% (IC al 95% 6,518,4%). como

, se cumple que

El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula como p1 p 2 1 z [Tabla 7.3 aproximadamente aqu] 1 0, (1 ) , 1 1 n1 n 2 p (1 p ) m1 m 2

0, UNA e enfermar comn 7.4 ASOCIACIN ESTADSTICA EN125 TABLA DE CONTINGENCIA para expuestos y no 4,12, 1 1 0,351(1 0,351) s desconocida, su valor puede estimarse 462 539 estadstica para evaluar de En este apartado se presenta una prueba de significacin

donde = ( + c 351/1.001 = 0,351 es la proporcin total de sujetos con niveles bajos de fermos en ambas muestras p = na/n =)/(n1 + forma genrica 2la presencia o ausencia de asociacin entre las variables dicotmicas colesterol HDL. La significacin estadstica del contraste es por tanto P = 2{1 (4,12)} < 9 0,001. As, los casos de infarto de miocardio son significativamente ms propensos a presentar para este test es representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto, niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%). sino nicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2 7.4fijos), retrospectivos (marginales m1 EN 2 fijos) y transversales (tamao muestral n fijo). ASOCIACIN ESTADSTICA y m UNA TABLA DE CONTINGENCIA En este apartado se presenta una prueba de significacin estadstica para evaluar de las Para contrastar si las variables de una tabla 22 son independientes, se comparan forma 7 genrica la presencia o ausencia de asociacin entre las variables dicotmicas representadas en una tabla 22. observadas Oij en cada celda (i,estimaciones de efecto, sino nicamente valores frecuencias Este procedimiento no facilita j) de la tabla con sus frecuencias esperadas P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales y bajo la y transversales (tamao muestral n fijo). m1 Eijm2 fijos)hiptesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la Para contrastar si las variables de una tabla 22 son independientes, se comparan las columna. Estas frecuencias esperadas Eij se calculan con el frecuencias sus frecuencias observadas Oij en cada celda (i, j) de la tablacomosus producto de esperadas Eij bajo la hiptesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas correspondientes marginales ni y mj, dividido por el de sus muestral total n, frecuencias esperadas Eij se calculan como el productotamao correspondientes marginales ni y mj, dividido por el tamao muestral total n, nm Eij = i j . n As, por ejemplo, si en un estudio prospectivo no hubiera asociacin entre exposicin y As, por ejemplo, si en esperada prospectivo que desarrollan la enfermedad sera igual enfermedad, la frecuencia un estudiode expuestos no hubiera asociacin entre exposicin y al producto del nmero de expuestos n1 por la proporcin combinada de enfermos m1/n, E11 = enfermedad, la frecuencia esperada de expuestos que desarrollan la enfermedad han n1m1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de casos quesera estado expuestos al factor de riesgo correspondera al producto del nmero de casos m1 por la proporcin igual al de expuestos n1/n, E de m1n1/n. Asimismo, en un estudio transversal la frecuencia combinada producto del nmero 11 =expuestos n1 por la proporcin combinada de enfermos esperada de sujetos a la vez expuestos y enfermos sera igual al producto del nmero total de 10
102 Pastor-Barriuso R.

Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociacin entre la

mortalidad por enfermedad cardiovascular y el colesterol total en el en una tabla de contingencia estudio Asociacin estadstica prospectivo NHANES II. Si ambas variables fueran independientes, la
sujetos n por las proporciones de expuestoscardiovascular sera igual en los= n(n1/n)(m1/n) = probabilidad de morir por enfermedad n1/n y de enfermos m1/n, E11 sujetos n1m1/n. Notar, por tanto, que los valores esperados bajo la hiptesis nula de independencia coinciden nivelesdistintosbajos de colesterol total. Esta probabilidad podra entonces con en los altos y tipos de diseo. Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociacin entre la estimarse mediante la proporcin combinada de muertes en ambas muestras mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo NHANES = 0,073. As, entre los 2.713 participantes con niveles altos de de morir por 563/7.712 II. Si ambas variables fueran independientes, la probabilidad enfermedad cardiovascular sera igual en los sujetos con niveles altos y bajos de colesterol total, cabra probabilidad podra = 198,1 muertes por enfermedad proporcin total. Esta esperar 2.7130,073 entonces estimarse mediante la combinada de muertes en ambas muestras 563/7.712 = 0,073. As, entre los 2.713 participantes con niveles altos de colesterol total, cabra esperar este mismo = 198,1 cardiovascular bajo la hiptesis nula de independencia. Aplicando 2.7130,073 muertes por enfermedad cardiovascular bajo la hiptesis nula de independencia. Aplicando este mismo razonamiento, cadavalores esperados en por celda vendran razonamiento, los valores esperados en los celda vendran dados cada dados por

Estos valores esperados se 11 = 2.713 563la Tabla 7.4. Notar que los marginales E representan en = 198,1, 7.712 de la tabla de frecuencias observadas7(Tabla 7.2) y esperadas (Tabla 7.4) 2.713 .149 = 2.514,9, E12 = 7.712 el valor esperado en una cualquiera de las coinciden. De hecho, una vez calculado 4.999 563 E21 = celdas, los restantes valores esperados de la= 364,9, quedan determinados por tabla 22 7.712 dichos marginales. E22 = 4.999 7.149 = 4.634,1. 7.712

Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la [Tabla 7.4 aproximadamente aqu] tabla de frecuencias observadas (Tabla 7.2) y esperadas (Tabla 7.4) coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11 valores esperados de la tabla 22 quedan determinados por dichos marginales. Para evaluar la independencia de las variables de una tabla 22, se comparan las Para evaluarobservadas y esperadas mediante el estadstico22, se comparan las frecuencias frecuencias la independencia de las variables de una tabla observadas y esperadas mediante el estadstico

2 =

(Oij E ij ) 2 Eij . 1 1 i j
2 2

Cuanto mayor sea la diferencia entre los valores observados yhiptesis mayor ser la Tabla 7.4 Frecuencias esperadas bajo la esperados, de independencia entre la mortalidad por magnitud del estadstico y, en consecuencia, se tendr mayorcolesterol en contra de la enfermedad cardiovascular (ECV) y el evidencia total en el estudio NHANES II. hiptesis nula de independencia. En particular, puede probarse que si las variables de la
S No Total tabla 22 son independientes, este estadstico sigue aproximadamente una distribucin Colesterol total (mmol/l) Mortalidad por ECV 6,20 < 6,20 grado de Total 198,1 364,9 (slo una 563 2.514,9 4.634,1 frecuencia 7.149 2.713 4.999 esperada de 7.712

chi-cuadrado con 1

libertad

la tabla 22 es

independiente). El valor P del contraste corresponde entonces a la probabilidad a la el nombre derecha del estadstico 2 bajo la distribucin 12 . Esta prueba se conoce conPastor-Barriuso R. de test chi-cuadrado de independencia o asociacin de Pearson, y puede aplicarse
103

Inferencia sobre proporciones

Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor ser la magnitud del estadstico y, en consecuencia, se tendr mayor evidencia en contra de la hiptesis nula de independencia. En particular, puede probarse que si las variables de la tabla 22 son independientes, este estadstico sigue aproximadamente una distribucin chi-cuadrado con 1 grado de libertad (slo una frecuencia esperada de la tabla 22 es independiente). El valor P del contraste corresponde entonces a la probabilidad a la derecha del estadstico 2 bajo la distribucin 2. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia 1 o asociacin de Pearson, y puede aplicarse siempre que los marginales de la tabla sean suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o iguales a 5. Ejemplo 7.7 A partir de los valores observados y esperados bajo la hiptesis de independencia entre la mortalidad por enfermedad cardiovascular y el colesterol srico total, se obtiene el test estadstico
(254 198,1) 2 (2.459 2.514,9) 2 = 198,1 2.514,9
2

(309 364,9) 2 (4.690 4.634,1) 2 364,9 4.634,1

= 15,80 + 1,24 + 8,58 + 0,68 = 26,30.


Como las frecuencias esperadas son claramente superiores a 5, este estadstico se Como las frecuencias esperadas son claramente superiores a1 gradoestadstico se bajo la distribuir aproximadamente como una chi-cuadrado con 5, este de libertad hiptesis nula de independencia. Utilizando la Tabla 6 del Apndice, puede comprobarse distribuir aproximadamente como una muy superior con 1 gradode libertad bajo lo cual que el valor calculado del estadstico es chi-cuadrado al percentil 2;0,995 = 7,88, de 1 se deduce que P = P( 2 26,30) < 0,005. As, los niveles altos de colesterol total estn 1 la hiptesis nula deasociados con laUtilizando la Tabla 6 del Apndice, puede significativamente independencia. mortalidad por enfermedad cardiovascular.

comprobarse que el valor calculado del estadstico es muy superior al percentil La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la igualdad de dos7,88, de lo cual se deduce queDe = P( 2 puede probarse que el estadstico 2 de 12;0,995 = proporciones poblacionales. P hecho, 26,30) < 0,005. As, los 1 Pearson es igual al cuadrado del estadstico z de la comparacin de proporciones en muestras independientes, de tal forma que los valores P resultantes de ambos procedimientos son niveles altos de colesterol total estn significativamente asociados con la idnticos (la distribucin chi-cuadrado con 1 grado de libertad es, por definicin, igual al cuadrado de una distribucin normal estandarizada). Cabra preguntarse entonces cul es la mortalidad por enfermedad cardiovascular. aportacin del test de independencia de Pearson. En primer lugar, los clculos de este test no dependen del diseo utilizado para generar los datos. En segundo lugar, esta prueba puede generalizarse de forma sencilla a la comparacin de mltiples proporciones en una tabla con r La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la filas y c columnas. igualdadcontrastar la independencia de dos variables categricas en una que elrc, se calcula el Para de dos proporciones poblacionales. De hecho, puede probarse tabla estadstico estadstico 2 de Pearson es igual al cuadrado del estadstico z de la comparacin de r c (Oij E ij ) 2 2 = , proporciones en muestras independientes, 1de 1 forma que los valores P resultantes de tal E ij i j ambos procedimientos son idnticos (la distribucin chi-cuadrado con 1 grado de donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una libertad es, por definicin, igual al cuadrado de una distribucin normal estandarizada). tabla 22. Pastor-Barriuso R.Bajo la hiptesis nula de independencia, dicho estadstico se distribuye Cabra preguntarse entonces cul es la aportacin del test de independencia de Pearson. aproximadamente segn una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los En primer lugar, los clculos de este test no dependen del diseo utilizado para generar

104

celdas tengan valores esperados inferiores a 5.


Asociacin estadstica en una tabla de contingencia

Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una tabla 22. entre los participantes del estudio NHANES II con un colesterol srico total Bajo la hiptesis nula de independencia, dicho estadstico se distribuye aproximadamente segn una chi-cuadrado cona(r 1)(c 1) (nivel deseable), entre 5,20 y 6,19 libertad (nivel limtrofe inferior 5,20 mmol/l grados de libertad. Los grados de mmol/l corresponden al nmero de frecuencias esperadas independientes para el clculo del estadstico, una vez determinadosalto)marginales deigual a 6,20 mmol/l (hipercolesterolemia). Para determinar si la los y superior o la tabla rc. La aproximacin chi-cuadrado a la distribucin del estadstico ser vlida si el tamao muestral es suficientemente grande. En concreto, el criterio ms aceptadoincidencia de este test es que ningn valor esperado sea inferior a 1losque no ms para aplicar muertes por enfermedad cardiovascular difiere entre y tres grupos, del 20% de las celdas tengan valores esperados inferiores a 5. se calculan en primer lugar las frecuencias esperadas mediante el producto de sus Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los participantes del estudio NHANES II con un colesterol srico total inferior Estas mmol/l correspondientes marginales dividido por el tamao muestral total. a 5,20 (nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limtrofe alto) y superior o igual a 6,20 mmol/lfrecuencias esperadas se presentan entre parntesis en de Tabla 7.5. Aenfermedad (hipercolesterolemia). Para determinar si la incidencia la muertes por cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias esperadas mediante el comparan de sus correspondientes esperados mediante el por el continuacin, se producto los valores observados y marginales dividido tamao muestral total. Estas frecuencias esperadas se presentan entre parntesis en la Tabla 7.5. A continuacin, se comparan los valores observados y esperados mediante el estadstico estadstico

2 =

(254 198,1) 2 (2.459 2.514,9) 2 198,1 2.514,9 (174 175,8) 2 (2.234 2.232,2) 2 175,8 2.232,2 (135 189,1) 2 (2.456 2.401,9) 2 189,1 2.401,9

14

= 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79.


Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribucin chi-cuadradoque las frecuencias esperadas son de libertad a(Tabla 6 del Apndice) para Dado con (3 1)(2 1) = 2 grados superiores 5, puede utilizarse la obtener un valor P = P( 2 33,79) < 0,005. Esto es, la incidencia de muertes por 2 enfermedad cardiovascular difiere significativamente entre losde libertad (Tabla 6 del distribucin chi-cuadrado con (3 - 1)(2 - 1) = 2 grados tres grupos, obtenindose una incidencia acumulada en los 15 aos de seguimiento de 52, 72 y 94 muertes por 2 cada 1.000 participantes con niveles deseables, limtrofes<altos y Esto es, la Apndice) para obtener un valor P = P( 2 33,79) 0,005. altos de colesterol total, respectivamente.

incidencia de muertes por enfermedad cardiovascular difiere significativamente Tabla 7.5 Frecuencias observadas (esperadas) de entre los tres por enfermedad cardiovascular (ECV) entre en los 15 aos de muertes grupos, obtenindose una incidencia acumulada los participantes del NHANES II con niveles de colesterol seguimiento de 52, 72 y 94ymuertesmmol/l. 1.000 participantes con niveles total < 5,20, 5,20-6,19 6,20 por cada
Mortalidad por ECV Colesterol deseables, limtrofes altos y altos de colesterol total, respectivamente. total (mmol/l) S No Total 6,20 5,20-6,19 < 5,20 Total 254 (198,1) 174 (175,8) [Tabla 7.5 135 (189,1) 563 2.459 (2.514,9) 2.234 (2.232,2) aproximadamente 2.456 (2.401,9) 7.149 2.713 2.408 aqu] 2.591 7.712

7.5 TEST DE TENDENCIA EN UNA TABLA r2


Pastor-Barriuso R. 105

A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hiptesis

p (1 p1 que p 1 1 De este resultado se desprende ) p 2que 2pp 2-)un estimador puntual insesgado de la de la De este resultado 1se desprende 1 (- p es p2 es un estimador puntual insesgado p1 p 2 z1 / 2 , n1 n2 Inferencia sobre proporciones diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 -E(p1= 1 )- = 1 diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, p2) - p2

siguen alguna tendencia determinada lo de = 2 frente a sehiptesis alternativa bilateral H1: 1 a plargo la los grupos. En este apartado se presenta un con gradiente o componente lineal (creciente o continuacin, la test especfico para detectar observadas2. Bajoun hiptesis nula de relacionan las proporciones la existenciai de sus correspondientes que esque es simtrico alrededor diferenciaindicandoproporcioneslos grupos.una amplitud simtrico alrededor de la de la diferencia de el orden de muestrales con simplemente tomar los valores 1, 2, ..., r de proporciones muestrales con A una amplitud decreciente) entre las proporciones de los sucesivos grupos. ualdad de proporciones H0: 1 = 2 = , se cumple que puntuaciones si mediante el estadstico directamentelugar,relacionanla estimacin de su error estndar. las muestras ordenadas. Esta directamente se asigna una la estimacin a su error con continuacin, se proporcional proporciones si decada unaiestndar.correspondientes En primer proporcional a las a puntuacin observadas p de sus puntuacin puede representar un atributo numrico del grupo (ver Ejemplo 7.9), o simplemente 2 r existen estadstico en Para valores~ mediante el diferencias la en la probabilidad subyacente de desarrollar Para determinar existen puntuaciones si1, si ..., indicando el1orden de los grupos. A continuacin, se relacionan la tomar losdeterminar 2, 0, rsi ) 1 diferencias probabilidad subyacente de desarrollar la las p1 p 2 N n ( (1 p s s ) , p )( n 2 i p i con n1i correspondientes puntuaciones s mediante el estadstico proporciones observadas i sus i enfermedad 2 = los sujetos expuestos y no expuestos, se contrasta la hiptesis nula H0: H0: enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hiptesis nula entre i 1 , 2 r r p (1 p ) ni ( s i 2 i ( p i p )( s i s ) s) n nde corresponde1 a la1frentefrente dela hiptesis alternativa expuestos1:.1 Bajo. la hiptesis nula de de = 2probabilidad a enfermar2comn1bilateral H1: 1Hy no 2 Bajo la hiptesis nula = 2 a la hiptesis ialternativa para bilateral 1 , 2 = i r = n 2 puestos. Aunque igualdad de proporciones H0: 1H0:su=valor)puedecumple que esta probabilidad proporciones = 2 1=(12 p cumpleestimarse igualdad de es desconocida, p , se ,1 sei ( s iques ) donde ni es el tamao de cada muestra, n = ni, p = nipi/n esi la proporcin

e es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud 2. El 2. El intervalo de confianza al 100(1 -para para se- obtiene siguiendo el mismo intervalo de confianza al 100(1 - )% )% 1 - se obtiene siguiendo el mismo 7.5 TEST DE TENDENCIA EN UNA TABLA r2 2 1 2 ectamente proporcional a la estimacin de su error estndar. procedimientotabla r2, el test para una proporcin como A partirprocedimiento utilizadouna proporcinde Pearson permite contrastar la hiptesis nula de de una utilizado para chi-cuadrado como igualdad de proporciones la 1 = 2 = ... subyacente la desarrollar la Para determinar si existen diferencias en H0:probabilidad = r frente a de hiptesis alternativa H1: i j, donde i y j son 2 muestras cualesquiera. Un resultadopp (1 p )(1 pp (1 esta prueba indicara que al p1 (1 significativo de) p 2 ) p12 11 ) 22 p1 p 2 1 / 2 menos 2 deexpuestos y no expuestos,se z1 / 2son heterogneas. En ,H0caso de que los grupos o las r proporcionesp1 zp2 contrasta la hiptesis nula el : , poblacionales fermedad entre los sujetos n los n1 n simplemente tomar los valores 1, 2, ..., r indicando el orden de 1 grupos. A2 adems si estas proporciones muestras estn intrnsecamente ordenados, cabra preguntarse n 2

donde ni es el tamao de cada muestra, n = ni = (a ip /n es + diante la proporcin combinada de enfermos en ambas muestras, p = n+ ic)/(n1 la proporcin combinada en ~ = nmedia. n1 quees laslas media.1 Notar/n si laproporcin observadas = ipi 1 si proporciones ~ N n combinada en todas las muestrastamaonp/n es lapuntuacin ,i )p 1 , , todas las muestrasy s ==nisiisi/n pla puntuacin 0 , (1 Notar es p p 0, N de cada muestra, (1 donde ni es el y ) que 1 21 2 tienden a aumentar o disminuir con las puntuaciones, n1 numerador estadstico ser grande. el nn1 n 2 del 2 = m1/n. As, el estadstico propuesto para este test es Si, por el contrario,aumentar o disminuir varan en funcin de el proporciones observadas tienden todas las muestras y no = nlas puntuaciones,la puntuacin de cada si las el a las proporciones s con s /n es la puntuacin media. Notar que grupo, combinada en i i numerador estar prximo a 0. Bajo la hiptesis nula de ausencia de una componente lineal en dondedonde correspondeanterior seguir aproximadamente varan expuestos y no ser estadstico a el contrario, las proporciones no una distribucin la tendencia, elgrande. Si, probabilidad de enfermar comn para para en numerador del estadsticocorresponde a la por la probabilidad de enfermar comnexpuestos y no chi-cuadrado proporciones observadas tienden a aumentar o disminuir con las puntuaciones, el con 1 grado de libertad. Esta prueba se conoce genricamente como test chi-cuadrado de expuestos. a diferencia numerador estar prximo su valor valor estimarse expuestos. Aunque del test de es desconocida, Bajo la tendencia y,cada grupo, elesta probabilidad es desconocida, su puedepuedeaplicarse incluso uncin de la puntuacin de Aunque esta probabilidad independencia ao0.asociacin, puede estimarse numerador delmuestras tengangrande.= 0,072 el p = 254/2.713 = 0,094la muestra total sea cuando algunas =estadstico= 174/2.408 Si, por y contrario, lascon que de las varan en 135/2.591 0,052, p2 ser un tamao reducido, basta proporciones no 3 suficientemente grande ycombinada de combinada no elen ambas muestras(a ) = )/(n1 c)/(n1 + c (a + + mediante la proporcin la proporcin enfermos en ambasextrema, n7 (1 p+ 5. Finalmente, mediante lacomponente combinada de enfermos estadstico p = proporcin lineal en la tendencia, muy muestras hiptesis nula de ausencia de una funcin deque el test de(Figura 7.1). Para contrastar si estaridoneidadcreciente es la categoras tendencia no permite contrastar la tendencia ade la relacin lineal; puntuacin de cada grupo, el numerador esta prximo 0. Bajo la cabe resear sucesivas este = m2) n. As, . As, el estadsticochi-cuadrado con 1una componente lineal significativa, test1/ nicamente distribucin la existencia de estest es anterior seguir aproximadamente una determina propuestoeste test grado de n2) n = m1/n el estadstico propuesto para para este hiptesis nula dese asignande la relacin subyacente. independientementeausenciasea una componente1lineal ensla=tendencia, = 6,90 significativa, de cul las puntuaciones s = 4,65, 2 5,72 y s3 el estadstico ibertad. Esta prueba se conoce genricamente como test chi-cuadrado de tendencia y, anterior seguir aproximadamentedel colesterol total de cada categora. grado de una distribucin chi-cuadrado correspondientes ael ejemplo anterior se detectaron diferenciascon 1 Aunque en el riesgo Ejemplo 7.9 En la mediana significativas de muerte por enfermedad cardiovascular entre los cuando a diferencia del test de independencia o asociacin, puede aplicarse inclusoparticipantes del NHANES II con libertad. Esta prueba lasconoce genricamente como test chi-cuadrado de tendencia y, un podran de colesterol puntuaciones 5,20-6,19es preferible utilizar una medida de niveles asignarse se total < 5,20, 1, 2 y 3, y 6,20 mmol/l. De hecho, se observa claro tamao reducido, basta con acumuladas p = 135/2.591 = 0,052, p2 = 174/2.408 = algunas muestras tengan unincremento en las incidenciasque la muestra1total sea a diferencia del 254/2.713 = 0,094 de lasasociacin,categoras (Figura 7.1). Para contrastar si7 tendencia3 centralde independencia o sucesivas puede para preservar la distancia 7 0,072 y p = test de cada categora (media o mediana) aplicarse incluso cuando esta tendencia creciente es significativa, se asignan - p ) 4,65, suficientemente grande y la proporcin combinada no muy extrema, n conlas puntuaciones s1 = sea s2 = 5,72 algunas=las mismas. As,un numerador del estadstico (1que total5. cada categora. Aunque muestras tengan el tamao reducido, del colesterol lade de basta p del test muestra totalvendra y s3 entre 6,90 correspondientes a la mediana tendencia podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia Finalmente, cabe resear que el test de tendencia no permite contrastar lamuy extrema, n p (1 - p ) 5. de suficientemente grande y la proporcin combinada no idoneidaddistancia entre las mismas. central de dado por cada categora (media o mediana) para preservar la As, el numerador del estadstico del test de tendencia vendra dado por a relacin lineal; este test nicamente determina la existencia de una componente lineal Finalmente, cabe resear que el test de tendencia no permite contrastar la idoneidad de N = {2.591(0,052 0,073)(4,65 5,78) significativa, independientemente de cul 2.408(0,072 0,073)(5,72 5,78) + sea la relacin subyacente. la relacin lineal; este test nicamente determina la existencia de una componente lineal + 2.713(0,094 0,073)(6,90 5,78)}2 = 15.364,56 significativa, independientemente de diferencias relacin subyacente. Ejemplo 7.9 En el ejemplo anterior se detectaron cul sea la significativas en el

riesgo de muerte por enfermedad cardiovascular entre los participantes del Ejemplo 7.9 En el y el denominador por ejemplo anterior se detectaron diferencias significativas en el 106 Pastor-Barriuso R. NHANES II con niveles de colesterol total < 5,20, 5,206,19 y 6,20 mmol/l. De riesgo de muerte por enfermedad cardiovascular entre los participantes del D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2

n1

n2

Medidas de efecto en una tabla de contingencia

p2 es un estimador puntual insesgado de la

entre expuestos y no expuestos, E(p1 - p2) = 1 -

2 )% para 1 - 2 se obtiene siguiendo el mismo

135/2.591 = 0,052, p = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las 0,1


Incidencia acumulada de muertes por ECV

rcin como

sucesivas categoras (Figura 7.1). Para contrastar si esta tendencia creciente es


0,08

significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90 p1 (1 p1 ) p 2 (1 p 2 ) , 0,06 n1 n 2 correspondientes a la mediana del colesterol total de cada categora. Aunque

podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de cia de proporciones muestrales con una amplitud 0,04 tendencia central de cada categora (media o mediana) para preservar la distancia n de su error estndar. entre las mismas. As, el numerador del estadstico del test de tendencia vendra 0,02 s en la probabilidad subyacente de desarrollar la dado por y no expuestos, se contrasta la 0 hiptesis nula H0: simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A N = {2.591(0,052 - 0,073)(4,65 - 5,78) bilateral H1: 1 2. Bajo la hiptesis nula de continuacin, se5,5 4,5 5 6 6,5 7 relacionan las proporciones observadas pi con sus correspondie + 2.408(0,072 - 0,073)(5,72 - 5,78) Colesterol total (mmol/l) , se cumple que puntuaciones si mediante el estadstico Figura 7.1 Figura 7.1 Incidencia acumulada de muertes por enfermedad cardiovascular (ECV) en 15 aos de + 2.713(0,094 - 0,073)(6,90 - 5,78)}2 = 15.364,56
1 1 0, (1 ) n1 n 2
seguimiento del estudio NHANES II segn niveles de colesterol total < 5,20, 5,20-6,19 y 6,20 mmol/l.

r ni ( p i p )( s i s ) , 2 = i 1 r 2 p (1 p ) ni ( s i s ) 2 de enfermar comn para expuestos y D = 0,073(1 0,073){2.591(4,65 5,78) no i 1 + 2.408(5,72 5,78)2 es desconocida, su valor puede estimarse + 2.713(6,90 5,78)2} = 454,78, donde ni es el tamao de cada muestra, n = ni, p = nipi/n es la proporcin donde a + c)/(n1 nfermos en ambas muestras p = (563/7.712 += 0,073 es la proporcin global de muertes por enfermedad cardiovascular en todos combinada en todas las muestras y s = (2.5914,65 +puntuacin media. Notar q los participantes del NHANES II y = nisi/n es la 2.4085,72 donde p = 563/7.712 5,78 es la puntuacin media. Elde muertes por enfermedad 2 = = 0,073 es la proporcin global estadstico resulta entonces + 2.7136,90)/7.712 = para este test es proporciones observadas1 33,78) aumentar la distribucin las N/D = 33,78, que corresponde a un valor P = P( 2 tienden a< 0,005 en o disminuir conchi- puntuaciones, cuadrado con 1 en todos los participantes6del NHANES II Este resultado confirma que el cardiovascular grado de libertad (Tabla del Apndice). y s = (2.5914,65 + numerador del cardiovascular aumenta significativamente proporciones no riesgo de mortalidad por enfermedadestadstico ser grande. Si, por el contrario, las al aumentar el+ 2.7136,90)/7.712total. es la puntuacin media. El estadstico 2.4085,72 nivel de colesterol = 5,78 funcin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo

, y el denominador por y el denominador por

resulta entonces 2 = N/D7= 33,78, que corresponde a un valor P = P( 12 33,78) hiptesis nula de ausencia de una componente 7.6 MEDIDAS DE EFECTO EN UNA TABLA DE CONTINGENCIA lineal en la tendencia, el estadst

< 0,005 en y distribucin chi-cuadrado con 1 de datos libertaddistribucin slo interesa En epidemiologala en otras aplicaciones del anlisis grado de en salud (Tabla 6 no chi-cuadrado con 1 grado d anterior seguir aproximadamente una pblica, del determinar el grado de significacin estadstica sino tambin obtener estimadores de efecto o Apndice). Este resultado confirma A partir se conoce genricamente como test chi-cuadrado de tend medidas de la magnitud de la libertad. Esta pruebade una tabla 22 pueden obtenerse distintas asociacin. que el riesgo de mortalidad por enfermedad medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La cardiovascular o proporciones, que del test al aumentar el nivel de colesterol total. significativamente de independencia o 7.3, permite determinar diferencia de riesgosaumenta a diferencia ya se discuti en el Apartadoasociacin, puede aplicarse incluso cua la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos y no expuestos en un estudio algunas muestras tengan un tamao reducido, basta con que lase prospectivo o transversal, respectivamente. En este apartado muestra total sea revisan los mtodos de inferencia sobre el riesgo relativo y el odds ratio, as como sus respectivos [Figura 7.1 aproximadamente aqu] mbitos de aplicacin. suficientemente grande y la proporcin combinada no muy extrema, n p (1 - p

17 Pastor-Barriuso R. 107 Finalmente, cabe resear que el test de tendencia no permite contrastar la idone

la relacin lineal; este test nicamente determina la existencia de una componen

> 1 relativo 7.6.1 Riesgoindica una mayor probabilidad de desarrollar la enfermedad en expuestos

Inferencia sobre proporciones

El riesgo relativo o razn de riesgos es lasi = 1,25,efecto ms utilizada en estudios que en no expuestos. Por ejemplo, medida de los sujetos expuestos tienen 1,25 prospectivosrelativo veces para comparar la incidencia de la enfermedad entre expuestos y no 7.6.1 Riesgo ms riesgo o son un 25% ms propensos a desarrollar la enfermedad que los expuestos, y se define de - 1) es la medida de efecto ms El riesgo no expuestos (100(riesgos= 100(1,25 - 1) = 25%). utilizada en estudios prospectivos relativo o razn como para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como < 1 indica una menor probabilidad de ( D | E ) la enfermedad en expuestos que P contraer 1 = , 2 P( D | E c ) en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos son un 20% donde 1 = P(D|E) y 2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D entre los sujetos expuestos E y no expuestosenfermedad que los node el riesgo (100(0,80 - 1) donde menos propensos = desarrollar la Ec, respectivamente. As, desarrollar la determina 1 = P(D|E) y 2 a P(D|Ec) representan la probabilidad expuestos relativo cuntas veces es ms frecuente la enfermedad en expuestos que en no expuestos. Se trata, por tanto, de = -20%).entre los sujetos expuestos Eque puede tomarEc, respectivamente. As, el de una medida de efecto multiplicativa y no expuestos cualquier valor no negativo, enfermedad D tal forma que: riesgo Unindicadetermina cuntas 1/ representan el mismo enfermedad expuestos P(D|E) = y = relativo de y su inverso veces de ms frecuente la nivel de no en expuestos en 1 valor la misma probabilidad es enfermar en expuestos y asociacin, pero

P(D|Ec); es decir, la exposicin y la enfermedad son independientes. Cuanto ms alejado que ensentido en cualquier sentido,tanto, de 4, los magnitud efecto multiplicativa ms no expuestos. Se trata, por mayor ser medida de de la asociacin entre exposicin est de 1 opuesto. Por ejemplo, si = unala sujetos expuestos son 4 veces que y enfermedad. puede propensos a desarrollar lanegativo, de tal forma que: tomar cualquier valor no enfermedad que los no expuestos, o equivalentemente y > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no expuestos. Por ejemplo, siprobabilidad de enfermar en expuestos 1,25 veces ms riesgo o = 1,25, los sujetos expuestos tienen y no expuestos = noindica la misma los 1 expuestos son un 75% menos propensos a contraer la enfermedad que los son un 25% ms propensos a desarrollar la enfermedad que los no expuestos (100( 1) = 100(1,25= P(D|Ec); es decir, la exposicin y la enfermedad son independientes. P(D|E) 1) = 25%).- 1) = 100(0,25 - 1) = -75%). expuestos (100(1/ y < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no expuestos. Por ejemplo,tambin puede aplicarseexpuestos son un 20% menos propensos a Esta medida de efecto si = 0,80, los sujetos a estudios transversales en trminos 18 desarrollar la enfermedad que los no expuestos (100(0,80 1) = 20%). de la valor de y su inverso 1/ representan igual que ocurra asociacin, pero de y Unrazn de prevalencias. Sin embargo, y alel mismo nivel de con la diferencia en sentido opuesto. Por ejemplo, si = 4, los sujetos expuestos son 4 veces ms propensos a riesgos, el riesgo relativo no quedirectamente estimable a partir de estudiosno expuestos son desarrollar la enfermedad es los no expuestos, o equivalentemente los un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ 1) = retrospectivos1) =que la proporcin de casos est predeterminada por el propio diseo 100(0,25 ya 75%).

Esta medida de efecto tambin puede aplicarse a estudios transversales en trminos de la del estudio. razn de prevalencias. Sin embargo, y al igual que ocurra con la diferencia de riesgos, el riesgo relativo no es directamente observados en unade estudios(Tabla 7.1), un ya que la proporcin de A partir de los datos estimable a partir tabla 22 retrospectivos estimador puntual casos est predeterminada por el propio diseo del estudio.

del riesgo relativo viene determinado por A partir de los datos observados en una tabla 22 (Tabla 7.1), un estimador puntual del riesgo relativo viene determinado por RR = p1 a / n1 , p 2 c / n2

que corresponde al cociente entre la proporcin de enfermos en la muestra de sujetos expuestos p1 = a/n1 y no expuestos p2 = c/n2.

19 Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporcin de muertes por enfermedad cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos con niveles inferiores a 6,20 mmol/l. As, la estimacin puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;

108

Pastor-Barriuso R.

El clculo de un intervalo de confianza y un test de hiptesis para no resulta


Medidas de efecto en una tabla sencillo ya que la distribucin muestral de su estimador RR es muy asimtrica, de contingencia

particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 aos de seguimiento es un 51% superior es los sujetos con niveles altos de colesterol total solventar este problema de inferencia, en preferible trabajar con el logaritmo natural del que en quienes tienen niveles ms bajos. riesgo relativo, cuya distribucin presenta una mayor simetra. De hecho, puede El clculo de un intervalo de confianza y un test de hiptesis para no resulta sencillo ya que la distribucinlos tamaos de ambas muestras son suficientemente grandes n11(1 - 1) el probarse que si muestral de su estimador RR es muy asimtrica, particularmente cuando riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de inferencia,2(1 - 2) 5,trabajar contiende a distribuirse de forma normal concuya distribucin 5 y n2 es preferible el log(RR) el logaritmo natural del riesgo relativo, media log() presenta una mayor simetra. De hecho, puede probarse que si los tamaos de ambas muestras son suficientemente grandes n- 1(11 1) 5 y 2n22(1 2) 5, el log(RR) tiende a distribuirse y varianza aproximada 1/a 1 1/n + 1/c - 1/n , de forma normal con media log() y varianza aproximada 1/a 1/n1 + 1/c 1/n2, 1 1 1 1 ~ log( RR) N log( ), . a n1 c n 2
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales delEjemplo 7.11 En las Figuras 7.2(a) yenfermedad cardiovascular entre los sujetos con RR y del log(RR) de mortalidad por (b) se presentan las distribuciones un colesterol total 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias simples de tamao 500 del estudio mortalidad por enfermedad cardiovascular ambas muestrales del RR y del log(RR) de NHANES II. Como puede observarse, distribuciones estn centradas alrededor de los parmetros subyacentes 1,51 y log(1,51) = 0,42 en todos los participantes del estudio. Sin embargo, la distribucin muestral del 20 RR presenta una clara asimetra, mientras que el log(RR) se distribuye de forma aproximadamente normal.
25 20 Frecuencia relativa (%) en muestras de tamao 500 15 10 5 0 0 1 2 3 4 25 20 15 10 5 0 -1 0 1 2

(a)
25 20 15 10 5 0 0 1

RR
25 20 15 10 5 0 2 3 4 -1

(b)

log(RR)

(c)

OR

(d)

log(OR)
Figura 7.2

Figura 7.2 Distribucin muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad cardiovascular entre los sujetos con un colesterol total 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias simples de tamao n = 500 obtenidas a partir del estudio NHANES II. Las lneas verticales en trazo discontinuo corresponden a los parmetros subyacentes = 1,51, log() = 0,42, = 1,57 y log() = 0,45.
Pastor-Barriuso R. 109

a n1 del n En base a la distribucin aproximadamente normal c log(RR), puede obtenerse un [Figura 7.2 aproximadamente 2 aqu]
Inferencia sobre proporciones intervalo de confianza

1 / 2

al 100(1 - )% para en ambos lmites Deshaciendo la transformacin logartmica el log() como de este intervalo, el IC al En base a la distribucin aproximadamente normal del log(RR), puede obtenerse un 100(1 H0 sigue aproximadamente una distribucin normal estandarizada. Conviene que bajo - )% para el riesgo relativo subyacente queda entonces determinado por 1 1 1 1 como . intervalo de distribucin aproximadamente normal) log(RR), puede obtenerse un intervalo En base a la confianza al 100(1RR) )%zpara el log( del log( - 1 / 2 a n2 de confianza esta hiptesis nula Hel = 1 coincide con lachiptesis H : = de la al 100(1 )% para : log() como n1 destacar que 0 2 1 1 1 1 0 1 explog( RR) z1 / 2 1 1 1 . 1 . 2 Deshaciendo proporcioneslog(dos z1 / 2 independientes, ndecomo con la hiptesis logartmica ambos c comparacin de la transformacinRR)muestras en a n n1 lmitesas este intervalo, el IC al en a c n2 1

100(1 - )% para el riesgo 2 de Pearson en una tabla entonces determinado por Deshaciendo portransformacin logartmicaefecto queda22. Esteintervalo detanto, un100(1 nula de independencia del testrelativo subyacente multiplicativa, este intervalo, el IC al Notar que la tratarse de una medida de en ambos lmites de el test es, por confianza Deshaciendo la transformacin logartmica en ambos lmites de este por )% para sigue aproximadamente una distribucin normal estandarizada. Conviene que bajo H0el riesgo relativo subyacente queda entonces determinado intervalo, el IC al procedimiento alternativo para contrastar la misma hiptesis nula,que arroja resultados no es simtrico alrededor de la estimacin puntual RR. Asimismo, la hiptesis nula de 1 1 1 100(1 - esta hiptesisexprelativo subyacente 1 con destacar que)% para el riesgo log( RR= z1 / 2 lahiptesis H0: 1 = 2 depor nula H0: ) 1 coincide queda entonces. determinado la n1 c n 2 si muy similares 0cuando el tamao muestral frente aa hiptesis alternativa bilateral H1: es grande. No obstante, la muestra es la no efecto H : = 1 puede contrastarse comparacin de proporciones dos muestras independientes, as en Notar que por tratarse de una medida de efecto multiplicativa, el intervalo de confianza no es 1 1 1 1 como con la hiptesis moderada alrededor de la de una de RR) z1efectoAsimismo, hiptesis nulade confianza H : o pequea, el valor log( este test RR. multiplicativa, el .intervalo cuyo caso P medida de puede resultar algo impreciso, en de no efecto exp 1 mediante el tratarse estimacin puntual / 2 simtricoque por estadstico Notar 0 a n1 c la 2 la de Pearson en una tabla 22. n 2 :test mediante el estadstico Este un nula1de independencia del test a hiptesis alternativa bilateral H1 1 es, por tanto, 2 = puede contrastarse frente es preferible utilizar los contrates basados en puntual RR. Asimismo, la hiptesis nula de la no es simtrico alrededor de la estimacinlog(diferencia de proporciones o el test RR) procedimiento alternativode una medida de efecto multiplicativa, el intervalo resultados z , Notar que por tratarse para contrastar la misma hiptesis nula, que arroja de confianza 1 1 1 de no efecto H : = 1 puede contrastarse1frente a la hiptesis alternativa bilateral H : Pearson. 0 1 muy similares cuando el tamao muestrala grande. No 2obstante, si la muestra esnula de es puntual n no es simtrico alrededor de la estimacin n1 c RR. Asimismo, la hiptesis 1 mediante el estadstico que bajo H0 sigue aproximadamente una distribucin normal estandarizada. Conviene destacar Ejemplo 7.12 Retomando de nuevo la moderada o pequea,1 puede contrastarse los datos del NHANES II presentados encaso frente a hiptesis H = en cuyo no efecto H0: = el valor P de este test puede resultar algo :impreciso,bilateral H1: que esta hiptesis nula H : = 1 coincide con la la hiptesis alternativade la comparacin de
0 0 1 2

proporciones en dos muestras para el log() log( RR) con la hiptesis nula de independencia as como Tabla 95% independientes,la diferencia es preferible7.2, el IC al contrates basados enresulta ser ,de proporciones o el test 2 z 1test 2 de utilizar los una tabla 22. Este test es, por tanto, un procedimiento alternativo para mediante el estadstico Pearson en del 1 1 1 1 contrastar la misma hiptesis nula, que arroja resultados muy similares cuando el tamao 21 de Pearson. a 1 n c n2 1 muestra 1es moderada1o pequea, el valor P de este test muestral es grande. No,51) z 0,975si la log( RR)1 obstante, log(1 z 254 2 es 309 , puede resultar algo impreciso, en cuyo caso.713preferible 4.999 los contrastes basados en la 1 1 1 1 utilizar 2 diferencia de proporciones o el testnuevoPearson. del NHANES II presentados en la Ejemplo 7.12 Retomando de de a datos c n 2 los n1 = 0,415 1,960,081 = (0,256; 0,574). Ejemplo el IC Retomando de nuevo los ser Tabla 7.2,7.12 al 95% para el log() resultadatos del NHANES II presentados en la Tabla 7.2, el exponencial a ambos lmites del intervalo, el IC al 95% para 21 Aplicando la IC al 95% para el log() resulta ser

log(1 vendra dado por,51) z 0,975

1 1 1 1 254 2.713 309 4.999

21

= exp{0,574}) = (1,29; 1,78), (exp{0,256}, 0,415 1,960,081 = (0,256; 0,574).


Aplicando la exponencial a ambos lmites del intervalo, el IC al 95% para vendra dado por que es ligeramente asimtrico respecto a la estimacin el IC al 95% para El Aplicando la exponencial a ambos exp{0,574}) = (1,29;puntual RR = 1,51. (exp{0,256}, lmites del intervalo, 1,78), que es ligeramente asimtrico respecto a la estimacin puntual RR = 1,51. El estadstico estadstico para el vendra dado por contraste de la hiptesis de no efecto H0: = 1 es para el contraste de la hiptesis de no efecto H0: = 1 es
log(1,51) (exp{0,256}, exp{0,574}) = (1,29; = 5,11, 1,78), z= 1 1 1 1 254 2.713 309 4.999 que es ligeramente asimtrico respecto a la estimacin puntual RR = 1,51. El que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 (5,11)} < 0,001. Como caba estadstico para el contraste P bilateral 2P(Z no efecto H0valor nulo =0,001. fuera de esperar, este test arroja valor de la hiptesis de 5,11) = 2{1 : = 1 es < 1 queda que corresponde a un un resultado significativo dado que el - (5,11)} los lmites del intervalo de confianza. As, se concluye que los sujetos con niveles de colesterol total superiores a 6,20este test presentan1,51) Como caba esperar, mmol/l arroja un un 51% (IC al 95% 29-78%; P < 0,001) ms riesgo log( resultado significativo dado que el valor = niveles z = cardiovascular que quienes tienen5,11, inferiores a este umbral. de morir por enfermedad 1 1 1 1 22 254 2.713 309 4.999

110

Pastor-Barriuso R.

que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 - (5,11)} < 0,001.

, medirse mediante la probabilidad P(D|E)c de que un sujeto de la poblacin expuesta 7.6.2 Odds ratio P( D | E ) vendra dada por presente o desarrolle dicha enfermedad.una poblacinde frecuencia de la enfermedad Medidas de efecto en una suele La frecuencia de una enfermedad D en Otra medida expuesta a un factor Etabla de contingencia entre que se conoce como el odds de estar enfermoE ) los expuestos y puede estimarse P( D | , vendra dada por la probabilidad P(D|E)c de que un sujeto de la poblacin expuesta medirse mediante P( D | E ) mediante 7.6.2 Odds ratio presente o desarrolle dicha enfermedad.P( D | medida de frecuencia de la enfermedad Otra E ) quefrecuencia como el enfermedad Denfermo poblacinexpuestos y puede estimarse medirse se conoce de una odds de estar en /una entre los expuesta a un factor E suele La a P1( D ca| E ) , n . vendra dada por mediante la probabilidad P(D|E) de queb / n1 b de la poblacin expuesta presente o desarrolle un sujeto mediante dicha enfermedad. Otra medida de frecuencia de la enfermedad vendra dada por que se conoce como el odds de estar enfermo E ) los expuestos y puede estimarse P( D | entre , a / n1 ca Ejemplo 7.13 La proporcin de muertes por enfermedad cardiovascular entre los P( D | .E ) mediante b / n1 b que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante participantes del NHANES II con niveles de colesterol total 6,20 mmol/l es que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse a / n1 a . b / n por enfermedad cardiovascular entre por Ejemplo 7.13 La proporcin decon niveles altos de colesterol que no fallezcanlos muertes 1 b esto 254 mediante es, por cada 10 sujetos a 0,094 ; n1 muertes por enfermedad cardiovascular entre los 2.713 Ejemplo 7.13 cada proporcinhabr aproximadamente 1 muerte por dicha es participantes del La 10 sujetoscon niveles de colesterol total que no fallezcan por a enfermedad NHANES II de esto es, por cardiovascular,con niveles altos de colesterol 6,20 mmol/l causa a / n1 participantes del NHANES II con niveles deacolesterol totalcardiovascular entre los Ejemplo 7.13 La proporcin de muertes por enfermedad 6,20 mmol/l es . es decir, aproximadamente 1 dehabrbaproximadamente 1difiere, ambas medidas de cada 11 1sujetos con niveles altos de dicha causa / los 15 aos cardiovascular, a enfermedad de seguimiento. Aunquenla interpretacin muerte porcolesterol a 254 b niveles de colesterol total 6,20 mmol/l es participantes del NHANES II con2.713 0,094 ; n fallecer por enfermedad misma 1 niveles interpretacin difiere, ambasPor otrapor cardiovascularla los 15de colesterol que no fallezcan de frecuencia cada 10 sujetos Aunque a altos aos de seguimiento. medidas informacin. esto15 aosfacilitan la los es, por de seguimiento. con es decir, aproximadamente 1 dede muertes por enfermedad cardiovascular entrefallecer sujetos con niveles altos de colesterol Ejemplo 7.13 La proporcin cada 11254 a 15 aos decon niveles estos otra parte, los parte, el odds facilitan la misma a los aproximadamenteentre altos porcolesterolel odds de porfrecuencia de cardiovascularhabr 11cardiovascular; 1 muerte de dicha causa a enfermedad morir por enfermedad sujetos 0,seguimiento. Porsujetos es es decir, aproximadamente 1 de cada enfermedad cardiovascular, informacin. 094 n1 2.713 Departicipantes del NHANES II con entre estosentre losestotal 6,20 se define forma equivalente, el odds de estar enfermo sujetos morir por enfermedad cardiovascular niveles de colesterolno expuestos mmol/l es fallecer por enfermedad cardiovascularla interpretacin difiere, ambasPor otra de los 15 aos de seguimiento. Aunque a los 15 aos de seguimiento. medidas a 254 0,103 como es decir, aproximadamente 1 decada 11sujetos; con niveles altos dese define De forma equivalente, el odds de estar enfermo entre los no expuestos colesterol b a2.459 254 parte, el odds facilitan la misma informacin. 0,094 ; entre estos sujetos es frecuencia de morir por enfermedad cardiovascular esto es, por por 10 sujetos con niveles altos a los 15 aos de no fallezcan Por otra n1 2.713 como fallecercadaenfermedad cardiovascular de colesterol que seguimiento.por enfermedad 23 P( D | E c ) cardiovascular, habr aproximadamente 1 muerte por dicha causa a los 15 aos de , c a P254 E c ) seguimiento. Aunque la interpretacinD c0,103 ; los entre estos sujetos es ( difiere, entre Departe, el odds de morirodds enfermedad| cardiovascularno expuestos se define forma equivalente, el por de estar enfermo ambas medidas de frecuencia facilitan la es decir, aproximadamente 1 b cada 11 sujetos con niveles altos de colesterol de P.(459 E ) 2 D| misma informacin. , P( D c | E c ) como y el odds ratio o razn de odds entre expuestosaylos 15 aos de queda entonces otra fallecer por enfermedad cardiovascular no expuestos seguimiento. Por 23 254 De forma equivalente, el odds de estaraenfermo entre los; no expuestos se define como 0,103 b 2.459 determinado porrazn de odds entre expuestos cy no expuestos queda entonces es y el odds ratio odds de morir por enfermedadE ) parte, el o P( D | cardiovascular entre estos sujetos , 23 P( D c | E c ) determinado por c c c ) P( D | E ) / P ( D | E y no expuestos ( D | E ) P( D | E ) P a y el odds ratio o razn = odds entre expuestos254 0,103 ; queda entonces determinado por de c , c c b E ) P(odds entre ( D | 2.459 P( D c | E ) P( D | E c ) entonces D | E ) / P expuestos y no expuestos queda y el odds ratio o razn de P( D | E ) / P( D c | E ) P( D | E ) P( D c | E c ) , = 23 P( D | E c ) / P( D c | E c ) P( D c | E ) P( D | E c ) determinado por puntual cuya estimacin cuya estimacin puntual cuya estimacin puntual P( D | E ) / P ( D c/ |n1 )(d / n 2()D | ad P( D c | E c ) P E) (a E ) = , c OR = c c c P( D | E ) / P ( D /|n1 )()c / n 2 ( D bc ) P( D | E c ) E P) | E (b (a / n1 )(d / n 2 ) ad OR = coincide con la razn del producto cruzado de las celdas de una tabla 22. (b / n1 n2 cuya estimacinrazn del producto cruzado)(c /las ) bc de una tabla 22. puntual coincide con la de Al igual que el riesgo relativo, el odds ratio es una celdas de efecto multiplicativa que toma medida valores no negativos. Si = 1, las probabilidades de enfermar en expuestos y no expuestos Al P(D|E) P(D|Ec), indicando oddsnratio /es )entre de una efecto multiplicativa coincide con la=el riesgo producto cruzado )(d las2una medida detabla enfermedad. Si por el (a / 1 de n ad coincidenigual que razn del relativo, el independenciaceldas exposicin y 22. OR = contrario > 1, la probabilidad de contraer n1 )(c / n 2 ) bcser mayor en expuestos que en no (b / la enfermedad que toma valores no si < 1, la probabilidad es una medida de efecto multiplicativa y Al igual que el riesgo relativo, = 1, ratio de desarrollar enfermar en expuestos expuestos; mientras quenegativos. Siel odds las probabilidades dela enfermedad ser menor en expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estar siempre ms coincide con la raznnegativos. Si P(D|Ec), indicando independencia entre exposicin y no toma valores no del producto cruzado probabilidades una tabla 22. queexpuestos coinciden P(D|E) = = 1, lasde las celdas de de enfermar en expuestos y
Pastor-Barriuso enfermedad. Si por el contrario = el 1, la probabilidadmedida de efecto multiplicativa no Al igual que el riesgo relativo, P(D|Ec),ratio es unaindependencia entre exposicin y R. expuestos coinciden P(D|E) > odds indicando de contraer la enfermedad ser 111

que toma valores noel contrarioexpuestos;las probabilidades de 1, lala enfermedad de y enfermedad. Si por que en no Si > 1, la probabilidad de contraer probabilidad ser mayor en expuestos negativos. = 1, mientras que si < enfermar en expuestos

254 4.690 = 1,57. 2.459 309 Inferencia sobre proporciones y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estn prximas a 1, el odds ratio Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% ser entonces aproximadamente igual al riesgo relativo. la probabilidad de enfermar es baja en alejado del valor nulo 1 que el riesgo relativo. Adems, si superior en y sujetos con niveles de colesterol total superiores a 6,20 mmol/l a 1, los sujetos expuestoslosno expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estn prximasque el odds ratio ser entonces aproximadamente igual al riesgo relativo. Ejemplo 7.14 A partir de datos observados en el estudio NHANES II (Tabla 7.2), en aquellos con niveles inferiores a 6,20 mmol/l. Este odds ratio es ligeramente OR =
Ejemplo 7.14 puntual del odds datos es de los II (Tabla la estimacin elA partirrelativoratio=observados en el estudio NHANES aunque la7.2), la mayor que riesgo RR 1,51 estimado en el Ejemplo 7.10, estimacin puntual del odds ratio es

diferencia no es muy grande porque la .incidencia acumulada es relativamente baja 254 4 690 = 1,57. OR = 2.459 309 tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062. Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los sujetos con nivelesde mortalidadtotal enfermedad cardiovascular esen aquellos con niveles Por tanto, el odds de colesterol por superiores a 6,20 mmol/l que un 57% inferiores a 6,20 mmol/l. , resulta obvio es ligeramente mayor que el riesgo relativo De la propia definicin de Este odds ratio que el odds ratio puede estimarse a partir superior en los sujetos el Ejemplo de colesterol total superiores a muy grande porque la RR = 1,51 estimado en con niveles 7.10, aunque la diferencia no es6,20 mmol/l que incidencia acumulada y transversales, ya quetanto en diseos facilitan estimaciones como de estudios prospectivos es relativamente baja ambos expuestos 254/2.713 = 0,094 de aquellos con 309/4.999 = 0,062. en no expuestos niveles inferiores a 6,20 mmol/l. Este odds ratio es ligeramente las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de Demayor que definicinrelativo resulta obvio que el en el Ejemplo 7.10, aunque la partir de la propia el riesgo de , RR = 1,51 estimado odds ratio puede estimarse a estudios prospectivos y transversales, 2), el odds ratio puede expresarse a su vez en de las probabilidad condicional (ver Tema ya que ambos diseos facilitan estimaciones diferencia no enfermar P(D|E) y la incidencia acumulada es relativamente baja probabilidades de es muy grande porqueP(D|Ec). Aplicando la definicin de probabilidad condicional (ver Tema 2), el odds ratio puede expresarse a su vezno enfermos de la probabilidad trminos de la probabilidad de estar expuesto en enfermos y en trminos como tanto en expuestos 254/2.713 enfermos como de estar expuesto en enfermos y no = 0,094 como en no expuestos 309/4.999 = 0,062. P( D | E ) P( D c | E c ) P( D E ) P( D c E c ) De la propia definicin P( D c, |resultaD | E c )que elD c E ) P(puede estimarse a partir de E ) P ( obvio P ( odds ratio D E c )
c c de estudios prospectivos yP( E | D) P( E ya que ambos diseos facilitan estimaciones de transversales, | D ) , P( E | D c ) P( E c | D) las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de de donde se desprende del odds ratio en es tambin estimable a partir de estudiosrazn del estimacin puntual que el odds ratio estudios retrospectivos coincide con la retrospectivos, aun cuando estos diseos (ver Tema 2), el odds ratio puede expresarse a su vez en absolutas de de donde condicional que el odds ratio es tambin estimable a probabilidades probabilidadse desprende no facilitan informacin alguna sobre las partir de estudios enfermar en cruzado y no expuestos. Por supuesto, la estimacin puntual del odds ratio en producto expuestos estudios retrospectivoscuando estos diseos no facilitan informacin alguna sobre las retrospectivos, aun coincide con la razn en producto y no enfermos como trminos de la probabilidad de estar expuesto del enfermos cruzado

( probabilidades absolutas de enfermara / m1 )(d / m 2 )y ad . OR = en expuestos no expuestos. Por supuesto, la c P( D | E ) P( D | E c /)m 2 P( D m1 ) ) P( D c E c ) (b )(c / E bc c P( D | E ) P( D | E c ) P( D c E ) P( D E c ) Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las cualesLosobtencinretrospectivos suelen conducirse en requerira de estudios prospectivos con la estudios de un E | D) P( E c | D c ) de casos enfermedades de baja incidencia, 25 P( nmero suficiente y amplio seguimiento. En tales circunstancias, si la incidencia de la , gran tamao muestral ) P( E c | D P( E | D cdel estudio )retrospectivo es adecuado (esto es, casos incidentes enfermedad es baja y el diseo de un nmero suficientes de casos requerira de estudios para las cuales la obtencin y controles representativos del nivel de exposicin en la poblacin libre de enfermedad), el odds ratiose desprendeunatamao muestral y amplio estimable a partirtales circunstancias, si el de prospectivos con gran buena aproximacin al riesgo relativoEn de estudios adelante, donde constituye que el odds ratio es tambin seguimiento. subyacente. En odds ratio se utilizar e interpretar como estimacin del riesgo relativo, asumiendo que se cumplen las condiciones citadas anteriormente. la incidencia de cuando estos diseos y facilitan del estudio retrospectivo las retrospectivos, aun la enfermedad es baja noel diseo informacin alguna sobrees adecuado (esto es, casos incidentes enfermar enrepresentativos del nivel dePor de casos la probabilidades 7.15 En de estudio EURAMIC se obtuvo una muestra supuesto, incidentes de Ejemplo absolutas el y controles expuestos y no expuestos. exposicin en la infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra poblacin libre controles seleccionados aratio constituye una buenareferencia. El nmero de aleatoria de de enfermedad), el odds partir de la poblacin de aproximacin al casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l se 25 riesgo relativo la Tabla 7.3. Aunque el diseo retrospectivo del estudio no permite conocer la presenta en subyacente. En adelante, el odds ratio se utilizar e interpretar como
112

estimacin Pastor-Barriuso R.

del riesgo relativo, asumiendo que se cumplen las condiciones citadas

anteriormente.

retrospectivo de hombres no permite conocer la incidencia de infartoscomo un riesgo poblacin del estudio adultos, este odds ratio puede interpretarse entre los con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%). sujetos conyincidencia deylos sujetos con un colesteroles relativamenteuna tabla dela relativo valores altos infartode colesterol HDL, sMedidas superior a baja en contingencia HDL de efecto en 0,90 mmol/l Como la concluir que bajos agudo de miocardio es posible obtener una El odds relativa una medida de efecto multiplicativa cuyaydistribucin muestral es medida ratio un de la menos riesgoeste padecer un puede interpretarsede que aquellos presentan es 42% asociacin entre el colesterol HDL de miocardio infarto riesgo poblacin de hombres adultos, de odds ratio infarto el riesgo como un de incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, s es notablementecolesterol medida ratio a 0,90 mmol/l (100(0,58 elsuperior a 0,90 mmol/l miocardio mediante HDL los sujetosde laun colesteroltransformacin logartmica riesgo con obtener una elque inferior posibleun asimtrica (Figura 7.2(c)),con asociacin entre - 1) = -42%).HDL y el relativo y concluir odds relativa mientras que su HDL colesterol de infarto de miocardio mediante el odds ratio log(OR) tiende aun 42% menos riesgo de padecer un infarto deuna varianza aquellos presentan distribuirse normalmente (Figura 7.2(d)) con miocardio que 269 158 El odds ratio es una medida de efecto multiplicativa cuya distribucin muestral es OR = = 0,58. aproximadamente igual HDL inferior los inversos de (100(0,58 - 1) =de una tabla 22 a la suma de a 381 193 con un colesterol 0,90 mmol/l las frecuencias -42%). notablemente asimtrica (Figura 7.2(c)), de miocardio es relativamente baja en la poblacin Como la incidencia de infarto agudo mientras que su transformacin logartmica de hombres adultos, este odds ratio puede interpretarse como un riesgo relativo y concluir 1 1 1 1 log(OR) tiende aescon un colesterol HDL superior 7.2(d)) mmol/l presentan un 42% menos normalmente (Figura a cuya que los sujetos una medida de efecto multiplicativa con una varianza El odds ratio distribuirsevar{log(OR)} 0,90 . distribucin muestral es 26 a b c d riesgo de padecer un infarto de miocardio que aquellos con un colesterol HDL inferior aproximadamente(100(0,58 1) = de los inversos de las frecuencias de una tabla 22 a 0,90 mmol/l igual la suma 42%). notablemente asimtricaa(Figura 7.2(c)), mientras que su transformacin logartmica Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y log(OR) ratio es una medida de efecto multiplicativa cuya varianza El odds tiende a distribuirse normalmente (Figura 7.2(d))1con unadistribucin muestral es 1 1 1 . deshaciendo a continuacin var{log(OR)} logartmica, se obtiene el intervalo de la transformacin que notablemente asimtrica (Figura 7.2(c)), mientras su transformacin logartmica log(OR) a b c d aproximadamente igual a la suma de los inversos una varianza aproximadamente igual tiende a distribuirse normalmente (Figura 7.2(d)) conde las frecuencias de una tabla 22 a la confianza al 100(1 - las para el odds ratio tabla 22 suma de los inversos de)%frecuencias de una subyacente Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y 1 1 1 1 var{log(OR)} . 1b 1c 1d 1 deshaciendo a continuacin log(OR) z1 / 2alogartmica,se obtiene el intervalo de la exp transformacin , a c d del Utilizando esta aproximacin normal a la distribucinbmuestral log(OR) y deshaciendo a confianza la transformacin logartmica, distribucinintervalo del log(OR) al continuacin al 100(1 - )% para normal a lase subyacentemuestral de confianza y 100(1 )% Utilizando esta aproximacin el odds ratio obtiene el para el odds ratio subyacente que no es simtrico alrededor de la estimacin puntual OR. De forma anloga, la deshaciendo a continuacin la transformacin logartmica, se obtiene el intervalo de 1 1 1 al Ejemplo 7.16 Continuando con el ejemplo anterior, el IC 1 95% para el odds significacin estadstica explog(OR) bilateral de la b c d nula H0: = 1 se obtiene del contraste z1 / 2 a hiptesis , confianza al 100(1 - )% para el odds ratio subyacente ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de que no es simtrico alrededor de la estimacin puntual OR. De forma anloga, la significacin a partir del estadstico quecolesterol HDL alrededor no del contraste estimacin puntual = 1 De estadsticaes simtricoesbilateral de la hiptesis nula H0: OR. se obtiene anloga, la estadstico 1 1 1 1 forma a partir del , explog(OR) z1 / 2 a log(OR) b c d , z significacin estadstica del contraste bilateral de la hiptesis nula H0: = 1 se obtiene 1 11 1 1 1 1 1 explog(0,58) z 0,975 Ejemplo 7.16 Continuando con estimacin puntual el IC forma anloga, la ejemplo c 193 158 al a 381 d a partir es simtrico alrededor de la el 269 b anterior, OR. De 95% para el odds que no del estadstico que bajo H0 sigue aproximadamente una distribucin normal estandarizada. ratio de infarto agudo de contraste entre los sujetos con nula altos = y significacin estadstica del miocardiobilateral 1,960,134) nivelesH00,75). bajos de que bajo H0 sigue aproximadamenteexp(-0,55OR) la hiptesisestandarizada.1 se obtiene log( de = una distribucin normal= (0,44; : , z Ejemplo 7.16 Continuando con el 1 1 1 1 ejemplo anterior, el IC al 95% para el odds ratio de colesterol HDL es a partir del estadstico infarto agudo de miocardio con una confianzacdeld Por tanto, puede afirmarse entre los sujetos con niveles que los bajos decon niveles 95% altos y sujetos colesterol HDL es a b
altos de colesterol HDL tienen z 1un251y un 56% menos riesgo de padecer un entre log(OR) 1 1 exp aproximadamente , estandarizada. que bajo H0 siguelog(0,58) z 0,975 una distribucin normal 27 269 1 1 193 158 1 381 1 infarto de miocardio que quienesexp(0,55 c ms bajos=(100(0,75 - 1) = -25% y a b 1,960,134) (0,44; 0,75). = tienen niveles d

100(0,44 1) = afirmarse con una confianza del 95% que la sujetos con no Por tanto, -puede-56%). Asimismo, el contraste bilateral delos hiptesis de niveles altos de que bajo H0 sigue aproximadamente una distribucin normal estandarizada. colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio Por tanto, = 1 afirmarse sujetos con niveles 27 efecto H0: puede mediante con una confianza del95% que los y 100(0,44 1) = 56%). que quienes tienen niveles el estadstico ms bajos (100(0,75 1) = 25% Asimismo, el contraste bilateral de la hiptesis de no efecto H0: = 1 mediante el estadstico altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un log(0,58) z= = 4,10 infarto de miocardio que quienes tienen niveles ms bajos (100(0,75 - 1) = -25% y 27 1 1 1 1 269 381 193 158 100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hiptesis de no arroja un0: = 1 mediante el estadstico= 2P(Z -4,10) = 2{1 - (4,10)} <Pastor-Barriuso R. 0,001. efecto H resultado muy significativo P Notar que este test es equivalente al contraste de hiptesis realizado en el Ejemplo log(0,58)
113

Inferencia sobre proporciones

arroja un resultado muy significativo P = 2P(Z 4,10) = 2{1 (4,10)} < 0,001. Notar que este test es equivalente al contraste de hiptesis realizado en el Ejemplo 7.5 sobre la igualdad en la proporcin de sujetos con niveles bajos de colesterol HDL entre los casos de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes de ambos procedimientos son virtualmente idnticos. 7.7 COMPARACIN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES

Hasta este punto se han presentado distintos mtodos para la comparacin de proporciones a partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como en distintos sujetos emparejados de acuerdo a determinados factores pronsticos. En el Apartado 6.4 del tema anterior, se presentaron diversos diseos o mecanismos de generacin de datos dependientes. En general, el propsito de los diseos emparejados es aumentar la precisin de las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por posibles factores de confusin. En este apartado se aborda el tratamiento estadstico de datos binarios o dicotmicos procedentes de parejas dependientes. La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja est compuesta por dos observaciones de una variable dicotmica procedentes de distintas poblaciones. As, por ejemplo, en comparaciones antes y despus de un tratamiento, cada pareja de datos est constituida por la respuesta en un mismo sujeto antes y despus de dicho tratamiento. Igualmente, en un estudio de casos y controles emparejados, cada pareja de observaciones est formada por la presencia o ausencia de exposicin en cada caso y su correspondiente control. Para simplificar la presentacin, nos centraremos en adelante en un estudio de casos y controles emparejados. Para preservar el emparejamiento muestral, la unidad de anlisis ser cada pareja y no cada individuo. As, la organizacin de los datos por individuo mediante la Tabla 7.1 no resulta adecuada ya que se pierde la informacin relativa al emparejamiento. La forma apropiada de presentar los datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que hay a parejas donde ambos caso y control estn expuestos al factor de riesgo, b parejas donde el caso est expuesto y el control no, c parejas donde el control est expuesto y el caso no, y d parejas donde ninguno est expuesto. Las a + d parejas donde ambos o ninguno de los miembros estn expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes. Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50 controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l), 6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL. Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7. Tabla 7.6 Tabla de contingencia en un estudio de casos y controles emparejados.
Controles Casos Expuestos No expuestos Total
114 Pastor-Barriuso R.

Expuestos a c a+c

No expuestos b d b+d

Total a+b c+d n

Comparacin aqu] [Tabla 7.7 aproximadamentede proporciones en dos muestras dependientes

Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por Tabla 7.7 Colesterol HDL en 50 casos de infarto de miocardio y 50 controles del estudio EURAMIC emparejados por grupos quinquenales aquellos factores de confusin utilizados en el emparejamiento, cada caso ha de ser de edad. comparado con su correspondiente control; esControles comparaciones deben estar decir, las donde la ltima igualdad refleja su relacin con el odds ratio subyacente . Despejando condicionadas a cada pareja. Por ello,23 pares concordantes,6donde ambos miembros los HDL > 0,90 mmol/l 29 de esta expresin, se tiene que estn o Total no expuestos, no aportan informacin sobre la asociacin a estudio y,50 en 40 10
HDL 0,90 mmol/l 17 4 21 Casos HDL > 0,90 mmol/l HDL 0,90 mmol/l Total

a las consecuencia, el anlisis estadstico se limita . parejas discordantes. La probabilidad 1 Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por aquellos factores de confusin utilizados caso expuesto y el control no expuesto viene dada por con su de observar una pareja con el en el emparejamiento, cada caso ha de ser comparado Como la probabilidad decir, las comparaciones la proporcin observada b/(b + c) de correspondiente control; espuede estimarse mediante deben estar condicionadas a cada pareja. Por ello, los c|Dc), mientras que ladonde ambos de obtener una pareja con el control aportan P(E|D)P(Epares concordantes, probabilidad miembros estn o no expuestos, no parejas discordantes donde el caso est expuesto, la estimacin puntual del odds se limita informacin sobre la asociacin a estudio y, en consecuencia, el anlisis estadstico ratio de a lasexpuesto discordantes.expuesto es P(E|Dde observar una pareja con el casoes parejas y el caso no La probabilidad c)P(Ec|D). As, dado que una pareja expuesto y el donde laexpuesto viene dada por P(E|D)P(Ec|Dcel odds ratioque la probabilidad de obtener enfermar entre igualdad y no expuestos es control no ltimaexpuestos refleja su relacin con ), mientras subyacente . Despejando discordante, el control expuesto y el caso no expuesto una pareja con la probabilidad de que el caso est expuesto es P(E|Dc)P(Ec|D). As, dado que de esta expresin, se tiene que una pareja es discordante, la probabilidad de quebel b c)est expuesto es /( caso b b /(b c) c OR = , 1 | /( ) ) c el b donde la ltima igualdad refleja P(relacinccon D/(oddscratio subyacente . Despejando suEb Db P( E | c ) ) c , P( E | D) P( E c | D c P ( E | D c ) P( E c | D) 1 ) . 1 decoincide igualdad reflejaque relacin con el odds ratio subyacente nmero de que esta expresin, se tiene su donde la ltima con la razn entre ambos tipos de pares discordantes. Si el. Despejando de
esta expresin, se tiene que Como discordantes b con el caso expuesto es superior al nmero de parejas parejasla probabilidad puede estimarse mediante la proporcin observada b/(b + c) de . 1 la estimacin puntual del odds ratio de parejas discordantes control caso est expuesto, discordantes c con eldonde elexpuesto, el odds ratio ser mayor de 1 y la exposicin 30 Como la probabilidad puede estimarse mediante la proporcin observada b/(b + c) de parejas enfermar donde el asociada con la enfermedad; mientras que si observada b/(b + c) discordantesentre expuestos y no expuestos estimacin puntual del odds ratio de enfermar entre Como directamentecaso est expuesto, la mediante la proporcin b es inferior a c, el de estar la probabilidad puede estimarse es expuestos y no expuestos es odds ratio ser menor de 1 el casob /(b c estar inversamente asociadadel odds ratio de parejas discordantes donde y la exposicin ) est expuesto, /(bestimacin puntual con la b la c) b , OR = 1 b /(b c) c /(b c) c enfermedad. enfermar entre expuestos y no expuestos es

que coincide con la razn entre ambos tipos de pares discordantes. Si el nmero de parejas Al igual con la razn entre ambossuperior pares discordantes. distribuye de forma que coincidecon el caso expuesto bes b tipos el al /(b ) de parejas el nmero de discordantes bque en muestras independientes, de log(OR)ctambin se Si discordantes c con el /( c) b nmero b OR = control expuesto, el odds ratio ser mayor de c) la exposicin estar directamente asociada con 1 y c /(b c) c , 1 b dependientes, aproximadamente normal si muestras/(b es superior al nmero de ) y varianza parejas discordantes b con el caso expuesto la enfermedad; mientras que en b es inferior a c, el oddscon media log(parejasy la exposicin ratio ser menor de 1 estar inversamente asociada con la enfermedad. discordantes con razn entre ambos el odds al 100(1 - )% de 1 exposicin aproximada c con1/c. El intervalo de confianzapares discordantes. Siyelodds ratio que coincide1/b +lael control expuesto,tipos de ratio ser mayor para el lanmero de Al igual que en muestras independientes, el log(OR) tambin se distribuye de forma estar directamente asociada con la enfermedad;con mediaque si byes parejas aproximada 1/b aproximadamente normal en muestras expuesto es superior al nmero de inferior a c, el subyacente resulta entonces parejas discordantes b con el caso dependientes, mientras log() varianza + 1/c. El intervalo de confianza al 100(1 )% para el odds ratio subyacente resulta entonces odds ratio ser menor de 1 y expuesto, el odds ratio ser mayor de 1 y la exposicin discordantes c con el control la exposicin estar inversamente asociada con la 1 1 explog(OR) z1 / 2 . enfermedad. b c que estar directamente asociada conla enfermedad; mientras si b es inferior a c, el

Al igual que en muestras la exposicin estar inversamente asociada con la tambin se distribuye de odds ratio ser menor de 1 y independientes, el log(OR) discordantes donde slo forma de Ejemplo 7.18 En la Tabla 7.7 se tienen 6 parejas el caso infarto tiene7.18 nivel alto de colesterol HDL y 17 parejas discordantes donde slo el Ejemplo un En la en muestras dependientes, con media log(donde slo el aproximadamente normal Tabla 7.7 se tienen 6 parejas discordantes ) y varianza caso enfermedad. de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde aproximadaque en 1/c. El intervalo de confianza al 100(1 - )% para el odds ratioforma R. Al igual 1/b + muestras independientes, el log(OR) tambin se distribuye Pastor-Barriuso de aproximadamente normal en muestras dependientes, con media log() y varianza subyacente resulta entonces
115

Inferencia sobre proporciones

slo el control presenta un nivel alto, de lo cual se deduce que la estimacin slo el del odds ratio es puntual control presenta un nivel alto, de lo cual se deduce que la estimacin puntual presenta un nivel alto, de lo cual se deduce que la estimacin puntual del odds control del odds ratio es 6 OR = = 0,35, ratio es 17 6 OR = = 0,35, 17 y su IC al 95% y su IC al 95% y su IC al 95% 1 1 explog(0,35) z 0,975 6 17 1 1 explog(0,35)exp(1,04 1,960,475) = (0,14; 0,90). = z 0,975 6 17

Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95% = exp(-1,04 1,960,475) = (0,14; 10-86%) el los sujetos con niveles de miocardio es inferior en 0,90). (IC al Por tanto, en riesgo de infarto agudo de colesterol HDL > 0,90 mmol/l respecto a aquellos un 65% con niveles 0,90 mmol/l. La conclusin de este estudio emparejado es consistente con la obtenida en los Ejemplos y 7.16 completa e 65% (IC Por 1086%) en los sujetos 7.15 niveles en la muestra HDL > 0,90independiente de casos 95% tanto, el riesgo de infarto agudo de miocardio es inferior en unmmol/l al con de colesterol y controles del estudio EURAMIC. Aunque esta estimacin de efecto es ms imprecisa por disponer nicamente de 50 parejas, ser menos propensa a posibles sesgos 95% 1086%) en con niveles niveles de colesterol HDL de este estudio derivados respecto a aquelloslos sujetos con 0,90 mmol/l. La conclusin> 0,90 mmol/l de la diferencia de edad entre casos y controles. 2 c La respecto a aquellos con niveles obtenidab los Ejemplos 7.15 yeste estudio 0,90 mmol/l. conclusin de 7.16 en la emparejado es consistente con la 2 b en El mtodo ms extendido b Econtrastar la hiptesis nula decindependencia entre exposicin {para (b)} (b ) 2 2 2 = emparejado . y enfermedadcompleta e independienteobtenidayccontroles del estudio 7.16 enobservada b de emparejado es estudio var(b) b bc muestra en un consistente con la deconsiste en comparar la frecuencia la casos en los Ejemplos 7.15 y EURAMIC. pares discordantes donde el caso est expuesto4con su frecuencia esperada bajo la hiptesis nula. Aunque esta estimacin de efecto es ms imprecisa por disponer nicamente de Si no hubiera asociacin entre exposicin y enfermedad, esta frecuencia esperada sera muestra completa e independiente de casos y controles del estudio EURAMIC. simplemente la mitad del nmero total de parejas discordantes (b + c)/2, con lo cual el estadstico Bajo 50 hiptesisser menos efecto, a es ms imprecisa aproximadamente una la parejas, nula de no propensa estadstico sigue por disponer diferencia de del contraste viene estimacin deporeste posibles sesgos derivados de la nicamentede Aunque esta determinado efecto
bc distribucin chi-cuadrado con 1 grado a posibles sesgosderivadosobtener el valor P 50 parejas, ser y controles. edad entre casos menos propensa de2libertad, lo que permite de la diferencia de b (b c) 2 {b E (b)} 2 2 = . 2 c como edad entre casosayla derecha delbestadstico b en la distribucin 12 . Este la probabilidad controles. var( ) bc El mtodo ms extendido para contrastar la hiptesis nula de independencia entre 4 contraste se conoce comono test de McNemar y se aplica aproximadamente unab bajo el efecto, este estadstico sigue cuando la varianza de distribucin Bajo la hiptesis nula de El mtodo ms extendido para contrastar la hiptesis nula de independencia entre exposicin y enfermedad en un estudio emparejado consiste en comparar la frecuencia chi-cuadrado con 1 grado de libertad, lo que permite obtener el valor P como la probabilidad Bajo la hiptesis nula de no efecto, este estadstico sigue aproximadamente una lala derechanula es var(b) = (b2 + c)la(1 - ) = (b + c)/4. 5; es decir, cuando el nmero el test hiptesis del estadstico en distribucin 2 Este contraste se conoce como a 1 exposicin de pares discordantes donde el caso est expuesto con su frecuencia observada b y enfermedad en un estudio emparejado consiste en comparar la frecuencia de distribuciny se aplica cuando la varianza de b bajoque hiptesis nula es var(b) P (b + c) McNemar chi-cuadrado con 1 grado de libertad, lo la permite obtener el valor = de ) = (b + c)/4 es superior cuando 20. (1parejas discordantes 5; es decir, o igual a el nmero de parejas su frecuencia observada b la hiptesis nula. Si donde el caso est expuesto con discordantes es superior o esperada bajode pares discordantesno hubiera asociacin entre exposicin y enfermedad, igual a 20. probabilidad a la derecha del estadstico 2 en la distribucin 12 . Este como la esperada bajo esperada sera simplementede mitad del en la Tabla 7.7 parejas valor esta frecuenciala hiptesis nula. Si del hubieraMcNemar nmero total de tomaenfermedad, Ejemplo 7.19 El estadstico no test la asociacin entre exposicin y el contraste se 7.19 El estadstico del McNemar y se aplica cuando7.7 varianza valor bajo Ejemplo conoce como el test de test de McNemar en la Tabla la toma el de b esta frecuencia esperada sera simplemente la mitad del nmero total de parejas discordantes (b + c)/2, con lo cual el estadstico del contraste viene determinado por 2 la hiptesis nula es var(b) = (b + 2(1(- )17) + c)/4 5; es decir, cuando el nmero c) = 6 = (b = 5,26. 6 17 discordantes (b + c)/2, con lo cual el estadstico del contraste viene determinado por de A partir discordantes es superior o igual a 20.1 grado de libertad (Tabla 6 del Apndice), parejas de la distribucin chi-cuadrado con
2

116

Pastor-Barriuso R.

A partir de la distribucin este estadstico grado de libertad (Tabla los puede comprobarse que chi-cuadrado con 1est comprendido entre6 del percentiles 2 21 Ejemplo 7.19El ;0,99 = 6,63, de lo cual se tiene que 0,01Tabla 7.7 toma el valor < P < 0,025. As, el riesgo de ;0,975 = 5,02 y 1 estadstico Apndice), puede comprobarse del test de McNemar en la que significativamente comprendido entre los 32 infarto agudo de miocardio difiere este estadstico est entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90 mmol/l. = (6 17) 2 percentiles 12;0,975 = 5,02 y 12;0,99 2 6,63, de lo cual se tiene que 0,01 < P < 32 = = 5,26. 6 17 0,025. As, el riesgo de infarto agudo de miocardio difiere significativamente A partir de la distribucin chi-cuadrado con 1 grado de libertad (Tabla 6 del entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90 Apndice), puede comprobarse que este estadstico est comprendido entre los

siguen argumentos similares CE: CORRECCIN POR CONTINUIDAD a los descritos en este apartado y pueden consultarse en los

libros de anlisis de datos categricos referenciados en este tema. Apndice: correccin por continuidad ice se derivan las versiones con correccin porun grupo de emparejamiento). Estas generalizaciones cada paciente que conforma continuidad del intervalo

y del test de hiptesis para una proporcin poblacional POR k es el nmero 7.8 APNDICE: CORRECCIN . Si CONTINUIDAD y pueden consultarse en los siguen argumentos similares a los descritos en este apartado La inferencia sobre proporciones puede extenderse a estudios donde se empareja ms de un muestra (por un estudio de casos y controles eventos en una sujeto porde anlisis se ejemplo,las intervalo de confianza alestedonde cada caso est emparejado muestra aleatoria dede derivan el versiones con correccin portema. libros datos n, categricos referenciados en En este apndice tamaoensayo clnico donde cada paciente que recibe un nuevo tratamiento continuidad del intervalo con mltiples controles, o un est emparejado con varios pacientes a para vendr determinado por aquellos valores ( inf, bajo)tratamiento estndar), as comoSi estudios donde se sup que verifiquen de confianza y dos test de hiptesis para una proporcin poblacional . k es el nmero del muestras dependientes (por ejemplo, un ensayo clnico donde se asignan comparan ms de 7.8 APNDICE: CORRECCIN POR CONTINUIDAD aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento). observado de inf) = en una muestra aleatoria de tamao n, el intervalo apartado y pueden P(X k | = eventos /2, Estas generalizaciones siguen argumentos similares a los descritos en este de confianza al En este en los libros de anlisis de datos con correccin por continuidad del intervalo consultarseapndice se derivan las versiones categricos referenciados en este tema. 100(1 k = para) vendr determinado por aquellos valores ( inf, sup) que verifiquen P(X - | )% sup = /2, de confianza y del test de hiptesis para una proporcin poblacional . Si k es el nmero 7.8 APNDICE: CORRECCIN POR CONTINUIDAD P(X discuti en el = /2, k|= a distribucin binomial de parmetros n en. Como se aleatoria inf) tamao n, el intervalo de confianza al y de En observado de eventos una muestra este apndice se derivan las versiones con correccin por continuidad del intervalo de confianza y del test de hiptesis para una proporcin ) = P(X k = sup poblacional . Si k es el nmero observado 2, si n(1 - ) 5,100(1 probabilidades binomiales pueden| por aquellos/2, estas - )% para vendr determinado aproximarse valores ( , ) que verifiquen de eventos en una muestra aleatoria de tamao n, el intervalo deinf sup confianza al 100(1 )% para vendr determinado por aquellos valores (inf, sup) que verifiquen istribucin normaldonde X es unaZdistribucin binomial de parmetros n y . Como se discuti en el estandarizada como P(X k | = inf) = /2, k | = sup) = binomiales pueden aproximarse Apartado 3.3.2, si 1 / 2 -n 5,P(X probabilidades/2, k n(1 ) inf estas = /2, P(X k | = inf) P Z donde X es una distribucin binomial de parmetros n y . Como se discuti en el Apartado 3.3.2, n inf (1 normal estandarizada Z como inf ) mediante la distribucin si n(1 ) 5, estas probabilidades binomiales pueden aproximarse mediante la distribucin donde X es una distribucin normal estandarizada Z como binomial de parmetros n y . Como se discuti en el k 1 / 2 n sup P(X k | = Apartado Z siP(X -k) = estas probabilidades2binomiales= /2, aproximarse sup) P 3.3.2, n(1 | 5, = ) P Z k 1 / n inf pueden /2. inf n sup (1 sup ) n inf (1 inf ) mediante la distribucin normal estandarizada Z como k 1 / 2 n sup = /2. P(X k aade P Z expresiones rmino 1/2 de la correccin por continuidad| se = sup)aambas n sup (1 sup ) k 1 / 2 n inf = /2, incluir la probabilidad de observar exactamente k inf) PPara eventos. Z P(X k | = k 1 / 2 n continuidad aade Notar que el trmino 1/2 de la correccin por inf n inf (1 seinf ) a ambas expresiones con = z1-/2, objeto de incluir de estas distribuciones(1 p s clculos, las desviaciones tpicasla probabilidad de observar) exactamente k eventos. Para simplificar los normales se np Notar que el trmino 1/2 de la correccin por continuidad se se sustituyen por la estimacin clculos, las desviaciones tpicas de estas distribuciones normalesaade a ambas expresiones k 1 / 2 n sup P(Xla probabilidad / Z k | = ksup de n = /2. la estimacin np(1 p) , de lo cual sededuce que)1 2Pobservar exactamente k eventos. Para con objeto de incluir sup n= -z (1 sup ) sup1-/2. k np(2 n inf 1 / 1 p) = simplificar los clculos, las desviaciones p) de z1/2, distribuciones normales se np(1 tpicas estas Notar que el trmino 1/2 de la correccin por continuidad se aade a ambas expresiones Finalmente, despejando inf y k ( /p) de loel intervalo de confianza al 100(1 - )% sup, se obtiene sustituyen por la estimacin np 1 1 2 , n sup cual zse deduce que = 1/2. con objeto de incluir la probabilidad de1observar exactamente k eventos. Para np( p) para 34 simplificar los clculos, lasdesviaciones tpicas de estas distribuciones normales separa Finalmente, despejando inf y sup, se obtiene el intervalo de confianza al 100(1 )% Finalmente, despejando inf y sup, se obtiene el p ) p 1 intervalo de confianza al 100(1 - )% se deduce sustituyen por la estimacin pnp(1z /)2 , de(locual 1 . que 1 p n 2n 34 para Este intervalo de confianza difiere de la versin sin correccin presentada en el Apartado 7.2 en que ambosintervalo deintervalo sedifiere deen una cantidad 1/(2n) inversamente proporcional al Este lmites del confianza amplan la versin sin correccin presentada en el p(1 se ) 1 tamao muestral. La utilizacin de z1correccin pfundamenta en el hecho de aproximar una . p esta / 2 del intervalo se amplan en una cantidad 1/(2n) sea el n 2n distribucin binomial discreta mediante una distribucin normal continua. Cuanto menor Apartado 7.2 en que ambos lmites tamao muestral, ms imprecisa ser la aproximacin normal y, en consecuencia, la correccin por 34 inversamente proporcional al tamao muestral. La utilizacin de esta correccin se Este intervalo de confianza difiere de la versin sin correccin presentada en el Pastor-Barriuso fundamenta en el hecho de aproximar una distribucin binomial discreta mediante una R. Apartado 7.2 en que ambos lmites del intervalo se amplan en una cantidad 1/(2n) distribucin normal continua. Cuanto menor sea el tamao muestral, ms imprecisa ser inversamente proporcional al tamao muestral. La utilizacin de esta correccin se

117

la aproximacin normal y, en consecuencia, la correccin por continuidad 1/(2n) ha de ser mayor. Por el contrario, si el tamao muestral es grande, la distribucin binomial k n 0 1 / 2 P = 2P(X k | H0) 2 P Z estar muy prxima a la normal, por lo que la correccin 1/(2n) ser insignificante. n 0 (1 0 ) continuidad 1/(2n) ha de ser mayor. bilateral de la hiptesis nulamuestral grande,obtenerse a El valor P para el contraste Por el contrario, si el tamao H0: = es puede la distribucin 0 binomial estar muy prxima a la normal, por lo que n correccin2 la 0 k 1 / 1/(2n) ser insignificante. , = 2 P Z partir de la aproximacin normal a la distribucinnnula :como puede obtenerse a partir binomial = El valor P para el contraste bilateral de la hiptesis 0 (1 H0 0 ) 0 de la aproximacin normal a la distribucin binomial como
Inferencia sobre proporciones

118

si p 0. Combinando ambos resultados, ) tiene Z k n 0 P 1 / 2 , P = 2P(X k | H0 se 2 P que el valor corresponde al doble de n 0 0 ) k n (1 1 / 02 la probabilidad normal P = 2P(X k | a la) derecha del test estadstico estandarizada H0 2 P Z n (1 ) 0 0 si la proporcin observada p > 0, o alternativamente como si la proporcin observada p > 0, o alternativamente como 1 k n 0 1 / 2 P = 2P(X | H01 / 2 2 P| p n0| 0 k 1 / 2 k | ) Z |k n 0 P = 2 Z n 02(n 0 ) , 1. z n 1 0 (1 00() 0 ) n 0 (1 0 ) nn 0 k 1 / 2 , = 2 P Z corresponde al doble de si p 0. Combinando ambos resultados, se tiene quenel 0valorP ) (1 0 El test con correccin por continuidad incorpora el trmino -1/(2n) en el numerador la probabilidad normal estandarizada a se tiene que test estadstico si p 0. Combinando ambos resultados,la derecha del el valor P corresponde al doble de la probabilidad Combinando ambosel valor P ser ligeramente valor Pque el obtenido en el 35 del si p 0. normal estandarizada a la derecha tiene que el mayor corresponde al doble de estadstico, de tal forma que resultados, se del test estadstico 1 | p (Apartado 7.2). correspondiente contraste sin correccin0 a| 1continuidad test estadstico Esta por derecha del 0 | la probabilidad normal estandarizada la / 2 | k n 2n . z 0 ( reducido correccin ser tanto mayor cuantonms1 0 ) sea 0 (1 0 ) muestral. el tamao 1 | p n| 0 | k n 0 | 1 / 2 2n . z El Ejemplo correccin Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC del test con 7.20 En el por continuidad incorpora el trmino 1/(2n) en el numerador 0 (1 ) n 0 ( 0 ) El test con correccin por el valor1 P ser ligeramente 0 mayor que el obtenido estadstico, de tal forma que continuidad incorpora el trmino -1/(2n) en el numeradoren el n correspondiente contraste sin correccin por continuidad (Apartado hombres adultos para realizar inferencias sobre la prevalencia poblacional de 7.2). Esta correccin ser delmayor cuanto ms forma que el valor P ser ligeramente mayor que el obtenido en el estadstico, de tal reducido sea el tamao muestral. tanto El niveles bajos de colesterol HDL el numerador contest con correccin por continuidad incorpora el trmino -1/(2n) en Esta correspondiente contraste sin correccin( 0,90 mmol/l). A continuacin se EURAMIC para por continuidad (Apartadoestudio calculan 7.2). Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del realizar inferenciasforma la el valor P poblacional hiptesis utilizando la con niveles mayor que adultos dellos correspondientessobrequeprevalenciaser ligeramentede hombres el obtenido en el estadstico, de tal intervalos correccin ser tanto mayor( 0,90 de confianza y sea el tamao muestral. correspondientes cuantommol/l). A continuacin se calculan los ms reducido test de bajos de colesterol HDL intervalos de contraste sin correccin por utilizando la (Apartado por Esta correspondienteconfianza y test de hiptesis para vendra dado por7.2).continuidad. El IC correccin por continuidad. El IC al 95% continuidad correccin al 95% para vendra dado por Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC correccin ser tanto mayor cuanto ms reducido sea el tamao muestral. 0,293(1 0,293) 1 para realizar inferencias sobre la prevalencia poblacional de hombres adultos 0,293 z 0,975 539 2 539 el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC Ejemplo 7.20 En con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan = 0,293 (1,960,020 + 0,001) = (0,254; 0,333), para realizar inferencias sobre la prevalencia poblacional de hombres adultos los correspondientes intervalos de confianza y test la hiptesis utilizando la y el estadstico corregido para el contraste bilateral de de hiptesis nula H0: = 0,30 sera y elcon niveles bajos de colesterol HDL ( bilateral de la hiptesis nula H0: = estadstico corregido para el contraste 0,90 mmol/l). A continuacin se calculan 1 1 correccin por continuidad. El IC| al 293 para vendra dado por | p 0 | 0, 95% 0,30 | 2 539 = 0,30, 2n los correspondientes intervalosde confianza y test de hiptesis utilizando la z= 0,30 sera 0,30(1 0,30) 0 (1 0 ) 0,293(1 0,293) 1 0,293 z 0,n correccin por continuidad. El IC al 95% para vendra dado por 539 975 539 2 539 36 con un valor P asociado en las tablas de la distribucin normal estandarizada P = 2P(Z con un 2{1 (0,30)} = 0,764.0,293(de la,distribucin intervalo de confianza = = las tablas 1 0 293)+ 0,001) =(0,254; 0,333), 0,30) = valor P asociado en0,293Como cabra esperar,1 normal estandarizada Pcorregido el (1,960,020 0,293 z 0,975 539 2 539 2P(Z 0,30) = 2{1 - (0,30)} = 0,764. Como cabra esperar, el intervalo de Pastor-Barriuso R. y el estadstico corregido para el contraste bilateral de la hiptesis nula H0: = = 0,293 (1,960,020 25,433,3%) es ligeramente ms confianza corregido por continuidad (IC al 95%+ 0,001) = (0,254; 0,333), 0,30 sera

Tabla 7.8
IC al 100(1 )% Test estadstico

Intervalos de confianza (IC) y tests de hiptesis con correccin por continuidad.

Tabla 7.8 Tabla 7.8 Intervalos de confianza (IC) hiptesis con correccincorreccin por continuidad. Intervalos de confianza (IC) y tests de y tests de hiptesis con por continuidad.

IC 100(1 - )% IC al 100(1 - al)%

Test Test estadsticoestadstico

Una Una muestra muestra Una muestra Una muestra

1 p z ) p(1 p ) 1 1 2p (1 1p2 p z1 // 2p z1 // 2 n 2n 2n 2nn n

1 1 0 0 | p 0 | | p 0 | 2n z z 2n z 0 0 0 (1 0 ) 0 (1 0 ) 0 0 n n n 1

p p 1 (z p1 ) p1 (121p1 ) ) p2 (1 1 2 ) 1 1 1 1 1 p 1 1 1 p 2 ( p2 1 2 2 1 p2 Dos muestras independientes 1 Dos muestrasDosindependientes independientes 2 2 p11 2 2 Dos muestras muestras independientesp1 p 2 z11 //p2 z1 // 2 n 1 2 n2 n1 n2 2 n1 n2 n2 1 2 2 n1 n1 n2 2n2 1 n1 1 2

1 p p(1 p ) p1 (1 1p1 )p ) p 2 (1 1 2 ) 1 1 1 p (

1 1 1 11 1 | p1 p2 | p1 p 2| 1 2 | 1 2 n2 1 2 2 n1 2 z 2 n1 n2 1 z z 1 1 1 1 1 ) p (1 p ) p ( p 1 2 n1 n 2 n1 n 2 1 2
2 2 2 2 2 Oij 2 ij (2| Oij 2 Eij (|| 1ij/ 2)Eij | 1 / 2) 2 ij 2 ij 2 2 E 2 2 2
1 1 1 1 ii jj 1 1 ij i j 1 1 ij i j

Test 2 2 Pearson* 2 de Pearson* Test de deTest Pearson*

Eij ij

Test Test McNemar de Test de de McNemar McNemar


2

2 2 ( 2 ( | b c2 | 1 )| b c | 1 ) bc

b (|2 ( | b c2 | 1 ) 2 c | 1 ) 2 bc bc

* La correccin por continuidad no se aplica al test 2 de Pearson en tablas de contingencia mayores de 22.

2 * La correccin por continuidad no se 2 de Pearson de Pearson en tablas de mayores de mayores de 22. * La correccin por continuidad no se aplica al testaplica al test en tablas de contingenciacontingencia 22. de Pearson de Pearson contingencia mayores de mayores de 22. * La correccin por no se aplica al se * La correccin por continuidad continuidad notestaplica al test 2en tablas de en tablas de contingencia 22.

Apndice: correccin por continuidad

Pastor-Barriuso R.

119

46

46

Inferencia sobre proporciones

por continuidad (IC al 95% 25,4-33,3%) es ligeramente ms amplio que su correspondiente intervalo sin correccin (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha correccin (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin correccin son muy similares dado que el tamao muestral utilizado en este ejemplo es moderadamente grande. La correccin por continuidad tambin se aplica a la comparacin de proporciones en muestras independientes o dependientes y al test chi-cuadrado de asociacin en una tabla 22, ya que estos mtodos de inferencia utilizan una distribucin continua (normal o chi-cuadrado) para representar una distribucin de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya derivacin es similar al caso de una proporcin, se presentan en la Tabla 7.8. En general, la utilizacin de la correccin por continuidad da lugar a resultados ms conservadores; esto es, intervalos de confianza ms amplios y mayores valores P de los contrastes. El principal objetivo de esta correccin es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los contrastes, especialmente cuando el tamao muestral es reducido. 7.9 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. REFERENCIAS Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth Edition. Oxford: Blackwell Science, 2001. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. New York: John Wiley & Sons, 2003. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and Company, 1987. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and Quantitative Methods. New York: John Wiley & Sons, 1982. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008.

120

Pastor-Barriuso R.

TEMA 8 MTODOS NO PARAMTRICOS


8.1 INTRODUCCIN

En los temas anteriores se han presentado distintos mtodos de inferencia para datos de carcter continuo (Tema 6) y categrico (Tema 7). Estos procedimientos se conocen como mtodos paramtricos y asumen que los datos proceden de una poblacin cuya distribucin de probabilidad es conocida (normal o binomial), o que al menos la distribucin de los estadsticos empleados puede aproximarse mediante el teorema central del lmite. As, las inferencias se fundamentaban en la aproximacin normal a la distribucin de las medias y proporciones muestrales. Aunque en la mayora de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan las condiciones necesarias para la realizacin de anlisis paramtricos, especialmente cuando los tamaos muestrales son muy reducidos. En tales circunstancias, es posible utilizar mtodos alternativos que realizan asunciones mnimas acerca de la distribucin de la variable a estudio, y que reciben colectivamente el nombre de mtodos no paramtricos o de distribucin libre. Antes de proceder a la descripcin de los mtodos no paramtricos ms utilizados, conviene apuntar sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que: y Los mtodos no paramtricos son muy robustos y, en consecuencia, pueden aplicarse a situaciones donde la utilizacin de pruebas paramtricas es cuestionable. As, por ejemplo, la comparacin de medias en dos muestras independientes requiere de tamaos muestrales suficientemente grandes para aplicar el teorema central del lmite y de una varianza homognea en ambas poblaciones, mientras que su equivalente no paramtrico permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que ambas distribuciones sean continuas. y Como se ver ms adelante, la propia naturaleza de las pruebas no paramtricas las hace particularmente tiles para comparar variables cualitativas ordinales, cuyo tratamiento mediante mtodos paramtricos clsicos entraa problemas conceptuales ya que estas variables carecen de interpretacin numrica (ver definicin de tipos de variables en el Tema 1). Sin embargo, los mtodos no paramtricos presentan una serie de limitaciones que impiden su uso generalizado: y Los mtodos no paramtricos se emplean casi exclusivamente para determinar la significacin estadstica de la comparacin entre grupos. Aunque existen procedimientos no paramtricos para obtener estimadores de efecto e intervalos de confianza, stos requieren de asunciones adicionales y su aplicacin es ms compleja. y Si se cumplen las condiciones de aplicacin de las pruebas paramtricas, el uso de mtodos no paramtricos es un tanto ineficiente, lo que conlleva una leve prdida de potencia en el anlisis. Estudios de simulacin bajo la asuncin de normalidad han mostrado una perdida de potencia aproximada del 5% de las pruebas no paramtricas respecto a sus equivalentes paramtricos. y Los mtodos paramtricos pueden extenderse fcilmente al anlisis multivariante de situaciones ms complejas. Aunque en la actualidad los mtodos no paramtricos han experimentado un fuerte desarrollo, su utilizacin es an limitada por la mayor complejidad y menor disponibilidad en los programas de anlisis estadstico de uso rutinario.
Pastor-Barriuso R. 121

Mtodos no paramtricos

En general, los mtodos no paramtricos se emplean como complemento o alternativa a las pruebas paramtricas cuando no se cumplen las condiciones mnimas para la aplicacin de estas ltimas. En este tema se revisan los mtodos no paramtricos de uso ms frecuente, tales como el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test exacto de Fisher. la variable (empates), se asigna a cada una de ellas la media de los rangos correspondientes. Finalmente, se suman los DE WILCOXON 8.2 TEST DE LA SUMA DE cada una rangos de una cualquiera de las dos la variable (empates), se asigna aRANGOSde ellas la media de los rangos muestras, seleccionemos porproblemala primera muestra, variables continuas en dos muestras En el Apartado 6.3 se trat el ejemplo de la comparacin de correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos independientes. Si ambos tamaos muestrales n1 y n2 son suficientemente grandes para aplicar el teorema central del lmite, el test de la t de Student permite realizar inferencias acerca de la n1 muestras, seleccionemos por ejemplo la primera muestra, U = Sin diferencia de medias entre ambas poblaciones. ri . embargo, si la distribucin subyacente dista mucho de ser normal y las muestras son muyi =1 pequeas, las medias muestrales no se distribuirn n1 de forma normal y la anterior prueba paramtrica no ser aplicable. Bajo estas circunstancias, U = ri . ha de utilizarse el de Wilcoxon se basa en1esta al test rangos. El estadstico del testequivalente no paramtrico suma dede la t de Student para muestras i= independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que la El estadstico del test de una distribucin subyacente continua.= 10 casos de infarto de variable a estudio tenga Wilcoxon se basa en esta suma en n1 Ejemplo 8.1 Supongamos que la muestra consiste de rangos. Si no se asume nada sobre la forma de la distribucin, parece razonable basar el contraste en miocardio y aleatoriamente la variable (empates), controles la muestra consisteen n verdaderosde infartoPara ello, se el orden de las 8.1 n2 = 10se asigna a seleccionadosy nolaensus = de del estudio Ejemplo observaciones deque cada una de ellas media 10 los rangos Supongamos ambas muestras casos valores. de 1 combinan las dos muestras ordenando los valores de menor a mayor. A continuacin, se asigna EURAMIC. La niveles de -caroteno en correspondientes. =que controles seleccionados aleatoriamente del tejido adiposo Si existen el rango ri o posicinTabla 8.1 muestra los los rangos de una la muestra combinada.para miocardio y n2 Finalmente, cada observacin dentro de cualquiera de las dos 10 ocupa se suman estudio varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas muestras,los rangos Al menorejemplo la muestra, estos seleccionemos por valor de ambas muestras 0,04 los rangos de una cualquiera de la media de20 sujetos.Tabla 8.1 muestra los primera dese suman g/g se le asigna el para EURAMIC. La correspondientes. Finalmente, -caroteno en tejido adiposo niveles las dos muestras, seleccionemos por ejemplo la primera muestra, rango 1, al siguiente valor valor de ambas 1muestras 0,04 2 y se le asigna el estos 20 sujetos. Al menor 0,05 g/g se le notorga el rangog/gas sucesivamente U = ri. i =1 hasta 1, al rango 20 al mayor valor 0,57 g/g. A los 2 y rango asignar el de Wilcoxon se basa en esta suma rango dos sujetos con idntico El estadstico delsiguiente valor 0,05 g/g se le otorga elde rangos. as sucesivamente test El nivel 0,13 g/gtest -caroteno les corresponden suma de rangos. y 8 y, en estadstico del de de Wilcoxon se basa en esta las hasta asignar el Supongamos que la muestra g/g. posicionessujetoscasosidntico A en n 7 Ejemplo 8.1 rango 20 al mayor valor 0,57 consistelos dos = 10 con de infarto de 1 = 10 controles seleccionados aleatoriamente del estudio EURAMIC. La miocardio y n2se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. consecuencia, nivel 0,13 muestra -carotenoque corresponden las posiciones 7 paray, de infarto de Al Tabla 8.1 g/g de los niveles les la muestra consiste en n1 = 10 y 8 estos 20 sujetos. Ejemplo 8.1 Supongamos de -caroteno en tejido adiposo casos en menor valor de rangos en los casos de infarto es As, la suma de ambas muestras 0,04 g/g se le asigna el rango 1, al siguiente valor 0,05 consecuencia,y n2el rango 2 y as medio (7 + 8)/2hasta asignar elobservaciones. g/g se le otorga asignacontroles sucesivamentealeatoriamente del estudioal mayor valor miocardio se = 10 el rango seleccionados = 7,5 a ambas rango 20 0,57 g/g. A los dos sujetos con idntico nivel 0,13 g/g de -caroteno les corresponden 10 As,posiciones 7La8 y, en 8.1 muestra losse asignade -caroteno en(7 + 8)/2 = 7,5 a ambas la suma de y Tabla los casos de infarto es las EURAMIC. rangos enconsecuencia, +niveles el 96,5 medio tejido adiposo para ri = 1 + 9 ... + 19 = rango observaciones. As, la suma=1 rangos en los casos de infarto es i de 10 estos 20 sujetos. Al menor valor de ambas muestras 0,04 g/g se le asigna el ri = 1 + 9 + ... + 19 = 96,5 y en los controles i =1 rango 1, al siguiente valor 0,05 g/g se le otorga el rango 2 y as sucesivamente y en los controles
10 y en los controles rango 20 al mayor valor 0,57 g/g. A los dos sujetos con idntico hasta asignar el r j = 13 + 2 + ... + 6 = 113,5. j =1

nivel 0,13 eleccin entre una u corresponden las posiciones 7 y 8 La suma total de Notar que la g/g de -caroteno lesotra suma de rangos es arbitraria. y, en r j = 13 + 2 + ... + 6 = 113,5. rangosque ambas muestrasj =1una1u otra suma 2de 1)/2 = 2021/2 = 210, de tal forma que una Notar en la eleccin entrees (n + n2)(n1 + n + rangos es irrelevante. La suma consecuencia, se asigna el rango medio (7 + 8)/2 muestra, la otra queda determinada vez calculada la suma de rangos 96,5 en la primera = 7,5 a ambas observaciones. por 210 rangos = 113,5. muestras es (n + n )(n + n + 1)/2 = 2021/2 = 210, de total de 96,5 en ambas 1 2 1 2 Notar que suma de rangos en los casossuma de rangos es irrelevante. La suma As, la la eleccin entre una u otra de infarto es
10

122

Pastor-Barriuso R. tal forma

que una vez calculada la suma de rangos 96,5 en la primera muestra, la total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de 10 r = 1 + 9 + ... + 19 = 96,5 otra queda determinada por 210 - i96,5 = 113,5. i= tal forma que una vez calculada1 la suma de rangos 96,5 en la primera muestra, la

Test de la suma de rangos de Wilcoxon

Tabla 8.1 -caroteno en tejido adiposoadiposo en 10 casos de de miocardio y 10 y 10 Tabla 8.1 -caroteno en tejido en 10 casos de infarto infarto de miocardio

Tabla 8.1 -caroteno en tejido adiposo en 10 casos de infarto de controles seleccionadosy 10 controles seleccionados aleatoriamente del estudio [Tabla 8.1 aproximadamente aqu] controles seleccionados aleatoriamente del estudio EURAMIC. miocardio aleatoriamente del estudio EURAMIC. EURAMIC. Caso Caso ControlControl El objetivo es contrastar si las distribuciones F1 y F2 en Control poblaciones son ambas Caso -caroteno-caroteno (g/g) (g/g) Rango (ri) Rango Rango (rj) -caroteno -caroteno (g/g) Rango [Tabla 8.1 aproximadamente aqu] Rango (r )(ri) -caroteno (g/g) (g/g) (r ) (rj) -caroteno (g/g) Rango j iguales H0: F1 = F2 frente a la hiptesisi alternativa bilateral H1: F1 F2. Bajo esta 0,04 1 0,25 13 0,04 0,04 1 0,25 0,25 13 1 13 0,14 en ambas poblaciones son primera muestra sera igual a la suma 9 0,05 22 s contrastar si las distribuciones Fla y F2 de rangos esperada en la hiptesis nula, 0,14 1 suma 0,14 9 0,05 0,05 9 2 0,20 11 0,36 17 0,20 0,20 11[Tabla 8.1 aproximadamente 0,36 0,36 aqu] 17 11 17 0,08 0,09 44 total de 0,08 0,08la proporcin de 33 Bajo esta 0,09 0,09 rangos por = F2 frente a la hiptesis alternativa bilateral H1:3 1 Fsujetos en dicha muestra, F 2. 4 0,21 12 0,33 16 0,21 0,21 12[Tabla 8.1 aproximadamente 0,33 0,33 aqu] 16 12 16 El objetivo es contrastar si5 distribuciones F1 0,37 0,37 las 0,10 a suma de rangos esperada en la primera muestransera 55 n + 1) sumay F2 en (ambas poblaciones son 0,10 0,10 18 18 + 2 n (n1 + 2 )(n1 igual a la n1 0,37 1 n1 + n 2 + 1) 18 . 7,5 E(U) = = 0,28 14 0,13 0,28 0,28 14 0,13 0,13 7,5 14 7,5 n + bilateral H12 2 El objetivo 0,29 .10 iguales 0,29 dicha 2 frente 15 hiptesis alternativa y 0,17 0,17: F poblaciones son H0: = contrastar la por la proporcin de sujetos en F1es Fmuestra,asi las distribuciones1F1 n 2F2 en ambas 1 F210Bajo esta 0,17 15 10 0,29 15 [Tabla 7,5 8.1 0,13 0,13 7,5 7,5 aproximadamente 0,57 0,57 aqu] 20 20 0,13 0,57 20 = 0,48 suma de esperada en la primera 0,12: sera 2.6 6 valor6 la bilateral H1 iguales 0,48 F1 0,482 frente a 19 hiptesis alternativa 0,12 primera muestra,Bajo esta H0: u la F hiptesis nula,denota lade rangosrangos observada en 0,12muestraF1 Figual a la suma suma la el 19 n1 + n 2 + si n1 (n1 + n 2 + 119 (n1 + n 2 )(Por tanto,1) n1 ) E(U) = . = 10 10 10 n1 por 10 2 El objetivo la suma de rangos esperada en dicha F2 ambas 2 total de rangos + contrastar si las de96,5 probabilidad bajomuestra poblaciones son de hiptesis P vendra determinado distribuciones primeraenH0 obtener una suma igual exacto de nula, es n 2 la proporcin porsujetosen la F1 y muestra,desera 113,5j a la suma ri = ri = la 96,5 r j = r = 113,5
i =1
i =1 j =1

iguales rangos = F la primera muestra, alternativa bilateral H decir, H0: o por frente a la E(U) sujetosvalor total rangosobservada en la proporcin)(n1que 2 valor observado(u; 1: F1 + F enota la suma de rangosdetanto F1ms 2distante1 de nhiptesisel + 1) dicha muestra, es n 2 1)2. Bajo esta n1 n1 + (n + 2 de + n el en n1 E(U) = . = n1 primeraen ambassera igual a lason iguales + y 2F muestra poblaciones suma n 2 2 hiptesis nula, contrastar de distribuciones 1 El la probabilidad bajo H0rangos esperadasuma de las dra determinado por objetivo es la suma densi + obtener+una +en laFn1 ), 2 n1 (n1 + n 2 + 1) ( 1 n 2 )(n1 = 2P(U1 u | H0 P n2 ) E(U) = . = H0: F1 = F2 frente a la hiptesis alternativa bilateral H1: F1 F2. Bajo esta hiptesis nula, la suma n1 + n suma total 2 sujetos igual a la2muestra, 2de rangos por la proporcin totaltanto, si u observado u; esde de de rangos esperadapor la proporcin rangos observada en Por de valor en la suma decir, ms distante de E(U) que elrangosdenota primera muestra sera en dicha la primera muestra, el valor de si u > E(U), o alternativamente sujetos en dicha muestra, exacto de P vendra determinado)(n1 + nprobabilidad bajo 1Hn1de obtener una valor de Por tanto, si u denota la suma n 2 rangos 2 + 1) n1 en la n ( 0 + n 2 + 1) el suma de por la observada primera muestra, P = 2P(U u | H0), = (n1 + E(U) . = 2 2 P = 2P(U n1 | + n), u H0 2 rangos de P vendradistante de E(U) queprobabilidad bajo Hu;de obtener una suma de exacto tanto o ms determinado por la el valor observado 0 es decir, ternativamente Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P Por E(U). u denota la probabilidad bajo H0 de en la primera decir, rangos tanto vendradeterminado porla suma de rangos observadaobtener una es muestra, el la hiptesisms si u tanto, si Esta probabilidad puedeque el valor observado u; suma debajo valor o rangos tanto o ms distante de E(U) calcularse teniendo en cuenta que P = 2P(U u | H0), distante de E(U) que el valor observado u; es decir, P = 2P(U u | H0), exacto igualdad de determinado por la probabilidad bajo de rangos en una suma nula dede P vendra distribuciones, cualquier combinacinH0 de obtener la primera de P = 2P(U u | H0), si u > E(U), o alternativamente rangos o alternativamente muestratanto teniendo probable. que como hiptesis si u > E(U),es igualmente en cuenta As, bajo valor observado u; es decir, a probabilidad puede calcularseo ms distante de E(U) que ellael nmero de combinaciones de los n1 + n2 si u > E(U), o alternativamente P = 2P(U u | H0), de distribuciones, cualquier combinacin de rangos P =laprimera| H0), en n1 + n 2 posibles Esta probabilidad n1 en n1 es 2P(U u , la en cuenta que bajo la hiptesis nula de si u E(U). rangos tomados depuede calcularsenteniendo probabilidad bajo H0 para P = 2P(U 1 u| H0), si ucomo el nmero de cualquier combinacin de rangos en cuenta que bajo la hiptesis E(U). Esta probabilidad puede calcularse + n2 igualdad de distribuciones,combinaciones de los n1 teniendoen la primera muestra es igualmente mente probable. As, si u > As, o alternativamente probable.E(U),como el nmero de combinaciones de los n1 + n2 posibles rangos tomados de n1 cualquier combinacin r1, ..., rpuede calcularse teniendo en cuenta que bajo la hiptesis si u de 1 + n 2 probabilidad n1 viene dada combinacin de rangos en la primera nulaE(U). Esta de distribuciones, cualquierpor n igualdad tomados de n1 en n11 es bajo H paracualquier H en n n , la probabilidad bajo = 00 para u | H0), combinacin r1, ..., rn viene dada por 2P(U 1 igualdad de distribuciones,P como elcombinacin de rangos en la primera+ n muestra es igualmente probable. As, nula de cualquier nmero de combinaciones de los n1 2 1 . n1 + n 2 nacin r1, ..., rn1 viene E(U). Esta probabilidad puede calcularse2 si u dada por teniendo combinaciones de la n1 + n2 n1 el nmero de en cuenta que bajo loshiptesis muestra es igualmente probable. As, como + n posibles rangos tomados de n1 en n1 es n1 , la probabilidad bajo H0 para n 1 nula de del valor exacto de P se ilustra ennel+ combinacin de rangos en la primera igualdad de distribuciones, cualquiersiguiente ejemplo. 1 El clculo rangos tomados de n en n es 1 n 2 , la probabilidad bajo H para posibles . 1 1 0 El clculocombinacin r1, ..., rn1 se ilustra en 1el siguiente ejemplo. + n1 es n 2 cualquier delvalor exacto de P As, como npor viene dadael nmero de combinaciones de los n + n muestra igualmente probable. 1 2 n 1 27 27 cualquier combinacin r1, ..., rn1 viene dada+por n1 1 n 2 posibles rangos tomados de n1 en n1 es n ., la probabilidad bajo H0 para Pastor-Barriuso R. 123 n1 + 1n 2 5 alor exacto de P se ilustra en el siguiente ejemplo. 1 n . 1 cualquier combinacin r1, ..., rn1 viene n1 + por dada n 2
1

j =1

Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y 10(10 + 10 + 1) E(U) = = 105. en los controles libres de enfermedad, la 2 rangos u = 96,5 es inferior al esperado, suma de rangos esperada en los 10 casos Como el valor observado de esta suma de Mtodos no paramtricos Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y de valor valorejemplo anterior suma de a Como el P delobtiene mediante sera igual rangos u = 96,5 es inferior al esperado, el infarto se observado de esta en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos Ejemplo 8.2 obtienedistribucin del b-caroteno fuera igual en los casos de infarto y en los el valor P se Si la mediante 10(10 + 10 +96 ) esperada en 1 controles libres de enfermedad,sera igual =rangos =U = k | H )los 10 casos de infarto del de infarto del ejemplo=anterior 96,5 | H0dea 2 E(U) la suma ) = P 2P(U P( 105. 0 . 2 k =55 ejemplo anterior sera igual a P = 2P(U 96,5 | (H0)+= 2 + 1)P(U = k | H 0 ) . 10 10 10 k 55 = 105. Como que la suma arrancaE(U) =sumamnimo=posible96,5 2 + ... + 10al esperado, el valor observado de estavalor de rangos u = 1 + es inferior = 55 y slo Notar en el 2
96

Comoque la obtiene mediante suma de rangos u = 96,5 es+ ... + 10 = 55 y slo el valor observado en el el valor P se enteros (se excluyen posibles empates para 2 inferior clculos). La Notar valoressuma arrancade estavalor mnimo posible 1 + facilitar losal esperado, el valor toma Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, P se obtiene mediante
96 toma valores enteros0(se excluyen posibles empates para facilitar los clculos). La probabilidad bajo H para cualquier combinacin de rangos en la primera muestra el valor P se obtiene mediante 96,5 | H0) = 2 P(U = k | H 0 ) . P = 2P(U k = 55

probabilidad bajo H0 para cualquier combinacin de rangos en la primera muestra es Notar que la suma arranca en el valor mnimo96posible 1 + 2 + ... + 10 = 55 y slo toma P = 2P U el valor mnimo posible 1 + 0 . Notar que la suma excluyen posibles H0) = 2 para U = k | H+ clculos). La slo valores enteros (se arranca(en 96,5 | empates P(facilitar2los)... + 10 = 55 yprobabilidad es k 10! (20 10)!=55 1 1 bajo H0 para cualquier combinacin de rangos en la primera muestra es , = = 20! empates para facilitar los clculos). La 184.756 20 toma valores enteros (se excluyen posibles 1 10! (20 10)! 1 en el Notar que la suma arranca 10 = valor mnimo = posible 1 + 2 + ... + 10 = 55 y slo , 20! 184.756 20 probabilidad bajo H0 para cualquier combinacin de rangos en la primera muestra 10 toma valores enteros (se excluyen posibles empates para facilitar los clculos). La de es lo cual se sigue que de lo cual se sigueH0 para cualquier combinacin de rangos en la primera muestra probabilidad bajo que de lo cual se sigue que P(U = 55 | H0) = P(1, 2,10! 4, 5,6, 7, 8, 9, 10 | H0) = 1/184.756, 3, (20 10)! 1 1 es , = = P(U = 56 | H0) =P(1, 2, 3, 4,20!6, 7, 8, 184.756 0) = 1/184.756, 5, 9, 11 | H 20 P(U = 55 | H0) = 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756, P(1, P(U = 57 | H0) =P(1, 2,10! 4, 5,6, 7, 8, 9, 12 | H0) 10 3, (20 10)! 1 1 = = P(U = 56 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 11 | H0,) 0= = 2/184.756 +P(1, 2, 3, 4,20!6, 7, 8, 184.11 | H ) 1/184.756, 5, 10, 756 20 de lo cual se sigue que P(1, P(U = 57 | Como puede intuirse, 7, 8, 9, 12 | H0) y as sucesivamente.H0) = 10 2, 3, 4, 5, 6,el procedimiento resulta muy laborioso incluso
para estas pequeas muestras de tamao 10, ya que requiere determinar el nmero de P(U = 55 H0 + P(1, de 8, 9, 10 | HH)0) 1/184.756, 10, 11 | 0 = combinaciones con|que) =suma 2, 3, 4, 5, 6, 7, procedimiento = 2/184.756 laborioso deas sucesivamente. Como puede rangos. Despus de mltiples clculos, se tiene que y lo cual se sigue igual intuirse, el resulta muy
96

P(U = 2 | H ) = P(1, 2, 3, 4, 5, 6, 1 8, 9, 11 | H ) = 1/184.756, P 56 Como puede)intuirse, 7,procedimiento | + + ... 4.397)/184.756 y as sucesivamente. P0(U = kmuestras2(1 tamao 10, ya que se requiere determinar incluso para estasH ) = P(1,H 0 3,= de 6, el + 29, 10 +H0) =resulta muy laborioso P(U = 55=pequeas 2, 4, 5, 7, 8, | 0 1/184.756, k | 55 0 P(U = 57 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 12 | H ) = incluso para estas pequeas muestras desuma de rangos.que se requiere determinar el nmero de = 97.708/184.7562, 3, 4, 5, tamao 10, ya| H0) = 1/184.756, combinaciones con 0,529. P(U = 56 | H0) = P(1, igual 6, 7, 8, 9, 11 Despus de mltiples 0 Aunque los casos de infarto muestran niveles 8, 10, 11 | de )b-caroteno que los controles inferiores H0 = 2/184.756 + P(1, 2, 3, 4, 5, 6, 7, el nmerose tiene que de suma Despus de mltiples clculos, de combinaciones con igual casos de rangos. H ) (la suma P(Urangos H0) = P(1, 2, 3, 4, 5, 6, 7,es menor| que la esperada), no se alcanzan 8, 9, 12 0 = 57 | observada en los Aunque los casos de infarto muestran niveles inferiores de -caroteno que los diferencias estadsticamente significativas. No obstante, dado el reducido tamao 6 y as sucesivamente. clculos, se tiene que Como puede intuirse, el procedimiento resulta muy laborioso muestral, cabe esperar queP(1,potencia5, 6,este8, 10, 11 | H0) = 2/184.756 para detectar + la 2, 3, 4, de 7, contraste sea muy pequea controles (la sumadiferencia en los niveles los casos es menor que la esperada), no cualquier posible de rangos observada en subyacentes de b-caroteno entre los casos de 6 incluso para estas pequeas muestras de tamao 10, ya que se requiere determinar infarto y los sujetos libres de la enfermedad. y alcanzan diferencias estadsticamente significativas. No obstante, dado el se as sucesivamente. Como puede intuirse, el procedimiento resulta muy laborioso el nmero de combinaciones con igual suma de rangos. Despus de mltiples Para simplificarestas pequeas muestras la que la8 del Apndice facilita los percentiles de la incluso tamao muestral, cabe test, de tamao 10, ya de se contraste sea muy reducidopara los clculos de esteesperar Tabla potencia queesterequiere determinar distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula de igualdad de distribuciones, clculos, se tiene que cuando la menor de las dos muestras igual suma de rangos. Despus subyacentesun nivel de el nmero de combinaciones con es de tamao inferior o igual a 8. Para pequea para detectar cualquier posible diferencia en los niveles de mltiples de 6 significacin bilateral, la hiptesis nula se rechazar si la suma de rangos en la muestra de menorclculos, esentre los al percentil /2 oysuperior al percentil 1la enfermedad. tabla. tamao se tiene que -caroteno inferior casos de infarto los sujetos libres de /2 de dicha
6

Para simplificar los clculos de este test, la Tabla 8 del Apndice facilita los
124 Pastor-Barriuso R. percentiles de la distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula

de igualdad de distribuciones, cuando la menor de las dos muestras es de tamao

Ejemplo 8.3 En un estudio hipottico a partir de dos muestras independientes de

Test de la suma de rangos de Wilcoxon

tamaos n1 = 5 y n2 = 10, la suma de rangos en la muestra ms pequea es 23.


Ejemplo distribucin bajo H0 de la suma de rangos es simtrica alrededor de E(U) Como la 8.3 En un estudio hipottico a partir de dos muestras independientes de tamaos n = 5 y ambos tamaos de rangos sean muestra ms pequea es 23. Como En el caso 1de que n2 = 10, la sumamuestrales en la superiores a 8, puede emplearse el la distribucin bajo H0= 5(5 + 10 + 1)/2 = 40, se tiene que = n1(n1 + n2 + 1)/2 de la suma de rangos es simtrica alrededor de E(U) = n1(n1 + n2 + 1)/2 En el mtodo aproximado. Como el = 5(5 caso + que ambos tiene que contraste para la igualdad 8, distribuciones se siguiente+ 10 de1)/2 = 40, setamaos muestrales sean superiores a de puede emplearse el En el que ambos 2P(U muestrales2P(U 57 | H ). a de distribuciones P H ) = sean superiores siguientecaso de o posicin=tamaos 23 |contraste para la igualdad 8, puede emplearse el basa en el mtodo aproximado. las observaciones, resulta lcito0 sustituir los valores se rango de Como el 0 En el Utilizando la que ambos Apndice con n1 = y n =la igualdad comprobarse que el valor siguientecaso de Tabla 8 del tamaos muestrales5sean2 superiores a 8, puede emplearse el contraste para 10, puede basa en elmtodooaproximado. Como elrangos=ri5 y el = 10, puede de distribuciones se lcito sustituir los Student Utilizando por sus correspondientescon n1 Apndice observadosrango Tabla 8 del de las los percentiles en n2 estadstico de58,tde lo cual separa xi la posicin entre observaciones,uresulta56 y u0,99 =comprobarse que deduce la de valores u = 57 est comprendido 0,975 siguiente mtodoo0,01 < P(U Como el contrasteque corresponde a 0,02 < P < 0,05.se la desigualdad posicin de 57 | H0) < 0,025, para basa en el rango aproximado. las observaciones,en el la igualdad de distribuciones sustituir los observadosux=por sus correspondientes rangos ri resulta lcitoobtenindosevalores el valor i 57 est comprendido entre los percentiles u0,975 = 56 y u t = Student muestras independientes con igual varianza (Apartado estadstico de la0,99 de 58, de lo para 6.3.1), basa en el rango o sus correspondientes rangos r en el estadstico de la tlos valores para sustituir de observados xi por posicin de las observaciones, resulta lcito obtenindoseStudent i muestras de que ambos tamaos muestrales (Apartado 6.3.1), que corresponde a En cual seindependientes con igual varianza sean superiores a 8, puede emplearse el siguiente el caso deduce la desigualdad 0,01 < P(U 57 | H0) < 0,025, r1 igualdad r mtodo aproximado. sus correspondientes rangos ri2 en elde distribuciones tse basa en elpara o = , 6.3.1), obtenindose observados xi por Como el contrastez para la (Apartadoestadstico de la de Student rango muestras independientes con igual varianza 1 posicin de P < 0,05. las observaciones, resulta lcito +2 1 sustituir los valores observados xi por sus 0,02 < s r1 r z = r (Apartado 6.3.1), muestras independientes con , correspondientes rangos ri en el estadstico de la1t denStudent paraobtenindose 2 muestras independientes con igual varianza n1 1 7 igual varianza (Apartado 6.3.1), obtenindoser1 r2 z = s r n1 + n 2 , + donde la diferencia de rangos medios ess r r1 1 r2 1 z= n1 n 2 , 1 1 donde la diferencia de rangos medios es r sn + n1 1 1 2 n1 n 2 r1 r2rangos ri es r j = donde la diferencia de medios n1 i =1 n2 = 1 n1 donde la diferencia de rangos medios es 1 jn21 r1 derrangos ri es r j 2= donde la diferencia mediosn n1 n=1 j =n 1 in11 12 n(1 1 + n 2 )(n1 + n 2 + 1) n1 2 1 = rii 1 r j ri r1 r2 = n r n 2 1 i =1 2 n1 n1 n1 in=1 n 2 =(n1 + n 2 )(n1 + n 2 + 1) i =1 j 1 1 1 n2 1 r = 1 rii 1 r j ri r1 r2 = n 2 = in11 n11 in=11 1 221 1 1 n1 (n1 + n 2 + 1) n1 1 nn j 1 = 1 i =+ ri 1 =(in + n 2 )(n1 + n 2 + ) ri r = nn 2 1 2 n n1 n11 in=1 1 i2=1 1 + 1 1 )( 2 + 1 + (n1+nn(n1 n1 n 2n+ 1) 1) in=1 1 ri 2 2 + = = n rin ri 2 1 n 1 12 1 i =1 n + n 2 + 1) 11i =1 de n 2in=rangos 1 (n1 2muestra combinada es y, si no hay empates, la varianza ri en la los = + n 1 2 n n1 (n1 + n 2 + 1) 11 12 in=1 y, si no hay empates, la = + delos rangos en la muestra combinada es varianza ri 2 n1 los rangos 2 y, si no hay empates, la varianza de n 21 i =1 n1 + nen la muestra combinada es 2 s r2 = y, si no hay empates, la varianza + nlos 1 (ri en r ) muestra combinada es de rangos la n1 ni =1n2 1+ 12 2 s r2 = de los rangosren la)muestra combinada es y, si no hay empates, la varianza + n 1n1 ( i r 2 + n2 n1 1 2 n1i+ n2 =1 n1 + n 2 + 1 1 2 = ii r ) 2 s r = n + n 1 (r 2 2 =n +1 n1 + 12 1 nn1i1i+=1n22 n2 1 n12 + n 2 + 1 1 2 = i r) (2 s r = (n + n )(n nri + 1) n11 + n 22 11 i +1 2 2 + 1 = n1 + n 2 1 n1i==1n2 n1. + n 2 + 1 = 12 i (1 nn1++nn 2 1 n11i+=n2 n 2 + 1) 2 2 )( n + 2 1 1 n1 .+ n 2 + 1 = = 12 i nn1++nn sen1i =1 n + (1 2 )( Sustituyendo en la expresin=anterior,2 1 tiene 2 + 1) . 2 Sustituyendo en la expresin anterior, se tiene 12 (n1 + n 2 se + n Sustituyendo en la expresin anterior, )(n1tiene2 + 1) . =n1 n1 (n1 + n 2 + 1) 12 ri Sustituyendo en la expresin anterior, se tiene U E (U ) 2 n1 n1 (n1 + n 2 + 1) = , z = i =1 r SE (U ) Sustituyendo en la expresin ni1 n 2 (n1 +tiene 1) anterior, se n2 + 2 U E (U ) 1 n1 (12 + n 2 + 1) = n1 , z = in=1 i n ( ) rn1 2 (n1 + n2 + 1) U SEEUU ) ( 2 1 n1 (n1 + n 2 + 1) = , z = in=1 12 i n rn1 2 (n1 + n2 + 1) U SEEUU ) ( ) ( 2 , z = i =1 = 12 Pastor-Barriuso R. SE (U ) n1 n 2 (n1 + n 2 + 1) 8 12 8

125

Las medidas de tendencia central informan acerca de cul es el valor valorrepresentati Las medidas de tendencia central informan acerca de cul es el ms ms represe
Mtodos no paramtricos

de una determinada variable o, dichodicho de forma equivalente, estos estimadores ind de una determinada variable o, de forma equivalente, estos estimadores indican

alrededor de qu valor valor se agrupan los datos observados.medidas de tendencia alrededor de qu se agrupan los datos observados. Las Las medidas de tendenc que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la central de la de la muestra sirven tanto resumir los resultados observados central muestra sirven tanto para para resumir los resultados observados para suma de rangos observada y esperada en la primera muestra dividida por su error estndar bajo comocomo p la hiptesis nula de igualdad de distribuciones. Bajo H0, este estadstico seguir aproximadamente realizar inferencias acerca de los parmetros poblacionales correspondientes. una distribucin normalrealizar inferencias,acerca de los parmetros poblacionales correspondientes. A A estandarizada si n1 n2 > 8. Notar que, en general, este tamao muestral es muy inferior al que se requerira para aplicar la prueba paramtrica de la t de Student en dos continuacin se describen los principales estimadores de la de la tendencia central de continuacin se describen los principales estimadores tendencia central de una muestras independientes.

variable. estudio EURAMIC, se seleccionan 1000 muestras aleatorias Ejemplo 8.4 A partir variable. del simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas muestras, se calcula la diferenciaaritmtica medios de b-caroteno entre casos y controles, as 1.2.1 1.2.1 Media aritmtica Media de niveles como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las La media la diferencia dedenotada 1, define la sumasumasuma U,cada uno de La media aritmtica, medias se se define la de de cada distribuciones muestrales dearitmtica, denotada por xpor x 2, y decomocomo larangos de uno de los los respectivamente. Como la distribucin poblacional del b-caroteno es marcadamente asimtrica (ver Figura 4.3) yvalores muestralesmuy pequeas, pordiferenciaobservaciones realizadas. Si denotamos las muestras muestrales dividida la el nmero demedias muestrales se valores son dividida por el nmero de de observaciones realizadas. Si denota distribuye de forma asimtrica alrededor de la diferencia subyacente 1 2 = 0,09 mg/g, de el n el tamao muestral x el xi el observado para test el sujeto tal forma que no sepor nportamao muestral y pory iporvalor valor observado el sujeto i-simo, i = 1,i..., 1, cumple la condicin de normalidad necesaria para aplicar elparade la t de i-simo, = n Student. Por el contrario, la suma de rangos s se distribuye de forma aproximadamente normal la media vendra por en torno a su valorla media vendra dada dada E(U) = 96,9. As, aun cuando se disponga de esperado en esta poblacin por muestras tan reducidas, se podra aplicar la aproximacin normal al test de la suma de rangos de Wilcoxon. x +x 1 n 1 n x + x + ...2++x... + x n n . . x = x = x i x1i = 21 n i=1 n i =1 n n =
30 Frecuencia relativa (%) 25 20 15 10 5 0 -0,9 -0,6

25 1.2 MEDIDAS DE TENDENCIA CENTRAL 1.2 MEDIDAS DE TENDENCIA CENTRAL interpretacin. Corresponde 20 centro de gravedad de los datosdatos de la muestra. S interpretacin. Corresponde al centro de gravedad de los de la muestra. Su al Las medidas de tendencia central informan acerca de cul es el valor valorrepres Las medidas de tendencia central informan acerca de cul es el ms ms 15 principal limitacin es que estdeterminada variable o, dichodicho de forma extremos y, enestimado principal limitacin es una muy influenciada por losforma equivalente,extremos y, enin que est muy influenciada por los valores estos estos este valores equivalente, estimadores de de una determinada variable o, de 10 alrededor valor tendencia datos la distribucin. caso, caso, puede no ser un fiel reflejode qu valor secentral los datos observados. Las medidas de te puede no ser un fiel alrededor dequ de lase agrupan los central de la distribucin. tenden reflejo de la tendencia agrupan de observados. Las medidas de 5

La media es la medida de tendencia central ms utilizada y de ms fcil fcil La media es la medida de tendencia central ms utilizada y de ms

30

-0,3

Ejemplo 1.4 En esterealizar los sucesivosacerca de los sobresobre estimadores muestr Ejemplo 1.4 Eny en inferencias sucesivos ejemplospoblacionales correspondientes. A este y eninferencias ejemplos parmetros poblacionales correspondien realizar los acerca de los parmetros estimadores muestrales,
0 0,3 0,6

central de la muestra sirvensirven tantoresumir los resultados observados como c central de la muestra tanto para para resumir los resultados observados 0

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos d x1 x2 utilizarn los valores del colesterol HDL obtenidos en los 10 primeros suje U
variable. variable. 1.2.1 1.2.1 Media aritmtica Media aritmtica

50 70 90 110 130 150 continuacin se describen los principales estimadores de la tendencia central de continuacin se describen los principales estimadores de la tendencia cent

estudio European StudyStudy on Antioxidants, Myocardial InfarctionCancer of (a) estudio European on Antioxidants, Myocardial Infarction and and Canc (b)

La mediamedia aritmtica, denotada 1, se define como la suma de cada cada uno La aritmtica, -caroteno Figura 8.1 Distribucin muestral de la diferencia de niveles medios de denotada por xpor x 2, se define como la suma de uno de lo entre casos y controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura 8.1 de simples valores muestrales dividida por e nmero para para evaluar el efecto d valores muestrales Europeos de observaciones entre 21991 1991 y en ocho pases Europeos elpor elenmero de observaciones realizadas. Si n1 = 10 casos de infarto de miocardio y nentre controles1992 en ocho pasesestudio EURAMIC. Las lneasel efecto dedeno = 10 y 1992 obtenidos a partir del dividida IsraelIsrael evaluar realizadas. Si los verticales en trazo discontinuo corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(U) = 96,9. la mediamedia vendra por por la vendra dada dada

the Breast (EURAMIC), un estudio multicntrico de casoscasos y controles rea the Breast (EURAMIC), un estudio multicntrico de y controles realizad

por n por n el tamao muestral y i porvalor valor observadoel sujetosujeto i-simo el tamao muestral y por x el xi el observado para para el i-simo, i = 1

+ x + x ... 1 n 1 n x1 + xx + ... 2 + n + x n . . x = x = xi xi = 21 n ==1 n i =1 i n n

La mediamedia medida de tendencia central ms utilizada y de ms fcil fci La es la es la medida de tendencia central ms utilizada y de ms

interpretacin. Corresponde al centro de gravedad de losde los datos muestra. interpretacin. Corresponde al centro de gravedad datos de la de la mu
126 Pastor-Barriuso R.

principal limitacin es que est muy influenciada por los valores extremos y, en principal limitacin es que est muy influenciada por los valores extremos

caso, caso, puede no ser un fiel reflejo tendencia central de la distribucin. puede no ser un fiel reflejo de la de la tendencia central de la distribucin

Si se producen empates en la asignacin de rangos en la muestra combinada, la T t i (t i + 1)(t i 1) Test de de empates y varianzaproducen empates en la asignacin de rangos enen ausencia combinada, la el Wilcoxon de la suma de rangos es menor que la obtenida la muestra la suma de rangos de i =1 Si se , f = (n1 + n 2 )(n1 + n 2 + 1)(n1 + n 2 1) estadstico del suma de rangos de los rangos de obtenida en ausencia de empates y el test de la suma es menor que la Wilcoxon resulta varianza de la Si el nmero empates en la el rangos con ti se producentest de la suma asignacin de de de laen la muestra combinada, la varianza de estadstico delde empates para de valor i-simo Wilcoxon resulta los1 rangos n + n variable. Notar que, si no hay n la suma de rangos es menor que la obtenida en (ausencia+de empates y el estadstico del test de n1 1 1) 2 r la suma de= 0 y este estadstico se reducei al citado anteriormente. Finalmente, como la los rangos de Wilcoxon resulta 2 empates, f z = in=11 n+(n 2 + 1)(1+ 1)f ) , n1 + n 2 n1 n 1 nr2i (1 suma de rangos es un variable discreta=1 se aproxima mediante una distribucin que 12 2 , z= i n1 n 2 (n1 + n 2 + 1)(1 f ) normal continua, es frecuente aplicar la correccin por continuidad a estos estadsticos. 12 donde

La versin con correccin por continuidad del test de la suma de rangos de Wilcoxon donde donde T (con o sin empates) se presenta en la Tablat8.2. + 1)(t i 1) i (t i i =1 , f = T (n1 + n 2 )(nt1i (t i n+ 1)(t)(11) n 2 1) + 2 + 1i n + [Tabla 8.2 aproximadamente aqu] i , = con ti el nmero de empates fpara el valor=1i-simo de la variable. Notar que, si no hay empates, (n1 citado n1 + n 2 + 1)(n1 + n 2 1) + n 2 )( anteriormente. Finalmente, como la suma de rangos f =con teste nmero de empates para el valor i-simo de la variable. Notar que, si no hay 0 y i el estadstico se reduce al es una variable discreta que se aproxima mediante una distribucin normal continua, es frecuente aplicar tila correccin empates parase reducei-simo de lade laLa versin que, =correccin por empates,nmero este estadstico el casos y citado anteriormente. 8.1 n1 no=hay el f = 0 y de por muestra de a estos estadsticos. Tabla Finalmente, 10 conEjemplo 8.5 Como lacontinuidadvalor al controles variable. Notarescon si n2como la continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la Tabla > 8, puede aplicarse la aproximacin normal a laanteriormente.una distribucin la 8.2. suma de f = 0 y este variable discreta que se aproxima mediante Finalmente, como empates, rangos es unestadstico se reduce al citado suma de rangos U = 96,5 en los normal rangos esComo la hiptesis nula de una mismamediante unadel n1 = n2 = casos de infarto. frecuente aplicar laque se controles de la Tabla estos estadsticos. Ejemplo 8.5 un variable discreta correccin por distribucin distribucin suma decontinua, es Bajola muestra de casos yaproximacontinuidad a8.1 es -caroteno 10 > 8, puede aplicarse la aproximacin normal a la suma de rangos U = 96,5 en los casos de La en casoscon correccin por aplicar + 10 + esta 0,00075rangosrangos de estadsticos. versin y controles, el valor10 de correccin por suma infarto. Bajo es frecuente continuidad del test de lade ) dedel estos Wilcoxon normal continua, la hiptesis nula (10launade 1)(1 suma continuidad ab-caroteno en casos y 10 esperado misma distribucin sera var(U) = controles, el valor esperado de esta suma de rangos sera = 174,87, 12 (con o sin con correccin por continuidad 8.2. La versinempates) se presenta en la Tabladel test de la suma de rangos de Wilcoxon 10(10 + 10 + 1) E(U) = = 105 donde (con o sin empates) se presenta en la Tabla +2 )(1 0,00075) 8.2. 10 10(10 + 10 1 = y su varianza var(U) = [Tabla 8.2 aproximadamente aqu] 174,87, 12 y su varianza 2(2 + 1)(2 )() 0,00075) 10 + 111 f = = 10 10(10 +aproximadamente = 0,00075 [Tabla 8.2 var(U)10 + 10)(10 + 10 + 1)(10 + 10 1) aqu]174,87, = ( 10 12 donde Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10 donde es el 8, varianza 1 donde puede aplicarse la de la 2(2 + 1)(2normal a la presenciarangos=U = 96,5 en los > factor de correccin aproximacin debido a la suma de de t1 2 Ejemplo 8.5 Como la muestra de casos y )controles de la Tabla 8.1 es n1 = n2 = 10 f= = 0,00075 (10 + 10)(10 + 10 + 1)(10 + 10 1) observaciones empatadasla hiptesis1nula deg/g.misma distribucin del de la el valor 0,13 casos de infarto. Bajo para 2(2 + )(2 1) una Por tanto, el estadstico -caroteno > 8, puede aplicarse la aproximacin normal a la suma de rangos U = 96,5 en los f= = 0,00075 es el factor de correccin de la varianza debido a la presencia de t1 = 2 observaciones (10 + 10)(10 + 10 + 1)(10 por continuidad es + 10 1) suma factor y controles, el0,13con correccin estaellaestadstico de 1 =suma de rangos de empatadas para de Wilcoxonla mg/g. Pordebido a suma de rangos tsera es casos de infarto. valor lavalorvarianza tanto, misma distribucin del -caroteno el de rangos el Bajo hiptesis nula de una presencia de la 2 en casos de correccin de esperado Wilcoxon con correccin por continuidad es observacionescorreccin para el valor debido la presencia estadstico de la es el factor decontroles, elde la| varianza0,13 1 / 2a sumatanto, elde tsera 105 | + 10 Por de en casos y empatadas z = 96,5 10(10 g/g.= )0,60, rangos 1 = 2 valor esperado de esta+ 1 E(U) = 174,87 = 105 2 suma de rangos de Wilcoxon el correccin g/g. Por tanto, el estadstico de la observaciones empatadas paraconvalor 0,13 por continuidad es 10( 0,60) + 1) que corresponde a un valor P (= 2P(Z 10 + 10= 2{1 F(0,60)} = 0,549 a partir de la E U) = = 105 suma de rangos de un valor P conP5Z 0,60)1= 2del - (0,60)} Este valor partir de distribucin normal estandarizadacorreccin2por continuidad es= 0,549 a aproximado de 2 ( 105 | que corresponde a Wilcoxon = 96,de la Tabla /32{1 Apndice. y su varianza | z= = 0,60, P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo as suficiente 10 174,87 evidencia para rechazar la hiptesis de igualdad de del Apndice. Estenivel de b-caroteno la distribucin normal estandarizadade la| Tabla 3 distribuciones del valor y su varianza | 96,5 105 1 / 2 z= en los casos de infarto de miocardio y los sujetos = 0,60, la enfermedad. libres de 174, exacto es muy similar P Z 0,60) calculado en el Ejemplo partir de aproximado de P a un valor P = 2al(valor87 = 2{1 - (0,60)} = 0,549 a 8.2, no 10 que corresponde

habiendo as suficienteestandarizada rechazar la hiptesis de igualdadade la distribucin normal evidencia para la Tabla 3 - (0,60)} = Este partir que corresponde a un valor P = 2P(Z de0,60) = 2{1del Apndice. 0,549valor de distribuciones normal estandarizada de laexacto calculado en el miocardio y no aproximado de P nivel de -caroteno en Tabla 3 de Apndice. Este valor la distribucin del es muy similar al valor los casos del infarto de Ejemplo 8.2,los sujetos libres suficiente evidencia para rechazar calculado en el Ejemplo 8.2, habiendo as de es muy similar aproximado de Pla enfermedad. al valor exacto la hiptesis de igualdad de no
Pastor-Barriuso R. 127

128 Mtodos no paramtricos

Pastor-Barriuso R.

Tabla 8.2 8.2 Estadsticos parael test dede suma de rangosde de los rangos con signoconWilcoxon con correccin por continuidad. continuidad. test la la suma de rangos y rangos signo de de signo de correccin con correccin Tabla Estadsticos para el elel de de la suma de rangos y de rangos conrangos Wilcoxon con Wilcoxon por continuidad. por Tabla 8.2 8.2 Estadsticos para testtest la suma de rangos y y los los de los con signo de Wilcoxon con correccin por continuidad. Tabla Estadsticos para
SinSin empates empates Sin empates Sin empates Sin empates
n n 1 1 r r n n + n + 1 1 1 rrn(n ((+ n+ + 1)+))2 2 2 2 2 2 r z =z = 2 2 2 2 z=
1 1 1 2 2 1 1 2 2

Tabla Estadsticos para el el test la la suma rangos y y los rangos con signo de Wilcoxon con correccin por continuidad. Tabla 8.28.2 Estadsticos para test de de suma de de rangosde de los rangos con signo de Wilcoxon con correccin por continuidad.

Con Con empates Con empates empates Con empates Con empates Con empates

n1 (n11(n1n+ + 22) 1) 1 1 + 1 2 n 1+ n (n11(n1n+ + 22) 1) 1 1 + 1 2 n 1+ z =z =n nn(n ((n1n+ + 22)(11)(1 ff )) n n +n1 2+ n1+ 1)(1f n + ) n 2 n 1+ 1 ) n nn(n (+ 1n+ +2 )(1 )(1f f ) 12 12 12 12 12
T T iii
n1 n11 n 1 n1 n1 ii 1 i i1 i =1 ii=1 i = i =1 i =1 1 21 2 1 1 2 1 21 2 1

Test deTest de suma de de rangos Test la lade rangos rangos Testla sumala suma rangos de de suma de

Test la la suma rangos Test de de suma de de rangos

z =z =

n1 n11 n n1 n1 ii i i1 i =1 ii=1 i = i =1 i =1 1 1

n nn(1n22((n1n+ + 22)+1)) 2 1 n + 1 2 n 1+ 1 n 1 n +n n nn1n2 (+ 1n+ +2 ) 1) 2 ( 1 n 2 n 1+ 12 12 12 12 12


T T T i =1 i =1 ii i1 = i =1 i =1 1 2 21 1 2 1 2 21
m m

n n 1 1 r r n n + n + 1 1 1 rrn(n ((+ n+ + 1)+))2 2 2 2 2 2 r z =z = 2 2 2 2 z=

i ii i i con = concon=ff = f con = + + n )(n n + + 1+ 11)(n n + 1 1 con f =f(n1((n n+ )(n)(+11 + n 22 )(n)(+11 + n 22 )1)) 2 n +1 n 2 n n n n n n n 2 + + 11 n 2 (n1(+ n+ )(n)(+1n+ n 21)(n)(+1n+ n 21) 1)
m m

t ( + 1)( 1 ( + (ttttt (+ttt1)(t1)(ttt1) 1))) + t (+ 1)(t1)( 1) 1

ii

ii

TestTest de de loscon signo signo deTestrangos rangos con signo los los rangos con

Test los los rangos con signo Test de de los rangos con signo Test de rangos con signo

m m n( n +n ) 1) 1 1 n( 1 + 1 1 + rimriinnn+n ) ) 1 1 ri ( 4 ((n + 1)2 2 r n 14 2 4 ri=11 i= i= z =z ==11 4 4 2 2 z = i=1 i z =z = ni(nn((n )(2)(2n )+1)) n+ 1+ 1n + 1+ 1 n + 1)(2n n( 1+ 1n + 1+ n(n +n )(2)(2n ) 1) 24 24 24 24 24

m m n( n +n ) 1) 1 1 n ( 1+ 1 1 + rimriinnn+n ) ) 1 1 ri ( 4 ((n + 1)2 2 r n 1 2 4 ri=1 ii=1 =1 4 z =z =i 4 4 2 2 z =i 1 =1 z =z =n=(nin((n )(2)(2n )+1)) ff n+ n+ 1n + n+1 f 1 + 1)(21 n( 1+ 1n + 1+ 1 n(n +n )(2)(2n ) )f f 24 24 24 24 24 T t ( i + 1)( i 1 i( + (tttttiiiii(+ttti1)(t1i1i)(ttti1) 1))) ti=i=11 ( i1)(t )( i1) 1 + + = con =11 ii =1 concon=ff i f = con = 2 2 con f =f i= 2 2 2 T T T T

28 28 28 28 28

Test de los rangos con signo de Wilcoxon

El test de la suma de rangos de Wilcoxon es tambin conocido como el test de MannWhitney. Aunque este ltimo se deriva siguiendo un procedimiento distinto, ambas pruebas de hiptesis son completamente equivalentes, obtenindose el mismo valor P con cualquiera de ellas. La comparacin no paramtrica de distribuciones continuas en ms de dos muestras independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una generalizacin del test de la suma de rangos de Wilcoxon y puede consultarse en los textos sobre mtodos no paramtricos referenciados en este tema. 8.3 TEST DE LOS RANGOS CON SIGNO DE WILCOXON En este apartado se describe el procedimiento de contraste no paramtrico equivalente al test de la t de Student para muestras dependientes. Como se discuti en el Apartado 6.4, la prueba t para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias observadas en cada pareja de datos dependientes. Esta prueba paramtrica requiere que el nmero de parejas sea suficientemente grande para asegurar que la media de las diferencias se distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras de este supuesto de normalidad (particularmente cuando el nmero de parejas sea muy reducido), resulta ms apropiado utilizar el test no paramtrico de los rangos con signo de Wilcoxon. Bajo la asuncin de que la variable a estudio sea continua, este procedimiento permite contrastar si las diferencias se distribuyen simtricamente alrededor de 0. La hiptesis nula establece, por tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una poblacin son igualmente probables que a favor de los sujetos de la otra poblacin. Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de datos dependientes. La asignacin de rangos a estas diferencias se realiza mediante el siguiente procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes. Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos con signo constituyen as una representacin estandarizada de las diferencias, que preserva tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos negativos) W=

r,
i i =1

donde m denota el nmero de rangos positivos. donde m denota el nmero de rangos positivos. Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad. Ejemplo de A partir del estudio EURAMIC, de casos y controles se presentan Los niveles 8.6 b-caroteno para estas 20 parejas se seleccionan aleatoriamente 20 en la Tabla 8.3. Una vez excluida la pareja con di = 0, el nmero efectivo de parejas es n = 19. casos de infarto de miocardio y 20 no nulas, se asignan rangos del 1 al A partir de estas parejas con diferenciascontroles emparejados por grupos 19 comenzando en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las quinquenales de edad. absoluta 0,27 mg/g se les otorga el rango medio de 10)/2 = dos parejas con diferencia Los niveles de -caroteno para estas 20 parejas(9 +casos y 9,5, y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio (12controles= 12,5. Finalmente,Tabla 8.3. un signo positivo a los rangos correspondientes + 13)/2 se presentan en la se otorga Una vez excluida la pareja con di = 0, el nmero efectivo de parejas es n = 19. A partir de estas parejas con diferencias no nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia Pastor-Barriuso R. absoluta 0,01 g/g hasta la mayor diferencia absoluta 1,00 g/g. A las dos parejas con
129

otras dos parejas con diferencia absoluta 0,38 g/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos correspondientes Mtodos no paramtricos

(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos


a diferencias positivas y un signo negativo a los rangos

correspondientes a diferencias negativas. Laun signo negativo a los rangos correspondientes a diferencias positivas y suma de rangos positivos resulta correspondientes a diferencias negativas. La a los rangos correspondientes a diferencias a diferencias positivas y un signo negativo suma de rangos positivos resulta 9 negativas. La suma de rangosi positivos resulta + 3 = 91 r = 17 + 12,5 + ...
i =9 1

y la suma de rangos negativos y la suma de rangos negativos 10

y la suma de rangos negativos

r
i =1

= 17 + 12,5 + ... + 3 = 91

r
j =1

= ( 4) + ( 14) + ... + ( 9,5) = 99.

r j = (-4) + rangos ... + (-9,5) = -99. En este ejemplo la suma total de los (-14) + absolutos es n(n + 1)/2 = 1920/2 = 190. As, j= En este ejemplo la suma1total de rangos positivos 91, n suma de 1920/2 = una vez determinada la sumade los rangos absolutos es la(n + 1)/2 =rangos negativos viene dada por 91 190 = 99. 190. As, una vez determinada la suma de rangos positivos 91, la suma de rangos En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 1920/2 =
negativos Tabla 8.3viene dada por 91 - 190 = -99. adiposo en controles Tabla 8.3As, una-caroteno en tejidoen 20 casos y20 casos ydel estudio del estudio 190. -caroteno en tejido adiposo vez determinada la suma de rangoscontroles 91, la sumaEURAMIC positivos de rangos EURAMIC emparejados segn grupos quinquenales de edad. emparejados segn grupos quinquenales de edad. negativos viene dada por 91 - 190 = (g/g) -caroteno -99. -caroteno (g/g)
Pareja Caso 0,47 Caso 0,75 0,47 0,78 0,75 0,78 0,66 0,66 0,09 0,09 0,20 0,20 0,08 0,08 0,08 0,08 0,31 0,31 0,30 0,30 0,16 0,16 0,13 0,13 0,06 0,06 0,25 0,25 0,39 0,39 0,95 0,95 0,33 0,33 0,53 0,53 0,16 0,16 0,23 0,23 Control 0,55 Control 0,09 0,55 0,40 0,09 0,40 0,13 0,13 0,49 0,49 0,31 0,31 0,28 0,28 0,46 0,46 0,16 0,16 0,87 0,87 1,16 1,16 0,13 0,13 0,37 0,37 0,04 0,04 0,37 0,37 0,14 0,14 0,06 0,06 0,50 0,50 0,17 0,17 0,50 0,50

10

Pareja 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Diferencia Diferencia 0,08 0,08 (di) absoluta 0,66 0,66 -0,08 0,08 0,38 0,38 0,66 0,66 0,38 0,38 0,53 0,53 0,53 0,53 0,40 0,40 -0,40 0,40 0,11 0,11 -0,11 0,11 0,20 0,20 -0,20 0,20 0,38 0,38 -0,38 0,38 0,15 0,15 0,15 0,15 0,57 0,57 -0,57 0,57 1,00 1,00 -1,00 1,00 0 0 0 0 0,31 0,31 -0,31 0,31 0,21 0,21 0,21 0,21 0,02 0,02 0,02 0,02 0,81 0,81 0,81 0,81 0,27 0,27 0,27 0,27 0,03 0,03 0,03 0,03 -0,01 0,01 0,01 0,01 -0,27 0,27 0,27 0,27

Diferencia (di)

Diferencia absoluta

Rango absoluto

Rango 4 absoluto 17 4 12,5 17 12,5 15 15 14 514 75 7 12,5 12,5 6 6 16 16 19 19 1111 88 22 18 18 9,5 9,5 3 3 11 9,5 9,5
9 9
i =1 i =1

Rango con 13 signo (ri)

Rango con 4 signo (ri) 17-4 13 12,5 17 12,5 15 15 14 -14 5 7-5 -7 12,5 -12,5 6 6 16 -16 19 -19 11 -11 88 22 18 18 9,5 9,5 33 1-1 -9,5 9,5

r 91 Suma de rangos positivos Suma de rangos positivos rii == 91


Suma de rangos negativos Suma de rangos negativos r jj= =99 r -99
j =1 j =1 10 10

130

Pastor-Barriuso R.

de 0, se esperara la misma suma de rangos positivos que negativos y, por consiguiente, [Tabla 8.3 aproximadamente aqu] 2 2 4 la suma esperada de rangos positivos seranla mitad (n + 1suma total de rangos absolutos 1 n( + 1) nde la ) E(W) diferencias se distribuyenTest deel apartado anterior, = donde n la hiptesis nula de que las = en los rangos con alrededor Bajo indica el nmero de diferencias no nulas. Al igual ,quesimtricamente signo de Wilcoxon 2 2 4 1 n(n + 1) n(n + 1) el valor exacto de la misma suma de rangos positivos que negativos y, por consiguiente, E(W) = = de 0, se esperara P para el contraste bilateral vendr dado ,por la probabilidad bajo H0 2 4 donde n indica elnula de que las diferencias2nulas. Al igualsimtricamente alrededor de 0, se nmero de diferencias no se distribuyen que en el apartado anterior, Bajo la hiptesis de suma mismasuma de rangos positivos que mitad de y, por consiguiente, su valor tanto o ms distante de E(W) rangos absolutos la obtener una suma de rangos esperara laesperada de rangos positivos sera la negativos la suma total deque la suma esperada el valorpositivos sera la mitad de la suma totalvendr igual que en probabilidadanterior, exacto el nmero el contraste bilateral de Al dado por la el apartado bajo H0 de P para de diferencias no nulas. rangos absolutos de rangos n indica donde observado w; esto es, si w > E(W), 1 n(n + 1) n(n + 1) de obtener una suma de rangos positivos tanto o= ms dado, por la probabilidad bajo E(W) = el valor exacto de P para el contraste bilateral vendr distante de E(W) que su valor H0 2 2 4 P = 2P(W w | H0) observado una suma de > E(W), de n indica el nmerosi w diferencias no tanto Al igual que en el apartado su valor dondeobtener w; esto es,de rangos positivos nulas. o ms distante de E(W) que anterior, el valor donde P para el nmero bilateral vendr nulas. Al igual que en el apartado anterior, exacto de n indicael contrastede diferencias nodado por la probabilidad bajo H0 de obtener una y, si w rangos esto es, si w > E(W), distante de E(W) que su valor observado w; esto es, observado w; positivos tanto o ms = 2P(W w | H ) suma de E(W), P 0 el> E(W), preestablecido, la P para el contraste bilateral vendr dado por la positivos es bajo H si w valor exacto de hiptesis nula se rechazar si la suma de rangos probabilidad inferior0

donde 2nE(W)1,nmero1)/4subconjuntos de=cualquier tamao deduce que obtenerse a partir de es r n(n + de = 12(12 probable y de lo cual se que pueden positivos el =..., rm es igualmente + 1)/4 39,su probabilidad viene determinada por P - de 1 alnpercentil con diferencias no nulas. 1= /2.cualquier ). resultado, la Tabla 9 del a lasdonde 2n es /2 o superior alsubconjuntos2P(W nuso| de0tamao que pueden obtenerseApndice parejas el nmero de percentil Haciendo , w H este 2 facilita los percentiles de la distribucin de la suma de rangos positivos bajo la hiptesis nula de w0,05 = n(n + 1)/2 - w0,95 = 78 60 = 18, 1 que las diferencias se distribuyen simtricamente alrededor de uso de arbitrario de rangos partirdicha hiptesis nula, diferencias no nulas. Haciendo 0, cuando elresultado, la Tabla , Bajo de las n parejas con cualquier combinacin de un nmero este nmero de diferencias n Ejemplo 8.7 Como de subconjuntos de 2 n que la tamao que pueden obtenerserechazar ilustracin, supongamos preestablecido, la hiptesis nula se a no nulas es nes 16.nmero nivel de significacin cualquier suma de rangos positivos es w donde 2 el Para un donde ..., r 60 los es inferior Tabla 9 probabilidad suma = rangos la 9 suma derrangosm=es igualmente de lade percentil /2 o de lapara npercentil 1 positivos si la del Apndice facilita se obtiene probable ydistribucin superior aldeterminadaporsuma positivos 1, w0,95 positivospercentiles al la su del Apndice viene de12. Como /2. = 25 a partir de n = 12 parejas de datos dependientes con diferencias no nulas. La partir 2 es n nmero de diferencias no nulas. Haciendo uso de este resultado, la a dondeden las el parejas con subconjuntos de cualquier tamao que pueden obtenerseTabla bajo la hiptesis wComo> w0,05 =diferencias se distribuyen simtricamente alrededor de= 25 que observada nula de ilustracin, se sigue que P(W 25 | de > 0,05. As, el = Ejemplo 8.7 bajo 250 de la las 18,supongamos que la sumaH0) rangos positivos es w distribucin H suma de rangos positivos es simtrica alrededor de 1 9 delpartir de n facilita losdiferencias no nulas. Haciendo uso de este nulas. La la Tabla , partir Apndice = 12 parejas de datos dependientes con diferencias no resultado, distribucin a de las n parejas con percentiles de la distribucin de la suma de rangos positivos n 0, cuando el n(nbilateralde rangos valor39, >20,10. 16. deduce que de E(W) = n(n + 1)/4 = nmero de arroja + 1)/4 = P de es n se Para un nivel contrastela suma= diferencias no nulas es simtrica alrededor de significacin un positivos lo cual bajo H0=de + 1)/4 12(12 E(W) bajo Apndice facilita los cual se deduce que distribuyen la suma de rangos positivos 9 della hiptesis=nula de lo percentiles de la distribucin desimtricamente alrededor de 12(12 + 1)/4 39, de que las diferencias se donde 2n es el nmero de subconjuntos de cualquier tamao que pueden obtenerse a = nmero de 0,95 = 78 60 = En aquellas muestras w0,05lasn(n + 1)/2 wdiferencias no 18, nivel superior a 16, un 0, cuando el nmero de donde eldiferencias es n 16. Paranulas sea de significacin bajo la hiptesis nulade diferencias no nulasse distribuyen simtricamente alrededor de que partir de las n = 60 se obtiene de la Tabla 9nulas. Haciendo uso = 12. Como la suma observada donde w0,95 parejas con diferencias no del Apndice para n de este resultado, la Tabla puede=utilizarse = =siguiente aproximacinnormal. )Dado para los el contraste signo 0, cuando el 0,95 la60 se obtiene de la no nulas25 |Apndice que n nivel Como labilateral arroja w donde > w0,05 18, se sigue que Tabla 9 del n 16.0,05. As,= rangos significacin 14 25 w nmero de diferencias P(W es H0 > Para un 12. de con suma 9 del Apndice facilita los percentiles de la distribucin de la suma de rangos positivos un valor P > 0,10. observada w = 25 > w0,05 = estandarizada P(W 25 | H0) > observadas constituyen una representacin18, se sigue quede lasdiferencias0,05. As, el en cada bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de 14 contraste bilateral donde el nmero de diferencias no nulas sea superior pareja de datos dependientes, podra P > 0,10. un estadstico sustituyendo las a 16, puede En aquellas muestras arroja un valor construirse utilizarse la siguiente aproximacin normal. Dado que los rangos con de significacin una 0, cuando el nmero de diferencias no nulas es n 16. Para un nivel signo constituyen 14 diferencias estandarizada los rangos con signo ri en el test de pareja de datos dependientes, representacinno nulas di porde las diferencias observadas en cadala t de Student para En aquellas muestras donde el nmero de diferencias no nulas sea superior a 16, podra construirse un estadstico sustituyendo las diferencias no nulas di por los rangos con muestras test de la t de (Apartado 6.4). As, el estadstico resulta signo ri en eldependientes Student para muestras dependientes (Apartado 6.4). As, el estadstico puede utilizarse la siguiente aproximacin normal. Dado que los rangos con signo resulta
constituyen una representacin estandarizada de r diferencias observadas en cada las

P = 2P(W w || H00) P = 2P(W w H ). y, obtener /2 de si w E(W), o superior al percentil 1 /2. al percentil una suma de rangos positivos- tanto o ms distante de E(W) que su valor y, si w E(W), Bajo w E(W), es,nula, cualquier combinacin de un nmero arbitrario de rangos observado w; esto y, si dicha hiptesis si w > E(W),P = 2P(W w | H ). 0 Ejemplo 8.7 Como ilustracin, supongamos que la suma de rangos positivos es w positivos r1, ..., rm es igualmente combinacin de un nmero arbitrario de rangos Bajo dicha hiptesis nula, cualquierprobable y su probabilidad viene determinada porpositivos P = 2P(W H ) Bajo = 25 partir denula,12 y su probabilidadw | de0). nmero arbitrario no nulas. r1, ..., rm dichaahiptesisprobableparejas de datos dependientes con diferencias de rangos La es igualmente n = cualquier combinacin 0un viene determinada por 1 , positivos r , ..., es igualmente probable y nsu positivos es viene determinada de y, si w E(W), rm bajo H0 de la suma de rangosprobabilidad simtrica alrededorpor Bajo dicha1hiptesis nula, cualquier combinacin de un nmero arbitrario de rangos distribucin 2 la suma de rangos positivos es inferior preestablecido, la hiptesis nula se rechazar si

z=

pareja de datos dependientes, podra construirse un estadstico sustituyendo las n diferencias no nulas di por los rangos con signo ri en el test de la t de Student para muestras dependientes (Apartado 6.4). As, el estadstico resulta
z= r

sr

14

donde la media de los m rangos positivos y n - m rangos negativos es

Pastor-Barriuso R.

131

sr

Mtodos no paramtricos

nm 1 n 1 m r = 1 ri = 1 ri + r j n m nm i =1 j =1 i =1 r = n ri = n ri + r j m rangos negativos es n i =1 donde la media de los m rangos positivos y n i =1 j =1 nn(n + 1) 1 n m mm m = 1 ri +1 m ri n(n + 1) 1 m n i =1riri=+ i =1 riri + 2r j = r= n i ni =i1 1 = j =12 n =i1=1 n(n + 1) 2 m = 2 ri (m + 1) n(n + 1) m 1 m nn = n rii ri i =1 + 4 n ii=1 i =14 2 =1

y, en el caso de que no haya empates, la varianza )bajo H0 de los rangos con signo se n( n + 1 2 m = ri y, en el caso de que no haya empates, la varianza bajo H0 de los rangos con signo se 4 n i =1 estima mediante estima mediante y, Para concretar que no haya empates, la varianzadispone 0de n los rangos con signo se estima en el caso de el problema, supongamos que se bajo H de pares de observaciones y, en el mediante caso de que no haya empates, la varianza bajo H0 de los rangos con signo se (n + 1)(2n + 1) 1 n 1 n de una variable aleatoria continua. ri 2 = pareja de datos dependientes, una s r2 = 1 En cada 1 i 2 = (n + 1)(2n + 1) . n n 6 i =1 i =1 estima mediante s r2 = n ri 2 = n i 2 = . n i =1 muestra y la otra observacin x2 a la segunda n i =1 6 observacin x1 corresponde a la primera

Aplicando ambas resultados, se tiene el 1 n 2 ( estadstico 1 n Aplicando objetivo se centra se se el = las medias n + 1)(2n + 1) . muestra. El ambos resultados,r2en tiene ri 2 estadstico poblacionales 1 y 2 a partir de s = comparar estadstico Aplicando ambas resultados, tiene el i = 6 n i =1 n i =1 m estas dos muestras dependientes. m ri n(n + 1) n(n4+ 1) Aplicando ambas resultados, se ri el estadsticoW E (W ) , tiene z = i =1 = 4 Los procedimientos desarrollados 1(n + 1)(2n + 1) 6.3 SE (pueden aplicarse a esta = en el Apartado W no E (W ) W) , = z = in SE (W ) n(n + 1)(2n + 1) m 24 situacin, ya que las medias de ambas ri n(n +no son independientes por provenir de muestras 1) 24 4 que representa la diferencia entrey, en consecuencia, y W E (W ) de la pruebarangost positivos, 1 distribucin asimtrica= eli =valor observado = esperado de la suma de de la de la utilizacin, z dividida por su error diferencia SinHnel +el )( la + 1)de parejas se simplifica notablemente Si 1 nmero que representa la estndar bajo embargo, n comparacin ) y esperado de la suma nulas es observaciones correlacionadas. entre0.(n valor2observado SE (Wcon diferencias node rangosn > 16, que representapara aproximadamente valordistribuciny esperadoSin la suma bajo la hiptesis la diferencia entre el una observado normal estandarizada de rangosde este estadstico sigue muestras dependientes resulta cuestionable. de embargo, a pesar Student 24 nula de simetra de las diferencias estndar de 0. positivos, las diferencias error - x2 en cada una Si el n observaciones emparejadas. si se calculan dividida por su d = x1alrededor bajo H0.de las nmero de parejas con diferencias positivos, dividida por sucon 20estndar bajo H0. Si el nmero de parejas con positivos contar nicamente error parejas, la distribucin de la suma de rangos diferencias quelado, como lasdiferencia entre elno estn relacionadas entre1000 la suma de rangos de 20 representa Porno nulas es n > la Adistintas parejas sigue aproximadamente unas, estas diferencias un Ejemplo 8.8 16, este estadstico EURAMIC, se seleccionan distribucin normal partir del estudio valor observado y esperado de muestras aleatorias no parejas de casosaspecto mucho ms normal, permitiendo de edad. La Figura 8.2 presenta la nulas es n >un y controles agrupados segn quinquenios as el uso de la aproximacin 16, este estadstico sigue aproximadamente una distribucin normal presenta positivos, dividida por su errornula de media de de las diferencias parejas controles, as como estandarizada bajo laotro lado, la media de lasH0b-caroteno d entre alrededorla diferencias distribucin muestral de la diferencia simetra . Si el nmero de casos y con son independientes. Por hiptesis estndar bajo diferencias coincide con de 0. estandarizadaal testla hiptesis nula designo de Wilcoxon. (esto es, la suma de rangos en las normal bajo de los rangos con simetra de las diferencias alrededor de 0. la distribucin muestral de la suma de rangos positivos W no parejas medias el caso presenta un nivel superior de b-caroteno que el control). Debido al nulas donde muestrales, diferencia dees n > 16, este estadstico sigue aproximadamente una distribucin normal Ejemplo 8.8 de parejas, estudio EURAMIC, se de b-caroteno presenta una distribucin reducido nmeroA partir della media de las diferenciasseleccionan 1000 muestras Ejemplo se seleccionan 1000 muestras estandarizaday,8.8 A partir del estudio EURAMIC,las diferenciastalrededor depara muestras asimtrica bajo consecuencia, la utilizacin de la prueba de la de Student 0. en la hiptesis nula de simetra de n n 1 aleatorias de 20 parejas1de casos y controles agrupados segn quinquenios de [Figura 8.2 aproximadamente aqu] dependientes resulta cuestionable.i Sin embargo, axpesar de contar nicamente con 20 parejas, d = d = (x ) aleatorias de 20 parejasnde 1casos n i1 agrupados segn quinquenios de y controles i 2 i= =1 la distribucin de la suma de rangos ipositivos presenta un aspecto mucho ms normal, Ejemplo 8.8 A partir del estudio EURAMIC, edad. La as el uso de la aproximacin normal alse seleccionan 1000 muestras de permitiendo Figura 8.2 presenta la distribucin muestral los la diferencia media Wilcoxon. test de de rangos con signo de 1 n En edad. La Figura 8.2 presenta la distribucinvalor absoluto, diferencia media de el caso de existir diferencias con 1 mismo muestral de la ha de utilizarse la el n = x i1 xi 2 = x1 x 2 aleatorias 20 parejas de1casos y controles la distribucin muestral de la suma n as = caroteno ddeentre casosny i controles,i =1 comoagrupados segn quinquenios de siguiente versin corregida del estadstico as como lalos rangos ha de utilizarsela suma En el carotenoexistir diferencias con el mismo valor absoluto, con signo de la siguiente caso de d entre casos y controles, del test de distribucin muestral edad. La positivos presenta la de los rangos con en de versin corregida del estadstico del test la suma de rangos signo parejas donde el caso de rangosFigura 8.2 W (esto es, distribucin muestrallas la diferencia media de y, en consecuencia, positivos estimador insesgadode rangos en las parejas donde el caso diferencia de medias de rangos d es un W (esto es, lamsuma nde la 1) (n + r 4 caroteno d entre casos y de -caroteno que la distribucin muestral de la presenta un nivel superior controles, ias comoel control). Debido al reducidosuma =1 poblacionales 1 - un.nivel el problema -caroteno que el control). Debido almuestras 2 As, superior de de ila comparacin de,medias en dos reducido z= presenta ( de rangos parejas, W (esto denlan + 1)(2n + 1) def en las parejas donde el nmero depositivosla media es, lassuma de rangos-caroteno presenta unacaso diferencias dependientes queda reducido la una simple inferencia sobre -caroteno presenta una 24 nmero de parejas, a media de las diferencias de la media de una nica 16 presenta un nivel superior de -caroteno que el control). Debido al reducido muestra de n diferencias independientes. 16 cuya varianza incluye el trmino de correccin por empates nmero de parejas, la media de las diferencias de -caroteno presenta una Los mtodos 132 Pastor-Barriuso R. del Apartado 6.2.1 para la media de una muestra pueden entonces T 16 t i (t i 1 100(1 utilizarse para calcular un intervalo de confianza+al)(t i 1)- )% para 1 - 2 como f = i =1 ,

distribucin asimtrica y, en consecuencia, la utilizacin de la prueba de la t de


Test de embargo, signo de de Student para muestras dependientes resulta cuestionable. Sinlos rangos cona pesar Wilcoxon

contar nicamente con 20 parejas, la distribucin de la suma de rangos positivos

Frecuencia relativa (%)

Para concretar el problema, supongamos que se dispone de n pares de observaciones 25 25 presenta un aspecto mucho ms normal, permitiendo as el uso de la aproximacin de una variable aleatoria continua. En cada pareja de datos dependientes, una
20 20 normal al test de corresponde acon signomuestra y la otra observacin x2 a la segunda observacin x1 los rangos la primera de Wilcoxon. 15 15 muestra. El objetivo se centra en comparar las medias poblacionales 1 y 2 a partir de

10 estas dos muestras dependientes. [Figura 8.2 5

aproximadamente aqu]

10

5 Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta

En el0caso de existir diferencias con el muestras valor absoluto, ha de utilizarse la 0 situacin, ya que las medias de ambas mismo no son independientes por provenir de
observaciones-0,3 correlacionadas. Sin embargo, la de los rangos con signo 120 150 -0,6 0 0 30 60 90 siguiente versin corregida del estadstico 0,3 testcomparacin se simplifica notablemente del si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. d W Por un lado, como las distintas parejas ino estn relacionadas entre s, estas diferencias r (a) (b)
180

Figura 8.2 Distribucin muestral deotro lado,(la media2n de1) f son independientes. Por la diferencia media + -caroteno d entre casos y la n n + 1)( de las diferencias coincide con controles (a) y de la suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados 24 Figura 8.2 segn quinquenios de edad a partir del estudio EURAMIC. Las lneas verticales en trazo discontinuo diferencia de medias muestrales, corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(W) = 80,3.
1 n 1 cuya varianza incluye el trmino de=correccin n ( xi1empates d x 2) d i = n n=por19> i16 parejas de casos y n i =1 Ejemplo 8.9 En la Tabla 8.3 se obtuvieron empates i cuya varianza incluye el trmino de correccin por1= = x i1 xi 2 = en consecuencia, puede controles con diferencias no nulasndet i-carotenoy,x1 x 2 (t i +n1)(t i 1)
i =1
i =1 i =1

z=

i =1

n(n + 1) 4

1T

, f = 2 utilizarse la aproximacin normal a la suma de rangos positivos W = 91. Bajo la y, en consecuencia, d es se obtuvieron n = 19 la diferencia de medias Ejemplo 8.9 En la Tabla 8.3un estimador insesgado de > 16 parejas de casos y donde ti es el nmero de empates para la i-sima diferencia absoluta. Esta correccin conlleva hiptesis nmero 1 2 su el diferencias alrededor de 0, el valor esperado de simetra de las una reduccinelnula varianzay. 8.3efecto sobre el ncomparacindeabsoluta. casoscorreccin donde ti espoblacionales de -empates para la i-sima=diferencia mediasde dos muestras de la Ejemplo de la diferencias As, se problema de la estadstico ser apreciable cuando el nmero obtuvieron 19 > 16 parejas en Esta y controles8.9 En la Tabla no nulas de -caroteno y, en consecuencia, puede con de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carcter dependientes queda reducido suma la reduccin de la y a una simple inferencia sobre la media de una nica discreto de unasuma de rangosno nulas de su efecto sobre elconsecuencia, puede pruebas no conlleva de rangos positivos es el reducido tamao muestral inherente a las controles con diferencias varianzaay -caroteno y, en estadstico ser apreciable utilizarse la aproximacin normalestossuma de rangos positivos W = 91. Bajo correccin paramtricas, la aproximacin normal a la estadsticos suele incorporar adems la la
porcuando el nmero de empatesnormal a la19(probabilidad de las variables91. Bajo latipo I. continuidadla aproximacinpara reducir la 19es 1)rangosde incurrirW =un error de en cualitativas utilizarse de la Tabla 8.2 sea elevado (tal + el caso de 0, de = 95 hiptesis nula de simetra de las6.2.1= suma alrededor muestrael valorentonces de la E(W) para la media de una positivos Los mtodos del Apartado diferencias pueden esperado 4 ordinales). Dado el carcter discretoobtuvieron alrededor16 parejas de casos y controles con Ejemplo rangospara calcular es intervalo de confianza al 100(1de )% reducido 2tamao de la 8.3 hiptesis 8.9 de simetra de las diferencias n = rangos-y 0, el valor como nula En la Tabla un se de la suma de 19 > el para 1 - esperado utilizarse positivos suma de diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximacin y la varianza muestral dearangos a las pruebaspositivos W = 91.la aproximacin normalde estos suma inherente positivos es normal la suma de rangos no paramtricas, sBajo la hiptesis nula a simetra de las d 1,1 1 diferencias alrededor de 0, el E(W) esperado de la ,suma de rangos positivos es valor =d 19t(n19+/ 2 ) n 95 = estadsticos suele incorporar adems la+correccin 1) 6 19(19 1)(2 4 + por continuidad de la Tabla 8.2 para 19 = 617,25, var(W) = 19(19 + 1) E(W) = 24 = 95 reducir la probabilidad de incurrir en un error4de tipo I. y la varianza 24 y la varianza donde el trmino de correccin de la varianza por los t1 = 2 empates con y la varianza 19(19 + 1)(2 19 + 1) 6 diferencia diferencia absoluta var(W) = y los t2 = 2 empates con= 617,25, absoluta 0,38 0,27 g/g 24 19(19 + 1)(2 19 + 1) 6 = 617,25, var(W) = donde el trmino de correccin de la varianza por los t1 = 2 empates con diferencia 17 g/g es 24 donde el trmino de los t2 = 2 empates con diferencia 1 = 2 empates con absoluta 0,27 mg/g y correccin de la varianza por los tabsoluta 0,38 mg/g es
muestra de n diferencias independientes.

donde el trmino de correccin los la=)2 empates los diferencia absoluta 0,38 2(2 y de 1 + 2(2 por 2 1 2 empates con diferencia absoluta 0,27 g/g + 1)(2t2 varianza + 1)(cont1)== 6. f= 2 diferencia absoluta 0,27 g/g y los t2 = 2 empates con diferencia absoluta 0,38 g/g es Pastor-Barriuso R. Aplicando la correccin por continuidad, el test estadstico de los rangos con g/g es 2(2 + 1)(2 1) + 2(2 + 1)(2 1) f= = 6. signo de Wilcoxon resulta entonces 2

133

f=
Mtodos no paramtricos

2(2 + 1)(2 1) + 2(2 + 1)(2 1) = 6. 2

Aplicando la correccin por continuidad, el test estadstico de los rangos con signo de Wilcoxon resulta entonces Aplicando la correccin por continuidad, el test estadstico de los rangos con signo de Wilcoxon resulta entonces
z=
| 91 95 | 1 / 2 617,25

= 0,14,

con un valor P = 2P(Z 0,14) = 2{1 F(0,14)} = 0,889. Notar que el resultado del test seraun valor P = utilizar la suma 2{1rangos negativos W =Notar que el resultado esperado con idntico de 2P(Z 0,14) = de - (0,14)} = 0,889. 99, ya que su valor es E(W) = 95 y su varianza coincide con var(W) = 617,25. As, una vez controladas las diferencias de edad, las diferenciassuma de rangosa favor de W =casos ya que su no son del test sera idntico de utilizar la de b-caroteno negativos los -99, de infarto significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad. valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. As, La comparacin no paramtrica de una variable continua en ms de dos muestras dependientes puedeuna vez controladas las test de Friedman. Bajo la asuncin de que la variable sigue la realizarse mediante el diferencias de edad, las diferencias de -caroteno a favor misma distribucin continua excepto posibles diferencias de localizacin (traslaciones), esta prueba permite contrastar la hiptesis nula de una misma localizacin de la variable en cada una de las poblaciones. Este procedimiento tambin se fundamenta en la definicin de rangos y puede consultarse en los libros especficos de mtodos no paramtricos. 18 8.4 TEST EXACTO DE FISHER En el Apartado 7.4 se present el test 2 de Pearson como un procedimiento general para evaluar la asociacin estadstica entre las variables de una tabla 22. Esta prueba se basa en la asuncin de que el tamao muestral es suficientemente grande para justificar la aproximacin chicuadrado a la distribucin nula del estadstico 2 de Pearson. En concreto, si los marginales de la tabla son pequeos, de tal forma que la frecuencia esperada en alguna de las celdas sea inferior a 5, esta aproximacin puede resultar imprecisa. En tales circunstancias, es preferible utilizar mtodos alternativos basados en la distribucin exacta de las frecuencias de las celdas de una tabla 22. En este apartado se describe el ms conocido de estos procedimientos, el test exacto de Fisher. Ejemplo 8.10 La Tabla 8.4 presenta el nmero de sujetos con niveles de b-caroteno Ejemplo 8.1. inferiores a 0,30 mg/g entre los 10 entre el nivel de -caroteno y el superiores e Bajo la hiptesis de independencia casos de infarto y los 10 controles del estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la riesgo de de independencia entre el nivel de b-caroteno en cada celdainfarto de miocardio, hiptesis infarto de miocardio, la frecuencia esperada y el riesgo de sera la frecuencia esperada en cada celda sera E11 = E12 = E21 = E22 =

510 = 2,5, 20 15 10 = 7,5. 20

Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba 2 de Pearson no ser aplicable a esta tabla 22 cuatro celdas ha inferiores a 5, mediante otro Como los valores esperados en dos de lasy la asociacinson de contrastarsela procedimiento.

prueba 2 de Pearson no ser aplicable a esta tabla 22 y la asociacin ha de contrastarse mediante otro procedimiento.
134 Pastor-Barriuso R.

[Tabla 8.4 aproximadamente aqu]

Test exacto de Fisher

Tabla 8.4 -caroteno en tejido adiposo en 10 casos de infarto de miocardio y 10 controles seleccionados aleatoriamente del estudio EURAMIC.
-caroteno (g/g) > 0,30 0,30 Total Infarto de miocardio Caso 1 9 10 Control 4 6 10 Total 5 15 20

El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla cualquiera con frecuencias a, b, c y d, bajo la hiptesis nula de independencia y asumiendo que todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condicin de marginales fijos se impone por conveniencia matemtica, ya que los clculos se simplifican notablemente y los marginales contienen poca informacin sobre la asociacin a estudio. Bajo H0, la probabilidad de enfermar es comn en los sujetos expuestos y los no expuestos. As, el nmero de enfermos entre los expuestos sigue una distribucin1 binomial de parmetros n1 y , mientras que entre los n a n1 a n 2 parmetros c n2 c no expuestos sigueP(a, b, c, d | H0) = binomial(1de ) n2(1y . )Como las muestras de una distribucin a c expuestos y no expuestos son independientes, la probabilidad de obtener una tabla con frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos enfermos entre los expuestos y c entre n1 expuestos,1 (1 ) m2 . los no n 2 = m a m1 a n1 a n2 P(a, b, c, d | H0) = (1 ) n1 a c (1 ) n2 c a c Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el nmero de n1 n 2 1 = m=(1 ) m,2 m ). Por tanto, la a m casos expuestos vara entre k1 = max(0,m1 -1 n2)ay k2 min(n1 . 1 Para marginales de1,obtener y m2tabla con rango de valores c y d condicionael unos probabilidad n n2, m1 una fijos, el frecuencias a, b, posibles k para a nmero de casos expuestos vara entre ,kn =m y m fijos, el2) y k2 de min(n1, m1). Por k para el nmero de de Para marginales n1 1 2, max(0, m1 n rango = valores posibles tanto, la probabilidad 1 2 obtener una tabla, con m1 y m2 fijos vieney d condicionada a unos marginales n1, n2, m1 y m2 fijos marginales n1 n2, frecuencias a, b, c dada por viene dada por casos expuestos vara entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1 1 2 2 1 1

n1 n 2 m1 m2 probabilidad de obtener una tabla con frecuencias a, b, c y d condiciona a unos a m a (1 ) 1 P(a, b, c, d | n1, n2, m1, m2; H0) = k 2 marginales n1, n2, m1 y m2 fijos viene dada por n1 n 2 m1 (1 ) m2 k = k1 k m1 k n1 n 2 m1 n m2 n n1 n 2 ( 2 11 ) a m a a m1 a a m a 1 P(a, b, c, d | n1, n2, m1, m2; H0) = k 1 = n2 = , 2 k 2 n1 )n n1 n 2 m1 (1 n1+ m22 m k = k1 k m1 k 1 k = k1 k m1 k n1 n n1 de donde el denominador de la ltima igualdad se obtiene de2 las propiedades n 2 los coeficientes obtiene las posibles m a los mismos m de las propiedades de a tablas con binomiales. denominador de la ltima igualdad se a 1 a donde el Esta distribucin de probabilidades entre todas los 1 = , = marginales se conoce como distribucin hipergeomtricany determina 1la+distribucin bajo H0 k2 n1 2 n n2 coeficientes binomiales. Esta distribucin de probabilidades entre todas lasposibles m 1 k = k1 k m1 k Pastor-Barriuso R. tablas con los mismos marginales se conoce como distribucin hipergeomtrica y

135

donde el denominador de la ltima igualdad se obtiene de las propiedades de los determina la distribucin bajo H0 del nmero de casos expuestos y no expuestos en una

Mtodos no paramtricos

del nmero de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de un total de n1 sujetos expuestos y n2 sujetos m expuestos. Notar que esta probabilidad depende no 1 m 2 n1 n 2 nicamente del nmero a de casos expuestos, que una vezconocido a las frecuencias de a dado a marginales tabla. las restantes celdas quedan determinadas por los n1 a = delam1 a Cabe destacar tambin P(a | n1, n2, m1, m2; H0) = que aunque los clculos se han derivado de un estudio prospectivo, se obtendra el mismo m1 + m 2 n1 + n 2 m resultado a partir de un estudio retrospectivoen trminos del nmero de sujetos expuestos entre 1 n1 casos y controles,
m1 1 m ! n1 !n 2 ! m! m 2 2 n1 n 2 =, aab c!n ! a a m a n ! d ! ! 1 1 P(a | n1, n2, m1, m2; H0) = = m1 + m 2 n1 + n 2 n lo cual confirma que la probabilidad condicional asociada a una determinada tabla no 1 m1

vara en funcin del diseo prospectivo o retrospectivo m 2 ! estudio. n1 ! n 2 ! m1 ! del =, n! a! b! c! d!


lo cual confirma que la probabilidad condicional asociada a una determinada-caroteno Ejemplo 8.11 Bajo la hiptesis nula de independencia entre el nivel de tabla no vara en funcin del diseo prospectivo o retrospectivo del estudio. a una determinada tabla no lo cual confirma que la probabilidad condicional asociada y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la Ejemplo 8.11 Bajo la prospectivo o retrospectivo del entre el vara en funcin del diseohiptesis nula de independencia estudio. nivel de b-caroteno y el riesgo de infarto agudo de miocardio, la es Tabla 8.4 manteniendo los marginales fijos probabilidad exacta de obtener la Tabla 8.4 manteniendo los marginales fijos es Ejemplo 8.11 Bajo la hiptesis nula de independencia entre el nivel de -caroteno 10 10 5!15!10!10 y el riesgo de| infarto10, 10; de ) = 1 4la probabilidad !exacta de obtener la P(1 5, 15, agudo H0 miocardio, = = 0,136, 20!1! 4! 9! 6! 20 5 Tabla 8.4 manteniendo los marginales fijos es que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de b-caroteno superiores a 0,30 mg/g, 1 que, 10 105 restantes 4 sean controles. Notar caso y que corresponde a la probabilidad de sea deloslossujetos observados con niveles que 1 4 !1 la !10! la tabla se refiere por la frecuencia a = observada5en5!10primera celda, dado que las 1 = 0,136, P(1 | 5, 15, 10, 10; H0) = = dems frecuencias b = 4, c = 9 d = sea 20 y los20!1! 4! 9por los marginales. caso restantes ! de -caroteno superiores a 0,30yg/g,61vienen entonces dadas ! 64 sean controles. 5 Notar que la tabla se refiere por la las variables de observada en el test exacto de Para contrastar la independencia entrefrecuencia a = 1 una tabla 22,la primera celda, Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada, que corresponde frecuencias b = 4, exacta d los 5 sujetos una de estas tablas para adado que las dems a la probabilidad de = 9 yde = 6 vienen entonces dadas por losbajo la continuacin calcular la probabilidad c que, asociada a cadaobservados con niveles hiptesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde marginales. de probabilidades para todas aquellas tablas con probabilidad inferior o entonces de la-caroteno superiores a 0,30 g/g, 1 sea caso y los restantes 4 sean controles. a suma igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos Notar que la tabla se refiere la la frecuencia a = compatibles con la hiptesis nula queportabla observada). 1 observada en la primera celda, Para contrastar la independencia entre las variables de una tabla 22, el test exacto dado 8.12 dems frecuencias b todas las y d = 6 tablas entonces dadas por los Ejemploque las La Tabla 8.5 presenta= 4, c = 9 posiblesvienen con los mismos marginales de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociacin entre el marginales. b-caroteno y para a continuacin calcular la probabilidad de independencia entre la tabla observada, el infarto de miocardio. Bajo la hiptesis nulaexacta asociada a cada ambas variables, la probabilidad exacta asociada a cada tabla viene dada por la distribucin hipergeomtrica la hiptesis nula de una de estas tablas bajo independencia entreindependencia. El valor P bilateral delexacto Para contrastar la las variables de una tabla 22, el test test

exacto de Fisher corresponde entonces a lassuma de probabilidadesmismos marginales que de Fisher consiste en enumerar todas la posibles tablas con los para todas aquellas
136 Pastor-Barriuso R.

la tabla observada, para a continuacin calcular la probabilidad exacta asociada a cada


22 una de estas tablas bajo la hiptesis nula de independencia. El valor P bilateral del test

tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de

Test exacto de Fisher

probabilidades de las tablas tanto o menos compatibles con la hiptesis nula que la tabla Tabla 8.5 Todas las posibles tablas con los mismos marginales que la Tabla 8.4, junto con sus probabilidades observada). tablas con probabilidad inferior o igual a la de nula de independencia. es, la suma de asociadas bajo la hiptesis la tabla observada (esto
Tabla Probabilidad bajo H0 Odds ratio probabilidades de las tablas tanto presenta todas las posibles tablas con los mismos tabla Ejemplo 8.12 La Tabla 8.5 o menos compatibles con la hiptesis nula que la 0 5

observada). 5 0 5, marginales n1 = 10 n2 = 15, m1 = 10 y m0,016 observados en la Tabla 8.4 para la 2 = 10


9 6 0,136 0,17 asociacin entre el -caroteno y el infarto de miocardio. Bajo la hiptesis nula de Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos 0,58 independencia variables, la0,348 probabilidad exacta asociada a cada tabla marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la 0,348 1,71 viene dada por hipergeomtrica asociacin entre el -caroteno y el infarto de miocardio. Bajo la hiptesis nula de 3 2 7 8 la distribucin 4 6 1 9 2 8 entre 3 7 ambas 1 4

5 15!10!10! exacta independencia entre ambas variables, la !probabilidad 0,016, asociada a cada tabla P(0) = P(5) = = 5 0 20! 0! 5!10! 5! 5 10 0,016 viene dada por la distribucin hipergeomtrica 5!15!10!10! P(1) = P(4) = = 0,136, 20 5! 4! 9! 6! 5!1!1!10!10! P(0) = P(5) = = 0,016, 20! 0! 5!10! 5! 5!15!10!10! P(2) = P(3) = 5!15!10!10! = 0,348, P(1) = P(4) = 20! 2! 3! 8! 7! = 0,136, 20!1! 4! 9! 6! 5 1 !10!10 cuya suma de probabilidades es (3) = a !1.5Como !las tablas con a = 0, 1, 4 y 5 P(2) = P igual = 0,348, 20! 2! 3! 8! 7! tienen asociadas probabilidades menores o iguales que la probabilidad P(1) = cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen asociadasla tabla observada, el valor iguales quedel probabilidad P(1) = 0,136 de la tabla 0,136 de probabilidades menores o P bilateral la test exacto de Fisher es cuya suma de valor P bilaterales igual a 1. Como Fisher es con a = 0, 1, 4 y 5 observada, el probabilidades del test exacto de las tablas
P = P(0) + P(1) + P(4) iguales tienen asociadas probabilidades menores o + P(5) que la probabilidad P(1) =

0,136

= 0,016 + 0,136 + 0,136 + 0,016 = 0,304. 0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es Notar que se obtendra el mismo valor P si se sumaran las probabilidades asociadas a todas aquellas tablas con un oddsvalor P si seosumaran las probabilidades 1 que el OR = ratio tanto ms Notar que se obtendra P(0) + P(1) + P(4) + P(5) alejado del valor nulo P = el mismo 16/(49) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR 0,17 o OR 1/0,17 = 6. aquellas tablas esta un0,136 tan reducida, ms alejado del valor exista asociadas a todas As, a partir+de con muestra + 0,016 = 0,304. = 0,016 0,136 + odds ratio tanto o no puede concluirse que una asociacin significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio. nulo 1 que el OR = 16/(49) = 0,17 de la tabla observada; es decir, las Notarel tamao muestral es muy valor P si el nmero de posibles tablas con los mismos Cuando que se obtendra el mismo pequeo, se sumaran las probabilidades marginales ser muy reducido, de tal forma 0,17 OR 1/0,17 =exacto de partir de esta tomar probabilidades de las tablas con OR que el valor P del test 6. As, a Fisher podr asociadas a todas aquellas tablas con un odds ratio tanto o ms alejado del valor Para un muy pocos valores, siendo as particularmente difcil obtener resultados significativos. nivel de significacin preestablecido, el test exactoexista una asociacinser conservador con muestra tan reducida, no puede concluirse que de Fisher tender a significativa nulo 1 que el OR = 16/(49) = 0,17 Tipo Itabla observada;valor nominal . Un contraste una verdadera probabilidad de error de de la menor que el es decir, las alternativo menos conservador consisteriesgo de infarto de miocardio. entre el nivel de -caroteno y el en calcular el valor mid-P bilateral, que se define como probabilidadestabla observada ms la 0,17 OR 1/0,17 = 6.menos verosmiles bajo H . la probabilidad de la de las tablas con OR probabilidad de las tablas As, a partir de esta 0 Este valor mid-P ser siempre inferior o igual al valor exacto de P, obtenindose resultados 23 muestra si el tamao no puede concluirse muy similares tan reducida,muestral es grande. que exista una asociacin significativa entre el nivel de -caroteno y el riesgo de infarto de miocardio.
Pastor-Barriuso R. 137

23

Mtodos no paramtricos

Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, slo las tablas con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de la tabla observada, as que el valor mid-P bilateral se calcula como mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168, que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo anterior. No obstante, ambos valores de P arrojan resultados no significativos para el nivel de significacin estndar = 0,05. El test exacto de Fisher puede generalizarse para evaluar la asociacin estadstica entre las variables categricas de una tabla rc, cuando algunas frecuencias esperadas sean muy bajas y no pueda aplicarse el test 2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas mayores de 22 se define igualmente como la suma de probabilidades para aquellas tablas tanto o menos probables que la tabla observada, su clculo requiere de algoritmos de computacin dado el elevado nmero de posibles tablas con los mismos marginales. 8.5 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. REFERENCIAS Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley & Sons, 1998. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & Sons, 1986. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. New York: John Wiley & Sons, 2003. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York: John Wiley & Sons, 1999. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco: Holden and Day, 1975. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989.

138

Pastor-Barriuso R.

TEMA 9 DETERMINACIN DEL TAMAO MUESTRAL


9.1 INTRODUCCIN

Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un margen de error. As, en el diseo de un estudio epidemiolgico o clnico, es necesario plantearse de antemano el nmero de sujetos que deben ser estudiados para responder a la pregunta de investigacin con un grado razonable de certidumbre. La determinacin a priori del tamao muestral es una parte importante del diseo de un estudio por distintos motivos: y Permite concretar la hiptesis de trabajo. El investigador ha de precisar la hiptesis principal del estudio y, en funcin de su experiencia, investigaciones previas o estudios piloto, especificar la magnitud de efecto clnica o biolgicamente relevante que se pretende detectar. y Permite evaluar la factibilidad del estudio. Una de las limitaciones ms frecuentes en los estudios epidemiolgicos es la imposibilidad de reclutar un nmero suficiente de pacientes, bien sea por limitaciones en los recursos econmicos, en el nmero de pacientes disponibles o en el tiempo de duracin del estudio. y Previene la obtencin de resultados no concluyentes. Como se describi en el Tema 5, la precisin de una estimacin y la potencia estadstica de un contraste de hiptesis aumentan conforme aumenta el tamao muestral, de tal forma que una muestra insuficiente dar lugar a estimaciones imprecisas y contrastes de baja potencia. Desde un punto de vista puramente terico, basta con aumentar el tamao muestral para obtener estimaciones arbitrariamente precisas o para detectar como estadsticamente significativo cualquier efecto por pequeo que sea. Aun cuando esto sea posible en la prctica, la utilizacin de muestras excesivamente grandes es ineficiente, ya que la posible deteccin de efectos trivialmente pequeos y de escasa utilidad prctica no justificara los recursos empleados. En ltimo trmino, el objetivo de la determinacin a priori del tamao muestral consiste en estimar la muestra mnima necesaria para asegurar estimaciones razonablemente precisas o para tener una potencia suficiente en la deteccin de efectos clnicamente relevantes. Con cierta frecuencia, el nmero de sujetos disponibles para un estudio viene dictado de antemano por las limitaciones econmicas o temporales. En tales circunstancias, es importante determinar qu magnitudes de efecto tendran una probabilidad razonable de ser detectadas con la muestra disponible, para contar as con una idea aproximada de las posibilidades que ofrecera la realizacin de dicho estudio. Como se ver a continuacin, el clculo del tamao muestral requiere de informacin previa a la realizacin del estudio. Estos datos suelen proceder de investigaciones previas relacionadas y, en la medida de lo posible, han de ajustarse a unas hiptesis de trabajo verosmiles. En cualquier caso, las asunciones realizadas en el clculo del tamao muestral pueden diferir de los resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como gua orientativa ms que como norma rgida para la estimacin del tamao muestral. Conviene apuntar tambin que la muestra resultante se refiere al nmero de sujetos necesarios para el
Pastor-Barriuso R. 139

acin de tamao esencialmente infinito. La correccin de las frmulas del tamao

Determinacin del tamao para tral para otros tipos de muestreo ymuestralpoblaciones finitas puede consultarse en

bros sobre muestreos complejos citados al final del tema.

anlisis y no a los inicialmente incluidos. As, la muestra estimada ha de incrementarse en previsin de las posibles prdidas de sujetos que pudieran ocurrir en el estudio. TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO En este tema se revisan las frmulas del tamao muestral ms frecuentemente utilizadas en LACIONAL el diseo de estudios epidemiolgicos y clnicos, tanto para la estimacin de una media y una proporcin en una nica muestra, como para la comparacin de medias y proporciones en muestras dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un 1.2 MEDIDAS DE sta seccin se presentan las frmulas para determinar el tamao muestral necesario TENDENCIA CENTRAL muestreo aleatorio simple a partir de una poblacin de tamao esencialmente infinito. La correccin de las frmulas del tamao muestral para otros tipos de muestreo y para poblaciones obtener estimaciones fiables de un parmetro poblacional (tpicamente la media de Las complejos tendencia central tema. finitas puede consultarse en los libros sobre muestreos medidas decitados al final del informan acerca de cul e

variable continua o la proporcin de sujetos con una determinada caracterstica) a de una determinada variable o, dicho de forma equivalente

9.2 TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO r de una nica muestra. Esta situacin concierne esencialmente a los estudios qu valor se agrupan los datos observados. La alrededor de POBLACIONAL

obtener estimaciones fiables de un parmetro poblacional (tpicamente la media de una variable mo necesario para estimar el parmetro poblacional con un determinado grado de continua o la proporcin de sujetos con una determinada caracterstica) a partirlos parmetros poblacionales realizar inferencias acerca de de una nica poblacional con un determinado grado de precisin, que suele cuantificarse mediante la amplitud del intervalo estimacin de variable. Tamao muestral para la de confianza. una media

iptivos o transversales. seccin se presentan las calcular elpara determinar el tamao muestraltanto para resumir los resultado En esta El objetivo se centra en frmulas tamao muestral la muestra sirven necesario para central de

muestra. Esta situacin concierne esencialmente a los estudios descriptivos o transversales. El sin, que puede cuantificarse mediante la amplitud del intervalo de confianza. se describen los principales estimadores de la objetivo se centra en calcular el tamao muestral mnimo necesario para estimar el parmetro continuacin

tamao de una muestra precede a su seleccin y, en consecuencia, no se dispone de rtir de la aproximacin normal N(, 2/n) a la distribucin de una1.2.1 Media aritmtica media muestral 9.2.1 Tamao muestral para la estimacin de una media tamao de una muestraLa precisin de la estimacinconsecuencia, no se dispone de por informacin muestral. precede a su seleccin y, en queda entonces determinada uede construirse un intervaloaproximacin al 100(1N(, 2/n) a la distribucin de una media muestral x ,, puede A partir de la de confianza normal - )% para la media La media aritmtica, denotada por se define como la su informacin muestral. La precisin de la ms )% queda entonces poblacional como construirse un del intervalo de confianza o,100(1concretamente,la media determinada por la amplitud intervalo de confianza al estimacin para por la distancia del centro valores muestrales dividida por en lugar de acional como x z1 /2 / n . Notar que este intervalo incluye la desviacin tpica poblacional el nmero de observacione incluye la desviacin su lalos lmitesdel intervalo de confianza o, ms concretamente, de una muestradel centroa su estimacin del intervalo a amplitud muestral, ya que la determinacin del tamao por la distancia precede informacin en lugar y, en consecuencia, no ya que la de por n el tamao muestral y precisin de la a poblacional seleccinde su estimacin muestral,se disponedeterminacin del muestral. La por xi el valor observado para e a los lmites del intervalo estimacin queda entonces determinada por la amplitud del intervalo de confianza o, ms concretamente, por la distancia del centro = loslmites, del intervalo3 a z1 / 2 la media vendra dada por n = z1 / 2 , x + x 2 + ... + x n 1 n n x = xi = 1 de donde puede despejarse el tamao muestral n para obtener n i =1 n de donde puede despejarse el tamao muestral n para obtener de donde puede despejarse el tamao muestral n para obtener z 2 2 La media es la medida de tendencia central ms utilizad n = 1 / 2 .
2

z2 2 n = 1 / 2 interpretacin. Corresponde al centro de gravedad de los . 2 De esta expresin se desprende que el tamao muestral para la estimacin de una media De esta expresin tres elementos, que deben muestral para la de antemano una poder poblacional depende de se desprende que el tamao ser determinadosestimacin demuy influenciada por los v principal limitacin es que est para aplicar la esta expresin se desprende que el tamao muestral para la estimacin de una frmula: De media poblacional depende de tres elementos, que deben ser determinados de antemano y El nivel de confianza 100(1 )%. Cuantocaso, puede este nivelfiel confianza,la tendencia central de mayor sea no ser un de reflejo de mayor media poblacionalmuestral. de tres elementos, que deben ser determinados de confianza del ser el tamao depende En para poder aplicar la frmula: la prctica, suele utilizarse por convenio una antemano 95% ( = 0,05), de tal forma que el percentil de la distribucin normal estandarizada es Ejemplo 1.4 En y en los sucesivos ejemplos sob para poder0,975 de1,96. z1/2 =nivel = confianza 100(1 - )%. Cuanto mayor sea este niveleste confianza, El z aplicar la frmula: de

y La varianza poblacional 2. Cuanto ms dispersa sea una variable, mayor ser la muestra obtenidos e utilizarn los valores del colesterol HDL El nivel de confianza 100(1 - )%. Cuanto mayor sea mayor ser el tamao aceptablemente. Se requiere, utilizarsede de confianza, necesaria para describirla muestral. En la prctica, sueleporeste nivel un valor aproximado tanto, por convenio una

140

estudio European Study on Antioxidants, Myocardia mayor ser el tamao muestral.de tal forma quesuele utilizarse por convenio una confianza del 95% ( = 0,05), En la prctica, el percentil de la distribucin Pastor-Barriuso R. the Breast (EURAMIC), un estudio multicntrico de confianza del 95% ( es 0,05),= z tal forma que el percentil de la distribucin normal estandarizada = z1-/2 de0,975 = 1,96. entre 1991 y 1992 en ocho pases Europeos e Israel p

Ejemplo 9.1 En un pequeo estudio piloto realizado en personas adultas de una Tamao muestral para la el peso de un parmetro precisin de un kilogramo puede ser aceptable para estimar estimacin medio en poblacional determinada poblacin, la media y la desviacin tpica de la presin arterial personas adultas, pero resulta claramente insuficiente en recin nacidos. sistlica resultaron ser 130 y 20 mm que suele obtenerse a partir de trabajos de la varianza de la variable a estudio, Hg, respectivamente. Utilizando esta similares ya realizados o de un estudio piloto. informacin preliminar, se estudio piloto realizado en personas adultas de una Ejemplo 9.1 En un pequeoplanea obtener una muestra aleatoria simple de mayor y La precisin deseada . El tamao muestral ser tanto mayor cuanto mayor sea la precisin exigida apara poblacin, nivel mediola desviacin ). El criterio para establecer la precisin tamao la estimacin (esto es, cuanto menor sea tpica de la presin arterial determinada estimar el la media y de presin arterial sistlica con una precisin de una estimacin ha de fundamentarse en el conocimiento previo sobre la magnitud aproximadaHg. Asumiendo y 20 mmde confianza del 95% y una un kilogramo puede ser de 2 mm del parmetro. As, por Hg, respectivamente. Utilizando esta sistlica resultaron ser 130 un nivel ejemplo, una precisin de desviacin tpica aceptable para estimar el peso medio en personas adultas, pero resulta claramente insuficiente en recin nacidos. se tiene informacindel estudio piloto, similar a la preliminar, se planea obtener una muestra aleatoria simple de mayor Ejemplo 9.1 En un pequeo estudio piloto realizado en con una adultas tamao para estimar el nivel medio de2presin arterial sistlica personas precisin de una 2 , la desviacin tpica de la presin arterial sistlica determinada poblacin, la media 1y96 20 = 384,16; n= 22 resultaron Hg. Asumiendo Hg, respectivamente. Utilizando esta informacin preliminar, de 2 mm ser 130 y 20 mm un nivel de confianza del 95% y una desviacin tpica se planea obtener una muestra aleatoria simple de mayor tamao para estimar el nivel medio a se requeriran aproximadamente precisin para mm Hg. Asumiendo similardela del estudio piloto, se tiene una385 sujetosde 2 estimar la presin un nivel es decir, presin arterial sistlica con de confianza del 95% y una desviacin tpica similar a la del estudio piloto, se tiene arterial sistlica media de esta poblacin 2 una precisin de 2 mm Hg. 1,96 2 20 con n= = 384,16; 22 Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin es decir, se requeriran aproximadamente 385 sujetos para estimar la presin arterial sistlica media forma aproximadamente 385 sujetos de1 mm Hg,la presin es decir, se requeriranque para el doble unaprecisin para2 mm Hg.tamao deseada, de tal de esta poblacin con de precisin = estimar el Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin deseada, de tal forma que para el sistlica media de esta mm Hg, elcon mayor arterialdoble de precisin = 1 poblacinvecesuna muestral mnimo necesario sera cuatro muestral mnimo necesario sera cuatro tamao precisin de 2 mm Hg. veces mayor Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin 1,96 2 20 2 n= = 1.536,64 1.537. 12 deseada, de tal forma que para el doble de precisin = 1 mm Hg, el tamao

mediante p mnimo necesario n estimacin de una en la estimacin de una proporcin 9.2.2 muestral z1-/2 (1para /la . As, la precisin proporcin Tamao muestral ) sera cuatro veces mayor 9.2.2 Tamao muestral para la estimacin de una proporcin Siguiendo unpargumento similar al del apartado anterior, en la estimacinla aproximacin normal mediante z1-/2 determinada por 2 20 2 precisin puede utilizarse de una proporcin . As, poblacional viene (1 ) / n 1,96 la Siguiendo un argumento similar alde una proporcin muestral p para obtener un intervalo de n= = 1.536,64 1.537. N(, (1 )/n) a la distribucin del 2apartado anterior, puede utilizarse la 1 confianza al 100(1 )% para la proporcin poblacional mediante p z1/2 (1 ) / n . As, la precisin mediante As, poblacional viene determinada por aproximacinen la estimacin de)/n)proporcin poblacional viene determinada por normal N(, (1 - una a la distribucin de una proporcin muestral p (1 ) la precisin = z1 / 2 , n poblacional viene determinada por 9.2.2 obtener un intervalopara la estimacin de )%para la proporcin poblacional una ) para Tamao muestral de confianza al 100(1 - (1 proporcin = z1 / 2 , n y el tamao muestral similar al del apartado anterior, puede utilizarse la Siguiendo un argumentomnimo necesario para alcanzar dicha precisin es (1 = z1 / 2 y el tamao muestral mnimo necesario para alcanzar dicha precisin es n y el tamao muestral , (1 - )/n) a la para alcanzar una precisin es 2 de aproximacin normal N(mnimo necesariozdistribucin ) dicha proporcin muestral p (1 n = 1 / 2 2 . y la proporcin poblacional 5 2 para obtener un intervalo de confianza al 100(1-()% para el tamao muestral mnimo necesario para alcanza z1 / 2 1 ) n la El clculo del tamao muestral para = estimacin de. una proporcin precisa, por tanto, de 2 los siguientes elementos: muestral para la estimacin de una proporcin precisa, por El clculo del tamao z 2 (1 n = 1 / 2 2 y El nivel de confianza 100(1 )%, que se establece habitualmente en el 95%. tanto,clculosiguientes elementos: para la estimacin de una proporcin precisa, por El de los del tamao muestral y La proporcin poblacional . El clculo del tamao muestral tanto, precisin deseada o 100(1 - )%, quequeestablece habitualmente en el 95%.5 para la estimacin de los siguientes elementos: y La El nivel de confianza el error absoluto se se considere aceptable.

tanto, de los siguientes 95%. El nivel de confianza 100(1 .)%, que se establece habitualmente en elelementos: La proporcin poblacional Pastor-Barriuso R. 141

El nivel de confianza 100(1 - )%, que se est La proporcin poblacional . absoluto que se considere aceptable. precisin deseada o el error

La proporcin El La precisin deseadavalor aproximado de la proporcin objeto de estudio es conocimiento previo del o el error absoluto que se considere aceptable.poblacional .

Determinacin del tamao muestral

El conocimiento previo del valor aproximado de la proporcin objeto de estudio es necesario no slo para sustituirlo explcitamente en la frmula, sino tambin para establecer la precisin deseada en la estimacin. Por ejemplo, un error absoluto del 5% podra ser admisible en la estimacin de una proporcin prxima al 50%, mientras que este mismo error sera claramente informacin, se pretende realizar un estudio transversal para estimar la inaceptable para una proporcin pequea, pongamos del 5% (o equivalentemente para una proporcin muy grande, ya que cuando se estima una proporcin tambin se est estimando su prevalencia de hipertensin en esta poblacin con un error absoluto del 3% complementario). As, para determinar de antemano qu error se considera admisible, ha de contarse con alguna informacin sobre la magnitud de , bien sea a travs de investigaciones (error su defecto, 10%).realizar un estudio transversal para estimar la informacin, del de un Asumiendo el previas o, enrelativose pretendeestudio piloto. nivel de confianza estndar del 95%, =

se necesitara de 0,30 y = 0,03,hipertensin una muestra mnimaun error absoluto del 3% prevalencia Ejemplo 9.2de En el estudioen esta poblacin conanterior, la proporcin de hipertensos piloto del ejemplo (presin arterial sistlica 140 mm Hg) fue del 30%. En base a esta informacin, se (error relativo del 10%).1,96 2 0,30(1 el 30) de confianza estndar de hipertensin en Asumiendo 0 nivel pretende realizar un estudio transversal ,para estimar la prevalencia del 95%, = = 896,37 897. n= esta poblacin con un error absoluto2 del 3% (error relativo del 10%). Asumiendo el 0,03 0,30 de confianza estndar del 95%, = 0,30 y de nivel y = 0,03, se necesitara una muestra mnima = 0,03, se necesitara una muestra mnima de Si, por el contrario, el estudio 2se diseara para estimar la prevalencia de diabetes, 1,96 0,30(1 0,30) n= = 896,37 897. 0 03 2 que se asume prxima al 5%, con,un error absoluto del 1% (error relativo del Si, por el contrario, el estudio se diseara para estimar la prevalencia de diabetes, que se 20%),el contrario, el estudio se error absolutoestimar la prevalencia asume prxima al 5%, tamao muestral considerablemente mayor de diabetes, Si, por se requerira un con un diseara para del 1% (error relativo del 20%), se requerira un tamao muestral considerablemente mayor que se asume prxima al,96 2 0con 1 0,05) absoluto del 1% (error relativo del 1 5%, ,05( un error = 1.824,76 1.825. n= 0,012 20%), se requerira un tamao muestral considerablemente mayor Como se desprende de este ejemplo, para estimar fiablemente una proporcin extrema (muy pequea o muy grande) se necesitar una fiablemente una proporcin Como se desprende de este ejemplo, para estimar muestra mayor que para estimar una 1,96 2 0,05(1 0,05) proporcin cercana n = al 50%. = 1.824,76 1.825. 0,012 extrema (muy pequea o muy grande) se necesitar una muestra mayor que para La frmula del tamao muestral presentada en este apartado se basa en la aproximacin normal a lasedistribucin muestral al 50%. proporcin. Aunque esta aproximacin es estimar una proporcin este ejemplo, una estimar fiablemente una proporcin Como desprende de cercana de para razonable en la mayora de las circunstancias, existen frmulas alternativas, tales como las basadas en (muy pequea o muy grande) correccin por continuidad o en la aproximacin extrema la aproximacin normal con se necesitar una muestra mayor que para La frmula del pueden muestral presentada se este apartado se con muestras de reducido de Poisson, que tamao ser tiles cuando en prev trabajar basa en la tamao o conuna proporcinmuy extremas. Una descripcin y comparacin ms detallada estimar proporciones cercana al 50%. aproximacin normal a la distribucin muestral muestral puede encontrarseestala bibliografa de los distintos mtodos de clculo del tamao de una proporcin. Aunque en de este tema. aproximacin es razonablemuestral presentada en este apartado existen frmulas La frmula del tamao en la mayora de las circunstancias, se basa en la alternativas, tales como la distribucin la aproximacin normal DE Aunque esta 9.3 TAMAO MUESTRAL PARA muestral de una proporcin. MEDIAS por aproximacin normal a las basadas en LA COMPARACIN con correccin
Muchos diseos epidemiolgicos, de Poisson, que pueden ser(estudios de cohortes o de casos y continuidad o en razonable en la mayora deobservacionales tiles cuando se prev aproximacin es la aproximacin bien sean las circunstancias, existen frmulas controles) o experimentales (ensayos clnicos), se realizan con un afn comparativo, donde el objetivo con es tanto estimarbasadas en la aproximacin normal conextremas. Una sino ms trabajar no muestras delas la magnitud de con determinado parmetro poblacional, alternativas, tales como reducido tamao o un proporciones muy correccin por bien comparar parmetros entre distintas poblaciones. En tales diseos, el problema radica en determinar el tamao muestral mnimo necesario en cada mtodos de clculo del tamaoforma descripcin y comparacin ms detallada de los distintos grupo de comparacin, de tal continuidad o en la aproximacin de Poisson, que pueden ser tiles cuando se prev que el contraste de hiptesis que se pretende realizar tenga una potencia suficiente para detectar posibles con muestras de reducidobibliografa de proporciones muy extremas. Una se presentan muestral diferencias clnica enepidemiolgicamente relevantes. En este apartado trabajar puede encontrarse o la tamao o con este tema.

descripcin y comparacin ms detallada de los distintos mtodos de clculo del tamao


142

muestral puede encontrarse en la bibliografa de este tema. 7

Pastor-Barriuso R.

determinada variable o, dicho de forma equivalente, estos estimadores indican minada variable o, dicho de forma equivalente, estos estimadores indican
Tamao muestral para la comparacin de medias

independientes or de valor se agrupan los datos observados. Las medidas de tendencia qu qu valor se agrupan los datos observados. Las medidas de tendencia

Supongamos que se los resultados observados como de la muestra sirven tanto para resumirresultados observados hiptesis nula H0: 1 = 2 de igualdad de muestra sirven tanto para resumir los pretende contrastar la como para para

las de los frente poblacionales correspondientes. frmulas del la poblacionales correspondientes. rencias acerca de los parmetros atamao muestral para contrastarH1: A1 2 en dos distribuciones conde una inferencias acercamedias parmetroshiptesis alternativa bilateralAdiferencias en los niveles medios variable cuantitativa a partir de dos muestras dependientes o independientes. n se describen los principales estimadores2de lade Segn los resultadosde una acin se describen igual varianza 12 = 2 = 2. la tendencia central del Apartado 6.3, la distribucin los principales estimadores tendencia central de una

9.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes muestral de la diferencia de medias x1 - x 2 en muestras independientes de tamao n1 y Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 de igualdad de medias 2 edia aritmtica n2 ser aproximadamente normal con H1: 1 1 2 en dos bajo H0 y 1 - 2 igual varianza 1 aritmtica frente a la hiptesis alternativa bilateral media - 2 = 0 distribuciones con 0 bajo H1, y 2 = 2 = 2. Segn los resultados del Apartado 6.3, la distribucin muestral de la diferencia de 2 suma 2 tmtica, denotada varianza define como 2independientes nuno de los n1 y nPara asegurar una probabilidad con a aritmtica, denotada porse 212en 1define /comola(1/n1 cadacada uno de9.1). 2 ser aproximadamente normal por medias x 1, x , se muestrasla=suma de +de de tamao los /n + 2 n 1/ 2) (Figura 2 2 media 1 2 = 0 bajo H0 y 1 2 0 bajo H1, y varianza 1 /n1 + 2 /n2 = 2(1/n1 + 1/n2) (Figura strales dividida 9.1).el nmero de observaciones realizadas. Si denotamos tipo I, la hiptesis nula se rechazar muestrales dividida Parael nmerouna observaciones realizadas. Si denotamos slo si el estadstico por porcometer un de probabilidadla hiptesis nula error de de asegurar error de tipo I, de cometer un se rechazar slo si el estadstico ao muestral y por xi el xi el valor observado para el sujeto i-simo,1, = 1, ..., n, tamao muestral y por valor observado para el sujeto i-simo, i = i ..., n, x1 x 2 x1 x 2 z1 /2 z1 /2 adra dadadada por vendra por 1/ 1 + / / 2 / x1 - x 2 -z1- n/2 11 nn + 1 / n x1 -1x 2n1+ 1 /2 2 1 / n + 1 / n . z1- / n
1 2 1 2

o, equivalentemente, si la diferencia de medias + ... + ... 1 n 1 n x + x + x + xn + xn o, equivalentemente, alternativa, . de medias la diferencia . = x bajo la x = = hiptesis z x As, x i x i1 = x 12 si2 la diferenciapotenciadel test para detectar /una+ 1 / n . x1 x 2 z1 /2 1 n1 2 n i =1 n i =1 1 2 n 1 /2 1 / n1 + 1 / n 2 n

subyacente 1 - 2 alternativa, por As, bajo la hiptesis vendr dada la potencia del test para detectar una diferencia subyacente tendencia central por alternativa, ms fcil As, bajo la central edia es la medida 2 vendr dadams ms utilizadala potencia del test para detectar una diferencia es la medida de 1 de tendenciahiptesisutilizada y de y de ms fcil 8 x por 1 de tacin. Corresponde al centrode- gravedad=dedatos de ladezla muestra.1Su1 / n 2 | H1 ) n. Corresponde al subyacente gravedad losP(los x 2 1 /2 Sun + centro de 1 2 vendr dada 1 datos muestra. 1 /

P( x1 x 2 extremos n1 mitacin es que est est muy influenciada los +los valores z1 y,eny,/en este n 2 | H1 ). l limitacin es que muy influenciada por porvaloresextremos /2 1este + 1 / 1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
H0: 1 = 2

no ser un fiel reflejo de lade la tendencia central de la distribucin. ede no ser un fiel reflejo tendencia central de la distribucin. Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad + P( x1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
H1: 1 2

lo 1.4 En este estede ensucesivos ejemplos sobre estimadoresevento de que x1 se2 apreciablemente mayor emplo 1.4 En y en y la expresin anterior, que representa el muestrales,~se sea los los sucesivos~ ejemplos sobre estimadores muestrales, x1 x2 N ( 1 2 , 2 (1 / n1 + 1 / n2 )) Asumiendo sin prdida de generalidad que 1 < x1 2 (Figura0,9.1),/la + 1 / n2 )) probabilidad x2 N ( (1 n1 segunda rn los valores delque x 2 , ser virtualmente cero. en10 primeros sujetos del del a ilizarn los valorescolesterol HDL obtenidos en los los 10 primeros sujetos del colesterol HDL obtenidos La potencia se reduce entonces de la expresin anterior, que representa el evento de que x1 sea apreciablemente mayor o European Study on Antioxidants, Myocardial Infarction and Cancer of of tudio European Study on Antioxidants, Myocardial Infarction and Cancer 1 - = P( x1 - x 2 -z1- 1 / n1 + 1 / n 2 | H1 ) La que x 2 , ser virtualmente cero. /2 potencia se reduce entonces a east (EURAMIC), un estudio multicntrico de casos y controles realizado e Breast (EURAMIC), un estudio multicntrico de casos y controles realizado x x ( 1 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 ) - P H1 1 - P( x 1 x 22 Israel evaluar 1 efecto | H de / tre 1991 y 1992 en ocho pases=Europeos1e para para 1 nel+ 1elnefecto1 ) los 991 y 1992 en ocho pases Europeos 1e -Israel -z1- /2 2 evaluar / 2 de los 1/ n + 1/ n 1 / n1 + 1 / n 2 1 2 x x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 ) 5 5 = P 1 H1 | 1 2 | , 1 / n1 + 1 / n 2 = 11 2 n1 + 1 / n 2 /2 /2 z // + 1 / n1 + 1 / n 2
1 - 2 0 | | , = z1 / 2 +deriva 1de la 2distribucin normal de x - x bajo la hiptesis donde la ltima igualdad se 1 / n + 1 / n 1 2 1 2 / z1 / 2 1 / n1 + 1 / n2 z1 / 2 1 / n1 + 1 n2

alternativa. Notar que de la potencia mismo resultado si de medias a expresin Figura 9.1 Representacinse alcanzara eldel contraste bilateral 1 > 2. Estapartir de dos muestras Figura 9.1 donde la ltima igualdad se deriva de la distribucin normal de x1 - x 2 bajo la hiptesis independientes. permite determinar a posteriori la potencia de un contraste para detectar una diferencia alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin Pastor-Barriuso de medias subyacente 1 - 2 a partir de dos muestras independientes de tamaos n1 y R. permite determinar a posteriori la potencia de un contraste para detectar una diferencia n2.
143

+ se 1 - x 2 z los 1 / ncontinuacin1 ). de la tendencia central de una 1 + 1 / n 2 | H se continuacinP( xdescriben 1- /2 principales estimadoresdescriben los principales estimadores
variable. Determinacin del tamao muestral

Las medidas de tendencia central informan acerca de cul es el valor valorre Las medidas de tendencia central informan acerca de cul es el ms m variable. Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad de una determinada variable o, dichodicho de forma equivalente, estos estim de una determinada variable o, de forma equivalente, estos estimadore 1.2.1 Media aritmtica 1.2.1 Media aritmtica de la expresin anterior, que representa el evento de que x1 sea apreciablemente mayor Asumiendo sin prdida de generalidad alrededor 2 valor valor se la segunda probabilidad de lamedidas de ten que 1 qu qu se 9.1), agrupan los observados. Las alrededor de < de(Figura agrupan los datos datos observados. Las medidas d expresin2 ,anterior, La media aritmtica, denotada que x 1La media aritmtica, denotada que x 2, de los que representa La potenciade por , entonces a el evento se reduce se define como la suma de cada uno se define como sea apreciablemente mayor por que x ser virtualmente cero. ser virtualmente cero. La potencia se reduce entonces sirven tanto tanto resumir los resultados observados co central de la de la muestra sirven para para resumir los resultados observad central muestra a valores muestrales dividida por el nmero demuestrales dividida por el nmero de observa valores observaciones realizadas. Si denotamos 1 = P( x1 x 2 z1realizar/inferencias |acerca de los parmetros poblacionales correspondientes realizar 1 / n 2 H1 ) acerca de los parmetros poblacionales correspond 1 n1 + inferencias /2 por n el tamao muestral y por xi el valornobservado para el sujeto i-simo, i = observado p por el tamao muestral y por xi el valor 1, ..., n, x1 x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 ) aleatoriamente 50 pacientescontinuacin al grupo describen los principales y hipertensos se describen los principales estimadores de la de la tendencia c continuacin se de monoterapia estndar estimadores tendencia centra = P H 1 otros 1 n + 1 / dada por la media /vendran 2 la/ media/vendra dada por 1 n1 + 1 n 2 1 50 pacientes de similares caractersticas al grupo de tratamiento combinado con el variable. variable. | 1 2 | 1 n x x + x2 + . 1 n = z1 / 2 +de 4 semanas de tratamiento, la 1 + x 2 + ... + x n nuevo frmaco. Despus 1 / n + 1 / n ,= x i = media y la desviacin x = x i = 1 . x 1 1.2.1 1.2.1 Media aritmtica Media 2 n i =1 aritmtica n n i =1 n tpica de la presin arterial hipertensos al 155 y 22 mm Hg en el grupo de aleatoriamente 50 pacientessistlica fueron grupo de monoterapia estndar y otros La de lamedia aritmtica, denotada 1, define la hiptesis de cada cada La aritmtica, denotada por se se define la suma donde la ltima igualdad se deriva media distribucin normal de xpor x 2, bajocomocomo la suma de uno d La media es la medida de tendencia central ms utilizada y de ms fcil central ms ut La media es la medida de tendencia alternativa. Notar quesimilaresmm Hg en el grupo de tratamiento combinado. Como el monoterapia, y se alcanzara el mismo grupo de si 1 > 2. Esta expresin 50 pacientes de 150 y 18 caractersticas al resultado tratamiento combinado con permite valores la contrastedividida por el nmerobajo la observaciones realizadas muestrales para detectar 1 donde laaltima igualdad se deriva deun distribucin normal de por -elxnmero dede mediasrealizadas. Si d 2 de observaciones determinar posteriori la potencia devalores muestrales dividida xuna diferenciahiptesis interpretacin. Corresponde al centro de gravedadCorresponde de centro de gravedad interpretacin. de los datos al la muestra. Su subyacente previo2 a la Despus demuestras independientes delaigualdadnde desviacin paso 1 a partir de dos 4 semanas de tratamiento, media la n2. nuevo frmaco. comparacin de medias, se contrasta la tamaosy 1 yvarianzas por n el mismo muestral y 1 y porEsta valor observado para el sujeto i-s el n el tamao muestral x 2 xi el observado alternativa. Notar que se alcanzara portamaoresultado si por> iel. valorexpresin para el sujeto i-simo, i principal limitacin es que est muy influenciada por los es que est muy influenciada por principal limitacin valores extremos y, en este mediantela estadstico el En un ensayo clnico fueron 155 y 22 mm Hg en el grupo de tpica de 9.3presin arterial sistlica para evaluar la eficacia antihipertensiva de un nuevo Ejemplo la media vendra dada por para la media vendra dada permite determinar a posteriori serpotencia de un estndar, por asignaron un fiel reflejo de50 tendencia cent frmaco en combinacin no laun tratamiento de la tendenciadetectar de ladiferencia la caso, puede con un fiel reflejo contraste puede central una distribucin. caso, se no ser aleatoriamente 2 monoterapia, y 150 y al grupo de ens el grupo de tratamiento combinado. Como similares 18 mm Hg monoterapia estndar y otros 50 pacientes de 2 pacientes hipertensos 22 de caractersticas al grupo de a partir de dos muestras con el nuevo frmaco. Despus + ... 4 x n medias subyacente 1 - 2 tratamiento=combinado independientes de tamaos+... 2+ de + F = 12 = 1,49, x 1 n 1 n x + xx +n1 y x n . . = x x i = 1 = 21 18 2 contrasta la igualdad 1.4varianzas sistlica seste desviacin tpicax de la = de x iarterialen los sucesivos ejemplo 1 Ejemplo media 1.4 medias, en Ejemplo n =En este y paso previo a la comparacin deEny2 la yse los sucesivos ejemplos isobre estimadores muestrales, se semanas de tratamiento, la n i =presin n n 1 n2.fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de utilizarn Fisher previo la 49 y 2 utilizarn los valores del colesterol mediantela combinado. Como paso con del a1 =comparacin 49 grados se 10 primeros HDL del tratamiento distribucin F de los valores n1 colesterolnHDL = de medias,de contrasta la sujetos obten 1 obtenidos en los que bajo el estadstico La media es la medida de tendencia central ms utilizada y de ms fcil La media es la medida de tendencia central ms utilizada y de ms igualdad de varianzas mediante el estadstico [Figura 9.1 aproximadamente aqu] European Study estudio European Study on Antioxidants, 20,082 = 0,164. on Antioxidants, estudio libertad, corresponde a un valor P bilateral 22P(F49,49 1,49) =Myocardial Infarction and Cancer ofMyo s12 22 interpretacin. Corresponde al centro de gravedad de los datos datos de la interpretacin.1,49, Corresponde al centro de gravedad de los de la mues F= 2 = 2 = 18 s the Breast (EURAMIC), unarterial sistlica entre ambos y controles realizado estudio the Breast (EURAMIC), un estudio multicntr multicntrico de casos As, la comparacin del nivel medio2 de presin es que est muy influenciada por los valores extremos y principal limitacin principal limitacin es que est muy influenciada por los valores extre queEjemplo distribucin F de clnico con n1 1 = la eficacia antihipertensiva de un bajo la 9.3 En un ensayo Fisher para evaluar 49 y n2 1 = 49 grados de libertad, entre 1991 y 1992 e grupos puede un valor P bilateralcaso,en ocho pases Europeos49 Israel para evaluarpases Europeos e Is la prueba no ser 20,082reflejo de la de = y 2 entre 1991 y 1992 en ocho el efecto de los que bajo la a realizarse mediantepuede n1 ser un49 unnfiel 1 =0,164. As, de comparacin distribucin. correspondedistribucin F de Fisher conno t1,49) fiel reflejo= muestras tendencia central de la distribuc 49,49 caso, 2P(Fpuede 1 =Student parade la grados la central de la tendencia del nuevomedio de presin arterial sistlica tratamiento estndar, se asignaron mediante nivel frmaco en combinacin con un entre ambos grupos puede realizarse independientes asumiendo muestras independientes estadstico resulta libertad, t de Student un valor P bilateral 2P(F49,49 asumiendo igualdad de varianzas, la pruebacorresponde a paraigualdad de varianzas, cuyo1,49) = 20,082 = 0,164. 5 cuyo estadstico resulta Ejemplo 1.4 En este yeste los sucesivos ejemplos sobresobre estimado Ejemplo 1.4 En en y en los sucesivos ejemplos estimadores m 9 As, la comparacin del nivel x medio de presin150 x1 155 arterial sistlica entre ambos 2 t= = utilizarn los valores del colesterol HDL obtenidos en los 10 prim = 1,24, utilizarn los valores del colesterol HDL obtenidos en los 10 primeros 1 1 1 grupos puede realizarse mediante 1 prueba t de Student para muestras s + la 20,1 + n1 n 2 estudio European Study on Antioxidants, Myocardial Infarction 50 50 estudio European Study on Antioxidants, Myocardial Infarction and independientes asumiendo igualdad de varianzas, cuyo estadstico resulta donde la varianza combinada es s2 = {(50 1)222 + (50 1)182}/(50 + 50 2) = 404. Breast (EURAMIC), un estudio multicntrico de casos y controle the Breast 2 = multicntrico 2 Utilizando la distribucin t de es sthe {(50 -n1)2222 +(EURAMIC), un estudio2) = valor P de casos y co = 1)182}/(50 50 donde la varianza combinada Student con 1 + n (50 -98 grados de+libertad, el x1 x 2 155 decir, bilateral es 2P(t98 1,24) = 20,108 = 0,216; es 150 los resultados del estudio no aportan = 1991 1991 en= 1,24, t= y 1992 ocho pases Europeos e IsraelIsrael para evaluar en Europeos e la suficiente evidencia para afirmarentre entrecon n1y11992 2 =ocho pasesde eficaz quepara evaluar el efe +n 98 grados 404. Utilizando la distribucin t deque el tratamiento 2combinado es ms Student 1 1 1 s + + 20,1 monoterapia. n1 n 2 50 50 libertad, el estos resultados cabra preguntarse si en = 0,216; es decir, los A partir de valor P bilateral es 2P(t98 1,24) = 20,108 realidad ambos tratamientos son igualmente eficaces o si, por el contrario, el estudio carece de potencia suficiente para 2 resultados del estudio que, aun 2 = {(50 - evidencia para afirmar que el donde la varianza combinada es siendo moderada o (50 - 1)182}/(50 + 50 - 2) = detectar una diferenciano aportans suficiente 1)22 + pequea, sea importante en trminos clnicos. Si se considera clnicamente relevante una diferencia absoluta de |1 2| = 5 tratamiento combinado es ms t de Student monoterapia. 404. Utilizando la distribucin eficaz media, y n1 + n2 2 un nivel de de mm Hg en la presin arterial sistlicaque lacon asumiendo = 98 grados significacin =

144

Pastor-Barriuso R.

A partir el estos resultados es 2P(t98 1,24) = 20,108 = 0,216; es tratamientos libertad, de valor P bilateral cabra preguntarse si en realidad ambosdecir, los

son igualmente eficaces si, por suficiente evidencia para afirmar que el resultados del estudio nooaportan el contrario, el estudio carece de potencia

1 2 Por tanto, no es sorprendente que significativa una arrojara un resultado no detectaran como estadsticamenteel estudio anteriordiferencia real de 5 mm Hg.

asumiendo un nivel de significacin = 0,05 y una desviacin tpica = 20 mm significativo, aun cuando exista una diferencia subyacente de dichalamagnitud Por tanto, no es sorprendente que el estudio anterior arrojara un resultado no de medias Tamao muestral para comparacin Hg en ambos grupos, la potencia para detectar dicha diferencia en un estudio con entre ambos aun cuando significativo,tratamientos.exista una diferencia subyacente de dicha magnitud
0,05 n2una desviacin tpica = 20 mm Hg en ambos grupos, la potencia para detectar n1 = y = 50 sera entre ambos tratamientos. dicha diferenciaejemplo anterior, en 1el diseo de un estudio es importante determinar Como ilustra el en un estudio con n = n2 = 50 sera 5 = 1 96 + a priori qu tamao muestral ,ser necesario en cada =estudio es = 0,239. para evitar la grupo de comparacin Como ilustra1el ejemploanterior, en el diseo de (0,71) importante determinar un 20 1 / 50 + 1 / 50 obtencin de resultados un 23,9% de los estudios con potencia.comparacin para el casola a priori qu tamao muestral ser necesario en cada grupotamao muestral detectaran como Es decir, nicamente no concluyentes por falta de este de Supongamos, en evitar

estadsticamente significativa una diferencia realcon5este tamao muestral es sorprendente Es decir, nicamente un 23,9% de los estudios de mm Hg. Por tanto, no ms general, resultados no concluyentes por falta no a ambas Supongamos, kn1 donde obtencin de que se pretende asignarun resultado de potencia. muestras ncuando,el caso una que el estudio anterior arrojara distinto tamao significativo, aun 2 = en exista diferencia subyacente de dicha magnitud entre ambos tratamientos. de 5 mm Hg. detectaran como estadsticamente significativa una diferencia real k es general, que se pretende asignar distinto la frmula de la potencia con kn1, donde ms un nmero positivo prefijado. A partir detamao a ambas muestras n2 = n2 = kn1, y Como ilustra el ejemplo anterior, que el estudio anterior arrojara un resultado no Por tanto, no es sorprendente en el diseo de un estudio es importante determinar a priori recordando que positivo= 1 - , se sigue que la frmula de la potencia con la obtencin k tamao muestral ser necesario en cada grupo de comparacin para evitar n2 = kn1, y de es un nmero (z1-) prefijado. A partir de qu resultados no concluyentes por falta de potencia. Supongamos, en el caso magnitud significativo, aun cuando exista una diferencia subyacente de dicha ms general, que se recordando que (z1-tamao a ambas muestras n2|= kn, | k es un nmero positivo prefijado. pretende asignar distinto ) = 1 - , se sigue que 1 1 donde 2 A partir de la frmula de la potencia con z12 / 2 + , y recordando, que (z1) = 1 , se sigue que entre ambos tratamientos. z1 = n = kn1 1 1 | + | 2 1 n1 kn1 , z1 = z1 / 2 + 1 estudio es importante determinar Como ilustra el ejemplo anterior, en el diseode un + 1 n1 kn1 de donde puede despejarse n1 para obtener a priori qu tamao muestral ser necesario en cada grupo de comparacin para evitar la de donde puede despejarse n1 para obtener de donde puede despejarse n1 para obtener 2 2 obtencin de resultados no concluyentes en lafalta + z1muestra Supongamos, en el caso (k + por / 2 de potencia. que corresponde al tamao necesario 1)( z1primera ) y n2 = kn1 al de la segunda n1 = , 2 k ( 1 2 )a ambas muestras n = kn , donde ms general, que se pretende asignar k +se desee un zmismo tamao muestral en ambos 2 1 muestra. En el caso particular de que 1)( z1 / 2 + 1 ) 2 2 ( distinto tamao n1 = en la primera muestra y n,2 = kn1 al de la segunda muestra. que corresponde al tamao necesario 2 ( k es un nmero ste vendr se desee partirkde la 2 ) de la potencia con grupos , = En grupos k = 1,positivo que determinadomismo tamao muestral en ambos n2 = kn1k y 1, ste el caso particular de prefijado. A un por 1 frmula 11 vendr determinado por recordando que (z1-) = 1 - , se sigue que 2( z1 / 2 + z1 ) 2 2 11 n1 = n 2 = . 2 ( ) | | 11 22 z1 = z1 / 2 + , La asignacin de igual tamao a ambas muestras es, en general, ms eficiente ya que da 1 1 lugar a un menor tamao total del estudio. No n + kn en general, ms eficiente ya que es obstante, hay La asignacin de igual tamao a ambas muestras es, situaciones prcticas en las que 1 1 preferible seleccionar muestras de distinto tamao, aun cuando ello conlleve un aumento de la muestra total para alcanzar la misma potencia; tal es el caso de loshay situaciones la disponibilidad da lugar a un menor tamao total del estudio. No obstante, estudios donde prcticas en de donde o los costes difieren para los grupos, o cuando se requieren estimaciones ms precisas de sujetos puede despejarse n1 entre obtener en unoque los preferible seleccionar muestras de distinto en el clculo cuando ellomuestral para las de es grupos. Adems de estas consideraciones, tamao, aun del tamao conlleve la comparacin de medias es necesario determinar previamente los siguientes elementos: (k + 1)( z1 / 2 + z ) 2 2 unEl nivel de significacin= para contrastela 1misma potencia; tal es ella probabilidad de aumento de la muestra n total del alcanzar bilateral, que representa caso de los , y 1 k (1 2 ) 2 rechazar errneamente la hiptesis nula y se establece usualmente en = 0,05. estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o y La potencia 1 del contraste, que determina la probabilidad de detectar hiptesis alternativas ciertas y se fija habitualmente en 1 = 0,80 0,90. cuando se requieren estimaciones ms precisas enuno de losgrupos. Adems de estas 11 2 y La varianza poblacional . En la determinacin del tamao muestral suele asumirse que consideraciones,comn para ambos grupos, ya que para la comparacin de medias es la varianza es en el clculo del tamao muestral generalmente se carece de informacin previa suficiente para determinar una varianza especfica en cada uno de los grupos. necesario determinar previamente los siguientes elementos: y La diferencia mnima detectable |1 2|. El tamao muestral ser tanto mayor cuanto menor nivel de significacin pretende detectar. La magnitud de esta la probabilidad ser sea la diferencia que se del contraste bilateral, que representa diferencia debe El

de rechazar errneamente la hiptesis nula y se establece usualmente en = 0,05.

Pastor-Barriuso R.

145

La potencia 1 - del contraste, que determina la probabilidad de detectar

= 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se


potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la pretende asignar el Determinacin del tamao muestral mismo nmero de pacientes a ambos brazos del ensayo presin arterial sistlica media de los hipertensos bajo monoterapia y tratamiento

clnico, un nivel de significacin = 0,05 y una desviacin tpica = 20 mm Hg combinado, se planea realizar un nuevo ensayo clnico que tenga una potencia 1 un valor plausible basado en conocimientos previos, o bien relevante desde el punto de similar a la del estudio anterior, el tamao vista0,80 para detectar posibles diferencias muestral necesario en cada uno de los = clnico o epidemiolgico. de dicha magnitud. Asumiendo que se

grupos sera Dado que el estudio descrito en el ejemplo anterior careca de potencia Ejemplo asignar el mismo nmero de pacientes a ambos brazos del ensayo pretende 9.4 suficiente para detectar una diferencia subyacente de 5 mm Hg en la presin arterial sistlicaun nivel delos,975 + z 0,80 ) 2 bajo 2(1,y una0desviacin tpica = 20 mm Hg planea monoterapia 2 tratamiento combinado, se 2 0 hipertensos clnico, media de ( zsignificacin 2= 0,05 96 + ,84)y 20 2 = n2 = = 0,80 para detectar posibles nun nuevo ensayo clnico que tenga una potencia 1 =250,88 251, = realizar 1 ( 1 2 ) 2 52 diferencias de dicha magnitud. Asumiendomuestral necesario en cada uno de los similar a la del estudio anterior, el tamao que se pretende asignar el mismo nmero de pacientes a ambos brazos del ensayo clnico, un nivel de significacin = 0,05 y una desviacin tpica = 20 mm 251 = 502 pacientes. Supongamos, el tamao muestral para una muestra total de 251 +Hg similar a la del estudio anterior,por el grupos sera necesario en cada uno de los grupos sera contrario, que el tratamiento combinado con el nuevo 2frmaco es muy costoso y 2( z 0,975 Para,80 ) 2 2 2(1problema,)supongamos que se dispone de n pares de observac + z 0 concretar el ,96 + 0,84 20 2 n1 = n2 = = 250,88 251, = 2 52 que se decide estudiar( 1 mitad) de sujetos bajo tratamiento combinado que bajo la 2 de una variable aleatoria continua. En cada pareja de datos dependientes, una 9.3.2 Tamao muestral para la comparacin de medias en dos muestras para una muestra total de 251 n = 0,5n1. En tal caso, el tamao muestral monoterapia estndar; esto es, + 2251 = 502 pacientes. Supongamos, por el contrario, que para una muestra totalobservacin x corresponde amuy costoso y que y decide estudiar de con el nuevo frmaco es la primera muestra el el tratamiento combinado251 + 2511= 502 pacientes. Supongamos, porse la otra observacin x2 a la segu dependientes la mitad en el grupo de monoterapia sera necesariode sujetos bajo tratamiento combinado que bajo monoterapia estndar; esto es, 9.3.2 TamaoEn el tratamiento combinado con de nuevo enen dos es las monoterapia sera contrario, muestral para la comparacin centra en el grupo muy costoso y muestra. El objetivo necesario frmaco muestras n2 = 0,5n .que tal caso, el tamao muestral seel mediascomparar de medias poblacionales 1 y 2 a par Supongamos1 que se planea seleccionar n parejas de datos dependientes procedentes de dependientes estudiarestas + 1)(1,96 + 0,84bajo tratamiento combinado que bajo (0 5 dos muestras ) 2 20 2 que se decide la ,mitad de sujetosdependientes. 377 ncontrastar la hiptesis nula H := 376,32frente a la hiptesis 1= dos poblaciones para 0 1 = 2 0,5 5 2 Supongamos que se planea seleccionar0,5n1. En desarrollados en el muestral 6.3 node monoterapia estndar; esto es, n2 = n parejas tal caso, el tamao Apartado Los procedimientos de datos dependientes procedentes pueden aplicarse a est y en el grupo de H1: 1 2. combinado n2 = 0,5376,32 = 188,16 la medianmero total tratamiento Como se discuti en el Apartado 6.4, 189. El de las alternativa bilateral de pacientes para contrastar combinadolas = 0,5376,32 2377 + 189 189. son independientes por proven en el grupo necesarios para hiptesis nula entonces 188,16 = 566; dosypoblaciones el grupo de monoterapia sera medias1 =ambas muestras no El es decir, 64 necesario en de tratamiento lael ya que nseraH0: de =frente a la hiptesis situacin, estudio 2 pacientes cada pareja d se distribuir de de igual tamao muestral para N(0, diferencias enms de los requeridos en el casoforma aproximadamente normalalcanzar una misma total de nmero bilateral H1: observaciones correlacionadas. Sin embargo,377 + 189 alternativapotencia.pacientes 2. Como se discuti en el sera entonces la media de=las se simplifica notabl 1 necesarios para el estudio Apartado 6.4, la comparacin (0,5 + 1)(1,96 + 0,84) 2 20 2 2 376,32 377 n1 = 2, 2 /n) bajo H1, donde 2= es la varianza de las diferencias. d /n) bajo H0 y N(1 - 0 los 2 566; es decir, 64 pareja d dms de,5 las diferencias del casoxde igual normal N(0, n observaciones empar pacientes se distribuir de forma daproximadamente tamao las si se la comparacin de medias en -dosen cada una de calculan 5 requeridos en = x1 2 muestras dependientes diferencias en cada 9.3.2 Tamao muestral para

preestablecido, el 2 Para un nivel de significacin2 lado, potencia. distintas parejas no estn resultado una misma 2muestral para alcanzar seleccionar como las de contraste arrojar un procedentes de dos Supongamos grupo N(1 - Por un combinadodonde datosladependientes 189. El d y en el que y de tratamiento/n) bajonHparejas 0,5376,32varianza de las diferencias.entre s, estas diferen /n) bajo H0 se planea2, d = 188,16 relacionadas 1, n2 = d es poblaciones para contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral : 1 nmero total de pacientes el Apartadopara Por otro lado, la media de en diferencias coincide con la 2. Como se discuti en de las diferencias media sera entonces 377 cada = 13 6.4, la H1significativo cuando la mediaindependientes. el estudiode las diferenciaslas+ 189pareja d se son preestablecido, el contraste arrojar un resultado Para un nivel de significacinnecesarios 2 2 distribuir de forma aproximadamente normal N(0, d /n) bajo H0 y N(1 2, d /n) bajo H1, 2 diferencia de requeridos en donde566;es la varianzala media -z1-lasdlos Para un z1-/2eldcaso de igual tamao d es decir, 64 de las ms de /medias d d diferencias. n muestrales, / n . significativo cuando pacientes de /2 diferencias nivel de significacin preestablecido, el contraste arrojar un resultado significativo cuando la media de las diferencias n muestral para alcanzar una misma potencia. 1 n Por tanto, asumiendo comoen zel /2 d / n anteriorzque d 1<2d ila=potencia1parai 2detectar d= d 1 apartado d 1/2 1 / . n, ( xi x ) n i =1 n i =1 13 Por tanto, asumiendo como 1 -el 2 ser aproximadamente1 igual, a potencia para detectar una una diferencia de medias en apartado anterior que <12n la 1 n para detectar Por tanto, medias 1 como en el apartado anterior que = 2 i1 potencia diferencia deasumiendo 2 ser aproximadamente igual a1 < ,xla xi 2 = x1 x 2 n i =1 n i =1 medias - z ser / n | H1 ) una diferencia1de = P( d 1 12 /2 d aproximadamente igual a

146

d ( 1 2 ) z1d / es un/ estimador 2 ) n ( 1 insesgadode la diferencia de medias y, en consecuencia, 2 d = P H1 1 - = P(d -z1-/2d / n | H1) d / n d / n poblacionales 1 - 2. As, el problema de la comparacin de medias en dos mues ( 2 + | 1 | = d z1 / 1 2 ) 2z1 ./ 2 d / n ( 1 2 ) = P dependientes queda reducido a una simple inferencia sobre la media de una nica H1 d n / / n d / n d muestra de n diferencias independientes. | 2 | Pastor-Barriuso R. . + 1 = z1 / 2 mtodos del Apartado 6.2.1 para la media de una muestra pueden entonces Los se / n que Como por definicin (z1-) = 1 - , d sigue

utilizarse para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 com

| 2 | . = z1 / 2 + 1 d / n Tamao muestral para la comparacin de medias 2 ( z1 / 2 + z1 ) 2 d n= . ( 1 2 2 Como por definicin (z1-) = 1 - , se sigueque) 2 2 Como por definicin (z1) = 1 , se ( z1 / 2quez1 ) d sigue + n= . ( 1 2) 2 En la prctica, resulta difcil determinar directamente| la varianza de las diferencias | 2 z1 = z1 / 2 + 1 , d / n 2 dEn la prctica, resultauna misma pareja estn correlacionados. Asumiendo igual ya que los datos de difcil determinar directamente la varianza de las diferencias de donde puede despejarse n para obtener el nmero mnimo de parejas que sern necesarias de2donde puedeambas poblacionesobtener estn unade correlacin entre losigual para detectaruna diferencia subyacente 1 elconcorrelacionados. parejas que sern d ya que los datos de unan para pareja 2 nmero potencia deAsumiendo valores de varianza 2 en despejarse misma y un coeficiente mnimo 1 , + z1 ) 2 2 (z 2 con una necesarias 2pareja, la varianza de las diferencias viened determinadapotencia 1 - , para detectar una diferencia1 / 2 n = unsubyacente 1 -correlacin segn los valores de una misma entre los resultados varianza en ambas poblaciones y coeficiente de . ( ) 2
1 2
2 del misma pareja, la En Apartado resulta difcil determinar directamente la varianza de las diferencias d ya unala prctica,3.4 por varianza de las diferencias viene determinada segn los resultados que 2 En de una misma pareja estn correlacionados. Asumiendo igual varianza en ambas los datos la prctica, resulta difcil determinar directamente la varianza de las diferencias 2 2 2 2 poblaciones y un3.4 por del Apartado coeficiente de correlacin 2 -entre = valores- de una misma pareja, la varianza 14 d = + 2 los 2 (1 ). 2 de las diferencias datos de una misma pareja estn correlacionados. Asumiendo igual d ya que los viene determinada segn los resultados del Apartado 3.4 por

2 2 2 2 2 d = + 2 = 2 (1 ). 2 As, el nmero ambas poblaciones y un coeficiente de correlacin entre los valores de de parejas necesarias tambin puede expresarse como varianza en As, el nmero de parejas necesarias tambin puede expresarse como As, el nmero de la varianza de 2( z tambin puede 2 ( determinada segn los resultados una misma pareja, parejas necesarias1diferencias )viene1 ) como las / 2 + z1 2 expresarse n= ( 1 2 ) 2 del Apartado 3.4 por 2( z1 / 2 + z1 ) 2 2 (1 ) n= que, adems de los parmetros descritos en el de asignar distintos pacientes a ambos entre apartado ensayo clnico emparejado donde, en2lugar 2 ) 2anterior, depende de la correlacin que, adems de los parmetros=descritos (en1 el 2apartado(1tal). depende de prximo a 0, el cada pareja de datos. Si el emparejamiento no- es = 2 de - forma que est la 2 2 + 2 efectivo, 2 anterior,
d

nmero de parejas necesariases sometido a la emparejado ser aproximadamenteprimeral nmero igual grupos, cada paciente para un estudio monoterapia estndar durante correlacin entre parmetros descritos en el independientes (notar queun de que, adems de loscada pareja de datos. Si el emparejamiento no es efectivo, = la de de sujetos por grupo para un estudio con muestrasapartado anterior, dependesi la 0,tal frmula As, se reduce de parejas en el caso de muestras independientes del anteriorel nmeroa semanas ynecesarias tambin puede expresarse comomismodurante Si, por periodo de 4 la obtenidaal tratamiento combinado con el nuevo frmaco tamao). forma que est cada pareja el nmero el datos necesarias para un estudio correlacin emparejamiento es datos. Si losemparejamiento no es estarn de tal el contrario, el entreprximo a 0,de efectivo, de parejas de cada pareja efectivo,correlacionados positivamente y, en consecuencia, el 2( z nmero + asume 2que la ) un segundo periodo de igual duracin.dezparejas ser substancialmente inferior al nmero Se1 ) 2 (1 desviacin tpica de la emparejado est aproximadamente 1un/ 2estudio independiente para un estudio de forma que ser prximo agrupo nmero de nmero necesariasbajo grupo para un estudio sujetos requeridos en cada 0, el deigual al parejas de sujetos por las mismas condiciones. n= (1 2 ) 2 presin arterial sistlica bajo ambos tratamientos es 20 mm Hg, y que el con muestras independientes (notar que al la 0, la de sujetos de grupo para un la emparejado ser aproximadamente igual si =comparabilidad por losse reduce a hipertensos Ejemplo 9.5 Con objeto de asegurar nmero frmula anterior pacientes estudio bajo monoterapia y tratamiento combinado, apartado anterior, depende de lasujeto coeficiente de correlacin entre las determinaciones tomadas en un mismo que, adems de los parmetros descritos en el se decide disear un ensayo clnico emparejado obtenida en el caso de muestras independientes del frmula anteriorSi, paciente es sometido donde, en independientes distintos pacientes la mimo tamao). se por el a la con muestras lugar de asignar (notar que si = 0, a ambos grupos, cada reducecontrario, a la un intervalo de pareja de es aproximadamente 0,50.deno semanas una tratamiento 4 detectar y al con monoterapia estndar durante Si primer periodo correlacin entre cada4 semanas datos. un el emparejamientoParaes efectivo, de tal el emparejamientoel nuevo frmaco durante cada pareja periodo correlacionados Se asume es efectivo, los datos de un segundo estarn de igual duracin. combinado caso obtenida en el con de muestras independientes del mimo tamao). Si, por el contrario, que la desviacin tpicaade mm Hg en de presin arterial sistlica media al final de diferencia subyacente 5 el nmero la parejas necesarias para tratamientos forma que est prximode 0,la presin arterial sistlica bajo ambosun estudio es 20 mm positivamente y, en consecuencia, datos deentre las determinaciones tomadas en un mismo Hg, y que el coeficiente de los el nmero de pareja ser substancialmente el emparejamiento es efectivo, correlacin cada parejasestarn correlacionadosinferior sujeto tratamientos con una potencia de 0,80aproximadamente grupo para detectar ambos con un intervalo de 4 igual al es y un nivel de por 0,50. Para 0,05, emparejado ser aproximadamentesemanas nmero de sujetos significacin deun estudiouna al nmero de subyacente de 5 mm Hgnmero dede un estudiosubstancialmente inferior diferencia y, en consecuencia, cada la presin arterial sistlica media al final de positivamentesujetos requeridos enel en grupo parejas ser independiente bajo las ambos tratamientos sujetos potencia deque el nmero independientes (notar 0,80 un nivel de significacin de 0,05, a nmero de con muestras decon una necesarios en esteyestudio emparejado sera se reduce el la mismas condiciones.requeridos en cada si = 0, la frmula anterior parejas de sujetos al nmero necesarias sera grupo de un estudio independiente bajo las
2 2 obtenida en el caso de muestras independientes del)mimo tamao). Si, por el contrario, mismas condiciones. = 2(1,96 + 0,84) 20 (1 0,50 = 125,44 126; n Ejemplo 9.5 Con objeto de asegurar la comparabilidad de los pacientes 52 el emparejamiento es efectivo, los datos de cada pareja estarn correlacionados es decir, la mitad demonoterapia que seran necesarios en de losuno de los grupos de un hipertensos Con los sujetos y tratamiento combinado, se decide disear Ejemplo 9.5bajo objeto de asegurar la comparabilidad cada pacientes un es decir, la y, en de los sujetos 9.4). positivamente mitadconsecuencia, el nmero de parejas sercada uno de los grupos de diseo no emparejado (Ejemploque seran necesarios en substancialmente inferior

hipertensos bajo monoterapia y tratamiento combinado, se decide disear un al nmero de no emparejado (Ejemplopara la comparacin de independiente bajo las 15 La un diseo sujetos requeridos en cada grupo de un estudio medias en ms de dos muestras determinacin del tamao muestral 9.4). dependientes o independientes sigue argumentos similares a los descritos en este apartado. No mismas condiciones. La determinacin del tamao muestral para la comparacin de medias en ms de dos 15
Pastor-Barriuso R.

147

muestrasEjemplo 9.5 Con objeto de asegurar la comparabilidad de los los descritos en dependientes o independientes sigue argumentos similares a pacientes

aproximacin normal a la frmulas descritas a continuacin se fundamentan en la en el Apartado 9.2.2, las distribucin muestral de una proporcin y, en consecuencia, sern vlidas siempre a la distribucin en ambos grupos de comparacin. En las aproximacin normal Determinacin del tamao muestralque n(1 - ) 5 muestral de una proporcin y, en consecuencia, referencias de siempre que n(1 - ) 5 en ambosmtodosde comparacin.clculo del sern vlidas este tema pueden consultarse otros grupos alternativos de En las
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar tamao muestral particularmente tiles para la comparacin de proporciones muy referencias de este por las mltiples comparaciones que se pretendan realizar en el anlisis tcnicas de correccin tema pueden consultarse otros mtodos alternativos de clculo del (por ejemplo, un ensayo clnico en el que se comparan varios tratamientos frente a placebo). Estos extremasmuestral particularmente tiles tamao en muestras reducidas. mtodos pueden consultarse en los libros de para la comparacin de proporciones muytema. tamao muestral referenciados al final del

extremas en muestras reducidas. 9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras 9.4 TAMAO MUESTRAL PARA LA COMPARACIN DE PROPORCIONES independientesmuestral para la comparacin de proporciones en dos muestras 9.4.1 Tamao En esta seccin se aborda el problema de la determinacin del tamao muestral en estudios observacionalesse ensayos clnicos dondehiptesis nula de igualdad de proporciones El propsito o centra en contrastar la se pretende contrastar diferencias entre proporciones independientes a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las frmulas descritas a: continuacin se fundamentan en la aproximacin normal 2la partir de poblacionalesse 0 1 = en frente a la la hiptesis nula de igualdad de1proporciones El propsito H centra 2 contrastar hiptesis alternativa bilateral H : 1 a a distribucin muestral de una proporcin y, en consecuencia, sern vlidas siempre que n(1 ) 5 en ambos muestras independientes delas referencias nalternativa bilateralconsultarse2otros mtodos dos grupos de comparacin. En tamaos n1 y de. este tema pueden H1: 1 a partir de poblacionales H0: 1 = 2 frente a la hiptesis 2 Del Apartado 7.3 se desprende que la alternativos de clculo del tamao muestral particularmente tiles para la comparacin de proporciones de proporciones muestralesreducidas.2. Delaproximadamente una distribucin diferencia muy extremas en muestras p1 -np2yseguir Apartado 7.3 se desprende que la dos muestras independientes de tamaos 1 n normal N(0, (1 - )(1/n1 + 1/n comparacin seguir 1(1 - 1)/n1 + 2muestras ) bajo diferencia de proporciones muestrales p 2 1 proporciones en dos una 2)/n2 9.4.1 Tamao muestral para la2)) bajo H10 -ypN(de - 2, aproximadamente(1 - distribucin independientes normal N(0, (1 + n2 )/(n1 2 n2) es la y N(1 - combinada que asume comn a H1, donde = (n1- 1 )(1/n12+ 1/n+)) bajo H0proporcin2, 1(1 - 1)/n1 + se2(1 - 2)/n2) bajo El propsito se centra en contrastar la hiptesis nula de igualdad de proporciones poblacionales H1, = grupos bajo H0hiptesis1 alternativa bilateral H1: para 2 nivel cuando la 1 donde = (n1 1 El 2)/(n + n resultar significativo 1 un que se de dos muestras H0:ambos 2 frente a la +. n2contraste 2) es la proporcin combinada a partirasume comn a independientes de tamaos n1 y n2. Del Apartado 7.3 se desprende que la diferencia de proporciones de proporciones contraste aproximadamente una distribucin normal N(0, (1 ) diferencia muestrales p.1 Elpmuestrales ambos grupos bajo H0 2 seguir resultar significativo para un nivel cuando la (1/n1 + 1/n2)) bajo H0 y N(1 2, 1(1 1)/n1 + 2(1 2)/n2) bajo H1, donde = (n11 + n22)/ (n1 + n2) es la proporcin combinada que se asume comn a ambos grupos bajo H0. El contraste diferencia de proporciones muestrales p1 nivel -z1- /2 la diferencia de n 2 ) resultar significativo para un - p2 cuando (1 )(1 / n1 + 1 /proporciones muestrales o o p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) .

As, asumiendo sin prdida de1generalidad que1 < )(2, /la1potencia para detectar una diferencia p - p2 z1-/2 ( 1 1 n + 1 / n 2 ) . As, asumiendo sin prdida1 degeneralidad que 1 < 2, la potencia para detectar una de proporciones subyacente 2 vendr determinada por

As, asumiendo P( prdida z - 2 vendr determinada diferencia1 = sin p p de generalidadque /1 < 2,n )potencia para detectar una de proporciones subyacente (11 )(1 n + 1 / la | H ) por 1 2 1 2 1 /2 1 diferencia de proporciones p1 p 2 ( 1-2 )vendr determinada por subyacente 1 2 = P (1 ) / n + (1 ) / n 1 1 2 2 2 1
z1 / 2 (1 )(1 / n1 + 1 / n 2 ) ( 1 2 )

1 (1 1 ) / n1 + 2 (1 2 ) / n 2

H1

17 17

| 2 | z1 / 2 (1 )(1 / n1 + 1 / n 2 ) . = 1 1 (1 1 ) / n1 + 2 (1 2 ) / n 2

148

Pastor-Barriuso R. Si las limitaciones

prcticas determinan de antemano el tamao muestral disponible

para un estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir

Tamao muestral para la comparacin de proporciones

Si las limitaciones prcticas determinan de antemano el tamao muestral disponible para un estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir calcular la potencia estadstica que tendra dicho estudio con la muestra disponible para detectar diferencias de una determinada magnitud. Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociacin entre el = 0,00750. Aplicando la regla y ella probabilidad total (vase Apartado 2.4), la 40 y 49 uso de anticonceptivos orales de riesgo de cncer de mama en mujeres entre aos. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin evidencia basal de cncer de mama, que sern seguidas durante un en toda la cohorte para relacin entre esta probabilidad combinada de cncer de mama periodo de 5 aos determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han utilizado regularmente especficas por grupo deyexposicin vendr dada porde cncer de y las probabilidades anticonceptivos orales que la tasa de incidencia mama en este grupo de edad es de I = 150 casos por 100.000 personas-ao. Para un nivel de significacin = 0,05, cul sera la potenciacde este estudio para detectar un hipottico c P(D) = P(E)P(D|E) del 50% entre aumento del riesgo=de cncer de mama + P(E )P(D|E ) las usuarias de anticonceptivos orales? = 0,40 1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 , Asumiendo Aplicando laincidencia constante en los 5 aos deApartado 2.4),la incidencia = 0,00750. una tasa de regla de la probabilidad total (vase seguimiento, la acumulada o probabilidad de desarrollar un cncer de mama en esta cohorte durante los ya que 5 aos sera un 40% combinada = son usuarias de en toda la cohorte prximos se estima probabilidad de las mujeres IA5 = 0,001505anticonceptivos relacin entre esta que aproximadamente de cncer de mama = 0,00750. Aplicando la regla de la probabilidad total (vase Apartado 2.4), la relacin entre esta probabilidad orales y de la probabilidad de padecer exposicin mama entre las combinadaque cncer de mama 1en toda ladeun cncer devendr dada porespecficas por y las probabilidades especficas por grupo cohorte y las probabilidades usuarias es grupo de exposicin vendr dada por un 50% superior a la probabilidad 2 entre clas no usuarias. As, la probabilidad de c = P(D) = P(E)P(D|E) + P(E )P(D|E )

desarrollar un cncerde+ 0,60en los 5 aos 2 + 0,60 2 = 1,20 2 , 2 = /1,20 = = 0,40 1 mama 2 = 0,401,50 de seguimiento sera
ya0,00750/1,20 = 0,00625 entre las mujeres sony 1 = 1,50anticonceptivos orales y que que se estima que un 40% de no usuarias usuarias de 2 = 1,500,00625 = la probabilidad 1que padecer un cncer de mamausuarias de anticonceptivos superior a ya que se estima de un 40% de las mujeres son entre las usuarias es un 50% la 0,00938 entrelas usuariasno usuarias. As, la probabilidad de desarrollar un = probabilidad 2 entre las de anticonceptivos orales. Como se espera que n1 cncer de mama enque la aos de seguimiento sera un cncer de0,00750/1,20las0,00625 entre las orales y los 5 probabilidad 1 de padecer 2 = /1,20 = mama entre = usuarias es no0,406.000 =12.400 mujeres de la muestra0,00938 entre las usuarias de anticonceptivos usuarias y = 1,502 = 1,500,00625 = sean usuarias de estos anticonceptivos y orales. Como se espera que n1 = 0,406.000 = 2.400 mujeres de la muestra sean usuarias un 50% superior a la probabilidad 2 entre las no usuarias. As, la probabilidad de delas restantes n = 0,606.000 restantesno usuarias, la potencia de este estudio sera estos anticonceptivos y las = 3.600 n2 = 0,606.000 = 3.600 no usuarias, la potencia 2 de este estudio sera desarrollar un cncer de mama en los 5 aos de seguimiento sera 2 = /1,20 =
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600) 0,00750/1,20= 0,00625 entre las no usuarias y 1 = 1,502 = 1,500,00625 = 1 = 0,00938(1 0,00938) / 2.400 + 0,00625(1 0,00625) / 3.600 0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 = 0,00313 1,96 0,00227 = = ( 0,56) = 0,287; 0,00237 la muestra sean usuarias de estos anticonceptivos y 0,406.000 = 2.400 mujeres de

es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer de las restantes n = 0,606.000 = 3.600 no usuarias, la potencia de este estudio sera mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sera nicamente es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 aos. de mama | 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600) 1 - = del 50% entre las usuarias y no usuarias de anticonceptivos orales sera La expresin anterior 0,00938(1 0,00938) / 2.400 + 0,00625(1 0,00625) /la .muestra mnima de la potencia permite asimismo determinar a priori 3 600 que sernicamente del 28,7% departir de una cohorte de 6.000potencia preestablecida 1 5 en necesaria en cada uno a los grupos para alcanzar una mujeres seguidas durante la deteccin de una diferencia subyacente de proporciones 1 2. En general, si se prev asignar , distinto aos.= ambas muestras 0,002271 se (-0,56)partir de la frmula de la potencia que tamao a 0,00313 1,96 n2 = kn = sigue a = 0,287; 0,00237
Pastor-Barriuso La expresin anterior de la potencia permite asimismo determinar a priori la muestra R. es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer 149

mnima que ser necesaria en cada uno de los grupos para alcanzar una potencia de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sera

2 1 | 1 2 | z1 / 2 (1 ) + n kn 1 1 z = 2. En general, si se prev asignar distinto ) a ) partir de la frmula de1-la potencia que (1 tamao (1 ambas muestras n2 = kn1, se sigue a 1 1 2 Determinacin del tamao muestral + 2 n kn1 partir de la frmula de la potencia que 1 1 1 | 1 2 | z1 / 2 (1 ) + 1n ) kn (k + 1) ( 1 1 | 1 2 | z1 / 2 z1- = 1 1 | 1 2|11 /12) 1 1 ) 2 ) + ( 2 (kn1 ( z1 = , + )n1 kn1 k 1 (1 1 ) + 2 (1 12 z1 = n1 kn 1 (1 1 ) 2 (1 2 ) kn1 + n1 kn (k + 1) (1 ) 1 | 1 2 | z1 / 2 de tal forma que el tamao muestral requerido ser 1)1(1 ) (k + kn = | | z , 1 k21 (1 11 /)2+ 2 (1 kn21 ) = , ( z1 / 2 (k + 1) (1 1 1 zkn1 k1 1 ) + 2 (1 2 ) ) 2 k ( ) + 11) + 2 ( 1 (1 2 ) n1 = k ( 1kn1 2 ) 2 de tal forma que el tamao muestral requerido ser de en la primera muestra y n = kn en la segunda muestra, donde la proporcin combinada tal forma que el tamao muestral requerido ser 2 1 de tal forma que el tamao muestral requerido ser ( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2 n1 = en ambas muestras viene dada por = (n11 + n22)/(n1 + n2) = (1 + k2)/(1 + k). En el k ( 1 2 ) 2 ( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2 n1 igual comparacin la 1, el tamao muestral en caso de asignar = ytamao a ambossegunda de ) 2 donde k =proporcin combinada en la primera muestra n2 = kn1 en la grupos muestra, k ( ambasla primera viene dadan2 = kn1=en la 1segunda muestra, donde + k2)/(1 + k). combinada de muestras muestra y por (n1 + n21)/(n12+ n2) = (1 la proporcin En el caso en 2 en cada una de las muestras se reduce a asignar igual tamao a ambos grupos de comparacin k = 1, el tamao muestral en cada una de las en ambas se reduce vienen2 = kn1 en la segundanmuestra,+ n2) = la 1 + k2)/(1 + k). En el muestras muestras a y dada por = (n11 + 22)/(n1 donde ( proporcin combinada en la primera muestra 2
2 ( z1 / 2 2 (1 ) + z (1 1 ) + (1 ) ) en ambas muestras =tamao a por (n111 comparacin k2 ( 1 elk2)/(1 + k). En el caso de asignar= n 2 viene dada ambos=grupos+ n212)/(n1 + n2) = =1,+ 2 tamao muestral de , n1 igual ( 1 2 ) 2 caso de asignar igual tamao ambos en cada una de las muestras seareduce agrupos de comparacin k = 1, el tamao muestral donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la asignacin de donde tamao a las dos muestras es = (1 + 2)/2. Como se coment anteriormente, la del igual la proporcin combinada es ms eficiente al requerir un menor tamao total en cada una de las muestras se reduce a estudio para alcanzar una ( z1 / 2 potencia. ) + z1 1 (1 enel)diseo dedeterminados estudios misma 2 (1 Sin embargo, 1 + 2 (1 2 ) ) 2 n =n = , (ver ejemplos de 1igual2 tamao a las dos muestras es ms2 eficiente al requerir un menor ms asignacin posteriores), la seleccin de muestras de distinto tamao puede resultar ( pacientes. En cualquier caso, 2 determinacin 1 2) factible en trminos de coste1odisponibilidad+ z1 1 (1 1 ) + 2 (1 2 ) ) la ( z / 2 2 (1 ) de n1 estudio deltamao total del = n 2 = lapara alcanzar una proporciones en muestras independientes precisa tamao muestral para comparacin de misma potencia. Sin embargo, en ,el diseo ( 1 2 ) 2 de los siguientes elementos: donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la de El nivel de significacin del contraste bilateral, que suele establecerse por convenio en y determinados estudios (ver ejemplos posteriores), la seleccin de muestras de donde la proporcin combinada dos = (1 + 2)/2. Como se coment anteriormente, asignacin de igual tamao a las es muestras es ms eficiente al requerir un menor la = 0,05. distinto tamao puede resultar ms factible en trminos de coste o disponibilidad de y La potencia 1 para detectar hiptesis alternativas ciertas. La mayora de los estudios asignacin del estudio para las dos una misma ms eficiente al requerir un diseo tamao totalde igual tamao aalcanzarmuestras es potencia. Sin embargo, en elmenor se disean con una potencia 1 = 0,80 0,90.

ytamao total del estudiospara alcanzar una2misma potencia. Sincomparacin de diseo no deLas proporciones poblacionales 1 yposteriores), la seleccin de muestrasel medias, determinados estudio (ver ejemplos . A diferencia de la embargo, en de es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino que es necesario especificar ejemplos posteriores), la seleccin disponibilidad de determinados estudios (ver ms factible en trminos de coste o de muestras de grupo distinto tamao puede resultar la magnitud aproximada de esta proporcin en cadade 20 de comparacin, para contar as con un valor aproximado de las varianzas poblacionales 1(1 1) y 2 puede resultar ms factible en trminos de coste o disponibilidad de distinto tamao (1 2). Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece de potencia suficiente para detectar un hipottico incremento del 50% en la incidencia 20 acumulada de cncer de mama en 5 aos entre las mujeres usuarias y no usuarias de anticonceptivos orales. Segn los clculos del ejemplo anterior, la incidencia acumulada 20 en este periodo en una cohorte de mujeres entre 40 y 49 aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las respectivas incidencias acumuladas
150 Pastor-Barriuso R.

aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las

mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 respectivas incidencias acumuladas en usuarias y no usuarias. Como se prev que 15.304 no usuarias. As, para detectar un aumento subyacente del riesgo de cncer la cohorte est compuesta de un 40% de mujeres usuarias de anticonceptivos

Tamao muestral para la comparacin de proporciones

de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de en usuarias 60% de no usuarias, se tiene que n2 la 1,5n1. Asumiendo un nivel de 40% de orales y un y no usuarias. Como se prev que = cohorte est compuesta de un mujeresprecisara de una cohorte inicial de 25.507 mujeres seguidas durante un 0,80, se usuarias de anticonceptivos orales y un 60% de no usuarias, se tiene que n2 = 1,5n1. Asumiendo un nivel de significacin = 0,05 y una potencia 1 = 0,80, se significacin = 0,05 y una potencia 1 - = 0,80, se necesitaran necesitaran aos. periodo de 5
(1,96 2,5 0,00744 + 0,84 1,5 0,00929 + 0,00621 ) 2 n1 = de la cohorte se reducira si el seguimiento del estudio se El tamao necesario 1,5(0,00938 0,00625) 2

extendiera, por ejemplo, hasta 10.203aos, ya que el nmero esperado de eventos = 10.202,55 los 10
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 15.304 no aumentara considerablemente. Siguiendo argumentos riesgo de cncer deejemplo 50% usuarias. As, para detectar un aumento subyacente del similares a los del mama del entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisara de una 21 anterior, inicial de 25.507 mujeresen toda ladurante un periodo de 5 aos. = cohorte la incidencia acumulada seguidas cohorte durante 10 aos sera El tamao las incidencias acumuladas especficas seguimiento del y no usuarias 0,01500, y necesario de la cohorte se reducira si elentre las usuariasestudio se extendiera, por ejemplo, hasta los 10 aos, ya que el nmero esperado de eventos aumentara considerablemente. Siguiendo argumentos similares a los del ejemplo anterior, la La de anticonceptivos orales seran 1 = 0,01875 y 2 = 0,01250, respectivamente.incidencia acumulada en toda la cohorte durante 10 aos sera = 0,01500, y las incidencias acumuladas especficas entre las usuarias cohorte necesaria consistira entonces en y no usuarias de anticonceptivos orales seran 1 = 0,01875 y 2 = 0,01250, respectivamente. La cohorte necesaria consistira entonces en

n1 =

(1,96 2,5 0,01478 + 0,84 1,5 0,01840 + 0,01234 ) 2 1,5(0,01875 0,01250) 2

= 5.061,27 5.062
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no usuarias; es decir, 12.654 mujeres seguidas a lo largo de 10 aos. usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no de la poblacin de referencia, la proporcin de utilizacin de anticonceptivos Ejemplo 9.8 Dado que mujeres seguidas a estudio prospectivo usuarias; es decir, 12.654 la realizacin de unlo largo de 10 aos. requerira de una gran orales entre las mujeres del grupo control ser aproximadamente 2 = 0,40. Ade casos de cantidad de personas-ao de seguimiento para obtener un nmero suficiente de la poblacin de referencia, viable llevar de utilizacin de de casos y controles. En tal cncer de mama, resultar msla proporcin a cabo un estudio anticonceptivos partir el propsito se centrar en seleccionar unde casos y controlesde casos y controles caso, de la expresin del odds ratio en estudios nmero suficiente (vase Ejemplo 9.8 las mujeres del de cncerde unser aproximadamente usuarias y una usuarias orales entre un odds la realizacin de mama prospectivo requerira de para detectarDado queratio grupo control estudio= 1,50 entre las 2 = 0,40. Ano Apartado 7.6.2), se oralesque una potencia 1 = 0,80. Si los controles seleccionados de anticonceptivos tiene con gran cantidad de personas-ao de seguimiento poblacin y controles (vase constituyenexpresin del odds ratio en estudios de casos deun nmero suficiente partir de la una muestra representativa de la para obtener referencia, la proporcin de utilizacin de anticonceptivos Doralesc | entre las (1mujeres del grupo control ser P( E | ) P( E D c ) 1 ) , de casos de cncer 2 = 0,40. A partir de la expresin del a 2cabo un estudio de de casos y mama, = aproximadamente de =que resultar ms viable llevar odds ratio en estudios Apartado 7.6.2), se tiene P( E | D c ) P( E c | D) 2 (1 1 ) controles (vase Apartado 7.6.2), se tiene que casos y controles. En tal caso, el propsito sec centrar en seleccionar un nmero P( E | D) P( E c | D ) 1 (1 2 ) , = la proporcin c 1 de mujeres que han usado = de donde puede despejarse P( E | D ) P( E | un 2 1 de suficiente de casos y controles parac detectar D) odds(ratio 1 ) cncer de mama =

anticonceptivos orales entre la proporcin 1 de de mamaque han usado anticonceptivos de donde puede despejarse los casos de cncer mujeres como 1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1 orales entre los casos de cncer de mama 1 de mujeres que han usado de donde puede despejarse la proporcin como
2 1,50 0,40 - = 0,80. Si los controles seleccionados constituyen una 0,50. representativa 1 entre los casos = cncer = muestra anticonceptivos orales = 1 + ( 1) de 1 + 0,50de ,mama como 0 40 2 22

2 1,50 0,40 1 = = 0,50. Para un nivel de significacin estndar = = 0,05 y asumiendo la seleccin del 1 + ( 1) 2 1 + 0,50 0,40
mismo nmero de casos que controles, de tal forma que la proporcin combinada Pastor-Barriuso R. Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del = (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles mismo nmero de casos que controles, de tal forma que la proporcin combinada
151

Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del


Determinacin del nmero de casos mismo tamao muestral

que controles, de tal forma que la proporcin combinada

Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del mismo sera nmero de casos que controles, de tal forma que la proporcin combinada = (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles sera
n1 = n2 =
(1,96 2 0,45(1 0,45) + 0,84 0,50(1 0,50) + 0,40(1 0,40) ) 2 (0,50 0,40) 2

= (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles

= 386,90 387,

para una muestra total de 774 mujeres. Supongamos que, dada la baja incidencia para una muestra total de 774 mujeres. de cncer de mama, la disponibilidad de casos incidentes de esta enfermedad en la poblacin es limitada y, por tanto, se decide reclutar el doble de controles que la baja incidencia de cncer de mama, la disponibilidad de Supongamos que, dadade casos. As, n2 = 2n1 y la proporcin combinada ser = (1 + k2)/ (1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra necesaria estara entonces compuesta por casos incidentes de esta enfermedad en la poblacin es limitada y, por tanto, 2se (1,96 3 0,43(1 0,43) + 0,84 2 0,50(1 0,50) + 0,40(1 0,40) ) n1 = 2 decide reclutar el doble de controles 2(0,50 0,40)As, n2 = 2n1 y la proporcin que de casos.
= 289,17 290 combinada ser = (1 + k2)/(1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra casos de cncer de mama y n2 = 2289,17 = 578,33 579 controles libres de la enfermedad. necesaria estarasera 290 + 579 = 869; es decir, 95 mujeres ms de las requeridas en un entonces compuesta por El tamao total de mama y n = 2289,17 = 578,33 579 controles libres de la casos de cncer 2 estudio con el mismo nmero de casos que controles. enfermedad. El tamao total sera 290 + 579 = 869; es decir, 95 mujeres ms de 9.4.2 Tamao muestral para la comparacin de proporciones en dos muestras dependientes 23 las requeridas en un estudio con el mismo nmero de casos que controles. Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partirpde pc ) = var( pb ) datos dependientes.b Para simplificar la exposicin, var( b - n parejas de + var( pc) - 2 cov( p , pc ) supondremos adems que se trata de un estudio de casos y controles emparejados uno a uno, 9.4.2 y representan para la comparacin de proporciones en dos muestras dondeTamao muestrallas respectivas proporcionespoblacionales de expuestos a un determinado 1 2 (1 b ) (1 c ) 2 b c + c + = b factor antecedente entre casos y controles. Como las parejas concordantes reflejan una misma n n n dependientescaso y control, la hiptesis nula de igualdad de proporciones en un diseo emparejado exposicin en es equivalente a H0: b = c, donde b es la proporcin de parejas discordantes con el caso expuesto Supongamos que se pretende discordantes con)el control H)02 1 = Segn la notacin de la ( c ( nula c : y c es la proporcin de parejascontrastar bla+hiptesis b expuesto.2 frente a la hiptesis Tabla = , n 7.6, las proporciones muestrales de ambos tipos de pares discordantes sern pb = b/n y pc = c/n. alternativa bilateral H1: 1 2 a partir de n parejas de de tal forma que el Para Estas proporciones estarn obviamente correlacionadas, datos dependientes. valor esperado de la diferencia la covarianzac)negativacentre varianza (vase Apartado 3.4) , p ) = - /n. As, la donde ser E(pb p = b y su padems que se trata de un estudio casos simplificar la exposicin, supondremos b y pc viene dada por cov(pb c de b c y var( pb pc ) = var( pb ) + var( pc) 2cov( pb , pc ) diferencia en la proporcin muestral y representan las pb - pc seguir controles emparejados uno a uno, dondede1parejas discordantes respectivas 2 (1 b ) c (1 c ) 2 b c + + = b n aproximadamente una distribucin normal N(0, (b +nc)/n) bajonH0 y N(b entre {(b + proporciones poblacionales de expuestos a un determinado factor antecedente - c, ( b + c ) ( b c ) 2 = , c - (b - c)2}/n) bajo Hparejas concordantesn casos)y controles. Como las 1. reflejan una misma exposicin en

152

dondePara un nivel de significacin b, pc viene dada por cov(pb,resultadobc/n. As, la diferencia la covarianza negativa entre p y el contraste arrojar p ) = significativo caso y control, la hiptesis nula de igualdad de proporcionesun un diseo emparejado en c en la proporcin muestral de parejas discordantes pb pc seguir aproximadamente una donde negativa entre p y c N( dada por + ) pc bc/n. bajo H distribucin la covarianza (b + c)/n) bajobH0py viene c, {(b cov(pb, () = -)2}/n) As, la 1. b b c cuando normal N(0, es equivalente a H0: b = c, donde b es la proporcin de parejasc discordantes con el Para un nivelen la proporcin muestral de parejas discordantes pb - psignificativo cuando diferencia de significacin , el contraste arrojar un resultado c seguir caso expuesto y c pla proporcin de parejas discordantes con el control) expuesto. pb es c z1 /2 ( b + c ) / n pb pc z1 /2 ( b + c / n . aproximadamente una distribucin normal N(0, (b + c)/n) bajo H0 y N(b - c, {(b + Segn la notacin de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares Pastor-Barriusob - sin 2}/n) bajo Hgeneralidad que < , la probabilidad del segundo evento c) - ( R. Asumiendo c) prdida de 1. b c discordantes sern pb = b/n y pc = c/n. Estas proporciones estarn obviamente Para un nivel de la hiptesis alternativa y la potencia resultado significativo ser despreciable bajosignificacin , el contraste arrojar unpodr entonces aproximarse correlacionadas, de tal forma que el valor esperado de la diferencia ser E(p - p ) = -

Asumiendo sin prdida de generalidad que b < c, la probabilidad delcomparacin de proporciones segundo evento Tamao muestral para la ser despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse
Asumiendo sin prdida de generalidad que b < c, la probabilidad del segundo evento ser mediante despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse mediante

1 = P( pb pc z1 / 2 ( b + c ) / n | H1)
z1 / 2 ( b + c ) / n ( b c ) p b p c ( b c ) = P H1 {( + ) ( ) 2 } / n {( b + c ) ( b c ) 2 } / n b c b c | b c | z1 / 2 ( b + c ) / n . = {( + ) ( ) 2 } / n b c b c
A partir de esta expresin, se sigue que el nmero total de parejas necesarias para alcanzar una potencia 1 es A partir de esta expresin, se sigue que el nmero total de parejas necesarias para ( z1 / 2 b + c + z1 ( b + c ) ( b c ) 2 ) 2 , n = 1 - es alcanzar una potencia ( ) 2
b c

para cuyo clculo se precisa de una idea aproximada de las probabilidades de obtener ambos para cuyo clculo se precisa y . Aunque son pocos los diseos emparejados donde tipos de parejas discordantes deb una cidea aproximada de las probabilidades de obtener se cuenta con informacin a priori de estas probabilidades, las siguientes consideraciones generales pueden resultar de parejas discordantesel bemparejamiento no fueralos diseospongamos por ambos tipos tiles en la prctica. Si y c. Aunque son pocos efectivo, 25 ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran asociadas con la exposicin principal, el nivel ade exposicin sera entonces virtualmente emparejados donde se cuenta con informacin priori de estas probabilidades, las independiente entre caso y control, de tal forma que la proporcin esperada de parejas con el caso expuesto y el control no expuesto sera b = 1(1 tilesconla prctica.expuesto y el caso siguientes consideraciones generales pueden resultar 2) y en el control Si el no expuesto c = 2(1 1), para una proporcin total de pares discordantes b + c = 1(1 2) + 2(1 1). En tal caso, puede probarse quepor ejemplo un estudio de casos y coincidira parejas emparejamiento no fuera efectivo, pongamos el nmero necesario aproximadamente con el nmero de sujetos por grupo en un estudio de casos y controles independientes; resultado esperable siempre que seno estuvieran asociadas con lairrelevantes. controles donde las variables de emparejamiento empareje por caractersticas Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronsticos empleados en principal, el nivel de exposicin sera entonces exposicin a independiente exposicin el emparejamiento estuvieran asociados con la virtualmente estudio, los casos y controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en entre caso de cada pareja forma y control. Las parejas discordantes seran el caso la exposicin y control, de talde caso que la proporcin esperada de parejas con entonces menos probables b + c < 1(1 2) + 2(1 1) y, en consecuencia, para obtener un nmero suficiente de expuesto y el control no expuesto sera b = 1(1 -de2parejas habra de ser superior al nmero pares discordantes para el anlisis, el nmero total ) y con el control expuesto y el de sujetos por grupo en un estudio independiente. En general, la comparacin de proporciones en caso no expuesto c = 2(1 - 1), para una proporcin total de pares discordantes b + c en muestras emparejadas tiene menor potencia que la comparacin cruda de proporciones muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados de = 1factores + confusinEn tal caso,en el emparejamiento. nmero necesario de parejas los (1 - 2) de 2(1 - 1). utilizados puede probarse que el Ejemplo 9.9 En el estudio de nmero controles por grupo en un estudio de anterior, coincidira aproximadamente con el casos y de sujetos independientes del ejemplo casos cabra esperar que la edad media de los casos sea superior a la de los controles ya que la incidencia de cncer de mama aumenta con la siempre que como la edad est y controles independientes; resultado esperableedad. Adems,se empareje por inversamente relacionada con el uso de anticonceptivos orales, esta variable podra provocar una confusin negativa en la Por el contrario, si el emparejamiento fuera ratio obtenido de caractersticas irrelevantes. asociacin a estudio, de tal forma que el oddsefectivo, esto es, la comparacin cruda de casos y controles independientes tendera a infraestimar el potencial efecto nocivo del uso de anticonceptivos orales en el riesgo de cncer de mama. si los factores pronsticos empleados en el emparejamiento estuvieran asociados con la

exposicin a estudio, los casos y controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en la exposicin de cada pareja de caso y
Pastor-Barriuso R. 153

control. Las parejas discordantes seran entonces menos probables b + c < 1(1 - 2) +

Determinacin del tamao muestral

Para evitar esta posible confusin, se decide disear un estudio de casos y controles emparejados, donde cada caso de cncer de mama se empareja aleatoriamente con un control de su misma edad. Como consecuencia de este emparejamiento por edad, se inducira un cierto grado de correlacin positiva en la utilizacin de anticonceptivos de cada pareja. As, la proporcin esperada de pares discordantes sera inferior a 1(1 2) + 2(1 1) = 0,50(1 0,40) + 0,40(1 0,50) = 0,50, donde 1 = 0,50 y 2 = 0,40 son las proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles obtenidas del ejemplo anterior. Asumiendo una correlacin moderada, podra establecerse a priori una proporcin aproximada de parejas discordantes b + c = 0,40. Para un hipottico odds ratio de cncer de mama = b/c = 1,50, se esperara entonces una proporcinpara detectar dicho efecto con una potencia 1 - = 0,80 y un nivel de usuario necesarias de parejas con el control usuario de anticonceptivos orales y el caso no c = (b + c)/( + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario b = c = 1,500,16 = 0,24. As, el nmero total de parejas necesarias para detectar dicho significacin = 0,05 sera efecto con una potencia 1 = 0,80 y un nivel de significacin = 0,05 sera

n=

(1,96 0,24 + 0,16 + 0,84 (0,24 + 0,16) (0,24 0,16) 2 ) 2 (0,24 0,16) 2

= 487,64 488, con lo que se tendran aproximadamente 0,40488 = 195 pares discordantes para el anlisis. Notar que el nmero de parejas requeridas para este estudio sera mayor que los 387 casos y controlesse tendran aproximadamente 0,40488 = 195 pares discordantes para9.8). No con lo que necesarios en el correspondiente estudio independiente (Ejemplo obstante, el anlisis emparejado de casos y controles de igual edad eliminara la posibilidad de anlisis. Notar que el nmero de parejas requeridas para este estudio sera el sesgos por diferencias de edad entre casos y controles.
El clculo que tamao muestralcontroles necesarios en el correspondienteoestudio mayor del los 387 casos y puede extenderse a la comparacin de tres ms proporciones en muestras dependientes o independientes. Aunque las frmulas se derivan siguiendo procedimientos similares a los 9.8). descritos, suelenanlisis emparejado de casos y independiente (Ejemplo aqu No obstante, el emplearse mtodos de correccin del nivel de significacin para preservar la probabilidad global de obtener un resultado significativo entre las mltiples igual edad eliminara la posibilidad de sesgos referencias bibliogrficas). controles de comparaciones que se pretendan realizar (ver por diferencias de edad 9.5 1. REFERENCIAS entre casos y controles.

2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977. proporciones en muestras dependientes o independientes. Boston: Academic Press, 3. Desu MM, Raghavarao D. Sample Size Methodology. Aunque las frmulas se 1990.

Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and Analysis del tamao muestral puede extenderse a la comparacin de on o ms El clculo of Cohort Studies. Lyon: International Agency for Research tresCancer, 1987.

4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & derivan siguiendo procedimientos similares a los aqu descritos, suelen emplearse Sons, 1986. 5. Fleiss JL, Levin B, del nivel de significacin para preservar la probabilidad global mtodos de correccin Paik MC. Statistical Methods for Rates and Proportions, Third Edition. New York: John Wiley & Sons, 2003. 6. obtener un resultado significativo J, Lwanga SK. Adequacy of Sampleque se Health Studies. de Lemeshow S, Hosmer DW, Klar entre las mltiples comparaciones Size in New York: John Wiley & Sons, 1990. pretendan realizar (ver referencias bibliogrficas). 7. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third Edition. New York: John Wiley & Sons, 1999. 8. REFERENCIAS 9.5 Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin Sanitaria. Madrid: Daz de Santos, 2000. 1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154 Pastor-Barriuso R.

Design and Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.

TEMA 10 CORRELACIN Y REGRESIN LINEAL SIMPLE


10.1 INTRODUCCIN En el Tema 6 se discutieron las tcnicas estadsticas adecuadas para comparar los niveles medios de una variable continua en dos grupos de sujetos definidos segn la presencia o ausencia de una determinada caracterstica dicotmica; esto es, la dependencia entre una variable continua y otra dicotmica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para determinar la existencia o no de asociacin entre dos variables dicotmicas. Queda pendiente, por tanto, describir los mtodos necesarios para evaluar la relacin entre dos variables continuas. En este tema se presentan el coeficiente de correlacin y la regresin lineal simple como las dos tcnicas estadsticas ms utilizadas para investigar la relacin entre dos variables continuas X e Y. Como veremos ms adelante, ambos procedimientos estn estrechamente relacionados, aunque obedecen a estrategias de anlisis un tanto diferentes. Por un lado, el coeficiente de correlacin determina el grado de asociacin lineal entre X e Y, sin establecer a priori ninguna direccionalidad en la relacin entre ambas variables. Por el contrario, la regresin lineal simple permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X, asumiendo implcitamente que X es la variable explicativa o independiente e Y es la variable 10.2 COEFICIENTE DE CORRELACIN respuesta o dependiente. Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la 10.2 COEFICIENTE DE CORRELACIN asociacin lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la asociacin poblacional xy, que se define como lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin poblacional xy, que se define como
xy =

cov( X , Y )
x y

E{( X x )(Y y )}
x y

donde x y y son las respectivas medias poblacionales de X e Y y x y y son sus correspondientes desviacionesytpicas poblacionales. medias poblacionales de X e Y decorrelacin cov(X, Y) = donde x y son las respectivas El numerador del coeficiente y x y y son sus E{(X x)(Y y)} es la covarianza poblacional entre ambas variables y se define como la esperanza del producto de las desviaciones de cada variable numerador delmedia. As, si valores correspondientes desviaciones tpicas poblacionales. El respecto de su coeficiente de altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las desviaciones (xcov(X, Y) y)E{(X - x)(Y -positivo la la covarianza ser positiva. Por ambas correlacin x)(y = tender a ser y)} es y covarianza poblacional entre el contrario, si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto de variables y se define como la esperanza del producto de las desviaciones deobstante, resulta las desviaciones tender a ser negativo y la covarianza ser negativa. No cada complicado determinar el grado de asociacin lineal entre dos variables a partir de la magnitud de variable respecto que sta depende de valores altos (o bajos) de X las variables. la covarianza, ya de su media. As, si las unidades de medida de tienden a asociarse Al dividir la covarianza por el producto de las desviaciones tpicas de X e Y, el coeficiente de con valores altos (o bajos) de Y, el producto de las desviaciones (x - x cambios de origen correlacin poblacional carece de unidades y permanece inalterable ante )(y - y) tender a o escala en cualquiera de las dos variables. Puede comprobarse, adems, que la covarianza entre X eseres menor enla covarianza ser positiva. Por de contrario, si valores altos de una Y positivo y valor absoluto que el producto el sus desviaciones tpicas y, en consecuencia,

variable se relacionan con valores bajos de la otra variable, el producto de las

Pastor-Barriuso R.

155

desviaciones tender a ser negativo y la covarianza ser negativa. No obstante, resulta

comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables


Correlacin y regresin lineal simple estandarizadas Zx = (X -

x)/x y Zy = (Y - y)/y verifican que (vase Apartado 3.4)

y, = 0, de donde se deduce que las variables X e Y presentan una relacin lineal negativa + Zy) por tanto, Zx + Zy es una variable aleatoria constante igual a su valor esperado, Zx + Zy y/+ Z ) ). Cuando xy y + se dice Zy) las variables 0 perfecta, Y = y var(Zx x(X y = xvar(Zx) + var(Z=) 0, 2cov(Zx, que = 2(1 + xy) = estn linealmente = E(Zx + Zy) = 0, de donde existe relacin lineal entre e Y presentan una relacin incorrelacionadas ya que nose deduce que las variables Xambas variables. Notar que si dos variables son estadsticamente independientes, en el sentido de que el conocimiento del valor y, por una variable es una variable aleatoria constante el = a de la otra variable, x + Z lineal tanto, Zx + Zyno aporta ninguna informacin sobreigual 0,su dice esperado, Zentonces que toma negativa perfecta, Y = y - y/x(X - x). Cuando xy valorse valor que las variables y estn incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya = E(Zx + Zy) = 0, incorrelacionadas ya las variables X e aun lineal entre 0. que las variables podran presentar una dependencia no lineal Y presentan una=ambas estn linealmentede donde se deduce queque no existe relacin cuando xy relacin
El coeficiente de correlacin ypermite,(X - tanto, cuantificar0, se dice queasociacin lineal por lineal negativa perfecta, Y = - y/son x). Cuando xy = el grado de en el sentido variables. Notar quetal formaquecuanto estadsticamente independientes,de correlacin a 1 si dos variables x ms prximo est el coeficiente las variables entre dos variables, de estn linealmente dependencia lineal positiva o existe relacin lineal entre ambas hecho se 1, mayor ser la incorrelacionadas ya que no negativa entre las variables. Este de que losconocimiento del valor que de la Figura 10.1, donde se representan los valores de ilustra en el diagramas de dispersin toma una variable no aporta ninguna informacin la variable X en el eje horizontal y los correspondientes valores de Y en el eje vertical. A medida variables. Notar la otra variable, entonces estn incorrelacionadas; el sentido sobre el valor deque si dos variables son estadsticamente independientes, en con que los puntos del diagrama de dispersin se desvan de una lnea rectapero que la pendiente perfecta positiva o el conocimiento del valor que toma una variable noaporta ninguna interpretacin de de que negativa, el coeficiente de correlacin se aleja de 1 1. Aunque la informacin incorrelacin no implica necesariamente independencia, ya que las variables podran la magnitud del coeficiente de correlacin depende del contexto particular de aplicacin, en trminos el valor de laconsidera que una correlacin es baja por debajo de 0,30 en valor absoluto, sobre generales se incorrelacionadas; pero que la presentar una0,30 y otra variable, entonces estn xy = 0. moderada entre dependencia no linealencima de 0,50. 0,50, y alta por aun cuando incorrelacin no deque en la interpretacin del coeficiente de ellas variables podranerrores Notar,coeficiente implica necesariamente independencia, ya quecorrelacinasociacin El por ltimo, correlacin permite, por tanto, cuantificar grado de hay dos frecuentes que deben ser evitados: presentar una dependencia no lineal aun cuanto ms prximo est el coeficiente de lineal entre dos de correlacin forma e cuando xy = 0. y El coeficientevariables, de talentre X que no es una medida de la magnitud de la pendiente Y de la recta de regresin entre ambas variables. El coeficiente de correlacin determina el El coeficiente de correlacin permite, por tanto, cuantificar el grado asociacin correlacin aaproximacin de los dependenciadiagrama de dispersindeentre las grado de 1 -1, mayor ser la puntos del lineal positiva o negativaa una lnea recta, independientemente de cul sea la magnitud de la pendiente de dicha recta. Como se lineal entre variables, de forma que cuanto ms prximo variables.en doshecho sea y b talen los diagramas de dispersin est el coeficiente de en el ilustra Este paneles ilustra la Figura 10.2, el coeficiente de de la Figura es mayor los de correlacin 10.1, panel a, a pesar de que la pendiente de la recta de regresin es mayor en el panel b. La correlacin a 1 -1, los valores de la variable lineal eje horizontal y los o donde se representanmayor ser la dependenciaX en el positiva el negativa entre las pendiente de la recta de regresin no se determina mediante coeficiente de correlacin, sino mediante las tcnicas de regresin lineal simple que se discutirn en la segunda parte variables. Este hecho se de Y en los diagramas medida que los puntos del diagrama correspondientes valoresilustraen el eje vertical. Ade dispersin de la Figura 10.1, de este tema. y El coeficiente desvan de una lneaesvariable X en con la horizontal y losmodelo lineal. El una medida de pendiente positiva donde se representan los valores no de dispersin se de correlacin de larecta perfecta el eje idoneidad del o negativa, el coeficiente de correlacin slo determina la existencia de una componente lineal en la relacin de correlacin se aleja de 1 -1. Aunque la forma los puntos de diagrama correspondientes valores de Y en el eje vertical. A dela interpretacin de del dicha relacin. coeficienteentre dos variables, independientemente medida que subyacentela magnitud As, por ejemplo, el coeficiente de correlacin es mayor en el panel d que en el panel c de dela Figura 10.2, aun cuando la relacin perfecta con pendiente variableso del panel el es dispersin se desvan de una lnea recta subyacente entre las positiva negativa, d 3 claramente no lineal (en este caso, cuadrtica). Por ello, antes de analizar el grado de asociacin correlacin dos variables, es aconsejable inspeccionar la magnitud coeficiente delineal entre se aleja de 1 -1. Aunque la interpretacin de lanaturaleza de la relacin mediante un diagrama de dispersin. 3
156 Pastor-Barriuso R.

comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables el coeficiente de var(Zx - Zy) = var(Zx) + var(Zy) - 2cov(Zx, Zy) = 2(1 -Enxy) = 0; extremo de que correlacin siempre est comprendido entre 1 y 1. el caso xy estandarizadas Zx =estandarizadas yZ= = (X)/xy verifican que y)/yApartado 3.4) (vase = 1, las variables (X - x)/x y Z x (Y - y )/x y Zy = (Y (vase verifican que Apartado 3.4) - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx es decir, Zx var(Zx Zy ) = var(Zx ) + var(Zy ) 2cov(Zx , Zy ) = 2(1 xy ) = 0; - Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal es decir, Zx Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx Zy = es decir, Zx Z es una + / las variables X Y presentan -1, relacin lineal E(Zx Zy) = 0,- loy que = variable xaleatoria De igualeforma, si xy =una su valor esperado, Zx positiva perfecta, Y implica yque(X - x). degenerada (constante) en se cumple que positiva y perfecta, Y = y + y/x(X x). De igual forma, si xy = 1, se cumple que - Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal var(Zx + Zy ) = var(Zx ) + var(Zy ) + 2cov(Zx , Zy ) = 2(1 + xy ) = 0 positiva Z + Z Y = + y/x aleatoria constante igual a xy = -1, se cumple + y, por tanto,perfecta,es una yvariable (X - x). De igual forma, si su valor esperado, ZqueZ = E(Z
x y x y

Coeficiente de correlacin

(a) xy = 0,70

(b) xy = 0,50

(c) xy = 0,30

x (d) xy = -0,70

x (e) xy = -0,50

x (f) xy = -0,30
Figura 10.1

Figura 10.1 Diagramas de dispersin entre dos variables aleatorias X e Y con coeficientes de correlacin positivos xy = 0,70 (a), 0,50 (b) y 0,30 (c), as como con coeficientes de correlacin negativos xy = 0,70 (d), 0,50 (e) y 0,30 (f).

(a) xy = 0,70

(b) xy = 0,50

x (c) xy = -0,70

x (d) xy = -0,80
Figura 10.2

Figura 10.2 Diagramas de dispersin, coeficientes de correlacin y rectas de regresin entre dos variables aleatorias X e Y con distintas pendientes de la recta de regresin (paneles a y b) y distintas formas de la relacin subyacente (paneles c y d).
Pastor-Barriuso R. 157

Una vez descritas las propiedades e interpretacin del coeficiente de correlacin

poblacional, en este apartado se presentan los mtodos para estimar el coeficiente de Correlacin y regresin lineal AS DE TENDENCIA CENTRAL simple correlacin entre dos variables X e Y a partir de los valores observados de ambas

de tendencia central informan acerca de cul es el valor ms representativo variables (xi, yi) en una muestra de n sujetos mutuamente 10.2.1 Coeficiente de correlacin muestral de Pearson independientes, i = 1, ..., n.

minada variableUna vez descritas las propiedades e interpretacin del coeficiente de correlacin poblacional, o, dicho de forma equivalente, estos estimadores indican El estimador muestral ms utilizado para evaluar la dependencia lineal entre dos en este apartado se presentan los mtodos para estimar el coeficiente de correlacin entre dos qu valor se agrupan los X e Y a partir de los valores observados de ambas variables (x , y ) en una muestra de variables datoseobservados. Las medidas de tendencia variables X Y es el coeficiente de correlacin muestral de Pearson, que se denota por i i n sujetos mutuamente independientes, i = 1, ..., n. muestra sirven tanto para resumir los resultados observados como para rxy,estimador muestral ms se define para evaluar la dependencia lineal entreYdos variables X El o simplemente por r, y utilizado como la covarianza muestral entre X e dividida e Y es el coeficiente de correlacin muestral de A encias acerca de los parmetros poblacionales correspondientes.Pearson, que se denota por rxy, o simplemente porpor y se define de sus la covarianzatpicas muestrales, e Y dividida por el producto de sus r, el producto como desviaciones muestral entre X desviaciones estimadores de la se describen los principales tpicas muestrales,tendencia central de una n 1 n ( x i x )( y i y ) ( xi x )( y i y ) n 1 i =1 i =1 , r= = n n sx s y ( xi x ) 2 ( y i y ) 2 aritmtica
i =1 i =1

mtica, denotada por x ,yse xdefine como la y la desviacin tpicalos donde s son la media suma de cada uno de muestral de X y y y sy son la media y la donde x y sx muestral de y As, el coeficiente de correlacin y y y s son la media y desviacin tpicason la media Y. la desviacin tpica muestral de Xmuestralyde Pearson se define trales dividida porforma anlogaobservaciones realizadas. Si denotamos reemplazando la covarianza y las de el nmero de al coeficiente de correlacin poblacional, desviaciones tpicas poblacionales Y. As, el coeficiente de correlacin muestral de Al igual la desviacin tpica muestral de por sus correspondientes estimadores muestrales. que el valor observado para el sujeto i-simo, = 1, ..., n, o muestral y por xiel coeficiente de correlacin poblacional, iel coeficiente de correlacin muestral siempre toma valores entre deyforma anloga al que cuanto ms se aproxime a 1 1, mayor ser la Pearson se define 1 1, de tal forma coeficiente de correlacin poblacional, dra dada por dependencia lineal positiva o negativa entre las variables. reemplazando la covarianza y las desviaciones tpicas poblacionales por sus Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersin entre el ndice de x + x + ... + x n 1 n x = masai corporal,2medida de. obesidad queAl igual que el coeficiente de correlacin por la correspondientes estimadores muestrales. se obtiene de dividir el peso en kilogramos x = 1 n n i =1

1,5 Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersin entre el no ser un fiel reflejo de la tendencia central de la distribucin.

ndice de masa corporal, medida de obesidad que se obtiene de dividir el peso en o 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
1

n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del European Study on Antioxidants, Myocardial Infarction and Cancer of 0,5

Colesterol HDL (mmol/l)

poblacional, el coeficiente de correlacin muestral siempre toma valores entre -1 y 1, de 2,25 es la medida de tendencia central ms utilizada y de ms fcil tal forma que cuanto ms se aproxime a 1 -1, mayor ser la dependencia lineal 2 n. Corresponde al centro de gravedad de los datos de la muestra. Su positiva o negativa entre las variables. itacin es que est muy influenciada por los valores extremos y, en este

ast (EURAMIC), un estudio multicntrico de casos y controles realizado 0,25


32 36

991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los 20 24 28
Indice de masa corporal (kg/m)

Figura 10.3 Figura 10.3 Diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL en el grupo control del estudio EURAMIC.

158

Pastor-Barriuso R.

que indica una asociacin lineal negativa moderada entre el ndice de masa controles del estudio EURAMIC con valores para ambas variables. A simple corporal y el colesterol HDL. Coeficiente vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas de correlacin variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice altura en metros al cuadrado, y el colesterol HDL en los 533 controles del estudio [Figura 10.3 aproximadamente aqu] de masa corporal. Esta para ambas variables. A simple vista, se aprecia un cierto grado EURAMIC con valoresapreciacin visual se confirma mediante el clculo del de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a coeficiente de de correlacin de Pearson tiene decrecer conforme aumenta elrndicede Pearson, una distribucin muestral tanto confirma El coeficiente correlacin muestral de masa corporal. Esta apreciacin visual se ms mediante el clculo del coeficiente de correlacin muestral de Pearson, asimtrica cuanto ms distante est la correlacin subyacente del valor 0. Cuando 1 533 ( xi x )( y i y ) 0,285 532 i =1 est relativamenterprximo a 1 -1, las estimaciones muestrales0,276, = = = del coeficiente de sx s y 3,50 0,295 correlacin tendern por fuerza a desviarse ms del parmetro en la de masa corporal y el que indica una asociacin lineal negativa moderada entre el ndice cola que no est que indica una asociacin lineal negativa moderada entre el ndice de masa colesterol HDL. limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con El coeficiente el colesterol HDL. Pearson tiene una distribucin muestral tanto ms asimtrica corporal y de correlacin r de un marcado sesgo negativo o positivo. Por ello, del valor 0. Cuando de relativamente cuanto ms distante est la correlacin subyacente el clculo de un intervaloestconfianza prximo a 1 1, las estimaciones muestrales del coeficiente de correlacin tendern por fuerza y un test de hiptesis para no la cola que no a partir de la distribucin [ 1, 1] de valores a desviarse ms del parmetro ensuele realizarse est limitada por el rango muestral de r, [Figura 10.3 aproximadamente aqu] posibles de r, resultando en una distribucin con un marcado sesgo negativo o positivo. Por sino mediante un intervalo de confianza y un ello, el clculo dela transformacin z de Fisher test de hiptesis para no suele realizarse a partir de la distribucin muestral de r, sino mediante la transformacin z de Fisher El coeficiente de correlacin r de Pearson tiene una distribucin muestral tanto ms 1 1 + r z = log , asimtrica cuanto msy el tamao muestral2no es1muypequeo,del valor 0. Cuando r del modelo normal distante est la correlacin subyacente tpicamente n > 50, la cuya distribucin muestral presenta una mayor simetra para cualquier valor de . Puede est relativamente z distribuciones poblacionales de las variables X coeficiente de media estimaciones muestrales del e normal transformacin prximo a se -1, lasuna mayor simetra para cualquier valorcon . Puede probarsedistribucinde Fisher 1 distribuye de forma aproximadamente Y no distanmucho del cuya que si las muestral presenta de modelo normal y el tamao muestral no es muy pequeo, tpicamente n > 50, la transformacin la que correlacin tendern)}/2 y forma desviarse ms log{(1 + distribuye fuerza a aproximadamente las variablesen e Y log{(1 +no est z de Fisher se)/(1si laspordevarianza 1/(n - 3), del parmetro mediacola distan)/(1 )}/2 y probarse que - distribuciones poblaciones de normal con X no mucho varianza 1/(n 3), limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con 6 1 + 1 ~ 1 . , z N log 2 ello,1el clculo de un intervalo de confianza un marcado sesgo negativo o positivo. Por n 3
Notar que lahiptesis para es no suele realizarse a partir de la distribucin muestral de r, y un test de varianza de z inversamente proporcional al tamao muestral e independiente de Notar que subyacente . la correlacinla varianza de z es inversamente proporcional al tamao muestral e

sino mediante la transformacin z de Fisher independiente de laLas Figuras 10.4(a) y (b) .muestran las distribuciones del coeficiente de Ejemplo 10.2 correlacin subyacente correlacin r de Pearson y de la transformacin z de Fisher entre el ndice de masa corporal 1 1 + r y el colesterol HDL en 1000 muestras aleatorias simples de tamao 50 obtenidas a partir , z = log (b) r de Ejemplo 10.2 del estudio EURAMIC. La distribucin muestral de r presenta un leve los controles Las Figuras 10.4(a) y 1 muestran las distribuciones del coeficiente 2 sesgo positivo ya que el percentil 75 ( 0,18) est ligeramente ms alejado de la mediana de correlacin r de Pearson y de Para corregir esta leve asimetra, la transformacin z ( 0,28) que el percentil 25 ( 0,36). la transformacin z de Fisher entre el ndice de cuya distribucin muestral presenta una mayor simetrarpara cualquier valor(cola .inferior de la de Fisher aumenta la dispersin de los valores de ms distantes de 0 de Puede masa corporal y el colesterol HDL en 1000 muestras aleatorias simples de tamao distribucin) y mantiene virtualmente constantes los valores prximos a 0 (cola superior), probarse quelugar as a una distribucin sensiblemente ms simtrica. distan mucho dando si las distribuciones poblaciones de las variables X e Y no 50 obtenidas a partir de los controles del estudio EURAMIC. La distribucin 6 En este ejemplo, la distribucin muestral del coeficiente de correlacin r de Pearson presenta unade r presenta un leve sesgo positivo subyacente 0,276 en todos los controles muestral leve asimetra ya que la correlacin ya que el percentil 75 (-0,18) est del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlacin subyacente sea alta, la distribucin muestral de r ser notablemente asimtrica y, en ligeramente ms alejado de la mediana (-0,28) que el percentil 25 (-0,36). Para consecuencia, el efecto normalizador de la transformacin z de Fisher ser mucho ms marcado. esta leve asimetra, la transformacin z de Fisher aumenta la dispersin corregir

de los valores de r ms distantes de 0 (cola inferior de la distribucin) y Pastor-Barriuso R. mantiene virtualmente constantes los valores prximos a 0 (cola superior), dando lugar as a

159

Correlacin y regresin lineal simple

20 Frecuencia relativa (%) 15 10 5 0

20

[Figura 10.4 aproximadamente aqu] 15


10 5

En base a la distribucin muestral de la transformacin z de Fisher, el intervalo de

confianza al 100(1 - )% para el parmetro log{(1 + )/(1 - )}/2 viene dado por [Figura 10.4 aproximadamente aqu] 0 1 (z1 -0,8 -0,6 -0,4 -0,2 , z2)0= z z1 / 2 0,2 -0,8 , -0,6 -0,4 -0,2 0 0,2 n 3 z de Fisher, el intervalo de En base a la distribucin muestral de la transformacin 1 1+ r
(a) r
(b ) z =
Figura 10.4 Distribucin muestral del coeficiente de correlacin r de Pearson (a) y de la transformacin [Figura 10.4 aproximadamente aqu] z de Fisher (b)de confianza al 100(1 corporal y el colesterol HDL en 1000 muestraspoblacional intervalo entre el ndice de masa - )% para el coeficiente de correlacin aleatorias simples de 1 tamao 50 obtenidas a partir de los controles = zestudio EURAMIC. Las lneas verticales en trazo discon, (z1, z2) del z1 / 2 tinuo representan los parmetros subyacentes = 0,276 y log{(1 + )/(1 )}/2 = 0,284. n3

confianza al 100(1 - )% 1 - el de la distribucin )/(1 )}/2 viene dado por donde z1-/2 es el percentilpara/2parmetro log{(1 +normal- estandarizada. As, el

log 1 r

se obtiene de aplicar el inverso de la transformacin de Fisher a Fisher, el intervaloFigura 10.4 En base a la distribucin muestral de la transformacin z de ambos lmites del de

intervalo,/2 es el percentilpara/2parmetro log{(1 +normal- estandarizada. As, de confianza confianza la distribucin 1 - el de la transformacin z de )}/2 el intervalo el donde z1-a al 100(1 - )%muestral de la distribucin )/(1 Fisher,viene dado por En base al 100(1 )% para el parmetro log{(1 + )/(1 )}/2 viene dado por intervalo de confianza al 100(1exp()% para el coeficiente correlacin poblacional 1 - 2 z1 ) 1 exp(2 z 2 ) 1 de , (z1 , z2 ) = z ,z1 / 2 exp(2 z ) + 1 exp(2 z n) 3 . 1 2 + 1 de la transformacin de Fisher a ambos lmites del se obtiene de aplicar el inverso donde z1/2 es el percentil 1 /2 de la distribucin normal estandarizada. As, el intervalo de intervalo, /2 es el es tanto coeficiente de alrededor de la estimacin puntual r confianzazal100(1 percentil 1elms de la distribucin normal estandarizada.obtiene de aplicar donde 1Este intervalo para)% para - /2 asimtrico correlacin poblacional se As, el el inverso de la transformacin de Fisher a ambos lmites del intervalo, intervalo de confianza al 100(1exp()% )menor sea2el tamao muestral. Asimismo, el cuanto mayor sea r en valor absolutozypara el coeficiente correlacin poblacional - 2 1 1 exp( z 2 ) 1 de exp(2 z ) + 1 , exp(2 z ) + 1 . 1 2 : = frente a la hiptesis alternativa bilateral H se obtiene de aplicar el inverso 0de la transformacin de Fisher a ambos lmites del 1: contraste de la hiptesis nula H 0 Este intervalo para es tanto ms asimtrico alrededor de la estimacin puntual r cuanto mayor intervalo, absoluto el estadstico sear enintervalo para yes tanto sea el tamao muestral. Asimismo, el contraste de la hiptesis Este realiza mediante menor ms asimtrico alrededor de la estimacin puntual r 0 se valor nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0 se realiza mediante el estadstico cuanto mayor sea r en valor absolutozy )menor sea2el2 tamao muestral. Asimismo, el exp(2 1 1 exp( z ) 1 1+ 1 exp(z ) + 1 ,exp(20z ) + 1 . 2 z1 2 log 1 2 : = frente a la0hiptesis alternativa bilateral H : contraste de la hiptesis nula H0 0 1 , 1 0 se intervalo para es tanto ms asimtrico alrededor de la estimacin puntual r Este realiza mediante el estadstico n3
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. El valor P del cuanto mayor sea r en valor absoluto y menor sea el tamao muestral. Asimismo, el contraste se H0 sigue por tanto, como el una distribucin normal estandarizada. Elpara aquellos 1 la 0 que bajo calcula, aproximadamente rea bajo + curva normal estandarizada valor P 1 log z valor observado del estadstico. 1 valores tanto o ms distantes de 0 que el 2 contraste de la hiptesis nula H0: = 0 frente la0hiptesis alternativa bilateral H1: a , del contraste se calcula, por tanto, como el rea bajo la curva normal estandarizada para 1 Ejemplo A partir de 533 controles la 0 se realiza10.3 tanto o ms distantes de del estudio EURAMIC,delestimacin puntual del mediante el estadstico 3 valor observado aquellos valores correlacin entre el ndice 0nque el corporal y el colesterol HDL fue r = 0,276. estadstico. coeficiente de de masa La transformacin z de Fisher de esta correlacin es z = log{(1 0,276)/(1 + 0,276)}/2 = 0,284. Para H0 sigue aproximadamente intervalo + la normal estandarizada. entre ambas 1 de 0 que bajoobtener una estimacin por una distribucincorrelacin subyacente El valor P 1 log Ejemplo 10.3 A partir de 533zcontroles del estudio EURAMIC, la estimacin 1 2 0 , del contraste se calcula, por tanto, como el rea bajo la curva normal estandarizada para puntual del coeficiente de correlacin1 entre el ndice de masa corporal y el Pastor-Barriuso R. 3 aquellos valores tanto o ms distantes de 0nque el valor observado del estadstico. 8

160

referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el 1 = -0,284 1,960,043 = (-0,369; -0,199) 0,284 z 0,975 intervalo de la correlacin533 3 subyacente entre ambas variables en la poblacin de parmetro log{(1 + )/(1 - )}/2 como Coeficiente de correlacin referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos 1 = -0,284 1,960,043 = (-0,369; -0,199) 0,284 z 0,975 parmetroen la poblacin de )}/23como del estudio EURAMIC, se calcula en primer lugar log{(1 + )/(1 - referencia variables 533 lmites 95% para el el IC al del intervalo parmetro log{(1 + )/(1 )}/2 como asociacin lineal subyacente entre ambas variables. Adems, las inferencias basadas en 1 y, a continuacin, z aplica el inverso0,284 1,960,043 = ( 0,369; 0,199) se 0,284 (,0,369)} 1 exp{2(0,199)} 1 = de la transformacin de Fisher a ambos 0 975 exp{2 Fisher del coeficiente de correlacin muestral asumen que las la transformacin de 533 , 3 = (-0,353; -0,196). lmites del exp{2(0,369)} + 1 exp{2(0,199)} + 1 intervalo y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos lmites del variables se distribuyen de forma aproximadamente normal y que el tamao muestral es intervalo y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos Notar que exp{2(0,369)} 1 exp{2(0,199dondeexista respecto evidencia en el grande. resultante situaciones )} 1 suficientemente intervaloEn aquellases ligeramente asimtrico una clara a la lmites delintervalo0,369)} + 1 , exp{2(0,199)} + 1 = ( 0,353; 0,196). exp{2( estimacin puntual r = -0,276. Para contrastar la hiptesis de ausencia de contra de la normalidad, o bien cuando la muestra sea muy pequea, estas inferencias Notar que el intervalo resultante es ligeramente asimtrico respecto a la estimacin asociacin intervalo ambas variables 0,199)} 1 calcula el estadstico puntual r exp{ (0,369)} 1 , es ligeramente asimtrico paramtricos. Notar que =lineal2entreresultante exp{2(utilizar=mtodos (-0,353; -0,196). En este entre el engaosas y contrastar la hiptesis se respecto a la pueden resultar 0,276. Para es preferible H0: 0,de ausencia de asociacin lineal exp{2(0,369)} + 1 exp{2(0,199)} + 1 = no ambas variables H0: = 0, se calcula el estadstico estimacin puntual rcoeficienteParacorrelacin la hiptesis dede Spearman como un apartado se presenta el = -0,276.0,284 contrastar=de6,53,rangos ausencia de de 533 3 los Notar que el intervalo resultante es ligeramente asimtrico respecto a la asociacin no paramtrico P variables bajo existencia de unael estadstico que corresponde entre ambas bilateral H0: la 0, se calcula relacin montona procedimientolineal a un valor para detectar la =distribucin normal estandarizada 2P(Z que corresponde a r -0,276. Para contrastar la hiptesis normal lineal 6,53) = 2F( 6,53) < 0,001. bilateral bajo la distribucin de ausencia de moderada pero estimacin puntualun=valor P En conclusin, existe una asociacinestandarizada significativa entre el aunque no necesariamenteel colesterol dos con un y lineal) (creciente o decreciente,ndice de masa corporal = -6,53, entreHDLvariablescoeficiente de -0,284 533 3 correlacinlineal0,28 (IC al< 0,001. En a :0,20;0, se 0,001). elasociacin lineal de (-6,53) 95% 0,35 H = P calcula 2P(Z -6,53) = 2entre ambas variables conclusin,<existe una estadstico asociacin 0 cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no moderada pero de un valor P bilateralrangos distribucin normal estandarizada 10.2.2que corresponde a correlacin de losndice dede Spearman y el colesterol HDL Coeficiente significativa entre el bajo la masa corporal -0,284 ordinales. normales o incluso variables cualitativas533 3 = -6,53, Al igual que la media y de correlacin deEn conclusin, existe una -0,20; P < 0,001). la desviacin tpica muestral, el coeficiente de correlacin de Pearson es con un coeficiente (-6,53) < 0,001. -0,28 (IC al 95% -0,35 a asociacin lineal 2P(Z -6,53) = 2 sensible a la presencia de valores extremos en dos variables variables, que podran distorsionar la Si se desea determinar el grado en que alguna de las se relacionan de forma que correspondeno un valor P bilateralbuen reflejo de la asociacin estandarizada a siendo entonces un bajo la estimacin resultante, significativa entre el ndice de distribucin normalcolesterol HDL entre moderada pero masa corporal y el lineal subyacente ambas variables. Adems,ninguna asuncin sobre en distribucin poblacional de ambas las inferencias basadas la la transformacin de Fisher del coeficiente montona sin realizar 10.2.2 Coeficiente de 2 (-6,53) de los rangos de Spearman asociacin lineal 2P(Z -6,53) = correlacin las variables se distribuyen de forma aproximadamente de correlacin muestralasumen < 0,001. En conclusin, existe una -0,20; P < 0,001). que con un coeficiente de correlacin de -0,28 (IC al 95% -0,35 a normal y que basta con utilizar eles suficientemente grande. En aquellas situaciones donde exista el tamao muestral las observaciones de cada variable en lugar Al variables, la mediasignificativaorden de ndice de masa corporal yde correlacin de de igual que el coeficiente el moderada pero y la desviacin tpica muestral,cuando la muestracolesterolpequea, estas entre el una clara evidencia en contra de la normalidad, o bien sea muy HDL inferencias puedenvalores. As, a y es preferible utilizar mtodos no rangos funcin sus verdaderos resultar engaosasvalores extremos en alguna lasi yparamtricos. En este Pearson es sensibledela de correlacinsujeto se le de al 95% -0,35de-0,20; si en0,001). a correlacinde de -0,28 asignan 10.2.2con un coeficiente presenciacada los rangoslos rangoslos Spearman variables, que de Coeficiente el coeficiente de correlacin de(IC Spearman a r como un procedimiento de P< apartado se presenta de no paramtrico para detectar la existencia valores observados xi e yi dentro de la o decreciente, de una relacin montona (creciente podran distorsionar layestimacin resultante, no siendo entonces un buen reflejo muestra Al la posicin que ocupan desviacin tpica muestral, elcualesquiera,de correlacinserlavariables igualno necesariamentesus respectivos variables coeficiente que pueden de que la media la lineal) entre dos de aunque continuas con distribuciones subyacentes En incluso variables cualitativas ordinales. 10.2.2 Coeficiente de correlacinX e losno normalesSpearman varias observaciones ordenada ascendentemente por de Y. rangos de o en alguna de Pearson es sensible a la presencia de valoresel caso de que existan las variables, que extremos 9 Si se desea determinar el grado en que dos variables se relacionan de forma montona sin Al igual ninguna valoryde una variabletpica muestral, el coeficiente de correlacin debasta con la sobre con elque la media estimacin la distribucinsiendo entonces un buen ellas la de la de mismo asuncindesviacin (empates), se asigna a cada ambas variables, una de reflejo media realizar podran distorsionar la resultante, no poblacional de utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. As, Pearson es sensible a la presencia de valores extremosde la posicin quevariables, que los sujeto correspondientes. El coeficiente de correlacin rs de Spearman se calcula a cada rangosse le asignan los rangos ri y si en funcin en alguna de las ocupan sus respectivos el valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En 9 caso podranexistan variasla el coeficiente con el mismo valorentonces un buen reflejo de se asigna a distorsionar estimacin resultante, no siendo de una variable (empates), la simplemente comoobservaciones de correlacin de Pearson reemplazando los valores de que cada una de ellas la media de los rangos correspondientes. El coeficiente de correlacin rs de observados (xi, yi por sus correspondientes rangos de si), Spearman se calcula)simplemente como el coeficiente (ri, correlacin de Pearson reemplazando 9 los valores observados (xi, yi) por sus correspondientes rangos (ri, si), rs =

(r
i =1

r )( s i s )

(r
i =1

r)2

(s
i =1

s)2

Pastor-Barriuso R.

161

10

= la los Y presentan una montonaque xi < ,valores observadosforma, variables variable Y preservanrelacin n + i= yi < yj; es creciente verifican decir, los perfecta. De igual de las si rs de-1, X e rangos verifican que sla clculo del correlacinde sus correspondientes valoressimplifica ya que la que lculo del coeficiente decoeficiente xjdecorrelacin se simplifica notablemente notablemente yadicho orden Spearman de Spearman se

1i - ry de creciente perfecta. los valores de las rs = -1, los e Y presentan una relacin montona y < i, los rangos simple Correlacinjy donde se deduce queDe igual forma, si variables X rangos verifican que si = n + varianza de regresin lineales varianza de los rangos es; es decir, los valores observados de las variables X e Y presentan una relacin

montona decreciente perfecta. Cuando rsde 0, los rangos X e Y incorrelacionados = n 1 - ri, de donde se deduce que los valores = si variables estn presentan una relacin montona creciente perfecta. De igual forma,las rs = -1, los rangos verifican que si y no+ 1 n n 1 n 1 n 1 (ri medios son r 2 2 donde losrelacinr montona ( s)i = =entre (valores de ambas variables. rangos ) 2 = (ri alguna s )= (nlos 1)/2.s ) 2 coeficiente de correlacin de Spearman existe decrecienteperfecta. Cuando + si El montona r 1 n ri,1de1 donde sededucei =que los valores sde 0, los rangos X e Y presentan una relacin - i= n entre 1 n = =1 = las variables estn incorrelacionados y no siempre toma valores 1ni =1 1 1 y 1. Si r 1 i1, los rangos son necesariamente idnticos si = ri, de s 2 2 n tal existe el caso de que no haya valoresidnticos 1dede ambas+variables. las que xi < xel sus formarelacin dos observaciones + 1 los (n + (empates)(n 1) X verifican variables, j, variable n+ ) Cuandon En que si montona algunan cualesquiera los la = n estn incorrelacionados y no montona decreciente1perfecta. =entre snvalores1 rangos en ninguna de i 0, = de variableY =r = i correspondientes valores 1 i =la n 1 preservan 12 n 2 i =1 12 2 dicho orden yi < yj; es decir, los valores 1 observadosdel coeficiente de alguna entrede una relacin ambas variables.de las variables, el de las variables hayaYvalores idnticos (empates) en ninguna Xcorrelacin los valores de montona creciente perfecta.que la e presentan Spearman se simplifica notablemente ya De igual clculo caso de que no En relacin montona existe el forma, si rs = 1, los rangos verifican que si = n + 1 ri, de donde se deduce que los valores de y las varianza dees presentan y su covarianza su covarianzaX losYrangos es una relacin montona decreciente perfecta. Cuando r = 0, los es variables e s clculo del coeficiente de correlacinidnticos (empates) en ninguna de las variables, el En el caso de que no haya valores de Spearman se simplifica notablemente ya que la rangos estn incorrelacionados y no existe relacin montona alguna entre los valores de ambas n 1 1 1 nvariables. deln coeficiente1esn correlacin de1 n 2 2 se simplifica notablemente ya que la 1 varianza clculo de los rangos de n Spearman (= s = r r ) + ( s i r ) s (r 2s i 2 ) (ri r )( s i s ) ri r )( s i ){( ri r ) 22 = {(i s (r ) +i )( is) s}2 (ri s i ) 2 } En elncaso que(nohaya= ( 2(n 1) i =1 (empates) en ninguna de las variables, el clculo i 1 i =1 n 1 i =1 )i de 2 n n1 1 1valores idnticos i s n 1 i =1 es i =1 Spearman n delvarianza de loscorrelacin nde 1 (n + n ) se simplifica notablemente ya que la varianza de los coeficiente de rangos1 n 1 1 1n 2 n 2 2 2 n(n + 1) = = (ri r ) 2 =i 1 s sn ri 1 s i ) n(n + 1) (r i ) ( i ( + . rangos es n i1 = s ) = . 12 12n 1 i =1(n 1) i =1= n 2(1 1)i i1 2 = n 1 1 i =1 n 2 12 1 n n s+ (ri r ) 2 = 1 ( si n ) 21 2 n(n + 1) = n 1 i n 1 i =1 = i =1 Aplicando ambos resultados, de correlacinn 1 i =1 Aplicando ambos resultados, el coeficiente el coeficiente decorrelacin2deSpearman se reduce a de Spearman se reduce 12 a 2 y su covarianza es n(n + 1) 1 n n +1 = i 2 = 12 n ni n 6 2 1 n=1 6 y su covarianzan 1 1 ( s 1 rs = 1 es 2 rs = ri 2 i ) , (ri s i ) 2 ,2 2 2 y su covarianza es (ni(n r 1)i i1 s )n(n 1) i = {( ri r ) + ( s i s ) (ri s i ) } r )(s = = 2(n 1) 1i =1 n 1 i =1 y su covarianzanes n 1 1 n = n( + {( r1 r ( i s ) (remplearse cuandonno 1) empates.) 2 +r(i s i s 2).2 (ri si ) 2 } i r )( s i s ) = i frmula que slo puede rmula que slo puede emplearsei =cuando no hay empates. 1) i =1 n 1 1 2(n hay 2(n 1) 12 n i =1 1 n 1 n (ri r )( s i s ) = n(n + 1) {( r1 r ) 2 + ( s i s ) 2 (ri s i ) 2 } i = 2 presentan n 1 i =1 (r s i ) 2 . i= Ejemplo10.4 En la Tabla 10.1 se(n 1) 1 2(los niveles ide -tocoferol y 12 n 1) i =1 Aplicando ambos resultados, el coeficiente de correlacin de Spearman se reduce a n n(n + 1) 1 2 = se presentan los niveles iSpearman se reduce a 11 ( -tocoferol Aplicando ambos resultados, el coeficiente de aleatoria der10 controles delyestudio correlacin de de s i ) . 11 Ejemplo 10.4 En adiposo en una muestra 2(n 1) i =1 caroteno en tejidola Tabla 10.1 12 Aplicando ambos resultados, el coeficiente de correlacin de Spearman se reduce a n 6 = 1 rrangos correspondientes ade 210 controlesambas sen una muestra aleatoria s ilos ,valores de del estudio (ri ) EURAMIC, tejido con los caroteno en junto adiposo n(n 2 1) i =1 Aplicando ambos resultados, el coeficiente de correlacin de Spearman se reduce a n 6 2 frmula que slo puede emplearse= 1 correspondientes acorrelacin de Spearman se cuando coeficiente ) empates. variables. A partir conestosrangos elno hay (ri des ilos ,valores ambas EURAMIC, junto de los rsrangos, 2 n(n 1) i =1 frmula que slo puede emplearse cuando no hay empates. n 6 r = 1 se presentan los i ) 2 , de a-tocoferol y b-caroteno en calcula comopartir de estoss rangos, el 2coeficiente descorrelacin de Spearman se variables. A Ejemplo 10.4 En la Tabla 10.1 (ri niveles n(n 1) i =1 tejido adiposo puede muestra aleatoria no hay empates. frmula que slo en una emplearse cuando de 10 controles del estudio EURAMIC, junto con calcula como los rangos correspondientes a los valores de ambas variables. A partir de estos rangos, el 1 10 coeficiente de puede emplearse r )( s i se) hay empates. frmula que slo correlacin derSpearman no calcula como ( i cuando s 11 5,06 9 i =1 10 rs = = 0,552, = 1 3,03 3,03 1 10 (ri r )( s10 s ) 1 i 2 11 ( (si s ) 2 5,06 9 rii=1 r ) = 0,552, rs = 9 i =1 9 i =1 = 3,03 3,03 1 10 1 10 11 (ri r ) 2 (si s ) 2 9 i =1 9 i =1 o de forma equivalente mediante la frmula simplificada en ausencia de empates o de forma equivalente mediante la frmula simplificada en ausencia de empates o de forma equivalente mediante la frmula simplificada en ausencia de empates 6 6 74 rs = 1 {(7 3) 2 + ... + (6 6) 2 } = 1 = 0,552, 2 10(10 2 1) 10(10 1) 6 6 74 2 = 0,552, {(7 3) 2 + ... + (6 6 creciente rs = una que refleja 1 fuerte relacinmontonamente ) } = 1 entre2 los niveles de a-tocoferol 2 10(10 1) 10(10 1) y b-caroteno. Cabe destacar que esta estimacincreciente entre los niveles de - extremo que refleja una fuerte relacin montonamente no esta influenciada por el valor 1,46 mg/g de b-caroteno ya que el rango de esta observacin continuara siendo 10 para cualquier y una arbitrariamentemontonamente estimacin no esta influenciada por que refleja -caroteno. Cabe destacar que los creciente entre los niveles de tocoferol valor fuerte relacin mayor que estadems.
162 Pastor-Barriuso R. extremo 1,46 g/g dedestacar queya que el rango de esta observacin tocoferol el valor y -caroteno. Cabe -caroteno esta estimacin no esta influenciada

por

el valor extremo 1,46 para de -caroteno arbitrariamente mayor que los dems. continuara siendo 10 g/g cualquier valorya que el rango de esta observacin

Coeficiente de correlacin

Tabla 10.1 -tocoferol y -caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio EURAMIC.
-tocoferol Control Valor (g/g) Rango (ri) -caroteno

t= 1 163,8 7 0,14 3 110 rs2 2 331,9 0,45 8 3 125,1 0,07 1 n4 2 4 42,9 1 0,44 7 5 211,0 8 1,46 10 sigue aproximadamente una distribucin t de Student con n - 2 grados de libertad,4 6 115,9 2 0,18 7 128,6 5 0,37 5 8 271,0 9 0,66 9 siempre que el tamao muestral sea n > 10. As, el valor P bilateral del contraste puede 9 118,8 3 0,11 2 10 128,7 6 0,40 6 aproximarse mediante el rea bajo la distribucin t para valores tanto o ms alejados
n-2

rs

Valor (g/g)

Rango (si)

de Al igual valor otros procedimientos no t. Aparte del mnimo requerimiento muestral,de los 0 que el que observado del estadstico paramtricos, el coeficiente de correlacin rangos de Spearman permite contrastar la hiptesis nula de ausencia de asociacin montona entrecontraste tiene Bajo esta hiptesis nula, se ha aplicarse a cualquier distribucin correlacin este dos variables. la ventaja adicional de poder comprobado que el coeficiente de rs de Spearman tiende a distribuirse de forma normal o, ms concretamente, que el estadstico rs subyacente de las variables X e Y, a diferencia del contraste paramtrico basado en el t= 1 rs2 coeficiente de correlacin de Pearson que requiere de distribuciones poblacionales n2 sigue aproximadamente una distribucin t de Student con n 2 grados de libertad, siempre que aproximadamente normales. el tamao muestral sea n > 10. As, el valor P bilateral del contraste puede aproximarse mediante sigue aproximadamente una distribucin t de Student con n - 2 grados de libertad, el rea bajo la distribucin tn2 para valores tanto o ms alejados de 0 que el valor observado del estadstico t. Aparte del mnimo requerimiento muestral, esteP-tocoferol ycontraste puede Ejemplo el tamao las distribuciones subyacentes del bilateral del el siempre que10.5 Comomuestral sea n > 10. As, el valor contraste tiene la ventaja adicional de poder aplicarse a cualquier distribucin subyacente de las variables X e Y, a diferencia del contraste paramtrico 4.3) sonenbajo coeficiente de tn-2 para valores Pearsonms alejados de caroteno mediante el rea el la distribucin correlacin de tanto del estudio aproximarse(Figura basado marcadamente asimtricas en los controles o que requiere distribuciones poblacionales aproximadamente normales. de EURAMIC, elobservado bilateral de la hiptesis de no asociacin entre ambas 0 que el valor contraste del estadstico t. Aparte del mnimo requerimiento muestral, Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno variables a partir de los 10 adicional de poder aplicarse cualquier distribucin (Figura 4.3) son marcadamente asimtricas en 10.1 haade realizarse mediante el este contraste tiene la ventaja controles de la Tablalos controles del estudio EURAMIC, el contraste bilateral de la hiptesis de no asociacin entre ambas variables a partir de los 10 estadstico la variables ha Y, a diferencia del contraste paramtrico basado en el controles delas Tabla la correlacin de los rangos de estadstico subyacente debasado en10.1X e de realizarse mediante elSpearman basado en la correlacin de los rangos de Spearman coeficiente de correlacin de Pearson que requiere de distribuciones poblacionales rs 0,552 = = 1,87, t= 1 rs2 1 0,552 2 aproximadamente normales. 8 n2 que bajo la distribucin t de Student con 8 grados de libertad corresponde a un valor Ejemplo 10.5 Como aproximadodistribucin las distribuciones subyacentes del -tocoferol y elcorrelacin de que bajo la de P = 2P(t8de 1,87) = 0,098.grados de libertad corresponde a un t Student con 8 As, aunque el coeficiente de Spearman rs = 0,55 estima una fuerte relacin montonamente creciente entre los valores caroteno (Figura 4.3) son observados de a-tocoferol y marcadamente asimtricas en los controles estadsticamente esta asociacin no llega a ser del estudio valor aproximado de P = 2P(tb-caroteno, 0,098. As, aunque el coeficiente de 8 1,87) = significativa, probablemente debido a la escasa potencia del test para detectar cualquier EURAMIC, el contraste bilateral de la hiptesis asociacin subyacente con tan0,55 estima una fuertede no asociacin entre ambas correlacin de Spearman r = reducido tamao muestral. relacin montonamente
s

variables a partir de los 10 controles de la Tabla 10.1 ha de realizarse mediante el Cuando el tamaolos valoreses inferior o de -tocoferoldistribucin t de Student no es una creciente entre muestral observados igual a 10, la y -caroteno, esta buena aproximacin a la distribucin muestral del estadstico t y, en consecuencia, el contraste estadstico basado en la correlacin de los rangos de Spearman asociacin no llega a ser estadsticamente significativa, probablemente debido a la
Pastor-Barriuso R.

163

t=

rs 1 rs2

0,552 1 0,552 2

= 1,87,

dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribucin bajo la
Correlacin ynula del coeficiente hiptesis regresin lineal simple

de correlacin de Spearman, cuyos percentiles en 10.3 REGRESIN LINEAL SIMPLE

muestras de tamao n 10 se presentan en la Tabla 10 del Apndice. Para un contraste Las tcnicas de regresin evalan la del coeficiente variables siguiendo una debe basarse en la distribucin exactarelacin entre dosde correlacin de Spearman bajo la bilateral nula. Si no de significacin preestablecido, la hiptesis de no y los rangos hiptesiscon un nivelexiste ninguna relacin montona entre las variables, asociacin seri de la estrategia asumen constantes, la correlacin. Mientras que s coeficiente de correlacin variable X se de anlisis distinta a cualquier permutacin s1, ..., el de los rangos de la variable Y n rechazar si el coeficiente de correlacin viene dada por 1/n!. Haciendo uso de este resultado, es igualmente probable y su probabilidad rs de Spearman es inferior al percentil /2 o es determina el grado de asociacin bajo la hiptesis tratando ambas variables de forma de posible derivar la distribucin lineal entre X e Y nula del coeficiente de correlacin Spearman, percentil 1 - /2 de dicha tabla. de tamao n 10 se presentan en la Tabla 10 del superior al cuyos percentiles en muestras simtrica, la regresin lineal estudia la variacin significacin preestablecido, 10.3 REGRESIN LINEAL SIMPLE Apndice. Para un contraste bilateral con un nivel deen el nivel medio de la variablela hiptesis de no asociacin se rechazar si el coeficiente de correlacin rs de Spearman es inferior al respuesta o superiorvalor exacto de P para el contraste X, estableciendo as una Ejemplo medida que evalan relacin entre dos percentil /2 Y ade regresin cambia1la variable explicativabilateral de la hiptesis de no Las tcnicas10.6 El al percentil la /2 de dicha tabla. variables siguiendo una direccionalidad en la relacin entre dichas variables. Aunque en ocasiones la eleccin asociacin entre el valor a la y de P para el contraste bilateral de de correlacin estrategia de10.6 Eldistintaexacto el -caroteno vieneque elpor Ejemplo anlisis -tocoferolcorrelacin. Mientras dado coeficientela hiptesis de no asociacin entre el a-tocoferol y el b-caroteno viene dado por entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la determina el grado de asociacin ) + P(r 0,552|H ) = 2P(r 0,552|H ), de forma P = P(r 0,552|H lineal entre X e Y tratando ambas variables
s 0 s 0 s 0

asociacinla regresin lineal estudia lacoeficienteen el nivel medio suele variable simtrica ya que distribucin bajo y el -caroteno), direccionalidad de la establecerse de simtrica, entre el -tocoferol H0 del variacinlade correlacin de Spearman es ya que la de 0. Utilizando HTabla 10 del Apndice para n = 10, se tiene que alrededor distribucin bajo la 0 del coeficiente de correlacin de Spearman es el percentil forma natural medida que cambia la variable = o la naturaleza de las variablesuna Este valor rs;0,95 = 0,552, el propio diseo del estudio 2P(rs 0,552|H0) 20,05 = 0,10. respuesta Y a porde lo cual se deduce que P explicativa X, estableciendo as (por simtrica P es similar al valor aproximado 10 del Apndice para n de Student exacto de alrededor de 0. Utilizando la Tabla mediante la distribucin=t 10, se tiene en el ejemplo, losanterior. relacinen el colesterol HDL conforme aumenta el ndice de masa ejemplo cambios direccionalidad en la medios entre dichas variables. Aunque en ocasiones la eleccin que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs 0,552|H0) corporal). entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la 10.3 20,05 = 0,10. Este valor exacto de P es similar al valor aproximado mediante la REGRESIN LINEAL SIMPLE El modelo de el -tocoferol y el -caroteno), la direccionalidad respuesta Y cambia asociacin entre regresin lineal asume que la media de la variable suele establecerse de Las tcnicas de regresin evalanel ejemplo anterior. variables siguiendo una estrategia de distribucin t de Student en la relacin entre dos linealmente a la correlacin. Mientras X; esto es, para un valor fijo x de determina variable anlisis distintacon lael propio explicativa estudio coeficiente de correlacin la variable el grado forma natural por diseo del que el o la naturaleza de las variables (por de asociacin lineal entre X e Y tratando ambas variables de forma simtrica, la regresin lineal explicativa, el valor esperado de la variable respuesta es estudia la variacin en el medios en elde la variable respuesta Y a medida quendice de masa ejemplo, los cambios nivel medio colesterol HDL conforme aumenta el cambia la variable explicativa X, estableciendo as una direccionalidad en la relacin entre dichas variables. Aunque en ocasiones la eleccin entreE(Y|x) = 0 + 1x, la variable respuesta y explicativa es un tanto arbitraria corporal). 14 (por ejemplo, en la asociacin entre el a-tocoferol y el b-caroteno), la direccionalidad suele establecerse de forma natural lineal asume que la media de la variable respuesta Ylas variables El modelo de regresin por el propio diseo del estudio o la naturaleza de cambia donde 0 y 1 son la constante y en pendiente de HDL conforme aumenta el ndice de masa (por ejemplo, los cambios medios la el colesterol la recta de regresin, respectivamente. corporal). linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable La constante 0 determina la media de Y cuando X = 0, E(Y|0) = 0 + 10 = 0, y la El modelo de regresin lineal asume que la media de la variable respuesta Y cambia explicativa, el valor esperado de la X; esto respuesta valor fijo x de la variable explicativa, linealmente con la variable explicativa variablees, para un es pendiente 1 corresponde al cambio enes valor medio de Y por cada aumento de una el valor esperado de la variable respuesta el = 1) x, unidad en X, E(Y|x + 1) - E(Y|x) = E(Y|x)(x + 0 +-(10 + 1x) = 1. La especificacin del 0 + 1 donde 0 y 1 son la constante y la pendiente de la recta de regresin, respectivamente. La modelo00 determina la media de la cuando X = 0, E(Y|0) de regresin, 0, respuesta se constante seycompleta asumiendoyquependiente deindividuales 0 + variable y la pendiente 1 donde 1 son la constante Y los valores la recta = de la 10 = respectivamente. corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1) distribuyen forma normal alrededor Y especificacinE(Y|0) = 0 + completa asumiendo E(Y|x) = 0 + de (x determina + 1x) = deLacuando esperado definido por 10 recta dela La constante 1 0 + 1) (0 la media 1. del valor X = 0, del modelo se la = 0, y que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor delregresin. 1 correspondeporcambio del el valor medio de Yestructura aumentodel modelo de valor esperado definido al la recta de regresin. As, la por cada pendiente As, la estructura general en modelo de regresin lineal esgeneral de una regresin lineal es unidad en X, E(Y|x + 1) - E(Y|x) = 0 + 10 ++ 1) + ( ,0 + 1x) = 1. La especificacin del Y = (x 1 x -
donde el trmino de error aleatorio , que representa la desviacin de cada respuesta individual modelo se completa asumiendo que los valores individuales de la variable respuesta se 15 Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal con media 0 y

distribuyen de forma normal alrededor del valor esperado definido por la recta de
164 Pastor-Barriuso R.

regresin. As, la estructura general del modelo de regresin lineal es Y = + x + ,

individual Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal con media 0 y varianza 2. Por tanto, la regresin lineal establece que para Regresin lineal simple un valor fijo x de la variable explicativa, la variable respuesta Y sigue una distribucin normal con varianza 2. Por tanto, la regresin lineal establece que para un valor fijo x de la variable 2 media E(Y|x) = 0 + 1x + E( Y sigue 1x y varianza var(Y|x) con media E(Y|x) = 0 + 1x + explicativa, la variable respuesta ) = 0 + una distribucin normal= var() = , E() = 0 + 1x y varianza var(Y|x) = var() = 2, Y|x ~ N( 0 + 1 x, 2 ),
de donde se derivan las siguientes asunciones: de donde se derivan las siguientes asunciones: y Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de la variable explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de asocian con un mismo cambio en el valor medio de Y. y Homogeneidad de la varianza: La varianza de la variable respuesta Y es la misma para la variable explicativa X, de tal forma que cambios de magnitud constante a cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza de Y no est relacionada conasocian con un mismo cambio en el valor medio de Y. distintos niveles de X se X. y Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue unaHomogeneidad de la varianza: La varianza de la variable respuesta Y es la distribucin normal. Las asunciones para cualquier valor de la variable explicativa X; es decir, agrficamente en la misma subyacentes al modelo de regresin lineal se representan diferencia de la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su idoneidad debe ser varianza de Y no est relacionada con X. algunas de las cuales se presentan media, la evaluada utilizando tcnicas diagnsticas, al final de este tema. Normalidad Para un valor fijo de la variable condicional la variable respuesta En regresin lineal: simple se estudia la distribucinexplicativa X,de una variable respuesta continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto continua Y sigue una distribucin normal. de regresin lineal no establece ninguna asuncin como categrica ya que el modelo respecto a su distribucin. La extensin de estos modelos al anlisis de regresin lineal mltiple, Las asunciones subyacentes al modelo de regresin lineal se representan grficamente donde se consideran simultneamente dos o ms variables explicativas, se tratar en el Tema 11.

en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su idoneidad debe ser evaluada utilizando tcnicas diagnsticas, algunas de las cuales se presentan al final de este tema. [Figura 10.5 + 1x3 0 aproximadamente aqu]
0 + 1x2
Y
0 + 1x1 Enregresin lineal simple se estudia la distribucin condicional de una variable

0 + 1x4

Recta de regresin: E(Y|x) = 0 + 1x

respuesta continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto continua como categrica ya que el modelo de regresin

16
x1 x2 X x3 x4
Figura 10.5

Figura 10.5 Asunciones estadsticas subyacentes al modelo de regresin lineal simple.

Pastor-Barriuso R.

165

mutuamente independientes. Intuitivamente, se tratara de identificar la lnea recta que


Correlacinseregresin linealal conjunto ms y aproxime simple

de todos los puntos del diagrama de dispersin entre

ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimacin de la recta de regresin observado (xi, yi) respecto al punto correspondiente (xi, y i ) = (xi, b0 + b1xi) sobre la El primer objetivo de la regresin lineal es obtener estimaciones puntuales b0 y b1 de la constante 0 yrecta de regresin estimadade regresin que mejor se se representa en la Figura 10.6, (xi, yi) la pendiente 1 de la recta en xi. Esta distancia, que ajuste a los valores observados de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes. Intuitivamente,por tratara de identificar laen la variable respuestaaproximeyal = yi - b0 - dextodos viene dada se el error de estimacin lnea recta que ms se ei = yi - i conjunto b1 i. los puntos del diagrama de dispersin entre ambas variables. Para formalizar esta idea, es preciso calcular de distancia de cada determinada por aquellos valoresal0puntoque hagan As, la recta la regresin vendr punto observado (xi, yi) respecto b y b1 correspondiente (xi, y i) = (xi, b0 + b1xi) sobre la recta de regresin estimada en xi. Esta distancia, que se representa en la Figura 10.6, viene dada por el error de estimacin en la variable o, equivalentemente, que b0 este error lo ms pequeo posible para todas las observaciones respuesta ei = yi y i = yi b1xi. As, la recta de regresin vendr determinada por aquellos valores b0 y b1 que hagan este error lo ms pequeo posible para todas las observaciones o, equivalentemente, que minimicen minimicen la suma de cuadrados del error la suma de cuadrados del error

SSE =

e
i =1

2 i

= ( y i y i ) 2 = ( y i b0 b1 x i ) 2,
i =1 i =1

tambin llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado para evitar llamadacompensen los errores positivos yque los errores se elevan al tambin que se suma de cuadrados residual. Notar negativos. Este procedimiento para estimar los parmetros de la recta de regresin se conoce como el mtodo de mnimos cuadrados. para evitar que se compensen los errores positivos y negativos. Este cuadrado

procedimiento para estimar los parmetros de la recta de regresin se conoce como el


mtodo de mnimos cuadrados.

[Figura 10.6 aproximadamente aqu]

(xi, yi)

ei = yi yi

17
y
( xi , yi ) = ( xi , b0 + b1 xi )

Recta de regresin estimada: y = b0 + b1 x

Figura 10.6 Error o desviacin del valor observado de la variable respuesta respecto a su valor estimado Figura 10.6 por la recta de regresin.

166

Pastor-Barriuso R.

i =1 1 Para obtener los valores b0 yi =11 que minimizan la suma de cuadrados del error, se b

calculan las derivadas parciales de SSE respecto a b y b1 cero, resultando cuya solucin eslos valores b y b que minimizan la0suma y se igualan a delRegresinse simple Para obtener de cuadrados error, lineal 0 1 el sistema de ecuaciones lineales calculan las derivadas parciales denSSE respecto a b0 y b1 y se igualan a cero, resultando minimizan la suma de cuadrados del error, se calculan Para obtener los valores b0 y b1 que ( x i x )( y i y ) sy i =1 n =r a las el sistema de ecuaciones lineales n a b0 y b1 y se igualan , cero, resultando el sistema de derivadas parciales de SSE b1 = respecto n = 2 ei = 2 ( y i b0 s x x i ) = 0, b1 2 ecuaciones lineales ( x i =1x ) b0 i =1 i i =1 n TENDENCIA CENTRAL n 1.2 MEDIDAS DE antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en SSE n 1.2 MEDIDAS DE TENDENCIA y i primer 1 x i ) = agudo de miocardio en antioxidantes SSE riesgo2de desarrollar( un b0 binfarto 0, en b = n ei = 2 CENTRAL el i =1 b0 = yi =1 b1 x . 0 = 2 x i ei = 2 x i0,89, 1,58, b1 x i ) 1,29, 1,42, 0,84, hombres adultos. Los valores obtenidos fueron ( y i b0 acerca = 0, Las medidas de tendencia central informan 0,79, de cul es el valor ms representativo b1 i =1 i =1 n n hombres adultos. Lostendencia central informan acerca de 0,79,es el valor ms representativo 0,89, SSE valores obtenidos Las medidas de 2 x e = 2 xfueron b b1,58,= 0, 1,29, 1,42, 0,84, = media de losi ( y i 0 del 1 x i ) cul HDL en i i 1,06, 0,87, 1,96 yunabmmol/l.recta de regresinnivelesforma equivalente,coeficiente de 1,53b1 de la La variable dicho igual al colesterol del estos estimadores indican La pendiente estimadadeterminada es de producto de i =1 io, =1 1 cuya solucin es 1,96 y 1,53 mmol/l. Lao, dichode los niveles del colesterol HDL en 1,06,de una determinada variable media de forma equivalente, estos estimadores indican 0,87, estos 10 participantes es correlacin r alrededor por el valor se agrupan desviaciones tpicas muestrales de de cuya solucin esde Pearson de qucociente entre las los datos observados. Las medidas Y ytendencia estosalrededor de qu es nse agrupan los datos observados. Las medidas de tendencia 10 participantes valor cuya solucin es X. As, aunque central de la muestra sirvenxtanto y ) resumir la pendiente b1observados como para los signos de b1 ,89 coinciden, y i 1,magnitud de los resultados no slo ( xi )( la 53 s 1 10 0y r + 1,58 + ... + para x = de la muestra sirven tanto para resumirylos resultados observados como para x i =10 = i =1 = 1,223, mmol/l. = 53 r central 1 b1 n n 0, 10 10xi == correlacin89 + 1,58 + ... + 1,deslas 1,223 mmol/l.tpicas s y s 1 2 depende del coeficiente de x i = ( x r, xdelos y ) desviaciones x y x realizar inferencias acerca sinoytambin parmetros=poblacionales correspondientes. A i i 10 i =1 ( x )( xi) 10 sy realizar inferencias= i =1 i =1 los parmetros poblacionales correspondientes. A b1 acercan de , =r de las variables. Una vez estimada la pendiente,2la constante b0 = y -de1la tendencia central de una continuacin se describen los principales estimadores b x corresponde sx La media aritmtica presenta las siguientes x i y xb1 x . ) 0 (=propiedades: continuacin se describenblos principales estimadores de la tendencia central de una i =1 La media aritmtica presenta las siguientes propiedades: valor que fuerza a La simplemente alvariable. de la recta recta de regresin a atravesar el de los datosy ) pendiente origen (traslacin). Si la de regresin es igual cada uno punto ( x , Cambio de estimada b1 se suma una constante a al producto del coeficiente de variable. correlacin r de Pearson por(traslacin).de regresinxes igual altpicas muestrales los Y y X. As, Cambio de origen de la recta b0 = las desviaciones producto uno de de datos Si se - b1 . La pendiente estimada b1 el cociente entre ysuma una constante a cada del coeficiente de correspondiente delabmediacoinciden,de ambas variables. Siala relacin no slo depende del a media de la muestra resultante es igual la media inicial ms laentre muestral la magnitud de la pendiente b subyacente aunque losmuestra, la Media aritmtica de una signos 1.2.1 1 y r 1 coeficiente de correlacin r, aritmtica muestra las desviaciones tpicasmedia inicial msyUna de una de Pearson por el cociente entre resultante es igual sy la sxmuestrales de Y la muestra, la media de la 1.2.1 Media sino tambin de las desviaciones tpicas a y de las variables. correlacin La variablesr estimada b de la recta de regresin0 igual estimadores coeficiente la del las pendienteesLa mediai1aritmtica, denotada porxes bc.sonal productola insesgados dede de lineal y la i + , entonces = vezconstante utilizada; si(asuncincde linealidad), bb1y+,corresponde simplemente al valor que los estimada la pendiente, = xconstante b0 = y x 1 Un cambio de origen quecada uno se define como suma de si y y r + c, punto La definec. como la la de cada fuerzaAs,constante regresin deatravesar el entonces,, y ) = x +de Un cambio de1origenuno dede recta de utilizada;a bi = xi coinciden, ( x se correspondientesumamedia muestral X. a la aunque media aritmtica, denotada por la desviaciones tpicasamuestrales deque los correlacin delos signos 1 1 cociente entre lasmagnitud la pendiente b no sloY constante 0ry Si Pearson porsubyacente entreregresin. quees observaciones realizadas. y denotamos la la relacin elde la rectade porvariable, de lineal (asuncin a linealidad), pendiente el centrado dela las variables consiste en restar de nmero ambasrealiza con valores muestrales dividida se variables. frecuencia es del valor esperado el predicho de la variable respuesta paraSi que facilita una estimacin o valores muestrales divididar, sino tambin de observaciones realizadas.yay sx por el nmero pendiente 1 de la recta de regresin. b0 y b1 sonaunque los signos de b y r el centrado la0la variable, que consiste b no slo denotamos dependeestimadores insesgados es coinciden, demagnitud las desviaciones en restar Si coeficiente realiza con frecuencia de la constante y la de de la pendiente tpicas s X. As,se delde regresin de correlacin entonces determinada por 1 La recta por n el tamao1 muestral por de el valor observado para el sujeto cada valor de la muestraestimada viene y Paraxcompletar la estimacinser, por i-simo, i = 1, ..., n, su media. La media i una variable centrada de los cada la variable explicativa. La lasvalor fijo deel tamao muestral entonces determinada por = y -el sujeto i-simo, i = 1, ..., n, por x de recta de regresin vez estimada la y r, Lai el valor observado para b1 x corresponde variables.n de estimada viene pendiente, la de de las b0 cada por depende delvalorUnala muestra su media.sinomediaconstante desviaciones tpicas spor sx coeficiente de correlacin tambin una variable centrada ser, y y la dada por tanto, igual del modelo vendraha de + b1 x = y tambin la ), a 0. media lineal, = b0 estimarse + b1 (x x varianza 2 de la variable y parmetros la media que fuerza a tanto, al valorvendra dada la recta de regresin a atravesar el b1 x ( x , y ) simplemente igual a 0. estimada porpendiente, la constante b0 = y -puntocorresponde de las variables. Una vez del valor esperado o predicho de la variable respuesta para cada queCambio de escala (unidades). Si sela facilita una estimacin multiplica cada uno de los datos de una 1 n respuesta alrededor de dicha recta. A partir de la suma dexcuadradosde xlos parmetros del del 1 + valor fijoCambiovariable explicativa. Para completar xla=estimacin datos. de una de la de escala (unidades). Si se multiplica cada uno x 2 + ... + nerror, esta x =variables. Si x + ...losx subyacente entre de n i correspondientede la media muestral recta de 1 n 2 de1 la variable respuesta ,alrededor de a estimarse tambin laambas de varianza + la relacin x atravesar + punto ( x y ) simplemente al regresin a n el modelo lineal, ha valor que fuerza a la de la muestra=resultante2 es igual na .la media i x = x1= muestra por una constante, la media varianza residual puede estimarse medianteerror,i esta varianza residual puede estimarse n la 1muestra resultante es igual a la media n dicha recta. A partir deunasuma de cuadrados del i = la constante, la media de muestra 18 las variables por son correspondiente a la media muestral y =ambas b0 y b1 y Siestimadores insesgados de la mediante por laes lineal (asuncin de linealidad),variables. = cla relacin subyacente entre x. inicial constante utilizada;medida cxi, tendencia central ms utilizada y de ms fcil si de de entonces i La media es la n inicialy Lapendiente la medida de1tendenciaentonces y 2= c x . y de ms fcil por la constante utilizada; sidei regresin. media es =1 SSE recta y = cxi, b b ms .utilizada 2 de la constante 0 lineal (asuncin de linealidad), (b0i ycentral 1estimadores insesgados de la = y b10 son x i ) s las variables esla interpretacin. n 2 n Si2 al multiplica gravedad de los datos de la muestra. Su Cambio simultneo de origenCorrespondese=1centro decada uno de los datos de y escala. i Cambio regresin estimada viene al centro multiplica cada los de los datos de simultneo Corresponde La recta interpretacin. de origen y escala. Si sede gravedad2de unodatos de la muestra. Su determinada por constante quela pendiente 1 de la recta de regresin. y la suma Cabe destacar 0de principal de cuadrados delentonces divide por nconstante, launa vez estimadas en este limitacin resultado muy influenciada ya los valores extremos y, est se una muestra por una constante y ales queerrorse le suma otra por que, media la constante y muestra la limitacin es que regresin,influenciada por los valores extremos y, en este Cabe destacarpendienteuna la recta deyest muy losse le suma o n - constante,unamedia principal suma constante al resultado divide por desviaciones la vez una la que por de de cuadrados del error se n errores otra 2 ya que, de la variable La recta de regresin estimada viene 2xgrados de1libertad (conocidos b0, b1 y n 2 errores, respuestamuestra resultante es no y =ablanmedia inicial la tendencia central de la distribucin. de la recta igual un +bentonces determinada por = y de (x ), ser de la respectocaso, puedecontienen0 fiel1reflejo + bpor-laxprimera constante, ms la los 2 errores restantes seresultante un igual a la media inicial porque sencumpleno hiptesis de derivan automticamente). Asumiendo lalos errores las ms estimadas la constante y laser es fiel reflejo de la tendencia central de la distribucin. la pendiente de la recta de regresin, primera constante, de la caso, puede no muestra linealidad y homogeneidad decla y+= b, entonces yy + bcresidual .s2 es un estimador insesgado del varianza, x = = (x x ), segunda constante; si2yi = 1xi c2 0 + bla varianza 11 x - + c2 1 desviaciones de la variable y 1.4cEn este,y en de sucesivos ejemplos - 2 grados de parmetrosegunda constante; sirespuesta+respecto los la y = c contienen n sobre estimadores muestrales, se poblacional . Ejemplo i = 1xi c2 entonces recta 1 x + c2. Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se libertad (conocidos b0elb1 y n -loserrores, los 2 erroresndice de masa corporal y10se 18 sujetos del utilizarn de la relacin colesterol HDL de mmol/l a Ejemplo 10.7 En , estudio2 valores del entre el restantes se derivan los el primeros Ejemplo 1.5 Para transformar los valores del colesterol HDL obtenidos enmg/dl colesterol utilizarn los valores del colesterol HDL obtenidos en los explicativa sujetos del HDL, resulta1.5 Paraconsiderar el los valores del colesterolcomo variable 10 primerosy el natural transformar ndice de masa corporal HDL de mmol/l a mg/dl se Ejemplo automticamente).como variable respuesta. As,las hiptesis deMyocardial los cambios Cancer of estudio European Study objetivo es, la linealidad y and colesterol HDL Asumiendo que se cumplen Antioxidants,tanto, estimar multiplica por el factor de conversin 38,8. Elon utilizandoporpropiedad delInfarction 18 en estudio European Study on Antioxidants, Myocardial Infarction and Cancer of multiplica por el factor de conversin 38,8. As, utilizando la propiedad del homogeneidad de la media della(EURAMIC), en mg/dlun calculara de casos y controles realizado varianza, varianza residual s2 es multicntrico cambio de escala, lathe Breastcolesterol HDLun estudioseestimador insesgado del the Breast (EURAMIC), un HDL multicntrico de casos cambio de escala, la media del colesterolestudioen mg/dl se calculara y controles realizado 2 Pastor-Barriuso R. 167 parmetro poblacional su media1992 en ocho pases Europeos 47,45 mg/dl. evaluar el efecto de los entre . directamente a partir de 1991 y en mmol/l como 1,22338,8 = e Israel para entre 1991 y su media en mmol/l Europeos e 38,8 para evaluar el directamente a partir de 1992 en ocho pases como 1,223Israel= 47,45 mg/dl. efecto de los
Ejemplo 10.7 En el estudio de la relacin entre el ndice de masa corporal y6el 5

central de la muestra sirven tanto para resumir los resultados observados como para 1 10 0,89 + 1,58 + ... + 1,53 estos x = variables= r = -0,276. A partir de 1,223 datos, correspondientes.de la pendiente y = mmol/l. x delineal simple10 realizar inferencias iacerca de los parmetros poblacionales las estimaciones A 10 i regresin Correlacin y =1 la constante de la principales estimadores mtodo de mnimos cuadrados continuacin se describen los recta de regresin por elde la tendencia central de una son

La media aritmtica presenta las siguientes propiedades: aumenta variable. el nivel medio del colesterol HDL conforme 0,295 el ndice de masa corporal utilizando sy = 0 En = tanto 1= r un modelo de regresinblineal simple.,276este caso,-0,023 la variable respuesta como la ,50 sx Cambio de origen (traslacin). Si se suma una constante a cada3uno de los datos variable explicativa son continuas. 1.2.1 MediaEjemplo 10.1 se obtuvo un coeficiente de correlacin de Pearson entre ambas aritmtica

En de una muestra, la y n =de 10.1 se obtuvo un coeficiente dela media inicialla desviacin tpica del ndice de media 533 controlesresultante esEURAMIC, la media de Pearson entre ambas Ejemplo la muestra del estudio igual a correlacin y ms la variables de r -0,276. masa corporal=fueron , se26,0 y estos datos, las 2, y los correspondientes valores del La media aritmtica, denotada por xA=partir de sx = 3,50suma de cada uno de los pendiente y define como la kg/m estimaciones de la x 1 x y sy cambio las estimaciones en pendiente constante utilizada;colesteroldecr entonces =y ypartir+de=estos 0,295 mmol/l. Adems,de lael Ejemplo y10.1 se si yi = x HDL fueron variablesi + , = -0,276. A = -1,09 c. Un= datos, de origen que b + 0,023 b la constante de por el 0 de regresin 1,09Pearson 26,0 = 1,69. cuadrados obtuvo un coeficiente nmero de observaciones realizadas. Si variables de r = de entre ambas valores muestrales dividida la rectade correlacinpor el mtodo de mnimosdenotamos son 0,276. A partir es el centrado de estimacionespor la pendienterestar a se realiza con frecuencia de estos datos, las de variable, que consiste ende mnimos cuadrados son regresin la constante de la recta la regresin de el mtodo y la constante de la recta de La el mtodo de mnimos cuadrados estimacin del valor esperado ..., n, por muestral y = 1,69 valor observado para 295 por n el tamaoconstante b0por xi elmmol/l es una son 0,el sujeto i-simo, i = 1,de colesterol sy b = una = 0,276 -0,023 cada valor de la muestra su media. La media1 de r s variable centrada=ser, por 3,50 x de masa corporal igual a 0 kg/m2, extrapolacin HDL para un un ndice la media vendra dada porsujeto con b1 = r y = 0,276 0,295 = 0,023 sx 3,50 tanto, igual a 0. y que carece de sentido biolgico. La pendiente b1 = -0,023 estima que, por cada y x + x 2 + ... + x n 1 n . x = x = 1 Cambio de escala (unidades). Si se multiplica icada uno de los datos de una y b0 = el ndice de n n =1 incremento de 1 kg/m2 ien y b1 x = 1,09 + 0,02326,0 =nivel medio de colesterol masa corporal, el 1,69. muestra por una constante, la media de la muestra 1resultante + 0,02326,0 media b0 = y - b x = 1,09 es igual a la = 1,69. La constante b0 en 0,023 mmol/l. una estimacin del valorpuede esperado de colesterol HDL disminuye = 1,69 mmol/l es En general, la y de ms fcil utilizarse para HDL La mediapara un sujetode= 1,69ndice de masa estimacinpendiente esperado de colesterol carece es la medida con un mmol/l es ms utilizada del valor La constante b0 tendencia centraluna corporal igual a 0 kg/m2, extrapolacin que inicial por la constante utilizada; si yi = cxi, entonces y = c x . por c la de sentido biolgico. La pendiente b1 = 0,023 estima que,esperado incremento La constante b0 = centro a gravedad calcular el efecto asociado deincrementosde cualquier magnitudcada de variable de 1 kg/ interpretacin.2 Correspondede1,69 mmol/l es unaniveldelos datosigual amuestra.2,Su colesterol 0,023 al masa un ndice de estimacin del valor 0 kg/men disminuye en HDL para un sujeto con corporal, el masamedio de colesterol HDL extrapolacin corporal de la m en el ndice Cambio simultneo de origen y general,Si sependiente puede uno de los datos calcular 2el efecto asociado a multiplica mmol/l. En escala. con un ndice decada utilizarse igual ade kg/m , extrapolacin HDL para un masa corporal para 0 explicativa, est la principal limitacin es quesujetomuy influenciada en la variable -0,023 estima en este cada que carece de sentido biolgico. La c por los valores extremos y, que, por pendiente b1 = explicativa, incrementos de cualquier magnitud una muestra por una constante y al resultado se le suma otra constante, la media que carece y biolgico. La pendiente la -0,023 estima . caso, puede incrementode reflejo +2 c) tendenciade+masa dec)1distribucin.medio de colesterol no ser un fiel sentido= en el-(x) = b0central + b =(b0 + b1 x) = cb1que, por cada de 1 y (x de 1,69y ndice kg/m la 0,023x, b1 (x corporal, el nivel de la muestra resultante es igual a la media inicial por la primera constante, ms la incremento de 1 kg/m2 en el ndice de masa corporal, el c = medio de colesterol 2 As, por ejemplo, incrementos de En1,69 - 0,023x, tpicanivel 3,50utilizarse para HDL disminuye en 0,023 mmol/l. una desviacin y = general, la pendiente puede kg/m en el ndice de 2 ejemplo, Esta con regresin que se muestra en laEnxeste yse incrementos cuna + c2. puedemediac en3,50 kg/m en HDL de Ejemplo 1.4 corporal 10.7.los sucesivos x disminucin tpica = para masa= c1 i + c entoncesrecta 1 una desviacin utilizarse el colesterol el segunda constante;As, iporFigura 2, enasocian y = de ejemplos sobre estimadores muestrales, se ndice cb1 = si y HDL disminuye 0,081 mmol/l. Notar que, como consecuencia de la utilizarse de linealidad, 3,50( 0,023) = en 0,023 mmol/l. En general, la pendiente puede hiptesis para calcular el efecto asociado a incrementos de cualquier magnitud c en la variable de los valores ense asume 10.7. Esta recta de de todoprimeros sujetos HDL que el corporal colesterol HDL obtenidos funcin estimarutilizarnmasavalor esperado del colesterol disminucin mediael ndiceutilizarse para de o predecirse muestra del laasocianconstante HDLlargo regresinen el colesterol del del ndice de esta disminucin se Figura con una a lo en en los 10delpuede de rango observado calcular el efecto asociado a incrementos de cualquier magnitud c en la variable masa corporal;valores del colesterolde regresin lineal mg/dl seuna misma reduccin de esto es, el modelo HDL de mmol/l a estima explicativa, Ejemplo 1.5 Para transformar los cb1 = ejemplo, paraon ndiceHDL Notar que, de kg/m del el Cancer ndice de estimar o predecir valor mmol/l. del 25 y 28,5 25 kg/m funcin de of masa corporal. European Study elunAntioxidants,entrecolesterol HDL 2en 2, ndice de masa corporal que estudio Por 3,50(-0,023) = -0,081esperado Myocardialcomo consecuencia del la hiptesis 0,081 mmol/l en el colesterol de masa corporal Infarction and explicativa, multiplica por el factor de conversin(x 2+ c)As, (x) = b + b (x + c) - (b delb x) = cb . entre 28,5 y 32 kg/m . - utilizando la propiedad + 2 38,8. 1 1 de linealidad, esta disminucin multicntrico de 1,69 - largo masa corporal. Por colesterol se asumeconstante a 0 y controles=realizado modelo estima un nivel medioydeejemplo,ypara un0de y1 (25) masa corporal de todo el rango the Breast (EURAMIC), un estudio HDL ndice de =casoslo 0,023 25 25 kg/m , el La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es y (x + c) - (x) = b0 se 1(x + c) cambio de escala, la media del colesterol HDLyen mg/dl + bcalculara (b0 + b1x) = cb1. observado del ndice pases Europeos del es, el modelodifieren dede lineal = modelo estima un incrementoscorporal; Israel para de y (25)3,50 kg/m2 en 25 1,69 entre 1991supuesto, los valores observados1,69 colesterolevaluar de=regresin los el ndice y 1992 en ocho de medio de una e esto0,023x, HDL =el efecto - 0,023 1,11 mmol/l. As, por ejemplo, nivel masa de colesterol HDLtpica c Por y = desviacin directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl. As, por ejemplo, reduccin de 0,081 mmol/lvarianza c puede HDL en el ndice estimapredichosenincrementos regresin. La de regresin = 3,50 kg/m2 difieren de que se una mismase la recta de valoresdesviacin tpicacolesterol utilizarse25 y estimar o 1,11 muestra por Figura con una recta en colesterol del los valores mediosmmol/l. Por supuesto, los deuna disminucinel del residualHDL entreHDL de de masa corporal laasocian 10.7. Esta observadosmedia en el colesterol para que se muestra en la Figura 10.7. Esta recta de regresin del ndice de masa5 predecir el valor esperado del colesterol HDL en funcin puede utilizarse para corporal. Por de respecto medios predichoscon corporal 25 28,5 32 kg/m2 masa paralandice de regresinla disminucin media en el colesterol un nivel 6 28,5 kg/m2 delun ndice de masa unarecta deentrekg/m2, La modelo. estimaHDL de medio de masapor es que corporal ejemplo, corporal se asocian mmol/l. Notarderegresin.yel varianza residual del los colesterol HDL 1 valores a recta -0,081 cb = 3,50(-0,023) = que, como consecuencia de la hiptesis estimar o predecir el valor esperado 0,02325 = 1,11 mmol/l. Por del ndice los valores de colesterol HDL de (25) = 1,69 del colesterol HDL en funcin supuesto, de cb = 3,50(-0,023) = estimada difieren La1recta deHDL colesterolaHDLdel colesterol HDL sobre el ndice dede la hiptesis observados regresin -0,081 mmol/l. Notar que, valores medios predichos por la recta de colesterol del disminucin se de regresin como consecuencia masa de linealidad, 533respecto la recta asumede los es a lo largo de todo el rango esta constante 2 SSE 1 2 masa corporal. Por ejemplo, para un ndice deHDL respecto ade 25 kg/m regresin es regresin. La varianza (1,69 0,del colesterol masa corporal la recta de , el residual 023x )}2 = 42,63 = 0,080. = s = { ydisminucin se asume constante a lo largo de todo el rango i i de 531 531 =1 linealidad, corporal es esta 531 observado del indice de 1 533 corporal; esto es, el modelo de regresin lineal masa SSE 2 modelo estima un nivel medio{ y colesterol0HDLxde 2y = 42,63 = 0,080. 25 = de (1,69 ,023 )} (25) = 1,69 - 0,023 = s = i observado del ndice de masa corporal; esto es, el imodelo 531regresin lineal de 531 531 i =1 0,081 mmol/l en el colesterol HDL entre 25 y estima una misma reduccin de homogeneidad de la varianza, la Notar, por ltimo, que debido a la hiptesis de 20 1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de Notar, por 2ltimo, que debido dela hiptesis de homogeneidad de la varianza, la desviacin estima una misma reduccin a 0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m ltimo,colesterol HDL s hiptesis entre 28,5 y 32 kg/m2la varianza, laalrededor . Notar, por del ndice debido corporal tpica residual del quede masa a s = que = homogeneidad asume constante desviacin tpica residual del colesterol HDL la = 0,080 de0,283 mmol/l se de = 0,283 mmol/l se los valores2 medios predichos por la recta de regresin. La varianza residual del de cualquier punto de de recta de regresin. entre 28,5 y 32 kg/m2. 28,5 kg/m del ndice la masa corporal que La recta de tpica residual del colesterol HDLHDL sobre el= 0,283de masa se desviacin regresin estimada del colesterol s = 0,080 ndice mmol/l asume constante alrededor derespecto a la recta de regresin regresin. colesterol HDL cualquier punto de la recta de es La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es asume constante alrededor de cualquier punto de la recta de regresin. 533 168 Pastor-Barriuso R. 42,63 corporal ess2 = SSE = 1 { y i (1,69 0,023xi )}2 = 531 = 0,080. [Figura 531 aproximadamente aqu] 10.7 531 i =1 20

Regresin lineal simple

2,25 2

Colesterol HDL (mmol/l)

1,5

0,5 0,25 20 24 28 32 36

antioxidantes en el riesgo de desarrollar un primer infarto agudo decorporal (kg/m) miocardio en Indice de masa
estudio EURAMIC.

Figura Figura 10.7 Recta de regresin del el riesgo de desarrollar 1,42, masa corporal agudo de miocardio hombres adultos. Los valores antioxidantes encolesterol HDL0,79, 1,29,la idoneidad del modelo lineal 10.7del en sentido de queobtenidos fueron 0,89, 1,58, sobre el ndice de 0,84, infarto en el grupo control no facilita ninguna informacin sobre un primer

1,06, 0,87, 1,96 para describir hombres adultos. Los valoreslas variables explicativa1,58, 0,79, 1,29, 1,42, 0,84, y 1,53 mmol/l. La media subyacente entre colesterol HDL en la relacin de los niveles del obtenidos fueron 0,89, y respuesta.

En para describir la relacin subyacente entre las variables explicativa yen su conjunto explica general, el contraste de regresin lineal permite evaluar si el modelo respuesta. estos 10 participantes variable respuesta.+ ,58la ... + 1,53 es recta variable respuesta. En el caso particular una parte significativa1de vez estimada la de la de regresin, la desviacin de cada valor de la 1 10 0,89 Una + variabilidad x = La realizacin della hiptesis nula 1,223 mmol/l. en el anlisis de la varianza de la de la = del contraste xi = simple, contraste de regresin se basaes simplemente que la pendiente 1 regresin lineal 10 i =1 10 observado yi respecto a la media 1 10que y tal caso la ... + 1,53 respuesta no se relacionar recta de regresin subyacente es 0,muestralen0,puede,58 +variable dos componentes: el ya 89 + 1 separarse en x =explicativa y, en consecuencia, el = 1,223 de cada valor x i recta de regresin, la desviacin mmol/l. aportar = linealmente respuesta. Una vez estimada la modelo lineal no variable con la nica variable 10 i = 10 explicacin alguna sobrevalor observado yila variable respuesta. Es importante resaltar que este la propiedades:1de respecto a su valor estimado por la recta de variabilidad error o desviacin del a media aritmtica presenta las siguientes contraste de regresin asumemedia muestralpor puede separarseinterpretarse como unel observado yi respecto a la linealidad y, y tanto, no debe en dos componentes: test de bondad del ajuste, 0 + el1xi, y unade que no facilita uno de los datos y i y la media sentido ninguna informacin regresin y i =media suma la distancia entre dicho valor estimado Cambio de origen (traslacin). b en baritmticaconstante las siguientes propiedades: sobre la idoneidad del La Si se presenta a cada modelo lineal para describir la relacin subyacente entre las variables explicativa y respuesta. error o desviacin del valor observado yi respecto a su valor estimado por la recta de La realizacin del contraste de (traslacin). Si se suma una constante a cada de de los datos de una muestra,muestral de la muestra resultante es igual sela media el anlisis de la varianzauno la variable la media y; esto es, de origen regresin a basa en inicial ms la Cambio regresin y = b + b1xi, y recta de entre dicho valor estimado respuesta. Unai vez 0estimada la distancia regresin, la desviacin de y i y la media cada valor observado yi respecto a = media entonces y = x + c. Un la en dos resultante es igual a la media inicial ms c muestral constante utilizada; si yi la xi +de, una muestra,puede separarsemuestra componentes: el error o desviacin del la la media de cambio de origen que yi - y = y i - y + y - recta valor observadoesto es, yi respecto a su valor estimado por i la y i . de regresin i = b0 + b1xi, y la muestral y ; se realiza condistancia entreelconstante de la variable, la xi + c, entonces y ; =ax es, . Un cambio de origen que frecuencia es dicho valorutilizada; sii yi = media muestral esto + c centrado estimado y que consiste en restar Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se y i y = y i y + yi y . cada valor de la muestra su media. La media de una variablecentradade ila variable, que consiste en restar a se realiza con frecuencia es el centrado ser, por tiene que cuadrado estas desviaciones es Elevando al la suma de cuadrados total y sumando sobre todas las observaciones, se tiene que tanto, igual a la suma de cuadrados total esdesviaciones media. La media de unalas observaciones, ser, por 0. Elevando al cuadrado estasla muestra su y sumando sobre todas variable centrada se cada valor de
2 Cambio de escala (unidades). tanto,decuadrados(total y ) 2 los datos yuna + 2 ( y y )( y y ) i i SST suma iigual)a 0. i de tiene que la= Si seymultiplica cadayuno es + ( y i de i ) ( y 2 = i n n n n i =1 i =1 i =1 i =1

sentido 10.3.2 es de que no facilita ninguna informacin sobre la idoneidad del modelo lineal Contraste 0,87, 1,96 y regresin lineal simple los niveles estos 10 participantes realizacin del modelo de1,53 mmol/l. La mediael anlisis de ladel colesterolla 1,06, contraste de regresin se basa en de La del varianza de HDL en

muestra por una constante,la Cambio de escalan(unidades). Si nse multiplica cada uno de los datos de una media de la muestra resultante es igual a la media n n = n ( y i y ) 2 + n ( y i y i ) 2 = SSR + SSE, SST = ( y i y ) 2 = ( y i y ) 2 + ( y i y i ) 2 + 2 ( y i y )( y i y i ) i i =1 =1 inicial por la constante utilizada;=1si yi = cxiuna constante,=la media de la muestrai =1 muestra por , entonces y c x . i =1 resultante es igual a la media i i =1
n n Cambio simultneo de origen inicial por lase multiplica cada uno de= cxdatos de y = c x . y escala. Si constante utilizada; si yi los i, entonces 2 = ( yi y) 2 + ( y ya que ambas componentes estn incorrelacionadas i y i ) = SSR + SSE, i =1 i =1

Pastor-Barriuso R.

169

una muestra por una constante y al resultado se le de origen yconstante, la media Cambio simultneo suma otra escala. Si se multiplica cada uno de los datos de

=
Correlacin y regresin lineal simple

( y i y ) 2 + ( y i y i ) 2 = SSR + SSE,
i =1 i =1

1.2 MEDIDAS DE un primer infarto agudo de ya que ambas componentes agudo de miocardio en es en el riesgo de desarrollar un primer infartoestn incorrelacionadas de desarrollarTENDENCIA CENTRAL miocardio e antioxidantes en el riesgo ya que ambas componentes estn incorrelacionadas ultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, Las medidas de tendencia central 1,58, 0,79, 1,29, 1,42, 0,84 hombres adultos. Los valores obtenidos fueron 0,89, informan acerca de cul es 0,84, n n n n ( y i y )( y i y i ) = b1 ( x i x )ei = b1 x i ei b1 x ei = 0 i= i =1 1,96 y 1,53 mmol/l. La media de1 los niveles del colesterol HDL de una determinada variable niveles del colesterol HDL en e 1,06, 0,87,i =1 y 1,53 mmol/l. La mediai =1 los o, dicho de forma equivalente, 1,96 en de segn las ecuaciones de regresin derivadas del mtodo de mnimos cuadrados. As, la suma rticipantes es de cuadradosecuacionesse descomponeparticipantes mtodo de qu valor cuadrados. As,datos observados. Las estos 10 en dos trminos segn las total SST de regresin derivadas del es independientes: la suma de cuadrados alrededor de mnimos se agrupan los la de la regresin SSR, que representa la variabilidad de la variable respuesta explicada por la suma de cuadrados del error suma+ 1,58 ... + 1,53 SST se descompone en dos trminos independientes: la suma central y la muestra sirven ,53 1 10 nica variable+independiente del modelo de regresin,de 0,89 + 1,58 + ... + 1tanto para resumir los resultados 0,89 de cuadrados total 1 10 x = x iSSE, que corresponde a la variabilidad residual de la variable respuesta que queda= 1,223 mmol/l. = 1,223 mmol/l. x = x i = = sin explicar. 10 i =1 10 10 i =1 10 Conviene recordar que la recta SSR, que representa la inferencias acerca variable mnimos realizar por el procedimiento parmetros poblacionales c de cuadrados de la regresin de regresin estimadavariabilidad de la de los de cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad predictiva o explicativa del modelo de regresin. La Figurase describen los principales esta continuacin 10.8 ilustra grficamente estimadores de la t mtica presenta lasrespuesta explicada por La nica variable independiente del modelo propiedades: y la siguientes propiedades:la media aritmtica presenta las siguientes de regresin, descomposicin. variable. suma de cuadrados del variabilidad origenvariable respuesta suma una constantemediante La se suma una constanteCambiouno de la (traslacin). variabilidad residual de a origen (traslacin). Sidescomposicin de laerror SSE, que corresponde a la Si se suele representarse la cada uno de los datos a cada de de los datos

la denominada tabla del anlisis de la varianza (Tabla 10.2). En primer lugar, esta tabla variable resultante es igual junto con susla media de presenta lasrespuesta cuadrados unaexplicar. ConvieneMedia aritmtica libertad. La suma de stra, la media de la muestrasumas deque quedaasin media inicial1.2.1 la la muestra la recta de es igual a la media inicial ms de la muestra, correspondientes grados de ms recordar que resultante regresin cuadrados de la regresin contiene nicamente 1 grado de libertad ya que, una vez conocida la los + c. Un cambio utilizada;La yi de + c, entonces = x por x ), se22 xi + c, muestral que cambio como la que tilizada; si yi = media entonces y , = x valores estimados por la recta = xiregresin i = y + b1(xi c. Unquedan de origen sum constante de origen si media aritmtica, denotada + define completamente determinados por su pendiente; mientras que, como se vio en el apartado anterior, la suma variable, que consiste en restar a 2 esmuestrales dividida continuacin, de en restar a on frecuencia es el centrado de la de cuadrados realiza con frecuencia grados de libertad. A por el nmero los observaciones se del error tiene nvalores el centrado de la variable, que consiste trminos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad. Finalmente, la razn una variable centrada ser, por cociente entre media y por x el valor observado para el de la muestra su media. La media de de varianzas se define la muestra su tamaoLala varianzauna ivariable centrada ser, por s cada valor de como el n el media. muestral de explicada por la regresin y la varianza residual, que constituye el estadstico del contraste de regresin. la media vendra dada por a 0. tanto, igual a 0.

escala (unidades). Si se multiplica cada uno de los datosescala (unidades). Si se multiplica cada uno nde los x + x de una x Cambio de de una datos + ... + 1 2 n . x = xi = 1 n i =1 n la media r una constante, la media de la muestra resultante es igualuna constante, la media de la muestra resultante es igual a muestra por a la media
(xi, yi)

=cx . a constante utilizada; si yi = cxi, entonces y inicial por la constanteLa media es lai medida de tendenciaccentral ms utilizada utilizada; si y = cxi, entonces y = x .
i i

ei = Si yi multneo de origen y escala. Si se multiplica cada unosimultneointerpretacin. Corresponde al centro deuno de los datos de Cambio de los datos de de origen )y escala. yi se multiplica cada gravedad de los d (x , y yi y

principal limitacin yes y est muy influenciada por media que a por una constante y al resultado se le suma una( xconstante, la media otra muestra por una constante y al resultado se le suma otra constante, lalos val , y)
y
i

ra resultante es igual a la media inicial por lade la muestra resultante es igualno la media inicial por la primera constante, de la primera constante, caso, la ms puede a ser un fiel reflejo de la tendencia central ms

c2 . nstante; si yi = c1xi + c2, entonces y = c1 x +segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2. Recta de regresin estimada: Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
y = b0 + b1 x = y + b1 ( x x )

utilizarn los valores del colesterol de mmol/l a mg/dl 5 Para transformar los valores del colesterol HDL de mmol/l a transformar los valores del colesterol HDLHDL obtenidos en Ejemplo 1.5 Para mg/dl se

estudio European Study on Antioxidants, Myocardial por el factor de conversin 38,8. As, utilizando la propiedad del multiplica por el factor de conversin 38,8. As, utilizando la propiedad del

the Breast (EURAMIC), un estudio multicntrico de c escala, la media del colesterol HDL en mg/dlcambio de escala, la media del colesterol HDL en mg/dl se calculara se calculara
x

entre 1991 mmol/l como 1,223Figura 10.8 47,45 Israel 38,8 = te a partir de su media en mmol/l como 1,22338,8 = 47,45amg/dl. de su media en y 1992 en ocho pases Europeos emg/dl. par directamente partir
Figura 10.8 Descomposicin de la variabilidad de la variable respuesta en la parte explicada y no explicada por la regresin.

170

Pastor-Barriuso R.

libertad ya que, una vez conocida la media muestral y , los valores estimados por la recta de regresin y i = y + b1(xi - x ) quedan completamente determinados por su
Regresin lineal simple

pendiente; mientras Tabla genrica del anlisis de laanterior, lalineal simple.* lineal del que, como se vio en el apartado varianza suma de cuadrados Tabla 10.2 Tabla genrica del anlisis de la varianza en regresin en regresin Tabla 10.2 simple.* varianza var(b1). As, bajo la hiptesis nula H0: 1 = 0, el cociente SSR/ 2 es el error tiene n - 2 grados de libertad. A continuacin, los trminos de la varianza se Suma de Grados de Razn de cuadrado de una distribucin normal estandarizada, que corresponde por definicin a cuadrados libertad varianzas obtienen de dividir las sumas nde cuadrados por sus gradosVarianza de libertad. Finalmente, la
2

Suma de cuadrados

Grados de libertad

Varianza

Razn de varianzas
SSR

Regresin SSR = ( y i 1 ) 1 SSR F= 2 una distribucin chi-cuadrado1con ygrado de libertad. Por otra parte, basta con que se i= razn de varianzas se define como el cociente entre la varianza explicada porsla
n n cumplan las asunciones subyacentes al modelo lineal para que SSE la varianza residual s2 2 2 2 n 2 s Error SSE residual, que y i ) regresin y la varianza = ei = ( y i constituye elestadstico=del contraste de regresin.

sea un estimador insesgado de 2 y el cociente


Total SST =[Tabla y ) 2 ( y i 10.2
i =1 n

i =1

i =1

n2

n 1 aproximadamente aqu] (n 2 : 2 varianza var(b1). As, bajo la hiptesis nula H)0s 1 = 0, el cociente SSR/ 2 es el 2 * * Coeficiente de determinacin R =R2 = SSR/SST. Coeficiente de determinacin SSR/SST. 2 Para realizar el contraste de regresin, es preciso conocer la distribucin de la razn cuadrado de una distribucin normal estandarizada, que corresponde por definicin a de varianzas bajo la hiptesis nula H0: 1es2preciso de libertad. distribucin de la razn de siga realizar el contraste de regresin, = grados conocer tiene que Para una distribucin chi-cuadrado con n - 0. Por un lado, sela Combinando ambos una distribucin chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se varianzas bajo la hiptesis nula H0: 1 = 0. Por un lado, se tiene que resultados, sebtiene quen bajo la hiptesis nula H01= = 0 la razn entre las22varianzas 2 : 1 varianza var(asunciones subyacentes b 2nula H0: lineal para(que1) s varianza residual s hiptesis n b 2 n la 2 b SSR 1 cumplan las 1). As, bajoyla y ) 2 = al modelo x ) 2 0, el cocientex SSR/1 es,el 1 = 2 ( i = 1 = ( xi 2 2 2 var(b1 ) i =1 explicada deresidual i =1 cuadrado y una distribucin normalel cociente estandarizada, que corresponde por definicin a 2 sea un estimador insesgado de y donde var(b1) = 2/{(n 1)s2} es la varianza de la pendiente estimada. Como se comprobar en x 2 con una distribucin chi-cuadrado SSR 1 asunciones de la regresin lineal Como que Por donde var(b1) = 2 si se 1) s x } es la varianza libertad. 12 otra parte, basta con la se el siguiente apartado, /{(n - cumplen lasgrado /de 2 2 la pendiente estimada.simple, se pendiente SSR de F = 2 = (n con~media y varianza var(b ). As, bajo la 2 estimada b1 seguir una distribucin normal 2) s 2 /(n 2) 1 1 s / 2 cumplan las H : = 0,subyacentes alsmodeloes eln cuadrado la varianza residual s2normal asunciones el cociente SSR/ 2 lineal 2para que de una distribucin 2 hiptesis nula en0 el siguiente apartado, si se cumplen las asunciones de la regresin lineal comprobar 1 estandarizada, que corresponde por 2 definicin a una distribucin chi-cuadrado con 1 grado de sea unPor otra parte, cociente yse cumplan las independientes divididas modelo estimador insesgado de que el cociente se distribuye como elbasta conbde dos chi-cuadradoasunciones subyacentes al por sus lineal libertad.una distribucin chi-cuadrado con nuna distribucin normalCombinando 1 y simple, la pendiente estimada 1 seguir - 2 grados de libertad. con media ambos siga para que la varianza residual s2 sea un estimador insesgado de 2 y el cociente respectivos grados de libertad, que es una distribucin F de Fisher con 1 grado de 23 ( nula s 2 resultados, se tiene que bajo la hiptesis n 2)H0: 1 = 0 la razn entre las varianzas

libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del explicada y residual siga una distribucin chi-cuadrado con n 2 grados de libertad. Combinando ambos resultados, se tiene una distribucin chi-cuadrado 1 nulala razn= 0 frente varianzas explicada y residual contraste bajo la hiptesisla hiptesis = n - H0grados de libertad. Combinando ambos siga que de regresin de nula H0: con 0 2 : 1 entre las a la hiptesis alternativa 2 SSR SSR / 2 = 2 F = entonces como2la ~ 2 1 bilateral H1se tiene se calcula hiptesis nula H0probabilidad2) la entre las del estadstico resultados, : 1 0 que bajo la s 2 : 1 = 0 la a derecha varianzas s / n 2 /( n razn

se distribuyedistribucin F1,n-2. dos chi-cuadrado independientes divididas por sus respectivos F bajo la como el cociente de explicada y residual grados de libertad, queel cociente de dos chi-cuadrado con 1 grado de libertad enpornumerador se distribuye como es una distribucin F de Fisher independientes divididas el sus y n 2 grados de libertad en ella varianza suele ir acompaada del coeficiente de de la hiptesis La tabla del anlisis de denominador. El valor P del contraste de regresin 2 / 2 nula H0: 1 = 0 grados a lalibertad,SSR esSSR distribucin 11 0 se calculagrado de como la : respectivos frente de hiptesis alternativa ~ F = que = una bilateral2 H1F de Fisher con 1 entonces 2 probabilidad a la derecha del estadstico Fsla /proporcin 2de n F1,n2. s2 2 n /( la 2) determinacin R2, que se define como bajo la distribucinvariabilidad de la variable libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del La tabla del anlisis de la varianza suele ir acompaada del coeficiente de determinacin R2, respuesta como explica por el de la variabilidad de la variable respuesta que se se la proporcin que se definequecomo el cociente modelo de regresin,independientes divididas porexplica por se distribuye regresin de la hiptesis nula H : = 0 frente a la hiptesis alternativa dos chi-cuadrado sus contraste de 0 1 el modelo de regresin, n n respectivos grados de libertad, que es una distribucin F de Fisher con 1 grado de bilateral H1: 1 0 se calcula entonces )como 12 ( x i x ) 2 a la derecha del estadstico ( y i y 2 b lai =probabilidad 2 s x2 2 SSR i =1 1 R2 = = b1 2 = El libertad en el numerador y = -n2 grados de = n n libertad en el denominador. r . valor P del sy F bajo la distribucinSST . F1,n-2 2 2 ( yi y) ( yi y) i =1 contraste de regresin de la hiptesis nula H0:i =1 1 = 0 frente a la hiptesis alternativa La tabla del anlisis de la varianza suele ir acompaada del coeficiente de
Pastor-Barriuso bilateral H1: 1 0 se calcula entonces como la probabilidad a la derecha del estadstico R. determinacin R2, que se define como la proporcin de la variabilidad de la variable 24 171

F bajo la distribucin F1,n-2. el modelo de regresin, respuesta que se explica por

Ejemplo 10.8 La Tabla 10.3 presenta el anlisis de la varianza de 1,09 mmol/l es observados del colesterol HDL respecto a la media muestral y = la regresin 2 En el estudio EURAMIC. lineal simple, el coeficiente de determinacin valores caso de la las siguientes propiedades: La media aritmtica presentaregresinLa suma de cuadrados de las desviaciones de los R coincide con el que se coeficiente de correlacin de Pearson entre las variables controles y cuadrado del descompone en la suma derndice de masa corporal en 533explicativadelrespuesta. lineal del colesterol HDL sobre el cuadrados de las desviaciones del colesterol 533 observados del colesterol SST =respectoa1,09) 2 = 46,15, HDL Cambio de origen (traslacin). Si se suma una constante la cada uno de los datos1,09 mmol/l es a media muestral = ( yyel=anlisis 0,023xi y de los regresin lineal del i HDL respecto a La rectasuma de cuadrados1,69 - de la varianza de la valores la Tablade regresin i Ejemplo 10.8 estudio EURAMIC. La 10.3 presenta de las desviaciones i =1 colesterol HDL sobre el ndice de533 masa corporal media controles del de una muestra, la media de la muestra resultante es igual a la en 533 inicial ms laestudio EURAMIC. La suma de cuadrados de HDL respectoa1,09)los= muestral y = 1,09 mmol/l es las de 2 valores observados del colesterol SSTdesviacionesla media 46,15, observados del colesterol HDL 533 que sesi y la x + c, entonces y=de=x (+ immol/lde las desviaciones del colesterol descompone muestral = y c. Un cambio de origen que en la suma = i1,09 cuadrados es respecto 1 constante utilizada; ai = media SSE = { y i (1,69 0,023x i )}2 = 42,63 i
533 HDL respecto a la recta de regresin y i = 1,692 - 0,023xi se realiza con que se descompone en la SST =variable,que consiste en restar a del colesterol frecuencia es el centrado suma de cuadrados de las46,15, de la ( y i 1,09) = desviaciones i =1 y la suma de cuadrados de las distancias entre los valores estimados por la recta 533 cada valor de que se descompone en de suma de cuadrados centrada iser, por la muestra su a la recta media de una variable de las desviaciones del colesterol HDL HDL respectomedia. La la regresin y i = 1,69 - 0,023x SSEmuestrali (1,69 0,023x i )}2 = 42,63 = {y de se descompone en queregresin y la mediala suma de= 1,69 0,023xi desviaciones del colesterol respecto a la recta de regresin i cuadrados de las i =1 tanto, igual a 0. 533 HDL respecto a la recta de regresin1,y i = 1,69 - x )}2 xi 42,63 533 SSEde las { ycada unoentre los0,023de una = distancias 0,los datos = estimados por la recta y la (unidades). Si se multiplica i 69 de 1 ivalores Cambio de escala suma de cuadrados = i (1,69 ( 0,023x 023 ,09) 2 = 3,53. SSR =1 i i =1

el cuadrado del coeficiente de correlacin r de a la media muestral y = 1,09 mmol/l es observados del colesterol HDL respecto Pearson entre las variables explicativa y lineal del colesterol HDL sobre el ndice de masa corporal en 533 controles del 1 10 0 89 Ejemplo 10.8 La ,Tabla 58 + presenta = anlisis de la respuesta. regresin x = simple + 1,10.3 ... + 1,53 el 1,223 mmol/l.varianza de la regresin x = lineal Correlacin y i 533 10 i =1 10 estudio EURAMIC. La suma de cuadrados de)las=desviaciones de los valores SST = el ndice de masa corporal en 533 controles del ( y i 1,09 2 46,15, lineal del colesterol HDL sobre
i =1

y constante,y cuadrados demuestra resultante es los2 valores estimados por la recta de de regresin la media muestral muestra por unala suma dela media de la533las distancias entre igual a la media SSE = regresin y lacuadrados de las { y i (1,69 entre los ivalores42,63 y la suma de media muestral distancias 0,023x )} = estimados por la recta i =1 As, la proporcin de la variabilidad del colesterol HDL que se explica inicial por la constante utilizada; si yi = cx533entonces y = c x . i, de regresin y la media muestral,69 0,023x 1,09) 2 = 3,53. SSR = i nicamente cuadrados de las1 (1 por el coeficiente de y la suma decon el ndice de masa corporal viene dada los datos de = Cambio simultneo de origen y escala. Si isedistancias entre los valores estimados por la recta multiplica cada uno de 533 As, la proporcin de la variabilidad del colesterol HDL que se explica nicamente con el determinacin de una de masala media muestral,69 por ,el coeficiente2de determinacin regresin y corporal viene dada 0 023x i 1,09) = 3,53. SSR = (se le suma otra constante,quemedia una muestra por la constante y de resultado 1 ndice proporcin al la variabilidad del colesterol HDL la se explica As, i =1
2 de la muestra nicamente con el a la mediaR = 3,53/46,15 = 0,076, por el coeficiente de resultante es igual ndice de533inicial por la primera constante, ms la masa corporal viene dada 09) 2 = 3,53. SSR = (1,69 del colesterol HDL que As, la proporcin de la variabilidad 0,023x i 1,correlacin se explica que coincide con el cuadrado1 del coeficientecolesterol HDL,muestral entre el ndice de de i= parte significativa c la variabilidad total del de entonces se realiza el segunda constante; si yi = c1xiy el 2cuadrado del coeficiente .de correlacin muestral entre el determinacin que coincide con masa corporal + el ,colesterol y = c1 r2 + c( 0,276)2 = 0,076. Para determinar si esta HDL x = 2 nicamente explicada por masa corporal viene dada por una parte significativa variabilidad con el ndice deel ndice de masa corporal es el coeficiente de las de la : = 0 mediante contraste regresinla la hiptesis de As, la de de total del colesterol HDL,nula H0r2=el HDL que se la razn entre la hiptesis ndice proporcin de y el colesterolse realiza1 (-0,276)2 = 0,076. Para masa HDL variabilidad corporal variabilidad del colesterol contraste de explica de regresin R2 = 3,53/46,15 = 0,076, determinacin los Ejemplo 1.5 Para transformar mediante ladel colesterollas2 varianzas explicada SSR = 3,53 y residual nula H0: explicada valores 3,53 y residualHDL 42,63/531 = 0,080, se =0 razn entre s = de mmol/l a mg/dl varianzas 1 con el ndice = masa corporal viene dada por el coeficiente de SSR de nicamente si esta variabilidad explicada por el ndice de masa corporal es una determinar s2 = 42,63/531 = 0,080, multiplica porquefactor de conversin 38,8.R2 = coeficiente de0,076, el coincide con el cuadrado del 3,53/46,15 la propiedad del As, utilizando = correlacin muestral entre el 25 determinacin F = 3,53/0,080 = 43,93. 2 2 ndice media del colesterol colesterol HDL = (-0,276) cambio de escala, la de masa corporal y elHDL en mg/dl sercalculara = 0,076. Para Bajocoincide con nula, este estadstico sigue unacorrelacin muestral entre el 1 grado de que la hiptesis el cuadrado del coeficiente de distribucin F de Fisher con R2 grados de Bajo la hiptesis nula, y 531 = 3,53/46,15 = 0,076, el denominador, luego1 distribucin F libertadde su media en este estadstico sigue una = 47,45 mg/dl.corporal es una el valor P en si esta variabilidad como 1,223libertad en de masa de Fisher con el numerador determinar 38,8 directamente a partir mmol/l explicada por el ndice 2 bilateral del contraste esyP(F1,531 43,93) < r = (-0,276)2 = 0,076. Para ndice de masa corporal el colesterol HDL 0,001. En conclusin, las diferencias en el grado de libertad el cuadrado del coeficientede la variabilidad el denominador, 25 en la ndice de masa corporal explican el 7,6% de correlacin muestral entre el que coincide con en el numerador y 531 grados de libertad en del colesterol HDL 6 poblacin de referencia del estudio EURAMIC ndice0,076, P < 0,001). es una determinar si esta variabilidad explicada por el (R2 = de masa corporal luego el valor P bilateralydel colesterol es P(F1,531 (-0,276)2 < 0,001. En conclusin, contraste HDL r2 = 43,93) = 0,076. Para ndice de masa corporal el 25 Tabladeterminar si esta el ndice de masa corporalde ndice el 7,6%lineal variabilidad HDL 10.3 Tabla en anlisis de la varianza el la regresin corporal colesterol las diferencias del variabilidad explicada por explican de masade la del es una sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.* 2 25 del colesterol HDL en lade Suma poblacin de referencia del estudio EURAMIC (R = de Grados de Razn

i =1

Regresin Error Total *


172

0,076, P < 0,001).

cuadrados 3,53 42,63 46,15

libertad 1 531 532

Varianza 3,53 0,080

varianzas 43,93

Coeficiente de determinacin[Tabla 10.3 aproximadamente R2 = 3,53/46,15 = 0,076.

aqu]

Pastor-Barriuso R.

10.3.3 Inferencia sobre los parmetros de la recta de regresin

1.2 MEDIDAS DE TENDENCIA CENTRAL pendiente de la recta de regresin utilizando el mtodo de mnimos cuadrados. A partir Las medidas de tendencia central informan acerca de cul es el valor ms representativo de las distribuciones muestrales de b0 y b1, se derivan a continuacin los intervalos de

Regresin lineal simple

de una determinada variable o, dicho de forma equivalente, estos estimadores indican 2 donde los coeficientes i = parmetros de s x } dependen nicamente del modelo de confianza y tests de hiptesis - x )/{(n - 1) la recta de regresin 10.3.3 Inferencia sobreclos (xi para los parmetros subyacentes 0 y 1de los valores de alrededor Apartado 10.3.1agrupan los datos observados. Las medidas constante y la pendiente de la En el de qu valor se se obtuvieron los estimadores b0 y b1 de la de tendencia regresin lineal simple. la de regresin utilizando se asumen constantes. cuadrados. A partir de las distribuciones recta variable explicativa que el mtodo de mnimosBajo las asunciones de linealidad y central de la muestra y b , setanto para resumir los resultados observados como para de hiptesis muestrales de b0 sirven derivan a continuacin los intervalos de confianza y tests El estimador de mnimos cuadrados de la pendiente de homogeneidad de1 la varianza, el valor esperado de b1 es la recta de regresin puede para los parmetros subyacentes 0 y 1 del modelo de regresin lineal simple. realizar inferencias acerca de los parmetros poblacionales correspondientes. A El estimadorcomo una combinacinde la pendiente de la recta de regresin puede reescribirse reescribirse de mnimos cuadrados lineal de los valores nde la variable respuesta n n como una combinacin E b1) = ci E ( y i ) = c i la tendencia = 1 lineal de los estimadores de + 1 respuesta continuacin se describen los(principalesvalores de 0la variable c i x i central de una
2 donde los coeficientes ci = ( xi - x )/{(n 1) s x } dependenynicamente de los valores de (xi x )( y i - y ) ( xi x ) i n variable. 2 b1 = cii =1 ( n - )/{( = i =1 = i y i su varianza y, como las observaciones yixsonxindependientes (vase Apartadoc3.4),de los valores de donde los coeficientes que sei asumenn - 1) s x } ndependen nicamente, de linealidades = la variable explicativa constantes. Bajo las asunciones y 2 2 ( xi x ) ( xi x ) i =1 1.2.1 Media aritmtica i =1 i =1 n i =1 1 i =n i =1

n la variable explicativa que se asumen constantes. Bajoes asunciones de linealidad y homogeneidad de la varianza, el valor esperado 2 n b1 2 las 2 de 2 var(b1 x )/{(ndefine2} dependen nicamenteuno. de valores de la variable ) = , c 1)sx como c i de cada de los los La media aritmtica, denotada (xi se i var( y i ) = la suma = donde los coeficientes ci = por 2 (n 1) s x i i= explicativa que se de la varianza, nel1valor esperado de=1b1 esde linealidad y homogeneidad de la homogeneidad asumen constantes. Bajo las asunciones n n valores muestrales dividida por de = 1 es c Ede observaciones el b varianza, el valor esperadob1) nmero ( y i ) = 0 c i + realizadas.=Si 1denotamos E( i 1 ci xi 26 i =1 i =1 i =1 Es decir, b1 es un estimador insesgado de 1 que ser tanto ms preciso cuanto menor n n n por n el tamao muestral y porbxi)el valori E ( y i ) = 0 c i el sujetoci-simo, i = 1, ..., n, E( 1 = c observado para + 1 i x i = 1 =1 i =1 i =1 seacomo las observaciones yi son independientes (vase iApartado 3.4), suyvarianza es y, la varianza de la variable respuesta alrededor de la recta de regresin mayores la media vendra dada por y, como las observaciones yi son independientes (vase Apartado 3.4), su varianza es sean el tamao muestral y lai dispersin de la variable explicativa. 3.4), su varianza es y, como las observaciones y son independientes (vase Apartado Adems, si el tamao n n 2 n var(b1) = x = i2x1 + xy i += +2 x n .c i2 = . c var( 2 ) ... 1 2 x= muestral n es suficientemente grande, puede aplicarse una(generalizacin del teorema i n 1) s x i =1 i =1 2 n n n i =1 n var(b1) = c i2 var( y i ) = 2 c i2 = . 2 Es centralb1 es un estimador insesgado de 1 que ser1 tanto (n 4.3.3) paracuanto menor sea la decir, del lmite (ver su versin=1ms simple en el iApartado 1) s x ms preciso demostrar que = i Es decir, b es un de tendencia central ms que ser tanto ms y varianza de lamedidaestimador insesgado de utilizada y de ms fcilmayores sean el tamao La media es la 1 variable respuesta alrededor de 1la recta de regresinpreciso cuanto menor b1 se y la dispersin de la variable explicativa. Adems, si el tamao muestral muestraldistribuye de forma aproximadamente normal con la media y varianza descritas n es Es decir, b1 es un estimador aplicarse una generalizacin ms muestra.cuanto menor sea la varianza de la puede respuesta alrededor de la recta la preciso y suficientemente grande, al centro de gravedad de ser tantode teorema central del lmite interpretacin. Correspondevariableinsesgado de 1 que los datosdel de regresinSumayores (ver su anteriormente, versin ms simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma sea la varianza de laest muydispersin alrededor de laexplicativa. Adems, mayores sean el tamao normal conla respuestavarianzalos valoresanteriormente, este el tamao principal limitacin es muestral y la influenciada por descritas extremos y, en y si aproximadamente que variable media y de la variable recta de regresin

b1 sean el seres suficientemente tendencia1 central (de la . generalizacin del el tamao muestral n un muestral y la dispersinde la variable) una N 0, 1 distribucin. caso, puede notamaofiel reflejo de lagrande, puede~aplicarse explicativa. Adems, si teorema

muestral n es suficientemente grande,simple aplicarse una generalizacin del teorema central del lmite (ver su versin ms n 1 en el Apartado 4.3.3) para demostrar que s x puede Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se central uso de este forma aproximadamente normal con la media y varianza descritas Para1hacer del lmite (ver su versinparmetro desconocido ha 4.3.3) para demostrar que b se distribuye de resultado, el ms simple en el Apartado de sustituirse por la desviacin Para hacer valores del colesterol HDL obtenidos en los 10 primeros sujetos por tpica residualusoque este resultado, el parmetro desconocido ha de sustituirsedel la de b1 utilizarn los s, de conlleva un error adicional de muestreo. La distribucin resultante b se distribuye dispersa aproximadamente normal con la media y varianza descritas ser 1entonces ms de forma que la normal, siguiendo aproximadamente una distribucin t de anteriormente, desviacin tpica gradoson libertad correspondientes Infarction and de laLa Student con los n 2residualdeAntioxidants, Myocardial a la estimacin Cancer of estudio European Study s, que conlleva un error adicional de muestreo. varianza residual, anteriormente, b b 1 1 ~ 1 distribucin resultante de b1 ser entonces ms~dispersa que la normal, realizado Nt( de.casos the Breast (EURAMIC), un estudio 1 multicntrico n0,2 1) . y controles siguiendo s b1 1 ~ aproximadamente una distribucinst sde StudentN ( , los evaluar el efecto de los n con 1) entre 1991 y 1992 en ocho pases Europeos1e1Israel0para. n - 2 grados de libertad x xn
Cabe destacar que estela estimacin de la n 1 con residual, correspondientes a resultado se hasderivado varianza independencia de la asuncin de normalidad x y, en consecuencia, es vlido para cualquier distribucin subyacente de la variable respuesta, Cabe hacer usoque este resultado, se ha derivado con independencia de asuncin de Para destacar de este resultado el parmetro desconocido ha de sustituirse por la 5 siempre que el tamao muestral sea suficientemente grande. normalidadusoen consecuencia, es vlido para desconocido ha de sustituirse por lala Para hacer tpica residual s, que conlleva un error adicional de muestreo. La desviacin y, de este resultado, el parmetro cualquier distribucin subyacente de

variable respuesta, siempre 1que elentoncesun error adicional de normal, siguiendo desviacin tpica residual b que conlleva muestral sea suficientemente grande. distribucin resultante de s, ser tamao ms dispersa que la muestreo. La A partir de la distribucin muestral de bms con los - grados de libertad distribucin resultante distribucin t de Studentintervalonde2 la normal,al 100(1 - )% aproximadamente una de b1 ser entonces 1, el dispersa queconfianza siguiendo aproximadamenteaunaestimacin det la Student con los n - 2 dado de para la pendiente subyacente 1 de ladevarianza residual,vienegradospor libertad correspondientes la distribucin recta de regresin

Pastor-Barriuso R.

27

173

A partir de la distribucin muestral nde,1b1, 2el intervalo de confianza al 100(1 - )% . b1 t 2 / sx n 1 variable respuesta, siempre que el tamao muestral sea suficientemente grande. para la pendiente subyacente 1 de la recta de regresin viene dado por Correlacin y regresin lineal simple DeA partir de la el contraste bilateral de la hiptesis de ausencia de asociacin lineal igual forma, distribucin muestral de b1, el intervalo de confianza al 100(1 - )%

s b1 n 2 para la pendiente subyacente y respuestaH/02: 1 = 0 se .viene dado por el estadstico entre las de la distribucin muestralde b,1, deintervalo1de confianza al 100(1 )% para la variables explicativa 1 de la trecta el regresin realiza mediante A partir sx n 1 pendiente subyacente 1 de la recta de regresin viene dado por s b . b1 t ,1 hiptesis de ausencia de asociacin lineal De igual forma, el contraste bilateral t n=2la / 2 1 de , ss x n 1

s en el riesgo de desarrollar un primer infarto agudo de miocardio de Studentde confianza y el testlibertad que se distribuye aproximadamente presentan1 t en una con n - 2 grados Para variables la exposicin, se como H b = ,0 se realiza mediante el de de t= entre lascompletar explicativa y respuesta 0,89,el intervalo 1,29, 1,42, 0,84, estadstico 1 hombres adultos. Los valores obtenidos central informan acerca de cul es el valor ms representativo fueron 0:s 1,58, 0,79, Las medidas de tendencia ultos. Los valores obtenidos para nula es cierta. 0,79, test es1,42, 0,84, aunque estas de regresin lineal tener 1,29, regresin, si la hiptesis la 0,89, 1,58, Este se presentannel intervalo de confianza y el suelen hiptesis fueron constante de la recta de equivalente al contraste inferenciastest de Para completar la exposicin, sx 1 1,06, 0,87, 1,96 y 1,53 mmol/l. Lavariablede los niveles del colesterol HDL en estimadores indican bde de una determinada media o,=dicho 1 forma equivalente, estos t ,96 y 1,53 mmol/l. La distribuyelos niveles del colesterol HDLt0de Student sentidoenFgrados de libertad si la simple presentado porque la la anterior. Deen , de con n del contraste tener que se media de la constante de relacin deuna shecho, el estadstico2 la mayora de las escasa importanciaen el apartadorecta en regresin, aunque estas inferencias suelende hiptesis para aproximadamente como x = carece estos 10 participantes esdeEste test es se agrupan unacontraste de regresin lineal simple presentado que se distribuye aproximadamente como al t de Student con n - 2 medidas libertad hiptesis nula es cierta. qu valor equivalentelos datos observados. Las grados dede tendencia Para alrededor la exposicin, completar y de s x el ticipantes es en el apartado anterior. De hecho, delse presentanndelintervalo de confianza b el test al cuadrado regresin es El estimador mnimo-cuadrtico de1contraste de b0 = y -mayora una estadstico este contraste, aplicaciones.igual al cuadradorelacin en x =F0 de la constante regresin esxigualde las escasa importancia porque la el estadstico t carece de sentido en la 1 es es lineal delsi la hiptesisdede la contraste,la,58 +tanto1para resumir los resultados observados como para estadstico t nula es cierta. Este test... +equivalente al contraste de regresinsuelen 0,89 ,53 hiptesis para1laeste muestra+ 1 recta de regresin, aunque estas inferenciastest de tener constante desirven Para central 10 la exposicin, se presentan el intervalo de confianza y el completar x = El 53 que + ,58 + ... + x i =dos mnimo-cuadrtico =1,223 y yconque tiendenx es una 1 10 0,89 se1distribuyeestimador estimadores independientes mmol/l.bn = 2ygradosade libertad aplicaciones. lineal de -b combinacin 10 1,aproximadamente como b12 (ntde1)Student b1 0 distribuirse s2 SSR una dela constante i= x = x i = simple presentado1 en el 1,223 F =10 los parmetrosx poblacionalesF del 1 = apartado anterior. De hecho, el estadstico correspondientes. A mmol/l. = contraste de = 2, realizar inferenciasde relacin de regresin, aunque estas inferencias suelen tener acerca de2 en x = 0 carece de tsentido en la mayora de las escasa importancia porque hiptesis10 la constante la la recta para 10 i =1 s s2 si la hiptesislineales cierta. Este test esindependientes contraste detienden a distribuirse combinacin nula de dos aumenta el equivalente al y y b1 que regresin lineal de forma normal conformeestimadores tamao muestral, de lo cual se deduce que la de regresin que El estimador mnimo-cuadrticosiempre de sentido =valores x escentral de una tal forma es igual alporque la relacin principales este contraste, la tendencia de continuacincuadrado del estadstico t de aplicaciones. ambos se describen los en x = carece los mismos escasa importancia procedimientos facilitan0 de estimadores de la b1 P (la distribucin La media aritmtica presenta las siguientes propiedades: la constante b0 en y -mayora unalas simpleforma 1 grado de apartado anterior. De hecho, elgrados de libertad en el denominador F siguientes propiedades: procedimientos aproximadamente mismos valores P (la de numerador n 2 estadstico de tal presentado en de distribucin que ambos b0 aumenta el tamao muestral, los cual con media que tica presenta lasde Fisher con muestral ellibertad en elserfacilitanysiemprede normal F del contraste la de forma normal conforme tambin lo se deduce es, aplicaciones. Elel cuadradoestimadores independientes y y b que 2ygrados de libertad). por definicin, estimador de la distribucin n de ) 2 variable. - b1 SSR b12 ( Student con n combinacin lineal de dos mnimo-cuadrticotde1laaconstante1 delos datosx distribuirse Cambio de origen (traslacin). Si se suma una constante s x cada2uno b0 = tienden aes una regresin es una constante a cada uno2 de=los datoseste numerador y n - 2 grados de distribucin igual Fisher con 1F = estadstico t de el contraste, F de al cuadrado del de libertad2en = t , grado origen (traslacin).Para completar la exposicin, se presentan el sintervalo de normal conymedia de hiptesis Si se suma distribucin muestral E(bb)0 = E( y ) -sser aproximadamente confianza el test de tambin E(b ) x = + x - x = 0 1 0 1 1 0 constante de conforme aumenta el independientes y 1 inicial ms la de para muestra,normalla recta de regresin, aunque es igual a laymediacual tienden a distribuirse una laforma la media de dos estimadores tamao muestral, de bsuelen se deduce que la 1.2.1 Media la muestra combinacin lineal aritmtica resultante estas inferenciaslo que tener escasa importancia de de la tra, la media de lalibertadrelacin en x =igual es, por SSRinicial nel cuadrado de lasdistribucin t de Student muestraen el denominador a la dedefinicin, la 1 s 2 porque la resultante es 0 carece media b12 ( ms )lax sentido en mayora2 aplicaciones. El estimador x E(b ) = E( y ) - E(b ) x = + 1 = , mismos de tal forma que ambos procedimientos facilitan0siempret-los x = 0 valores P (la mnimo-cuadrtico de=la ide 0 , aumenta el porxx + seuna combinacin linealmedia uno de + b0 tambin c F b = c. define de normal con de y varianza media iaritmtica, denotada tamao smuestral,como la suma de cada estimadores constante utilizada; si yconforme entoncessser=aproximadamente 1 de origendeduce que la los La muestralx constante = 0 = 2y 1b1 ,es 2 Un cambiolo cual se que dos distribucin de forma grados de libertad). con n - 2 normal + c Un cambio de origen que = 1 ilizada; si yi = xindependientes y y bx que .tienden a distribuirse de forma normal conforme aumenta el tamao i + c, entonces distribucin cual se deduce quegrado de libertad en el numerador y n - 2 grados de F de Fisher con 1 la distribucin muestral de b tambin ser aproximadamente muestral, de lo muestral de centrado deserel nmero de observaciones realizadas. Si denotamos y varianza se realiza con valores muestrales dividida porvariable, que consiste en2restar a frecuencia es el b0 tambin la aproximadamente 0 distribucin normal con media E(b ) = E( y ) - E(b1) x = normal con mediavariable,0procedimientos facilitan= + 1x -+1 x x= 0 valores P (la n frecuencia es el de tal forma la ambos quevar( y ) + en restar a 0siempre los mismos . centrado de que var(b )0= consiste var(b1) x 2 2 1 28 2 libertad en el denominador es, por definicin, el cuadrado de la distribucin t de Student centrada 2ser, cada valor de por n el tamao muestralmedia xi el valor observado n 1)el sujeto i-simo, i = 1, ..., n, la muestra su media. La y por de una variable n ( para s x por ) = distribucin F de unaE(bcon E( y ) de ser, = 2 0 + el x1 1 x x y e la muestra su media. La media de Fisher )0= = 1 grado E(blibertad en21numerador 0n .2 grados de variable centrada 1 ) x por y varianza + var(b0 var( con n - 2 grados de libertad). y ) + var(b1) x = n (n 1) s 2 por tanto, igual a 0. media vendra dada 2 2 y varianza la x Reemplazando el parmetro por su estimacin s , el intervalo de confianza al 100(1 libertad en el denominador es, por definicin, el cuadrado de la distribucin t de Student a 0. y varianza x2 Cambio de escala (unidades). Si se multiplica cada x 2 = de 2 1 datos de una . 2 y) 2 + el intervalo n 2 var(b0) = var( por + var(b1) uno sx1, losx 2++ ... + xde confianza al 100(1 28 1 n con nparagradoscada uno de los datosxes una x = - 2 la constante poblacional sude )% multiplica el parmetro Reemplazando de libertad). n (n 1) s . 0 estimacin escala (unidades). Si se = i x n n = x2 muestra por una constante, la media de la+ var(b i)1resultante 1 + var( ) muestra x 2 el es igual a confianza var(b0) = 2 porysuestimacin2 s=, 2intervalo de la2media al 100(1 )% 1 Reemplazandomuestra resultante es igual a la media )% parala constante poblacional 0 es la el parmetro 2n (n 1) s . una constante, la media de x 2 2 x 28 paraporconstante poblacional 0 es porn su1 / 2 s 1 + = ,cel .intervalo de la la constante parmetro b t i estimacin s al 100(1 inicialReemplazando el utilizada;siy0i = cx,2,entonces centralxms utilizada confianzafcil La media es la medida de tendencia y y de ms 2 n (n 1) s x a constante utilizada; si yi = cxi, entonces y = c x . 2 2 x2 1 Reemplazando el parmetro porsues )% para la constante poblacionalt n se1estimacin cada uno de losdedatos de la al 100(1 -Su b0 + interpretacin. Corresponde 02, multiplica gravedad de los confianza muestra. centro de s , el intervalo datos de Cambio simultneo de origen y escala. Si al / 2 s n (n 1 2 ultneo de origen y escala. Si se multiplica cada unohiptesis nula H0: 0 ) s x0 es y el estadstico del contraste de la de los datos de = )% para una limitacin es constante poblacional est muy influenciada por los la media principal una muestra porla delconstante y alla que 0 esse le sumaotra0constante, valores extremos y, en este y el estadstico contraste de resultado nula H0: 0 =x 2 es hiptesis 1 por una constanteyyel estadsticose lecontraste de0 la hiptesissmedia : = 2 es al resultado del suma otrabconstante, /la nula+H t n 2,1 2 0 0 0 de la muestra caso, puede no ser a lafieltreflejo de la0 tendenciascentral de la distribucin. resultante es igual un media inicial b n la n 1) x constante, ms la por ( primera 2 , = a resultante es igual a la media inicial por la primeratconstante, 1 + 2 la x b0 n 2,112 s ms x 2 s / + bn ( . segundael estadstico del=contraste ,de lat hiptesis nula Hn:2 1)= x0 es constante; si yi c1xi + c2 entonces yn = c10 x +) c 2 , s (n 1 0 x 0 s y = y = c1 x + En stante; si yi = c1xi + c2, entoncesEjemplo 1.4 c2. este y en los sucesivos ejemplos sobre estimadores muestrales, se 1 x2 s distribucin + que bajo H0 seguir aproximadamentehiptesis nula H :t2 = 0 es con n 2 grados de libertad. Student y el estadstico del contraste de la una colesterol 1)0s xde obtenidos en los 10 primeros sujetos del n bn HDL ( 0 utilizarn los valores del una distribucin t demmol/l a con n -se grados de Ejemplo 1.5 Para transformar los valores del colesterol HDL de Student mg/dl 2 que bajo H0 seguir aproximadamente 0 = Para transformar los valores del colesterol HDL detmmol/l a mg/dl2 se , 1 x multiplicabajo el 0factor de aproximadamenteAs, + b0 libertad. H seguir conversin 38,8. s una Antioxidants,t Myocardialcon n - 2 gradosCancer of distribucin de Student Infarction and de que por R. estudio European Study on utilizando2 la propiedad del t= n or el factor 174 conversin 38,8. As, utilizando la propiedad del(n 1) s x , de Pastor-Barriuso 1 estudio multicntrico de casos y controles realizado x2 s cambio de escala, lathe Breast colesterol HDL en mg/dl se calculara media del (EURAMIC), un+ libertad. 2 scala, la media delque bajo H HDL en mg/dl se calcularauna distribucin t de Student con n - 2 grados de colesterol seguir Las estimaciones puntuales 1) s x Ejemplo 10.9 aproximadamente n (n obtenidas en el Ejemplo 10.7 para los
0

1 Deentre las variables explicativa y respuestasH0:n 1de se realiza de asociacin lineal entre las igual forma, el contraste bilateral de la hiptesis= 0 ausencia mediante el estadstico x De igual1.2 MEDIDAS DE TENDENCIArealiza mediante el estadstico forma, el y respuesta H0: 1 = 0 la hiptesis de ausencia de asociacin lineal contraste bilateral de se CENTRAL variables explicativa antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en

constante es s 0,283 1 x2 26,0 2 SE(b1) = y s = 0,283. El error estndar de la estimacin de la = fueron b0 = 1,69, = 1 s= -0,023 s n = 0,283 1 + = 0,0035. = 0,092Regresin lineal simple + SE(b0) b 3,50 532 2 1 n (n x1) s x 533 532 3,50 2 2 x 1 26,0 2 constante es 0) = s 1 + = 0,092 = 0, El + SE(b fueron b0 = 1,69, b1 = -0,023 y s = 0,283.283error estndar de la estimacin de la 533 recta de 2 Los ICs al 95% para lan (n 1) s x la pendiente de la532 3,50regresin constante y2 Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los y de la pendiente constante esde la regresin del colesterol HDL 1 parmetros sobre el ndice de masa corporal fueron 1 x2 26,0 2 poblacional son )entonces+ = 0,092 0,283 + SE(b 0,023 y s = 0,283. 2 =error estndar de la estimacin de la constante es 0 = s b0de 1,69, b1 = El y = la pendiente n (n 1) s x 533 s 0,283 532 3,50 2 SE(b1) = 2 = 0,0035. = 2 1 SE(bx0) = 1 1,960,092 = (1,51; 1,87) x n 1,69 3,50 1 s 532 26,0 b) = ts 0 531;0,975 + SE(b0 s2 = 0,2830,283 + 532 3,50 2 = 0,092 n 533 = 0,0035. n = y de la pendiente SE(b1)(= 1) s x sx n y de ICs al 95% para la constante y la 1 3,50 532la recta de regresin Los pendiente de y la pendiente s 0,283 y de la pendiente = poblacional son paraSE(b1 ) = entonces Los ICs al b t 95% laSE(b ) = -0,023pendiente532la= 0,0035.regresin constante y la 1 1,960,0035 = (-0,030; -0,016). s n 3,50 de recta de
s 0,283 poblacional son entonces1) SE(b ) y la pendiente de la recta de regresin poblacional son Los ICs al 95% para la constante = 1,69 1,960,092 = (1,51; 1,87) = 0,0035. = b0 tSE(b = 0 531;0,975 s n 3,50 con Del intervalo para la la constante y la pendiente532 recta de regresin Los ICs entonces al 95% para pendiente xpuede1concluirsede la una confianza del 95% que
1 531;0,975 1
x

= y el nivel medio b0entonces SE(b0 ) en1,69 1,960,092 = (1,51; 1,87) de t531;0,975 poblacional son colesterol HDL la poblacin de referencia del estudio Los ICs al 95% para la constante y la pendiente de la recta de regresin y significativa ya que el contraste de la hiptesis nula H0: 1 = 0 mediante el EURAMIC disminuye entre)0,016 y 0,030 mmol/l por ( y t entonces b b0 t531;0,975 1 = 0,023 1,960,092 cada incremento de 1 poblacional 1son 531;0,975 SE(bSE(b0) = 1,69 1,960,0035 == 0,030;1,87) (1,51; 0,016). estadstico kg/m2 en el ndice de masa corporal. concluirse el intervalo de confianza para el Del intervalo para la pendiente puedeEn general, con una confianza del 95% que el nivel ) b1 para la pendiente -0,023 1,960,0035 (-0,030; -0,016). Del intervalo bt0531;0,975SE(b1la= puede concluirse con =del estudio EURAMIC disminuye HDL en poblacin de referencia= (1,51; 1,87) y medio de colesterolt531;0,975SE(b0) = 1,69 1,960,092una confianza del 95% que efecto subyacente cmmol/l por cadab1 a incremento de kg/m2 la variable explicativa incremento c en entre 0,016 y 0,030 1 asociado= cualquier 0,023 1= -6,63en el ndice de masa corporal. t el nivel medioparacolesterolconfianzala ) = el,0035desubyacente del estudio que en poblacin Delgeneral, el intervalo de HDL SE (bconcluirse con referencia c1 asociado a cualquier intervalo de la pendiente puede para 0 efecto una confianza del 95% En y b1 t531;0,975SE(b1) = -0,0231 1,960,0035 = (-0,030; -0,016). incremento c en la variable explicativa se obtienepara 1 por dicho incremento, intervalo se obtiene multiplicando los lmites del intervalo multiplicando los lmites del EURAMIC disminuye entre HDL en 0,030 mmol/lde referencia del estudio 1 el nivel medio de colesterol 0,016 y la poblacin por cada incremento de para 1 por dicho incremento, resulta en un valorpendiente puede concluirse 2(-6,63) < 0,001. Notar que b1 para la SE(b1) = -0,023 1,960,0035 una confianza del Del intervalo t531;0,975P bilateral 2P(t531 -6,63) con = (-0,030; -0,016).95% que este kg/m2 en el ndice cb1 masa corporal. 0,030 mmol/l2,1 /2 SE(bincremento depara el de tn 2,1 /2 SE(cb1 ) = c{b1 t intervalo )}. EURAMIC disminuye entre0,016 y En general,nel por cada 1de confianza 1 test medio mismo valor P que el contraste de regresin del el1.2 MEDIDAS colesterol HDL en CENTRAL de referencia ejemplo anterior ya nivelarroja elde As, porde desarrollar TENDENCIA la poblacinmiocardio en del estudio que confianza del con los incrementos 95% la un nivel infarto antioxidantes en elDel intervalo paraDEpendiente decualquier incremento c en la variablede una desviacin riesgo ejemplo, con un primerpuede concluirse95%,una confianza del explicativa efecto enejemplo, con masa corporal. Enagudo de el intervalo de confianza para el kg/m2csubyacente c1 un nivel dedela hiptesis nula Hlosincrementosdisminucin media 2 asociado a confianza del 95%, As, por= el ndice deen el ndicede masageneral, se asocian 0 mediante el de una tpica 3,50 kg/m corporal significativa ya que el contraste 0: 1 = con una 2 EURAMIC531 -6,63) entret0,0166,632) = P(F1,531 por0,057 y 3,500,030de 0,105 mmol/l. disminuye = P( 531 dey 0,030 mmol/l cada que 2P(t en decolesterol HDL en la poblacin de=43,93).incremento = 1 poblacional el tendencia 0,89, entre 3,500,016 referencia elLas medidas de colesterol HDL informan 1,29, de cul es del estudio nivel medio hombres adultos. Los valores obtenidos fueroncentral1,58, 0,79, acerca1,42, 0,84, el valor ms representativo se obtiene multiplicando los lmites el ndice de masa corporal variable explicativa de la efecto subyacente c= 1 asociado escualquier incremento 1 en dicho que el con una desviacin tpica cdisminucin 2aen del intervalo para c porla seya incremento, Por supuesto, esta 3,50 kg/m estadsticamente significativa asocian contraste estadstico kg/m2 en el ndice de masa corporal. En general, el intervalo de confianza para el EURAMIC disminuyevariableniveles0,030forma equivalente, estos estimadores indican mmol/l hiptesisdeterminada= 0 mediante el estadstico por cada incremento de 1 1,06, 0,87, 1,96 y 1,53 mmol/l. La 0: 1 entre 0,016 y del colesterol HDL en de una nula H media de los o,en el colesterol para entre 3,500,016 = 0,057 dicho se obtiene multiplicandot los lmites del = disminucin de confianza y prediccindec{b laHDL deSE(b dicho incremento, media poblacionalSE(cb ) intervalorecta de por )}. cb n-2,1-/2 b 1 para1 tn-2,1- 1 regresin 10.3.4 Bandas 1 023 efecto en el ndice c1masa corporal. En 0,incremento/2c en la variable explicativa 2 subyacente 1 kg/m de 1 asociado a cualquier observados. Las medidas de para el = general, el 6,63 t agrupan los datos = intervalo de confianza tendencia = estos 10 participantes es alrededor de qu valor se SE b ) 0,0035 y 3,500,030 = 0,105 mmol/l. Por (supuesto, disminucina)}.estadsticamente 1 Adems de ejemplo,inferencias sobreconfianza esta95%,ylos ,incrementos de una los ) es menudo interesante SE(cb1parmetros n-2,1- SE(b es cb1 As, por realizar con untn-2,1-lmites del = c{b1 tpara1 por 1dicho incremento, del se obtiene multiplicando nivel/2 a cualquier incremento/2 1en la variable explicativa los de intervalo 0 c efecto subyacente c1 bilateraltanto para 6,63) los resultados 0,001. Notar que este test 10 en un valor P asociado resulta de0la muestra+ ... + 1,53 531 resumir 2F( 6,63) < observados como para 1central ,89 + 1,58 sirven 2P(t xcalcular intervalos de confianzael2P(tla propia regresin del ejemplo+anterior queque 2P(t 1,223 mmol/l. = arroja xen un valor P bilateralpara=531 -6,63) 2(-6,63) < 0,001.1x. Ms este = i mismo valor3,50nivel contraste de del masa corporal se Notarcon 30 531 resultael ejemplo,c =10unque de confianza recta de regresin 0 asocian una una desviacin tpica con P kg/m2 en el ndice de 95%, los incrementos de ya As,=por multiplicando los lmites del intervalo para por dicho incremento, 10obtiene i 1 serealizar = P(t2 cb1acerca P(Flos parmetros poblacionales 1correspondientes. A SE(b )}. 6,63) inferencias 2tn-2,1-/2SE(cb1) = c{b1 tn-2,1-/21 6,63 ) = de 1,531 43,93). 531 concretamente, media =valor P que2en valor x0 dede regresinentreejemplose pretende determinado el ndice la variable del se asocian con ya test arroja el mismopoblacional encontraste de masa corporal3,500,016 = 0,057 disminucin dadocun 3,50 kg/m el el colesterol HDL de explicativa, anterior una desviacin tpica continuacin se describen los SE(cb = c{b t cb1 un nivel principales estimadores de la tendencia central de una 1 n-2,1- /2 incrementos de una La media aritmtica presenta las de confianzan-2,1-/2de confianza delrecta losregresin 10.3.4As, por ejemplo, con t y2 prediccin) para la 95%,deSE(b1)}. Bandas siguientes propiedades: 2 1 obtener2P(tintervalo depoblacional6,63el colesterol HDL de entreesde la variable un 531 media =mmol/l. para el= P(F1,531 43,93).+ 1x0 estadsticamente que -6,63) confianza en ) valor esta disminucin 3,500,016 = 0,057 P( t 531 Por supuesto, esperado 0 y 3,500,030 = 0,105 disminucin variable. Adems de realizar inferencias kg/m2 en el a cada de masa , es a menudo interesante calcular desviacin tpica suma una constante ndice uno y con Cambio de origen As, por ejemplo, c = 3,50 sobre los parmetros 0de 1corporal se asocianuna una (traslacin). Si se con un nivel de confianza del 95%,los datos los = b + b x de respuesta. El estimador puntual de recta de regresin es 1incrementos = y + b1(x0 0 concretamente, 1 0 intervalos de confianza para la propia este valor esperado 0 + y 0x. Ms estadsticamentedado un y 3,500,030 = 0,105 mmol/l. Por supuesto, esta disminucin es 30 determinado de la muestra 3,50 kg/m es el colesterol HDL de entre 3,500,016 = 0,057 variable explicativa, disminucin confianza y prediccin para se pretende obtener se intervalo de confianza 1.2.1 valor x de poblacional en el ndicemedia inicial ms un de una muestra, la desviacin tpica c la resultante 2enigual a lalade masa corporal la asocian con una 10.3.4media Media 0aritmtica Bandas de media= recta de regresin para elque, siguiendo un 0 + 1x0 de la anlogo al del apartadoestimador presenta unaeste valor x ) valor esperado razonamiento variable respuesta. El anterior, puntual de 30 esperado y realizar=entoncesdenotadalos x ) se definedisminucin es de cada uno de los que, siguiendo un menudo interesante x + 0,105 = constante utilizada; sideimedia aritmtica,= ysobre(xpor Un, cambiodeyorigen a razonamiento = 0,057 al del y Laes=0 i = , + b poblacional + .parmetros Adems3,500,030c0inferencias + bPor0 cel colesterol HDL 1, es que 3,500,016 anlogo de entre disminucinbmedia1x0 mmol/l. x1 ensupuesto, esta 0 como la suma estadsticamente distribucin aproximadamente normal en muestras suficientemente normal en muestras apartado anterior, presenta una distribucin aproximadamente grandes, con media valores grandes, con la variable, nmero de observaciones realizadas. Si denotamos suficientementemuestrales de media se realiza con frecuencia es el centrado dividida por el que consiste disminucin es estadsticamente30 calcular3,500,030 = 0,105 mmol/l. Por supuesto, esta en restar a 0 + 1x. Ms y intervalos de confianza para la propia recta de regresin E( y 0 ) = E( y ) + E(b )(x0 x ) = + 1 x + 1 (x0 x ) = 0 + 1 x0 por el tamao muestral y 1una i el valor0 observado para el cada valor de la muestransu media. La media depor xvariable centrada ser, por sujeto i-simo, i = 1, ..., n, concretamente, dado un determinado valor x0 de la variable explicativa, se pretende 30
la media tanto, igual a 0. y varianza vendra dada por obtener un intervalo de confianza para el valor esperado 0 + 1x0 de la variable
Pastor-Barriuso R. 175

Cambio de escala (unidades). Si se multiplica cada uno de los datos x + ... + x x + de una 1 n respuesta. El estimador puntual de este valor esperado es y 0 1 b0n+ 0bx0 ) 2 + b1(x0 y 2 . x = xi = 1 2 2 = ( x 1 x =

explicativa. Esta banda de confianza est DE TENDENCIAramas de una hiprbola y su 1.2 MEDIDAS delimitada por las CENTRAL

176

Las E( y 0 = x0 y , aumentando medida xx x0 2medidas=de tendencia central informan acerca de 0 ( 0 + (x - x su media amplitud es mnima)en E( = )x+ E(b1)(x0 - x )a= 1 + 1que x)1se 0aleja)de 0 + 1x0 Las b1 x 0 t n 2,1 / 2 s Correlacin y regresin lineal simple +medidas de tendencia central informan acerca de cul es el valor ms representa b0 . + 2 n (n desuna determinada variable o, dicho de forma equiv 1) x la determinada variable o, dicho de de la equivalente, estos estimadores indica muestral x , lo que confirmaunaintuicin de que el valor esperado formavariable de y varianza alrededor de qu valor se agrupan los datos observad y varianza La banda de confianza para la recta precisin en valores centrados que en valores respuesta puede estimarse con mayor de regresin no es ms que la representacinLas medidas de tendencia alrededor de qu valor se agrupan los datos observados. 2 1 central ( x la x ) . ) = var( y ) de todo el x ) = 2 + de 0 muestra var( y 0explicativa. + var(b1 )(x0rango2 observado de la variable sirven tanto para resumir los re grfica de estos intervalos a lo largo extremos de la variable central de la muestra sirven tanto para resumir) s 2 n (n 1 los resultados observados como para x realizar inferencias acerca de los parmetros poblaci explicativa. Esta banda de confianzatest delimitada por las ramas de la estimacin s2,su tiene Por tanto, utilizando la distribucin n2 resultante de sustituir 2 por una hiprbola y se realizar inferencias acerca de los parmetros poblacionales correspondientes. A que elEjemplo 10.10 Para cada valor fijo x0 del ndice de continuacin + ladescriben de s2, se esperado por Por intervalo de confianza al 100(1 n-2 resultante valormasa corporal, 1xmodelo los principales estimadore tanto, utilizando la distribucin t )% para el de sustituir 2 0 seelestimacin 0 es amplitud es mnima en x0 = x , aumentando a medida que x0 se aleja de su media continuacin se describen los principales estimadores de la tendencia central de una 2 regresin lineal estima un IC al al 100(1 valor x 0el valor esperado 0 HDL es 1 para x ) tiene que el intervalo de confianza 95% para- el )% + (esperado del colesterol+ 1x0 de variable.. b0 + b1 x 0 1.22MEDIDAS DE TENDENCIA CENTRAL t n ,1 / 2 s 2 muestral x , lo que confirma la intuicin de que el valor(esperado de la variable n n 1) s x variable. ( x 0 Media 2aritmtica ,0 La banda de confianza para 023x precisin en valoresms 26la )representacin grfica cul respuesta puede estimarse con,la rectade96 medidas dees+1.2.1quecentral en valoresacerca dede es el valor m centrados . Las 0,283 1 1,69 0 mayor 1, regresin no tendencia que informan 0 La banda de confianza para la el rango observadono la 532 3,50explicativa. Esta estos intervalos a lo largo1.2.1 Media aritmtica 533 es ms que la representacin banda de de todo recta de regresin de variable 2 La su amplitud es de forma por confianza est variable explicativa. extremos de la delimitada por las ramas de una hiprbola yvariablearitmtica, denotada x0 = x ,, se define estim de una determinada media o, dichomnima enequivalente, estos com aumentando a medida que x0 a lo largo de todo el rango por x ,, lo que confirmala suma de cada uno de los grfica de estos intervalos se aleja de su media muestral se define como la La media aritmtica, denotada observado de la variable intuicin de 31 El reaesperado de la variable respuestarepresenta la banda muestrales divididaen valores en gris oscuro de la Figura 10.9 puede estimarse con mayor precisin por el nmero de observ de confianza al 95% que el valor valores alrededor de qu valor se agrupan los datos observados. Las medidas d centrados que en valores valores muestrales del ndice de el nmero dede una hiprbola y su extremos de la x0 delimitada por las explicativa. 10.10 Para cada valor fijovariable explicativa. ramas observaciones realizadas. Si denotamo Ejemplo Esta banda de confianza est dividida por masa corporal, el modelo de para toda la recta de regresin del colesterol HDL sobre el ndice de masa y por xi el valor observado por n el tamao muestral central de la muestra sirven tanto para resumir los resultados observad amplitud es 10.10 estima = elICaumentando ael valor esperado del colesterol HDL sujeto i-simo, i = 1, ..., regresinmnima Para0cada valor95%xpara ndice dexmasa0corporal,de modelo de regresin lineal en x n x ,tamao muestral y por que x se aleja el su media de al fijo 0 del medida i el valor observado para el por un Ejemplo corporal, que se obtiene de calcular estos intervalosla media vendra dadadentro en sucesivos valores por lineal estima un IC al 95% para elrealizar1,960,024 =acerca de los parmetros poblacionales correspond valor inferencias (0,90; 1,00). 1,69 - 0,02332 esperado del colesterol HDL de muestral x , lo que confirma la vendra dadaque el valor esperado de la variable la media intuicin de por del rango observado del ndice de masa corporal. Los x 0 26,de 2esta banda de lmites 0) continuacin 1 + ( . 1,69 0,023 x 0 1,96 0,283 se describen los 2principales estimadoresnde la tendencia x + x2 + 1 533 532 3,50 respuesta puede estimarse con mayor precisin en valores ncentrados que en valores x = x i = 1 1 confianza tienen forma de hiprbola y su1,960,024aumenta = x1 + x 2 + ... + x n . amplitud= = (0,90;gradualmente n i =1 n 1,69 - 0,02332aproximadamente aqu] x x 1,00). variable. [Figura 10.9 El reade la variable explicativa. 10.9 representa la n ide confianza al 95% para toda en gris oscuro de la Figura banda n i =1 extremos la rea de 0 se aleja del media x = 26,0 kg/m2 del banda confianza al 95% El recta en gris oscuro decolesterol HDL sobre el ndice de de masa corporal. se obtiene conforme xregresin de lala Figura 10.9 representa la ndicemasa corporal, que As, 1.2.1 Media aritmtica rango observado del tendencia de calcular estos intervalos en sucesivos valores dentroLa media es la medida dendice de central ms u del La recta de regresin puede utilizarsemedida de tendencia central ms utilizada y de ms fcil no slo estimar la media La mediael valor medio paracolesterol HDL de poblacional de la su es colesterol HDL sobre el ndice entre los sujetos y masatoda la recta Para cada valor la x0 del ndice de masa corporal, de hiprbola corporal. IC al regresin esta banda de confianza tienen Los 95% para 10.9 paraejemplo,10.10de lmites de del fijoaproximadamente aqu] forma el modelo de masa porEjemplo el del [Figura interpretacin. Corresponde alcomo la suma de cada se define centro amplitud aumenta gradualmente La media aritmtica, denotada por x ,= 26,0 kg/m2 del de gravedad conforme x0 se aleja de la media variable respuesta entre los sujetos con un determinado valorde gravedad de los datos de la muestra. Su 2 interpretacin. Corresponde al centro x0 de la variable corporal, masa corporal. de calcular estos intervalos esperado valor medio del colesterol con unde quelineal estima un ICde 25 kg/mel IC valoren sucesivos valores dentro de ndice ndice se obtiene As, poral 95% para el al 95% para el del colesterol HDL regresin de masa corporal ejemplo, , principal media valores slo para estimar kg/m2, La recta de regresin con un ndice lano muestrales divididalimitacin es que est muy influenciada po HDL entre lostambinpuedepredecir de respuesta individualla por unnmerosujeto la 25 y de el nuevo de observaciones realizadas explicativa, sino sujetos para utilizarse masa corporal deinfluenciadapoblacional de extremos y, en este 0 principal limitacin es que est muy por los valores del rango observado del ndice de masa corporal. Los lmites de esta banda de 1,69 0,02325 1,960,013 = (1,09; puede no ser un fiel reflejo de la tendencia cen 1,14), 2 muestral y0 de 0 i el valor ( variable valor x . Segn la estructuraporunel tamaoregresin xpor,la) variable observado para el sujeto i-s los sujetos del n valor 1caso, x 26 x dado su respuesta entre69 puede xcon1,96determinadode la 0 lineal, el central de la distribucin. 0 1, de0hiprbola ymodeloreflejo + tendencia valor subyacente 2 0,283 . caso, ,023 no aquellos de un ndice de masa corporal de 32 kg/m , ser un fiel con aumenta gradualmente 0 confianza tienen ms preciso que entre su amplitud forma es sensiblemente 533 532 3,50 2 es sensiblemente ms para predecirmedia vendra dada por y0 de masa corporal entre aquellos explicativa, sino tambinpreciso quela la respuesta con un ndice de un nuevo sujeto 1,69 un determinado sujeto individual 1,00). de la variable respuesta para 0,02332 1,960,024 = (0,90; x0 viene dadoEn este = 0 + sucesivos ejempl con x = Ejemplo 1.4 por y0 y en los conforme x0 se aleja de la media x = 26,0 kg/m2 del ndice de masa corporal. As, Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales El kg/m x de 32 rea 2,0 Segn la estructura del modelo de regresin lineal, el valor subyacente dado su valoren .gris oscuro de la Figura 10.9 representa la banda de confianza al 95% + ... + x n x +x utilizarn1los Lax0 + 0, de regresin puede utilizarse no slo para b0 + b1x0la media poblacional2 de la n HDL obten recta cuyo 1 por ejemplo,estimador insesgado es de nuevo del = estimar HDL entrevalores del colesterol . x= el IC al 95% para el valor medio y 0 colesterol ya que x i =sujetos los 1 los valores del colesterol la variable explicativa, variable respuesta entre los sujetos con un determinado valor x0 de HDL obtenidos en los 10 primeros sujetos n = 32 para toda la recta parautilizarnaproximadamente x = x viene dado masa = 0 sino de la variable respuesta de regresin del colesterol HDL aqu]0 el ndice idepor y0Study +n Antioxidants, Myo un 10.9 con sobre [Figura determinado sujeto nuevo sujeto dado su1 valor x . Segn la estudio European 0 on tambin para predecir la respuesta individual y0 de un 2 con un ndice de masaycorporal+ 25 + E( , - = E(y regresin lineal, 0 kg/m 0 subyacente de la ) = 0.Myocardial para un - 0 )estudio European = de 1x el valor 0 1 Antioxidants, estructura del modelo de0 obtiene de0 calcular estos)Study- on x0en E(0variable respuestaInfarction and Cancer o intervalos 1x0 +corporal, que sex = viene dado La media y + = b0 + b1sucesivos valores insesgado es 0, sujeto con ya estimador dentro por y0 = 0 0 x0 + the0 Breast (EURAMIC), un estudio multicnt , cuyoque determinado cuyo estimadorxinsesgado es de nuevoes la 1medidaxde tendencia central ms utilizada y de ms 0 La recta de regresin puede utilizarse no slo para estimar la0 media poblacional de la 1,69 0,02325 1,960,013 = Los 1,14), de nuevodel = b0 + observado del ndice de (EURAMIC), (1,09; lmites de esta banda de 0 rango b1x0 ya que-the Breast masa corporal.un estudio multicntrico de casos y controles realiza Asimismo, como el valor estimado y 0 por la recta de regresin en x0 esyindependiente pases Europeos ela interpretacin. Corresponde al centro de gravedad de los datos de I entre 1991 1992 en ocho y 0 ) = con 1 x + E( 0 ) 0 valor = de 0 ) = 0. E(ylos sujetos 0 + un0determinado 1 x0 x0 E(la variable variable respuesta entre 0 entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo confianza tienen forma de hiprbola y su amplitud aumenta gradualmente entre de es nueva observacin y0, se sigue por la aquellos con un ndice de es independiente de los la sensiblemente ms preciso que que recta de regresin est masa corporal Asimismo, como el valor estimado 0 principal limitacin es queen x0 muy influenciada porla valores extre explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto nueva observacin x 0elsealejaestimado y 0 x = la recta de 2regresin en x0 es independiente y valor de la Asimismo, como0 ,se sigue que media por 26,0 kg/m del ndice de masa corporal. As, de conforme, 32 kg/m2 caso, puede no ser un fiel reflejo de la tendencia central de la distribuc 2 ( x valor dado su valor x0. Segn la estructura del modelo de regresin1lineal, el x ) subyacente 0 = var( 0) + var( ) = 1 colesterol var(y0 yal),95% paraque y 0medio 2del + + 0 HDL ; 32 2 entre los sujetos por ejemplo, el IC de la nueva observacin y0 se sigue el valor n (n 1) s x Ejemplo x En viene dado sucesivos + de la variable respuesta para un determinado sujeto 2 1.4 = x0este y en lospor y0 = 0 ejemplos sobre estimado con con un ndice de masa corporal de 25 kg/m , 1 ( x0 x ) 2 ; utilizarn + var(y0 - y ) = nueva + nuevo 0 2los b1x +ya que 1xes+decir, la prediccin de0 una var(es)de var( y 0 )y= a partirvalores del colesterol HDL obtenidos en los 10 pri 0, cuyo estimador insesgado 0 observacin = b0 1 +de 0la recta de2 regresin 0 n = (1,09;(n 1) s x Pastor-Barriuso R. 1,69 - 0,02325 1,960,013 1,14), estimada est sujeta a dos fuentes de error: la varianza inherente de on Antioxidants, Myocardial Infarction estudio European Study cada respuesta E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0. es decir, sensiblementede una de regresin subyacente y el error en laderegresin de la recta estimacin es la prediccin recta nueva observacin a partir deun ndice un estudio multicntrico de casos y co individual respecto a lams preciso que entre aquellos (EURAMIC),de masa corporal the Breast con

explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Segn la estructura del modelo de regresin lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = 0 +
2,25
Regresin lineal simple

1x0 + 0, cuyo estimador insesgado es de nuevo y 0 = b0 + b1x0 ya que 2


Colesterol HDL (mmol/l)

E(y0 - y 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0.


1,5

Asimismo, como el valor estimado y 0 por la recta de regresin en x0 es independiente de la nueva1observacin y0, se sigue que
1 (x x)2 0 ) = var(0) + var( y 0 ) = 2 1 + + 0 var(y0 - y 2 n (n 1) s x ;

0,5 0,25

es decir, la prediccin de una nueva observacin a partir de la recta de regresin estimada est sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m) 20 24 28 32 36

Figura 10.9 Bandas de confianza (rea en gris oscuro) y prediccin (rea en gris claro) al 95% para la recta de regresin del colesterol HDL sobre el ndiceerror 0 se distribuyegrupo control del estudio EURAMIC. dicha recta. Adems, si el trmino de de masa corporal en el de forma normal (asuncin

individual respecto a la recta de regresin subyacente y el error en la estimacin de 10.9 Figura

de normalidad), la de una nueva y 0 tambin a partir de distribucin normal, de tal es decir, la prediccindiferencia y0 - observacin seguir unala recta de regresin estimada est sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la recta de regresin subyacente y el error al 100(1 - )% para una nueva observacin el trmino forma que el intervalo de prediccin en la estimacin de dicha recta. Adems, si de error 0 se distribuye de forma normal (asuncin de normalidad), la diferencia y0 0 tambin seguir una distribucin normal, de tal forma que el intervalo de prediccin al 100(1 )% para individual y0 es una nueva observacin individual y0 es
2 1 ( x0 x ) b0 + b1 x 0 t n 2,1 / 2 s 1 + + . 2 n (n 1) s x

La banda de prediccin viene entonces determinada por estos intervalos de prediccin en los 33 distintos valores observados x0 de la variable explicativa. En general, la banda de prediccin ser substancialmente ms amplia que la banda de confianza, particularmente cuando el tamao muestral es grande, lo que refleja el hecho de que existe mucha ms incertidumbre en la prediccin de la respuesta individual de un nico sujeto que en la estimacin del valor medio de la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa. Cabe destacar, por ltimo, que los intervalos de confianza para el valor esperado de la variable respuesta se basan nicamente en las asunciones de linealidad y homogeneidad de la varianza, mientras que los intervalos de prediccin para una nueva observacin requieren adems de la hiptesis de normalidad, siendo estos ltimos incorrectos si la distribucin subyacente de la variable respuesta no es normal. Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de colesterol HDL de un sujeto con un ndice de masa corporal x0 es
Pastor-Barriuso R. 177

Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el
Correlacin y regresin lineal simple

ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de colesterol HDL de un sujeto con un ndice de masa corporal x0 es ( x 26,0) 2 1 . + 0 533 532 3,50 2

1,69 0,023 x 0 1,96 0,283 1 +

El clculo de estos intervalos en distintos valores x0 del ndice de masa corporal da lugar a clculo estos intervalos en distintos Figura x0 del ndice que la banda de confianza, Ella banda de prediccin en gris claro de la valores10.9. Al igual de masa corporal la banda de prediccin est centrada alrededor de la recta de regresin estimada, pero su amplitud la banda de prediccin en gris claro de la Figura 10.9. Al respuesta individual da lugar aes notablemente mayor al incorporar la variabilidad de cadaigual que la respecto a su valor esperado. Por ejemplo, el intervalo de prediccin al 95% para el nivel de colesterol HDL de banda de prediccin est ndice de masa corporal viene dado por banda de confianza, laun sujeto con 25 kg/m2 de centrada alrededor de la recta de

1,69 0,02325 1,960,284 = (0,56; 1,67), regresin estimada, pero su amplitud es notablemente mayor al incorporar la que es mucho ms impreciso que el intervalo de confianza calculado en el ejemplo anterior que es mucho cadadel colesterol HDL en todos confianza calculado valor para el valor medio respuesta individual respecto a sujetos esperado. Por variabilidad dems impreciso que el intervalo de los su valorcon dichoen el del ndice de masa corporal (IC al 95% 1,09-1,14 mmol/l). ejemplo el intervalo el valor medio 95% para el HDL en todos los sujetos un ejemplo, anterior parade prediccin aldel colesterolnivel de colesterol HDL decon
10.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple dicho con 25 kg/m2 de ndice corporal (IC al 95% 1,091,14 sujeto valor del ndice de masade masa corporal viene dado pormmol/l). Los procedimientos de estimacin e inferencia derivados en los apartados anteriores se basan en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violacin de 34 estas asunciones puede dar lugar a conclusiones errneas del modelo lineal, siendo as necesario 10.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple evaluar su idoneidad en cada aplicacin prctica. Aunque existen diversos tests para contrastar curvilneas y con similar dispersin a lo largo de toda la recta. Tal parece ser el caso del estadsticamente cada estimacin e inferencia derivados en los apartados anteriores final del Los procedimientos de una de las hiptesis del modelo lineal (vase referencias alse tema), en este apartado se presentan algunas tcnicas diagnsticas basadas en el anlisis grfico diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL de la de los residuos, proponindose asimismo extensiones de la varianza y normalidad. La basan en las asunciones de linealidad, homogeneidad bsicas del modelo y transformaciones de los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura especial de estas a las hiptesis de linealidad y homogeneidad de del modelo violacinatencin asunciones puede dar lugar a conclusiones errneas la varianza, ya que las principales inferencias relativas a la pendiente de la recta de regresin y al valor esperado de la 10.2(d), sin embargo, se muestra un claro ejemplo de violacin de la asuncin de variable respuesta son aproximadamente vlidas en muestras moderadamente grandes lineal, siendo as necesario evaluar su idoneidad en cada aplicacin prctica. Aunque aunque la distribucinya que la relacin variable respuesta no sea normal. linealidad, subyacente de la subyacente es visiblemente cuadrtica. No obstante, el existen diversos tests para contrastar estadsticamente cada unade las asuncionesdel la regresin El grfico ms simple para evaluar el grado de cumplimiento de las hiptesis de grfico ms el diagrama chequear las asunciones de la regresin lineal es el diagrama lineal simple esutilizado parade dispersin entre las variables explicativa y respuesta, junto con modelo de regresin estimada. Sial final del tema), en este apartado se presentan algunas de la la recta lineal (vase referencias se cumplen las hiptesis de linealidad y homogeneidad de dispersin de del diagrama = dispersin han de valores predichos y i = b0 + b1xi por varianza, los puntos los residuos ei de yi - y i frente a los distribuirse aleatoriamente alrededor de tcnicasde regresin sin evidencia de relaciones curvilneas y con similar dispersin a lo largo la recta diagnsticas basadas en el anlisis grfico de los residuos, proponindose de la recta de regresin. Este ser el caso del diagrama de dispersin entre elentre xi edei masa toda la recta. Tal parece grfico es equivalente al diagrama de dispersin ndice y asimismoyextensiones bsicas de la Figuray10.7, donde no se de los datos para corporal el colesterol HDL del modelo transformaciones aprecian desviaciones obvias de estas asunciones. En la Figurapero tienesin ventaja de se muestra un claro ejemplo deaviolacin en regresin lineal simple, 10.2(d), la embargo, ser directamente generalizable la acomodar posibles desviaciones de estas asunciones. En particular, se presta especial de la asuncin de linealidad, ya que la relacin subyacente es visiblemente cuadrtica. No obstante, el grfico de una variablepara chequear las asunciones de la regresin lineal es el presencia de ms ms utilizado explicativa en regresin lineal mltiple. atencin ade dispersin de los residuos e = y frentede losvarianza, ya que las = b + b x por diagrama las hiptesis de linealidad y homogeneidad a la valores predichos i i i i 0 1 i la recta de regresin. Este anlisis grfico de los residuos, es importante describir algunasyi en Antes de proceder al grfico es equivalente al diagrama de dispersin entre xi e principales inferencias relativas a la pendiente de la recta de regresin y al valorla presencia de regresin lineal simple, pero tiene la ventaja de ser directamente generalizable a ms de una variable explicativa hiptesis de linealidad y homogeneidad de la varianza, los de sus propiedades. Bajo las en regresin lineal mltiple. esperado de la variable respuesta son aproximadamente vlidas en muestras Antes de proceder al anlisis grfico de los residuos, es importante describir algunas de susresiduos ei = yiBajoi las hiptesisdistribucin subyacente de la variable respuesta noresiduos propiedades. - y tienen un valor esperado moderadamente grandes aunque la de linealidad y homogeneidad de la varianza, los ei = yi i tienen un valor esperado

sea normal.

E(ei) = E( yi) E( y i ) = 0

178

regresin lineal simple es el diagrama de dispersin entre las variables explicativa y 1 (x x) 2 i ) - estimada.ySi se 2 1 las hiptesis . i ) = cumplen i var(ei = var(y ) + var( y respuesta, junto con)la recta ide regresin 2cov(yi, 2 de

El grfico ms simple para evaluar el grado de cumplimiento de las asunciones de la y una varianza Pastor-Barriuso R.

realizar el diagnstico del comparables a distintos nivelesestandarizados realizar residuos sean comparablesmediante los residuosla variable explicativa, es preferible el diagnstico del modelo a distintos niveles de de la variable explicativa, es preferible residuos sean modelo mediante los residuos estandarizados valor se agrupan los datos observados. Las medidas de tendencia y ) = 0 E(ei) = E(yi) - E( i Regresin lineal simple realizar el diagnstico deldel modelo mediante los residuos estandarizados preferible realizar sean comparables a e ei distintos nivelesresiduos estandarizados eiei residuosel diagnstico modelo mediante lospara la variable explicativa, es de i stra sirven tanto para resumir losirresultados observados como == r == ,, i y una varianza hi 11 ( x ix i x2 2 s s 11 hi ( x) ) realizar el diagnstico1 correspondientes. del mediante s s 1 e 2 as acerca de los parmetros poblacionalesnrmodelo1) sei2 ei Alos residuoseestandarizados y una varianza = = i i , , ri =ni =(nn 1) x x ( s s 1i x x )2 2 1 1.2 MEDIDASsDE1 1(i ( ix x ) s 1 2h hi 1 ( x i x ) 2 TENDENCIA CENTRAL 1 ) 2cov(y2, y s describen los principales estimadores=de la tendenciaycentral de una2i ) = e1 . e ( 1 i var(ei) var(yi) + var( n i n(n in ) s1) s i 2 rie= por una estimacin xde= su desviacin(n 1) s xEl , x n tpica. El que se obtienen de dividir los residuos iei por una estimacin de s desviacin tpica. su 1 h que se obtienen de dividir los residuos i xi x ) 2 1 (residuos sean acerca de cul es el valor ms de la variable Las medidas de tendencia central informan comparables a distintos nivelesrepresentativo expli s 1 de homogeneidad de la varianza, los residuos e As, aun cuando se cumpla la asuncin n (n 1 2 es una trmino hhse se obtienen deel leveragelos residuosporpor unayestimacin la recta de regresin estimada.i trminotendrnse obtienen dividir los residuos observacins xes una medidavarianza, losmedianteEl residuos estanda i i se conoce como el dividir de una de ilos una estimacinmedida desviacin tpica. que conoce cuando de leveragela asuncin ei distintosel diagnstico desviacin tpica. El ei que aun como varianza alrededor observacin)y puntos de su su modelo residuos los diferente se cumpla de una e de homogeneidad de de del As, realizar de una determinada variable o, dicho de forma equivalente, estos estimadores indican Ms concretamente, los residuos tendern a ser mayores en valores centrados que en valores mtica estandarizada de laidedistancia como cada valor ixde esla una observacin y una su mediax x x muy distante estandarizada dehlaseila variable explicativa. Esto la debido a explicativaesla medidacon y es trmino distancia entre cadael residuos una distintos puntos deyysu media trmino se conoce como valor x de variable explicativa su(x extremos obtienen deentre el los leverage elosvariableque los puntos rectai) regresin El tendrn h conoce dividir leverage de i por una estimacin de una y de que se diferente varianza alrededoride de observacin observados.i,medida i tpica. tendencia desviacin alrededor de qu valor se agrupan los datos Las medidas de ei ei de ica, denotada por x ,tienen mucha influencia de cada uno de losde la pendiente, de tal = se define como la suma en la estimacin ri forma que la recta de = , que se tratar en el resultantesiguiente.entrelos residuosestosi la variable explicativavalores centrados x ) 2 que se tratar en el apartadodistanciaa No obstante, valortamao avariable es grande esypreferible estandarizadase conoce como aNo obstante,asixelde puntosser mayoresgrandesu su1 (x x de concretamente, cada niveles tamao que presentarn residuos h Msla tender el entre cadade eli x la variableyexplicativa, y sean de siguiente. leverage media estandarizada comparables aproximarse si tendern muestral es en y entonces x regresin apartado la distancia distintosvalorunadede lamuestral explicativa y media pequeos s 1 hi estimada. observacin es una medida trmino i central de la muestra sirven tanto para resumir los resultados observadosi como para s 1 2 es dividida por residuos ei.de observaciones realizadas. Si denotamossean comparables a distintosnniveles desla el nmero Por ello, y con objeto de que los residuos no hay valores muyvaloresel apartadovariable explicativalos residuoses debido a que los puntos(ny, 1) x extremosel de la de la variable No diagnsticoel tamao alto de variable realizarobstante, si si estandarizados es grande (observaciones modelo no hay valores tratardiagnsticopreferible explicativaobstante,Esto del con alto mediante losyresiduos muy extremoses ladelsiguiente. Noexplicativa. el tamao muestral es grande (x (observaciones con muestral que se en tratar en distancia entre mediante realizar el en de modelo cada el que se variable explicativa,la apartado siguiente. valor xi de la variable explicativa y su media ix que estandarizada extremos realizar inferencias acerca de los parmetros poblacionales correspondientes. A muestral y por xestandarizados i el valor observado para el sujeto i-simo, i = 1, ..., n, leverage), ambos residuos distantese comportanmucha influencia (observacioneslosde alto e por una estimacin de su anloga. leverage), ambos residuosmuyirsede xde la variable explicativa en (observaciones residuos i comportan de forma se obtienen no quehaytratar enieyyapartado siguiente.forma explicativa la estimacin con pendiente, hay valores muy no se valores iextremos tienen variable anloga. yi) con xi muy e elr extremos de lade No obstante, si elede dividir con la alto i y tamao muestral es grande ei que i continuacin r = se describen los principales estimadores de la tendencia central de una = , i dada por 2 En determinadosambos el grficoedeelos ri residuos(trmino h se conoce como el valores de una observacin y es u casos el residuosdei yse se comportan forma s 1anloga. los valores residuos estandarizados i hi En determinados casosresiduos ide rilos comportani de x )tenderra frente a los a estos puntos grfico y regresin resultante forma irfrente a estandarizados aproximarse leverage de i anloga. x explicativa (observaciones con alto 1 leverage), valores muyrecta leverage), ambosla extremos de la variable de hay que no tal formavariable. s 1 2 n (n 1) s x n x1 permite 2apreciar el el grfico posibles desviaciones distanciade a los de las predichos 1yquedeterminados ... +casospequeos residuos edesviaciones lade objeto frente cada valor x de la variable exp no =determinados claramente las de residuos estandarizadosasunciones valores y inopresentarn+entonces grficoselas posibles .de estandarizados i frente que los permite predichos leverage), + xapreciar x nclaramentede los los residuos ello, anloga.rasuncionesalos valoresi En En i estandarizada de conlas ri entre x = xi forma y ambos casos . ei y ri comportani Por residuos n 1 quei =se obtienen 1.2.1 Media aritmtica por una estimacin de su desviacin tpica. El trmino hi de n dividir los residuos ei quehomogeneidad de la delosgrfico deeloslasunatratardesviacionesrde las las distancia entre si el tamao se determinados deapreciarresiduos obtener una medidael apartado frentela asunciones obtienen de dividirvarianza. Para iobtener una estandarizadosdesviacin losNo obstante, predichos y permite la una claramente residuosrepresentacin ms clara predichos se conoce y i no no permite apreciar Para por se de linealidad yy homogeneidad casos el observacin y es posibles desviaciones de asunciones 36 de linealidad En como iel leverage varianza. claramente las estimacin de su ms claraa tpica. El representacin i siguiente. valores que posibles en estandarizada de la utilizada y de ms y su cada valor xi deLa variable explicativa fcil media se se tratar en el apartado siguiente. No a medida de tendencia central msmedia aritmtica, denotada por x ,que define como la suma de cada uno de los observacin una de medida trmino se es homogeneidad de lalos deno hay rirenvalores muy extremoskms la variable en tales circunstancias,yesconoce como dividirvarianza.yPara hayen Kuna representacin nkde clara explicativa (observac aconsejable de es los n residuos posiblesgruposunatamaola asunciones en tales obstante, sihiel homogeneidadel leverage n residuosvaloresgrupos de tamao lasvariable circunstancias, tamao muestral la claramenteno obtener muyes representacin ms clara aconsejable dividirgrande unalas iobtener y extremos de n de predichos y i y permite apreciar varianza. Para K desviaciones de linealidad no de linealidad valores los con alto leverage), Su explicativa (observaciones datos de la muestra.el nmero de observaciones realizadas. Si denotamos orresponde al centro de gravedad demuestrales dividida por ambos residuos ei y ri se comportan de forma deciles) calcular la ordenados por valores crecientesesdey y i(por ejemplo, leverage),la calcular ila mediay ri y tamao nk x kde forma anloga. ordenados estandarizaday homogeneidad de la dividir deciles) obteneri residuos grupos de tamao n portales circunstancias, aconsejablecada valor xndeyy variable explicativa se comportan valores crecientes es i (por ejemplo, losPara residuosen K grupos de su media anloga.circunstancias, de aconsejable dividir los n ambos unaen K ei en de linealidad de la distancia entre varianza. i residuos r r media tales en representacin ms clara por n los valores extremos y, x el valor observado para el sujeto i-simo, i = 1, ..., n, n es que est muy influenciada porel tamao muestral y poreni este En determinados apartadogrfico de los obstante, si deciles)casos el grfico de los y el siguiente. que se tratar valores crecientes de (por residuos estandarizados r frentegrande residuos ordenados porporen elcasoses aconsejable Noejemplo, deciles) y calcular ila mediaa los valores estandarizado ejemplo, el tamao muestral media ordenados valores crecientes de ykink y (por En determinados y calcular laes tamao nk en tales circunstancias, apreciar claramente las posibles desviaciones de las predichos i no permitevendra dada npor idividir los n residuos ri en K grupos deasunciones de 11 la media er un fiel reflejo de la tendencia central de lardistribucin.i = r predichos y (observaciones con alto k varianza. linealidad valores muy extremos =nnla=variable explicativano representacin ms clara en las posibles desviac no hay y homogeneidad dekrla de 1 ir Para obtener una permite apreciar claramente tales 1 k k i i= ordenados por aconsejable dividir los i residuos r en iK grupos calcular la media circunstancias, es valores crecientes de y n (por1kejemplo, deciles) y de tamao nk ordenados por 1 n nk n i + x2 + rk =k = 1 ri r r valores crecientes de i sobreejemplo, deciles) n calcular= x1anloga.... + x n . = i 4 En este y en los leverage), ambos residuos estimadores muestrales,forma media sucesivos ejemplos (por ei y ri se comportan ide x i lay homogeneidad de la varianza. Para obtener una re n x y=k1 =1 se dei linealidad k yy la varianza la varianza n i =1 n 1 nk En HDL obtenidos en el 10 primeros sujetos i r = residuos os valores del colesterol determinados casoslos grfico deklos n talesrdelestandarizados ri frente a los valores n residuos ri en en k circunstancias, es aconsejable dividir los i =1 y la varianza y la varianza La media es la medida de tendencia central ms utilizada y de ms fcil nknk 11 22 2 s k k== and Cancer posibles desviaciones de las asunciones riri 2 s predichos ordenados y Antioxidants, no permite Infarction uropean Study onla varianza y i Myocardialapreciar claramente las of por valores crecientes de y (por ejemplo, deciles) y c i nn k i =i1=1 k n y la varianza interpretacin. Corresponde1 centro2 de gravedad de los datos de la muestra. Su al 1k nk2 s 2 =k = realizado s2 Para (EURAMIC), un de linealidad y homogeneidad de controles ri obtener una representacin ms clara estudio multicntrico de casos y la kvarianza. ri n k n=k1 i =1 i de los residuos en cada uno de loslimitacinLa presencia de curvatura en el grfico de los extremos y, en este de los residuos en cadaprincipal grupos. La presencia muy influenciada por los valores uno de los grupos. es que est denkcurvatura en el grfico de los 1 nk 1 de los residuos r en K grupos de tamao n ri rk = 2 en residuos en e Israel de evaluar el k = dividir los i 2 y 1992 en ocho pases Europeos cada unoes aconsejable efecto rn de curvatura en el grfico de los residuos i de los tales circunstancias,paralos grupos.sLa presencia n k ki n k de1yla enlos curvaturagruposgrfico de los los=1de i y en de distintos ende la distribucin. = distintos grupos en los valores predichos La presencia los distintos grupos de residuos caso, los unono de grupos.medios cada de predichos residuos medios rkrkfrente acadavalores ser un fiel medios presencia de curvatura el el grfico de residuosde los los residuos enpuedeunopredichos reflejo k k tendencia central en indicar falta medios frente alos valores los los grupos. La ordenadosla relacin, mientras que la existencia de tendencia eny calcular la media por valores crecientes de y i (por ejemplo, deciles) el grfico de las desviaciones linealidad en 5 y la varianza medios residuos medios k frente uno los mientraspredichos medios de los los distintos residuos medios indicar falta deresiduales rsenrkcada a losdemientras queLa presencia ydeentendencia enaportar evidencia relacin, valores que la existencia en distintos grfico indicartpicasde linealidadken la relacin, los grupos. la existencia k dek cada grupoel el grupos los falta los residuos lafrente a valores predichos medios de ytendenciaen elgrupos de de linealidad curvatura en de heterogeneidad enEjemplo 1.4 En este y en losnksucesivos ejemplos sobre estimadores muestrales, se la varianza. 1 r = indicar falta de linealidad enala relacin, kmientras que la existencia dedistintos grupos 1 nk 2 en en indicar medios rutilizarn los valores delmientras que la yobtenidosde tendencia el el frente los relacin, n residuos falta de linealidad en lavalores predichosrimedios existencia tendencia sprimeros sujetos del k colesterol HDL k en los en los37 k = 3710 2 k i =1 ri Ejemplo 10.12 En la Figura 10.10(a) se representa el grfico de los residuos n k i =1 estandarizados estudio European Study on Antioxidants, Myocardial del colesterol HDL ri frente los valores predichos de la regresin lineal Infarction and Cancer of indicar falta de linealidadaen la relacin, mientrasi que la existencia de tendencia en el37 37 sobre el ndice de masa corporal. Este grfico, al igual que el diagrama de dispersin entre y la varianza de los residuosFigura 10.7, parece grupos. La presencia de curvat en cada uno de los compatible con el ndice de masa corporal y el colesterol un estudio multicntrico de casos y controles realizado the Breast (EURAMIC), HDL de la las asunciones de linealidad y homogeneidad de la varianza. Para realizar una evaluacin 37 1 nk 2 residuos medias desviaciones tpicas s de los ms detallada, en la Tabla 10.4 se en ocho pases Europeosfrente a los valores predichos medios y k en l presentan las2medios rk ye Israel para evaluar elk efecto de los entre 1991 y 1992 s k = ri n k i =1

Pastor-Barriuso R. que indicar falta de linealidad en la relacin, mientras 179 la existen 5 de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los

modelos pueden considerarse como casos particulares de la regresin lineal nk nk 2 2 11 s ks k= = ri 2 i 2 r n kn ki =1i =1 mltiple cuyas variables explicativas son distintas potencias de una misma Correlacin y regresin lineal simple de los residuos en cada uno de los grupos. La presencia de curvatura en grfico de los devariable bsica. cada uno de los grupos. La presencia de curvatura en elel grfico de los los residuos en residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los residuos medios frente los valores predichos medios kencadadistintos grupos los distintos grupos residuos medios rkrkfrente aaalosvalores predichos medios y kydeen losdecil muestra indicios residuos medios frente los valores predichos medios 1.2 MEDIDAS DEde una posible relacin cuadrtica entre elde desarrollar uncorporalinfarto agudo de miocardio en TENDENCIA antioxidantes en el riesgo ndice de masa primer y el colesterol HDL, CENTRAL [Figura 10.10 aproximadamente aqu] ya quefaltaresiduos del modelorelacin, mientras que lala existencia de tendencia en altos los de linealidad en lalalineal tienden a ser que existenciavalores predichoselel indicar indicar falta de linealidad en relacin, mientras positivos para de tendencia en hombres adultos. cul es el valor ms representativo y bajos del colesterol HDL y negativos para valores predichos intermedios. 0,79, 1,29, 1,42, Las medidas de tendencia central informan acerca de Los valores obtenidos fueron 0,89, 1,58, Por otra parte, 0,84, [Tabla 10.4 aproximadamente la asuncin de homogeneidad de la en la Figura 10.10(c) no se aprecian desviaciones deaqu] 1,06, forma 1,96 y 1,53 mmol/l. La mediak de los niveles del colesterol 37 0,87, equivalente, estos estimadores son similares en los distintos en 37HDL de una determinadavarianza, o, dicho delas desviaciones tpicas residuales s indican variable dado que deciles de los valores predichos. estos 10 participantes es alrededor de qu valor alternativa ms datos observados. Las medidas de tendencia entre el ndice de masa La se agrupan los simple para-tocoferoluna relacin cuadrtica adiposo Ejemplo 10.13 Los niveles de acomodar y -caroteno en tejido corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo central de la muestra sirven tanto + x + x2los resultados observados ,como para53 1 10 0,89 cuadrtico x , orden E(Y|x) = para resumir , que incluyelos trmino + 1 58 + ... +21adems del trmino lineal 0 1 2 presentan distribuciones asimtricas en eli 700 controles del estudio= 1,223 mmol/l. EURAMIC, x = x = x del ndice de masa corporal. La relacin resultante entre ambas variables ya no ser una 10 i =1 10 realizar inferenciaslnea recta los parmetros poblacionales correspondientes. A acerca de sino una parbola, con un marcado sesgo positivo cuya caso del -caroteno (Figura 4.3). La media y en el curvatura vendr determinada por el coeficiente 2 asociado al trmino de la variable El ajuste de los modelos polinomiales se tratar en el Tema residuos sean comparables a distintos niveles cuadrtico.explicativa, es preferible continuacin se describen losestos modelos pueden considerarse como casos particulares de la regresin lineal 11 ya que principales estimadores de la tendencia central de una la desviacin La media aritmtica presenta las siguientes propiedades: tpica del -tocoferol son realizar el diagnstico del modelo mediante los residuos estandarizados x = 146,1 y sx = 87,6 g/g y del mltiple cuyas variables explicativas son distintas potencias de una misma variable bsica. variable. Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos e ei caroteno y = 0,37 y sy = 0,40 g/g, y el coeficiente de correlacin de Pearson = ri = 10.13 i Los niveles de a-tocoferol y b-caroteno en tejido adiposo presentan , Ejemplo 2 s 1 hi 1 ( xi x ) 1.2.1 Media aritmtica s 1 n (de una muestra, la media de la muestra resultante es igual a la media inicial ms la distribuciones asimtricas en los 700 controles del estudio EURAMIC, con un marcado 2 n sx entre positivo en el1)caso del b-caroteno (Figura 4.3). La se estima desviacin de sesgo ambas variables es r = 0,45. A partir de estos datos media y laque la recta tpica del La media aritmtica, denotada por x , se definescomo lasi yi = yde cada uno de los= 0,37 y .sy = 0,40 mg/g, yorigen que = 146,1 utilizada; suma + , entonces a-tocoferol son constante y x = 87,6 mg/g xidelcb-caroteno y = x + c Un cambio de el que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El regresin del -caroteno sobre el -tocoferol es variables es r = 0,45. A partir de estos coeficiente de correlacin de Pearson entre ambas una observacin es una medida trmino hi se conoce como el leverage nmero de observaciones realizadas. Si sobre variable, que consiste en restar a datos se por el que la recta de regresin es b-caroteno de la el a-tocoferol es valores muestrales dividida estimadese realiza conyfrecuenciadel el centradodenotamos = 0,072 su media x estandarizada de la distancia entre cada valor xi de la variableyexplicativa y + 0,0021x, por n el tamao muestral y por xi el cada valor de la muestra sujeto i-simo, i = 1,de una variable centrada ser, por valor observado para el su media. La media ..., n, con una desviacin tpica residual de los niveles de b-caroteno alrededor de dicha recta de que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y s = 0,36 mg/g. El error estndar de la constante es SE(b0) = 0,026 y de la pendiente SE(b ) = con una desviacin tpica residual de los la media vendra dada por de la variable explicativa (observaciones conniveles de -caroteno alrededor de dicha 1 tanto, igual a 0. no hay valores muy0,00015. As, se tiene que incrementos de una desviacin tpica (87,6 mg/g) en el a-tocoferol extremos alto se asocian con un aumento de 87,6 0,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con leverage), ambos residuos ei y ri se comportan de forma anloga. (unidades). constante es SE(b0) = uno de los datos de una 0,026 y de la recta de s = 0,36Cambio de escala + x de la g/g. El error + ... x x 2 estndar 1,96 0,00015) cada un IC al 95% comprendido+entre 87,6(0,0021 Si se multiplica= (0,15; 0,21). 1 n n . x =de los residuos estandarizados r frente a los valores xi = 1 En determinados casos el grfico n i n de pendiente SE(b1i)=1= 0,00015. una constante, la incrementos0,5 una desviacin es igual a la media muestra por As, se tiene que media de la muestra resultante
4 predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones

tpica de el -tocoferol se asocian consifcilk cxi, 0entonces y = c x inicial por ms constante utilizada; y = r La media esyla medida(87,6 g/g) encentral la unautilizada y de ms uni aumento de 87,60,0021. = de linealidad homogeneidad detendencia Para obtener la varianza. representacin ms clara
en tales circunstancias, es g/g en el nivel medio deri-caroteno, tamaola al Si-0,5 multiplica cada uno de los datos de 0,18 aconsejable dividir de residuos en K de origen deescala. 95% comprendido entre IC interpretacin. Corresponde al centro los ngravedad degrupos deconyunnk muestra. Su Cambio simultneo los datos se
i principal limitacin87,6(0,0021 muy influenciada por losconstante y al resultado este suma otra constante, la media es que est 1,960,00015) por una 0,21). extremos y, en se le una muestra = (0,15; valores (b)

ordenados por valores crecientes de y i (por ejemplo, deciles) y calcular la media r


0

0,9

1,1

1,2

r caso, puede no ser un fiel reflejo rdede la muestra central de dispersin la media inicial por la primera constante, ms la k = la tendencia resultante es igual a entre Una simple inspeccini del diagrama de la distribucin. los niveles de -tocoferol n
k i =1

nk

1,5 1

0,8 1 1,1 1,3 0,9 1 1,1 1,2 homogeneidad2 de1lan varianza, ya que hay 1,2 mayor variabilidad de los puntos s k = 0,9 i 2 utilizarn los valores del colesterolrHDL obtenidos en los 10 primeros sujetos del Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se n k i =1 yi yk 39 (c) estudio European de los grupos. La presencia por(a) factorel Infarction 38,8. As, utilizando la propiedad del multiplica de curvatura en de conversin el de los residuos en cada uno Study on Antioxidants, Myocardialgrfico de los and Cancer of
k

y -caroteno de segunda constante;evidenciaxunacclara violacin=de1la hiptesis de la Figura 10.11(a) si yi = c1 i + 2, entonces y c x + c2. y la varianza Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se -3 0,5

-2

sk

residuos medios r(EURAMIC), un tpicas smedios y k en los distintos grupos controlesHDL de los valores predichos de la dias frente a los valores estudio multicntricomedia del y the Breast k (b) y desviacionespredichos k (c) de los residuos estandarizados por deciles en mg/dl se Figura 10.10 cambio de escala, la de casos colesterol realizado calculara

Figura 10.10 Grfico de los residuos estandarizados ri frente a los valores predichos i (a), as como de las meregresin lineal del colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.

indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el


180 Pastor-Barriuso R.

entre 1991 y 1992 en ocho pases Europeosaepartir de su media en mmol/l de los 1,22338,8 = 47,45 mg/dl. directamente Israel para evaluar el efecto como
37

Figura 10.10 residuos estandarizados rvarianzalos valores predichos i residuos 10.10 i i 10.10 y la y i frente a varianza leverage), ambos (a), Figura Figura i las y la y la varianza medios r (b) y (b) a Grfico de lospredichoslos residuos estandarizados por gruposde los valoresas comoedey ri varianza predichos residuos medias k frente y losavalores tpicas sde medios y k la y kestandarizadosdeciles medias desviaciones frente los valores predichos medios en en los distintos deciles residuos medios rk desviaciones tpicas sk (c) k (c) de los residuos los distintos por gruposde los valores predichos Figura 10.10 Grfico de los residuos estandarizados r frente a los valores predichos (a), as como de las

1 k1 nk 2 1 2 1 i2 0,9 0,9 en 1 1,1 1,1 1,2 1,2 =s k = r1,1 r1,1 1,2 1,2 1,3 que se tratar 1 el apartado siguiente. No obstante, si 1,3 n k i =1k i n n i =1 nk nk yi yi yk yk 1 k1 nk 1 1 rk = rk = ri ri rk = rk = ri ri no hay valores muy extremos1lineal simple Regresin (c) (c) n k i =1k i = de la variable explicativ n n k i =1k i =1 (a) (a) n de los residuos en cadacada uno degrupos. La presencia de curvatura en el grfico de los los uno de los los grupos. La presencia de curvatura en el grfico de de los residuos en
2 0,8 0,8 0,9 0,9 sk

se comportan de form

de los residuos es indicar faltafalta deciles de la 21 la 1 2 k mientras que quelade la regresin lineal el s 2 colesterol 2 de de linealidad en relacin, mientras la i existencia de tendencia en en relacin, 2 indicar porlinealidad s 2 =los valores predichos existencia de tendencia en el del =s 21 = 1 r 2 r ri ri i k Tabla 10.410.4 s k y k k Tabla Media = desviacin tpica de los residuos estandarizados ri por deciles de=1los los nk n i n n HDL sobre Media y desviacinlineal del colesterol HDL sobrecontroli por masa icorporal ndice de linealtpica de los residuosgrupo el ndice deldeciles kde corporal en el estandarizados r de estudio regresin valores predichos el deklai =1klai =1 masa del colesterol HDL sobre el ndiceno masa corporali =1 valores predichos i de regresin i i de permite apreciar claramente las posib predichos y enEURAMIC. del estudio EURAMIC. el grupo control 37 37 en el grupo control del estudio EURAMIC. de los losgrfico de los los de los residuos en cadacada uno degrupos. La presencia de curvatura deresiduos en cadacada uno degrupos. La presencia de curvatura en el grfico en el el grfico de estandarizados de los residuos en uno de los los grupos. La presencia de curvatura enresiduos en uno de los los grupos. La presencia de curvatura en el gr Valores predichos (mmol/l) Residuos estandarizados Valores predichos (mmol/l) Residuos Valores predichos (mmol/l) Residuos estandarizados de linealidad y homogeneidad de la varianza. Para ob

deTablaregresin linealcolesterol HDLHDL sobre el ndice de los residuos estandarizados r lade la 10.4 Mediacolesterol sobre el ndice de masa corporal en elen el grupo controlestudio regresin lineal del del y desviacin tpica de masa corporal grupo control del del estudio EURAMIC. nk EURAMIC. En determinados casos elnkigrfico nk n

Desviacin tpica (sk) medios y Decil (k) Desviacin tpica Media Media Media k y en los distintos (k) Desviacin tpica (sk) Media residuos Media medios los los valores medios ( ) en los distintos grupos residuos medios rk frente a DecilDecil (k) predichos medios enklos distintos grupos) frente a losavalores predichos(sk) medios enklos distintos grupg residuos medios rk frente avalores predichos Media ( y k ) ( y )residuos medios ( rk ( rk ) frente los valores predichos < 0,980,98 0,930,93 0,120,12 en tales circunstancias, es aconsejable dividir los n re 0,950,95 < < 0,98 0,93 0,12 0,95 indicarde tendencia linealidad1,00la relacin, mientras la existencia de tendencia falta 0,981,03 1,001,00 indicar de0,03 en en 1,00 indicar faltafalta de linealidad en la relacin, mientras que la existencia-0,03 faltaen el el en la relacin, mientras que que la existencia de tenden 0,981,03 -0,03 de indicar de linealidad en la relacin, mientras que la existencia de tendencia linealidad 1,00 0,98-1,03 1,00 1,031,05 1,041,04 0,050,05 0,05 1,051,05 1,031,05 1,03-1,05 1,04 1,05 crecientes de y (por ejemplo, i ordenados por valores 1,051,07 1,061,06 0,080,08 0,08 0,900,90 1,05-1,07 1,06 0,90 1,051,07 37 37 0,05 1,04 1,07-1,10 1,09 0,21 0,99 1,10-1,12 1,11 1 nk 0,12 1,02 1,12-1,13 1,12 26 26 rk = ri residuos sean comparables a distintos niveles de la variable explicativa, es preferible 1,13-1,16 1,14 0,09 1,15 n k i =1 0,15 0,85 1,16-1,19 1,17 realizar el diagnstico del modelo mediante1,22residuos estandarizados los 1,19 0,20 1,01

y la varianza = ri = , Una simple inspeccin del diagrama de dispersin entre los niveles de a-tocoferol y s 1 hi 1 ( xi 2 b-caroteno de la Figura 10.11(a) x )2 evidencia una clara violacin de la hiptesis de homogeneidad s 1 1 nk 2 n (n 1) x s2 de la varianza, ya que hay mayorsvariabilidad de los puntos alrededor de la recta de regresink = ri n k i =1 para valores altos del a-tocoferol que para valores bajos. Esta heterogeneidad se hace an que se obtienen de dividiren la Figura por una estimacin de suobserva cmo la desviacin tpica s de los ms evidente los residuos ei 10.11(c), donde se desviacin tpica. El k residuos estandarizados aumenta linealmente conmedidalos residuos valores predichos. grupos. La presenc los deciles de los en cada uno de los de trmino hi se conoce como el leverage de una observacin y es una Por otro lado, la Figura 10.11(b) no muestra una curvatura clara en la relacin, pero s se estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x aprecia una cierta tendencia lineal negativa de los residuos medios rk conforme aumenta predichos med residuos frente a los valores el valor apartado siguiente. No obstante, si el tamao muestral observaciones con valores extremos que se tratar en el predicho. Esto podra deberse a que algunas es grande y de a-tocoferol y b-caroteno tienen excesiva influencia en la estimacin de laen la relacin, mientras qu indicar falta de linealidad pendiente, no hay valores muy extremos de la variable explicativa (observaciones con da lugar a residuos positivos para produciendo una sobreestimacin de la misma que alto valores predichos bajos y residuos negativos para valores predichos altos. La identificacin leverage), ambos residuos ei y ri se comportan de forma anloga. de observaciones influyentes se abordar en mayor detalle en el siguiente apartado.
ei ei En determinados casos el grfico de los residuos estandarizados ri frente a los valores predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones
k de linealidad y homogeneidad de la varianza. Para obtener una representacin ms clara

1,6

0,5 0

en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamao nk -0,5 ordenados 0,8 valores crecientes de y i (por ejemplo, deciles) y calcular la media por rk = 1 nk
0,1 0,3 0,5 0,7

-caroteno (g/g)

1,2

(b)
2

0,4

r
i =1

nk

sk

1 0

y la varianza

0 0 100

-tocoferol (g/g)

1 nk 2 s k = 200 ri 2 n k i =1

300

400

0,1

0,3

0,5

0,7

yk
(c)

de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los Figura 10.11 Regresin lineal del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto con las medias frente a los valores predichos de los y k en los distintos grupos residuos medios rk (b) y desviaciones tpicas sk (c)medios residuos estandarizados por deciles de los valores predichos. Figura 10.11 indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el 37
Pastor-Barriuso R. 181

(a)

El segundo procedimiento para tratar con varianzas heterogneas es encontrar una


Correlacin y regresin lineal simple

transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a esta de heterogeneidad de la seleccin de la transformacin adecuada 1, as En presenciavariable transformada. Lavarianza, los estimadores puntuales b0 y bsuele como la propia recta de regresin estimada = b0 + b1x, continan siendo insesgados, pero la varianza basarse en la relacin existente entre la la variabilidad de la variable respuesta la residual s2 est sesgada ya que infraestima varianza residual y el valor esperado dealrededor de unos puntos de la recta de regresin y la sobreestima en otros. En consecuencia, los errores variable los estimadores no son correctos y de correspondientes intervalos de tienda a estndar de respuesta. En el caso ms frecuente susque la desviacin tpica residualconfianza y tests de hiptesis dejan de ser vlidos. En general, existen dos procedimientos alternativos para aumentar linealmente con el valor primer mtodo consiste en realizar una regresin tratar con varianzas heterogneas. El predicho (tal como ocurre en la regresin del - lineal ponderada, que es una extensin del modelo lineal ordinario donde cada observacin de la caroteno sobre recibe un peso la heterogeneidad de la varianza se resuelve utilizando la variable respuesta el -tocoferol), inversamente proporcional a su varianza estimada alrededor de la recta de regresin. As, cuanto ms precisa sea una observacin, mayor ser su peso en la estimacin de la recta de regresin. En el ejemplo anterior, la regresin lineal ponderada del transformacin logartmica, dado que el logaritmo de la respuesta tendr entonces una b-caroteno sobre el a-tocoferol otorgara ms peso a los puntos con valores bajos del a-tocoferol que a aquellos con valores altos, ya que los primeros presentan menor variabilidadel el nivel varianza aproximadamente constante. Esta transformacin logartmica produce en de b-caroteno. Las tcnicas de regresin lineal ponderada pueden consultarse en los textos mismo efecto en cualquier base este tema. especficos de regresin citados en y slo puede aplicarse a variables respuestas positivas.
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una Adems de homogeneizar la varianza, la transformacin logartmica tambin suele transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a esta variable transformada. La seleccin de la transformacin adecuada suele basarse en la emplearse para normalizar variables respuestas sesgadas positivamente, as como para relacin existente entre la varianza residual y el valor esperado de la variable respuesta. En el caso ms frecuente de que la desviacin tpica residual tienda a aumentar linealmente con el linealizar relaciones con pendiente montonamente creciente. valor predicho (tal como ocurre en la regresin del b-caroteno sobre el a-tocoferol), la heterogeneidadade la varianza se resuelve utilizando la transformacin logartmica, dado que Para volver la el uso de una respuesta logartmica est en ambos lados de esta igualdad, Aun cuando escala original, se toma la exponencial plenamente justificado en el logaritmo de la respuesta tendr entonces una varianza aproximadamente constante. Esta transformacin logartmica geomtrica mismo efecto en cualquier base y slo puede aplicarse a resultando que la media produce el de la variable respuesta (definida interpretarse en la trminos estadsticos, los resultados del modelo transformado han de como la variables respuestas positivas. Adems de homogeneizar la varianza, la transformacin logartmica tambinmedia de los logaritmos; vase Apartado variables una funcin sesgadas suele emplearse para normalizar 1.2.3) es respuestas exponencial de de la variable respuesta. El modelo en escala logartmica asume que el escala original la positivamente, as como para linealizar relaciones con pendiente montonamente creciente.

exponencial de delvariable explicativa,logartmica est cambia linealmente con en trminos Aun cuando el la logaritmorespuesta valor esperado uso de una de la variable respuesta Y plenamente justificado la estadsticos, los resultados del modelo transformado han de interpretarse en la escala original Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, de variable explicativa X, E (Y|x) = exp{E(logY|x)} = exp( asume que el valor esperado del la variable respuesta. El modelo en escala logartmica + x). G 0 1 logaritmo de la variable respuesta Y cambia linealmente con la variable explicativa X, resultando que la media geomtrica de la variable respuesta (definida como la E(logY|x) = 0 1 x. As, el modelo en la escala original se interpreta +Apartado 1.2.3) es una funcin exponencial de la media de los logaritmos; vaseentrminos de la media geomtrica de Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, resultando 41 la variable respuesta, de la variable respuesta (definida la variable explicativa. El queexponencial de la variablevara exponencialmente concomo la exponencial de la media de los la media geomtrica que explicativa, logaritmos; vase Apartado 1.2.3) es una funcin exponencial de la variable explicativa, coeficiente 1 asociado a la variable explicativa tiene entonces una interpretacin EG(Y|x) = exp{E(logY|x)} = exp( 0 + 1 x). distinta de la habitual ya original se interpreta en trminos razn de medias As, el modelo en la escalaque su exponencial corresponde a lade la media geomtrica de la As, respuesta, que vara original se interpreta en variable explicativa. El coeficiente variableel modelo en la escala exponencialmente con latrminos de la media geomtrica de 1 geomtricas de Y cuando X aumenta una unidad, asociado a la variable explicativa tiene entonces una interpretacin distinta de la habitual ya que la variable corresponde a la razn de medias geomtricas variable explicativa. El su exponencialrespuesta, que vara exponencialmente con la de Y cuando X aumenta una unidad,
E G (Y | x + 1) coeficiente 1 asociado a la variableexplicativa1) ( entonces una interpretacin = exp{ 0 + 1 (x + tiene 0 + 1 x)} = exp( 1 ); E G (Y | x)

182

distinta de la habitual ya que su exponencial corresponde en razn de medias es decir, 100{exp(1) 1} representa el cambio porcentual a lala media geomtrica de Y por cada incremento de una )unidad en X. Este cambio relativo se asume constante a lo largo de todo es decir, 100{exp(1 - 1} representa el cambio porcentual en la media geomtrica de Y geomtricas de Y cuando X aumenta una unidad, el rango de la variable explicativa. por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo E G (Y | x + 1) Pastor-Barriuso R. = exp{ explicativa. largo de todo el rango de ) variable 0 + 1(x + 1) - (0 + 1x)} = exp(1); E G (Y | x la

tocoferol del ejemplo medias se observ un aumento un aumento de c unidades respuesta. La razn de anterior geomtricas asociada alineal de la desviacin tpica

enresidual conforme aumentaba el valor predicho, lo que sugiere la utilizacin de la variable explicativa viene dada por
una transformacin logartmica de la variable respuesta. La Figura 10.12(a)

Regresin lineal simple

y x+c Ejemplo 10.14 G (En el)anlisis de regresin lineal del b-caroteno sobre el a-tocoferol del = exp{b0 + b1 (b + b1x)} = exp(cb1). ejemplo anterior se xregresin estimada(x + c) - logaritmo del -caroteno residual conforme muestra la recta de observ un aumento lineal de la desviacin tpica y el entre el 0 yG ( ) donde el error estndar de la constante essugiere = 0,055 y de la pendiente SE(b1) aumentaba el valor predicho, lo que SE(b0) la utilizacin de una transformacin tocoferol, logartmica de la variable respuesta. La Figura 10.12(a) muestra la recta de regresin As, por ejemplo, logaritmoincremento de una desviacin tpica c =el modelo tiene = 0,00032. Aunque el cada del ha realizado en escala logartmica, 87,6 g/g en el estimada entre el por ajuste se b-caroteno y el a-tocoferol,
G una interpretacin directa en trminos de la media geomtrica de la variable nivel de -tocoferol, la media geomtrica de -caroteno aumenta un donde el error estndar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) = 0,00032. La razn de medias ha realizado 42%. Este incremento el unidades respuesta.Aunque el ajuste = 100(1,42 - 1) = en escala un aumento de cmodelo en 100{exp(87,60,0040) - 1} se geomtricas asociada a logartmica, porcentual tiene una interpretacin directa en trminos de la media geomtrica de la variable respuesta. La razn de geomtrica de -caroteno permanece constante a travs de todo el rango en media medias geomtricas asociadapor aumento de c unidades en la variable explicativa la la variable explicativa viene dada a un 42 viene dada por

log y = 1,91 + 0,0040x,

observado dely-tocoferol. Como consecuencia, la tendencia resultante en la G ( x + c) = exp{b0 + b1 (x + c) (b0 + b1 x)} = exp(cb1 ). y G ( x) escala original del -caroteno es exponencial, tal como se muestra en la Figura As, por ejemplo, por cada incremento de una desviacin tpica c = 87,6 mg/g en el nivel de a-tocoferol, As, por ejemplo, por geomtrica de b-caroteno aumenta un 100{exp(87,60,0040) 1} = 10.12(b). la media cada incremento de una desviacin tpica c = 87,6 g/g en el 100(1,42 1) = 42%. Este incremento porcentual en la media geomtrica de b-caroteno permanece constante media geomtrica el rango observado un nivel de -tocoferol, razn de mediastodo de -caroteno aumentaaumento de 87,6 Como El IC al 95% para la la a travs de geomtricas asociada a un del a-tocoferol. consecuencia, la tendencia resultante en la escala original del b-caroteno es exponencial, tal como se muestra en 1} = 100(1,42 - 1) g/g en el -tocoferol se Figura multiplicando primero los lmites porcentual en 100{exp(87,60,0040) - la calcula 10.12(b). = 42%. Este incremento del intervalo El IC al 95% para la razn de medias geomtricas asociada a un aumento de 87,6 mg/g en para 1 por dichocalcula multiplicando primero los lmites del intervalo para 1 por la media geomtrica de -caroteno permanece constante a travs de todo el rango dicho el a-tocoferol se incremento y despus exponenciando, incremento y despus exponenciando, observado del -tocoferol. Como )}] = exp{87,6(0,0040 1,960,00032)} la SE(b consecuencia, la tendencia resultante en exp[c{b t = (1,34; 1,50), escala original del -caroteno es exponencial, tal como se muestra en la Figura de donde se concluye con una confianza del 95% que la media geomtrica de b-caroteno 10.12(b).entre un 34 y un 50% por cada incremento de 87,6 mg/g en el nivel de a-tocoferol. aumenta de donde se concluye es muy significativo dado que el contraste bilateral de la hiptesis Este cambio relativo con una confianza del 95% que la media geomtrica de El ICH0:95% para la razn de medias geomtricas asociada a un aumento de 87,6 nula al 1 = 0 mediante el estadstico caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 g/g en el g/g en el -tocoferol se calculab1 = 0,0040 primero los lmites del intervalo multiplicando = 12,44 t= SE ( relativo es muy nivel de -tocoferol. Este cambio b1 ) 0,00032 significativo dado que el para 1un valor P = 2P(t 12,44) 2{1 F(12,44)} < 0,001. arroja por dicho incremento y despus exponenciando, contraste bilateral de la 698 hiptesis nula H0: 1 = 0 mediante el estadstico arroja caba esperar, la hiptesis de 2{1 - (12,44)} < 0,001. Como un valor P = 2P(t698 12,44) homogeneidad de la varianza se hace mucho ms plausibleexp[c{b1 t698;0,975SE(b1)}] = exp{87,6(0,0040 la Figura 10.13). Sin embargo, utilizando la escala logartmica (paneles a y c de 1,960,00032)} Como caba esperar, la hiptesis Figura 10.13(b) sugiere que el efecto del a-tocoferol no la curvatura de los residuos de la de homogeneidad de la varianza se hace mucho = (1,34; dicho es lineal en el logaritmo del b-caroteno o, 1,50), de forma equivalente, la 43 relacin ms plausible utilizando la escala logartmica (paneles aresponderFigura 10.13). modelo y c de la fielmente a un subyacente entre el a-tocoferol y el b-caroteno no parece exponencial. As, la transformacin logartmica de la variable respuesta elimina la de donde se concluye con una confianza del 95% que la media geomtrica de Sin embargo, la curvatura de pero introduce una desviacin de sugiere que el heterogeneidad de la varianzalos residuos de la Figura 10.13(b) la asuncin de linealidad. Como veremos ms adelante, un problema podra paliarse transformando tambin la caroteno aumenta entre un 34 yeste50% logaritmoincremento de 87,6 g/g de el efecto del -tocoferol no es lineal en el por cada del -caroteno o, dicho en variable explicativa para restaurar la linealidad en la relacin. Alternativamente, se podra haber ajustado un modelo de regresin lineal ponderado entre el a-tocoferol y el nivel de -tocoferol. Este cambio relativo es muy significativoy el -caroteno no forma equivalente, la relacin subyacente entre el varianzas dado que el b-caroteno, que permite trabajar directamente con-tocoferolheterogneas sin necesidad de transformar los datos ni modificar la estructura lineal del modelo. contraste bilateralfielmente a un modelo0exponencial. As, el estadstico parece responder de la hiptesis nula H : 1 = 0 mediante la transformacin
1 698;0,975 1

logartmica de la variable respuesta elimina la heterogeneidad de la varianza pero Pastor-Barriuso R. introduce una desviacin de la asuncin de linealidad. Como veremos ms 43

183

residuos sean comparables a lineal simple Correlacin y regresin distintos niveles de la variable explicativa, es preferible realizar el diagnstico del modelo mediante los residuos estandarizados
0,5 0 log(-caroteno) -1 -2 -3

ri = s 1

ei 1 ( xi x ) 2 2 n (n 1) s x

ei s 1 hi

,
-caroteno (g/g)

1,6 1,2 0,8 0,4

que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El trmino hi se conoce como el leverage de una observacin y es una medida estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
0 100 200 300 400 0 100 0 200 300 400

que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y-tocoferol (g/g) -tocoferol (g/g)

(a) (b) no hay valores muy extremos de la variable explicativa (observaciones con alto Figura 10.12 Recta de regresin del logaritmo del -caroteno sobre el -tocoferol en el grupo control del leverage), ambos EURAMICy ri setendencia exponencial resultante en la escala original del -caroteno (b). estudio residuos ei (a) y comportan de forma anloga.

En determinados casos el grfico de los residuos estandarizados ri frente a los valores


0,5 3 predichos y i no permite apreciar claramente las posibles desviaciones de las asunciones
Figura 10.12

rk 0 2 de linealidad y homogeneidad de la varianza. Para obtener una representacin ms clara

en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamao nk 1 -0,5 r 0 ordenados pori valores crecientes de y i (por ejemplo, deciles) y calcular la media
-1 -2 -2 1,5 -1,5 -1 -0,5

(b)

rk =

1 nk

r
i =1

nk

sk

1 0,5

y la varianza

-3 -2 -1,5
2 sk =

-1

1 nk

yrii2
i =1

nk

-0,5

0,5

-2

-1,5

-1

-0,5

yk
(c)

(a)

de los residuos en cada uno de los grupos. La presencia de curvatura en a los valores predichos de la regresin lineal Figura 10.13 Grfico de los residuos estandarizados ri frente el grfico de los i Figura 10.13 del logaritmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto con las medias frente a los valores predichos de los y k en los distintos grupos residuos medios rk (b) y desviaciones tpicas sk (c)mediosresiduos estandarizados por deciles de los valores predichos. indicar falta de linealidad en la relacin, mientrasinfluyentes 10.3.6 Observaciones atpicas e que la existencia de tendencia en el

En el diagnstico de un modelo de regresin lineal, tan importante como evaluar las asunciones 37 de linealidad y homogeneidad de la varianza es examinar la contribucin o influencia de cada observacin en el modelo estimado. En general, es deseable que el modelo estimado responda al patrn global de los datos; esto es, las estimaciones de los parmetros del modelo deben basarse en el conjunto de todas las observaciones y no nicamente en un reducido nmero de observaciones muy influyentes. De esta forma, se tendr un mayor grado de confianza a la hora de inferir los resultados del modelo a toda la poblacin. La forma ms natural de medir la influencia de una observacin en un modelo de regresin lineal simple es comparar las estimaciones de la constante y la pendiente obtenidas en la muestra
184 Pastor-Barriuso R.

obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir


Regresin dicha observacin. Una medida estandarizada del cambio global que se produce enlineal simple las

estimaciones b0 y b1 al eliminar la i-sima observacin es la distancia de Cook Di, que completa con sus correspondientes estimaciones tras excluir dicha observacin. Una medida en su forma ms simple puede expresarse como estandarizada del cambio global que se produce en las estimaciones b0 y b1 al eliminar la i-sima observacin es la distancia de Cook Di, que en su forma ms simple puede expresarse como Di = ri 2 hi . 2(1 hi )

De esta frmula se desprende que la influencia de una observacin en las estimaciones b0 y b1 depende tanto de su se desprende que la influenciade su leverage hi. Losen las estimaciones De esta frmula residuo estandarizado ri como de una observacin residuos estandarizados ri determinan la desviacin del valor observado de la variable respuesta respecto al valor predicho 1 por la recta de regresin, de tal forma quecomo de su leverage hi. Los absoluto b0 y b depende tanto de su residuo estandarizado ri valores altos de ri en valor corresponden a observaciones pobremente ajustadas, que se conocen como observaciones atpicas o outliers. Estos outliers provocan desviacin del valor la calidad globalvariable lo residuos estandarizados ri determinan la una disminucin de observado de la del ajuste, que redunda en un aumento de la varianza residual s2 y del error estndar de las estimaciones b0 y brespuesta respecto al valor predicho por la recta deinfluyentes de tal forma que valores 1. Sin embargo, los outliers no son necesariamente regresin, en las estimaciones puntuales b0 y b1, ya que su influencia tambin depende del leverage. El leverage hi de una observacin altos de ri en valor absoluto la distancia entre el valor de la variable explicativa y su media, es una medida estandarizada decorresponden a observaciones pobremente ajustadas, que se que se define como 1 ( xi x ) 2 hi =o outliers. Estos outliers provocan una + conocen como observaciones atpicas 22 1n ( xn x )s x hi = + ( i 1 2 n (n 1 redunda en un aumento de la disminucin de la calidad global del ajuste, lo que) s x

y toma valores entre 1/n 1 con una media y toma valores entre2 1/n y y 1 conuna media de h = 2/n. A diferencia de los outliers que 2/n. A diferencia de los outliers que varianza residual s y del error estndar de las estimaciones b0 y b1. Sin embargo, los corresponden a observaciones1con valores atpicos de la variable respuesta, las observaciones y toma valores entre 1/n y con una media de h = 2/n. A diferencia de los outliers que corresponden a observaciones con valores atpicos de la variable respuesta, las con alto leverage son aquellas con valores extremos de la variable explicativa. El leverage juega outliers no son necesariamente influyentes en las estimaciones puntuales b0 y b1, ya que un corresponden a observaciones con valores atpicos de la variable respuesta, las papel determinante en la distincin entre outliers y observaciones influyentes. As, por observaciones de alto leverage son es un outlier valores (residuo de la variable ejemplo, el punto Aconla Figura 10.14(a) aquellas con extremoextremos muy elevado) que tiene su influencia tambin depende del leverage. El leverage hi de una observacin es una poca influencia encon alto de regresin estimada ya que sta no vara sensiblemente tras excluir observaciones la recta leverage son aquellas con valores extremos de la variable explicativa. El leverage que un papel determinante en un valor centrado de la y dicho punto. Esto se debe ajuega la observacin A presentala distincin entre outliersvariable medida estandarizada de la distancia entre el valor de la variable explicativa y su media, explicativa (leverage muy bajo) que mitigadeterminante en su influencia sobre outliers y explicativa. El leverage juega un papel en gran medida la distincin entre las estimaciones b1 (distancia de Cook moderada). Por el contrario, el punto Figura 10.14(a) es un b0 y observaciones influyentes. As, por ejemplo, el punto A de laB de la Figura 10.14(b) no es que se define como un outlier tan marcado pero tiene una influencia mucho mayor en la recta10.14(a) es un observaciones influyentes. As, por ejemplo, el punto A de la Figura de regresin estimada, outlier extremo (residuo muy , debido que tiene punto presenta en valor muy extremo particularmente en la pendiente b1elevado) a que este poca influencia un la recta de regresinde la variableextremo (residuo muy elevado) que tiene poca influencia en la recta de regresin outlier explicativa. estimada ya que sta no vara sensiblemente tras excluir dicho punto. Esto se debe a que B 45 estimada ya que staAno vara sensiblemente tras excluir dicho punto. Esto se debe a que la observacin A presenta un valor centrado de la variable explicativa (leverage muy la observacin A presenta un valor centrado de la variable explicativa (leverage muy bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia y de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada, tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada, particularmente en la pendiente b1, debido a que este punto presenta un valor muy particularmente en la pendiente b1, debido a que este punto presenta un valor muy x extremo de la variable explicativa. x extremo de la variable explicativa. (a) (b) [Figura 10.14 aproximadamente aqu] Figura 10.14 Rectas de regresin resultantes de incluir (lnea gruesa) y excluir (lnea fina) los puntos A y B del ajuste del modelo lineal. [Figura 10.14 aproximadamente aqu] Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta 10.14 de Figura Pastor-Barriuso R. Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda
185

Correlacin y regresin lineal simple

Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente aquellas observaciones con una distancia de Cook superior a 4/(n 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = 2. No obstante, la seleccin de un valor crtico para Di es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observacin en comparacin con las restantes observaciones. Un grfico til es el diagrama de dispersin de los residuos estandarizados ri frente a los leverages hi, donde cada observacin se representa mediante un crculo de rea proporcional a su distancia de Cook Di. En este grfico, el tamao de los crculos identificar claramente las observaciones ms influyentes, mientras que la posicin permitir discernir la contribucin de los residuos y leverages a la influencia de dichas observaciones. 1 ( xi x ) 2 hi = + estandarizados r frente a los Ejemplo 10.15 La Figura 10.15 muestra los residuos (n 1) s 2 i n x leverages hi de la regresin lineal del colesterol HDL sobre el ndice de masa corporal, donde se incluyen lneas de referencia horizontales en ri = 2, 0 y 2 y verticales en el doble hi = 0,0075 y el triple hi = 0,0113 1 con una media de h = 2/533 = 0,0038. El rea outliers que y toma valores entre 1/n y del leverage medio = 2/n. A diferencia de los de los crculos es proporcional a la distancia de Cook Di e indica la influencia relativa de cada observacin. Por supuesto, la influencia de las observaciones aumenta respuesta, las corresponden a observaciones con valores atpicos de la variable conforme aumentan sus residuos estandarizados en valor absoluto (direccin vertical del grfico) y sus leverages (direccin horizontal). Sin embargo, nocon valores extremos de la variable observaciones con alto leverage son aquellas se aprecian observaciones marcadamente influyentes que pudieran conducir los resultados globales del modelo. La observacin ms influyente Di = 0,043juega un papel determinantesuperior izquierda de la explicativa. El leverage se presenta en el cuadrante en la distincin entre outliers y Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage 0,0047. Las estimaciones de la constante y la pendiente A la la Figura 10.14(a) moderado hi =observaciones influyentes. As, por ejemplo, el punto de derecta de regresin es un ( ( excluyendo este outlier son b0i) = 1,71 y b1i) = 0,024 que, comparadas con las estimaciones (error estndar) b0 = 1,69 (0,092) y b1 = 0,023 (0,0035) obtenidas en la muestra completa de regresin outlier extremo (residuo muy elevado) que tiene poca influencia en la recta ( (Ejemplo 10.9), suponen un cambio estandarizado de (b0i) b0)/SE(b0) = (1,71 1,69)/0,092 = 0,20 en la constante y ya1i) b1)/SE(b1) = ( 0,024 + 0,023)/0,0035 = 0,23 en la pendiente.se debe a que estimada (b (que sta no vara sensiblemente tras excluir dicho punto. Esto As, a pesar de que este outlier est muy mal ajustado, no afecta substancialmente a la recta de regresin estimada. la observacin A presenta un valor centrado de la variable explicativa (leverage muy Ejemplo 10.16 EnqueFigura 10.16 se representan influencia sobre las estimaciones ba y b1 (distancia bajo) la mitiga en gran medida su los residuos estandarizados ri frente 0 los leverages hi de la regresin lineal del logaritmo del b-caroteno sobre el a-tocoferol. En una primera inspeccin visual se distinguen contrario, el punto B de la Figura una influencia un outlier de Cook moderada). Por el al menos 3 observaciones con 10.14(b) no es sensiblemente mayor que las dems, que corresponden a los crculos de mayor tamao situados a la derecha del grfico. Los valores observados, predichos y las medidas diagnsticas asociadas estimada, tan marcado pero tiene una influencia mucho mayor en la recta de regresin a dichas observaciones se presentan en la Tabla 10.5. A diferencia del ejemplo anterior, donde la observacin ms influyenteen la pendiente b1, debido aestas este punto presenta un valor muy particularmente corresponda a un outlier, que 3 observaciones presentan leverages muy altos hi = 0,044, 0,038 y 0,022 debidos a valores muy elevados del a-tocoferol, y slo una de ellas est pobremente ajustada con ri = 3,11. Para evaluar la influencia conjunta extremo de la variable explicativa. de dichas observaciones en la recta de regresin estimada, se calcularon los coeficientes del ( ( modelo excluyendo simultneamente las 3 observaciones, que resultaron ser b0i) = 1,93 y b1i) = [Figura estndar) b0 = 1,91 (0,055) y b 0,0042. En comparacin con las estimaciones (error10.14 aproximadamente aqu] 1 = 0,0040 (0,00032) obtenidas en la muestra completa (Ejemplo 10.14), la eliminacin de estas 3 observaciones provoca un cambio estandarizado en la constante de ( 1,93 + 1,91)/0,055 = Una observacin ser tanto ms influyente en es, la exclusin de y b1 de 0,36 y en la pendiente de (0,0042 0,0040)/0,00032 = 0,50. Estolas estimaciones b0dichas la recta de observaciones conlleva una disminucin en la constante de aproximadamente un tercio de su error estndar regresin cuantola pendientesu distanciadel error estndar.general, se recomienda y un aumento en mayor sea de la mitad de Cook Di. En As, aunque estas 3 observaciones no son extremadamente influyentes por s mismas, el modelo s parece ser examinar observaciones aquellas observaciones 10.16). sensible a la presencia dedetenidamente con alto leverage (Figura con una distancia de Cook superior a
186 Pastor-Barriuso R.

4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = 2. No obstante, la seleccin de un valor crtico para Di

Regresin lineal simple

ri
0

-2 -3 0,002 0,005 0,01 0,02 0,03

hi 1 ( xi x ) 2 1 ( xi x ) 2 + h2 = + i = i 2 Figura 10.15 Grfico dehlos residuos1estandarizadossri frente a los leverages hi de la regresin lineal del n (n ) s x n (n 1) x Figura 10.15 colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC. El rea de los crculos es proporcional a la distancia de Cook Di. Las lneas de referencia horizontales corresponden a r = 2, entre y valores entre 1/n hi de = 0,0075 de3h = 0,0113. outliershorizontal est en = 2/n. los El eje de y toma ivalores 0 y 2,1/nlas1verticales a y 1= 2h una2/n. A diferencia de A diferenciaque los outliers que escala logartmica y toma y con una media con = media y para mejorar la representacin grfica. corresponden a corresponden acon valores atpicos valores atpicos de la variable respuesta, las observaciones observaciones con de la variable respuesta, las

observaciones con alto leverage son aquellas con valores extremos de la variable de la variable observaciones con alto leverage son aquellas con valores extremos 3 explicativa. El leverage juega un papel determinante endeterminante en la distincin entre outliers y explicativa. El leverage juega un papel la distincin entre outliers y observaciones influyentes. As, por ejemplo, el punto A de lael punto10.14(a)Figura 10.14(a) es un observaciones influyentes. As, por ejemplo, Figura A de la es un outlier extremo outlier extremo (residuo muy elevado)influencia poca influencia en la recta de regresin (residuo muy elevado) que tiene poca que tiene en la recta de regresin
1 2

estimada ya queestimadavara sensiblemente tras excluir dicho punto. Esto se debe a que se debe a que sta no ya que sta no vara sensiblemente tras excluir dicho punto. Esto
0 ila observacin A presenta un valor centrado de la variable explicativa la observacinrA presenta un valor centrado de la variable explicativa (leverage muy (leverage muy

bajo) que mitiga en gran medida en gran medida su influencia sobre las0 estimaciones b0 y b1 (distancia bajo) que mitiga su influencia sobre las estimaciones b y b1 (distancia de Cook moderada). Por moderada). Porpunto B de lael punto10.14(b)Figuraun outlier no es un outlier de Cook el contrario, el el contrario, Figura B de la no es 10.14(b) tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada, tan -2 marcado pero tiene una influencia mucho mayor en la recta de regresin estimada, particularmenteparticularmente en, la pendiente beste puntoapresenta un valor muy un valor muy en la pendiente b1 debido a que 1, debido que este punto presenta extremo de la variable explicativa. extremo de la variable explicativa.
0,0015 10.14 aproximadamente aqu] 0,003 [Figura [Figura 10.14 0,005 aproximadamente0,01 aqu] 0,02 0,04 -3 -1

hi 1 ( xi x ) 2 1 ( xi x ) 2 hi = Grfico de ilos residuos estandarizados r frente a los leverages h de la regresin lineal del lo+ h 2= + 2 Figura 10.16 n (n 1) s ser tanto 1) s las estimacionesi b y b1 de la recta y Una observacin ser tantomsx influyente ms influyente en las0 estimaciones b0 deb1 de i la recta de Una observacin n (n en x Figura 10.16 garitmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC. El rea de los crculos es cuanto mayor sea su distancia sea Cook D En general, Di.recomienda se recomienda regresinproporcional a cuanto mayorde Cook Di.i.Lasde Cook sereferencia horizontales corresponden a ri = 2, 0 y 2, regresin la distancia de su distancia lneas de En general, ma valores y toma y las verticales a hi = 2huna0,0057diferencia deA diferencia quelos outliers en escala logartmica. entre 1/n y 1 con una1/n y 1 de = 2/n. A de3h = 0,0086. El eje horizontal est que = 2/n. los outliers de valores entre media con = media y examinar detenidamente aquellas observaciones con una distancia deuna distancia deaCook superior a examinar detenidamente aquellas observaciones con Cook superior esponden acorresponden a con valores atpicosvalores atpicosrespuesta, las respuesta, las observaciones observaciones con de la variable de la variable Pastor-Barriuso R. 187 4/(n - 2), que corresponde, por ejemplo, a un punto con unun punto con un leveragey un hi = 2/n y un 4/(n - 2), que corresponde, por ejemplo, a leverage medio hi = 2/n medio ervaciones con alto leverage son aquellas con valores extremos de la extremos de la variable observaciones con alto leverage son aquellas con valores variable residuo estandarizado alto ri = 2. No alto ri = 2. seleccin de un seleccin de un valor crtico para Di residuo estandarizado obstante, la No obstante, la valor crtico para Di licativa. El leverage juega un papel juega un papel determinante en la distincin entre outliers y explicativa. El leverage determinante en la distincin entre outliers y

deben limitarse exclusivamente al rango de valores observados en el resto de la muestra.


Correlacin y regresin lineal simple

No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su exclusin del ajuste del modelo. Un procedimiento alternativo de uso generalizado

consiste en Observaciones ms influyentes en la regresin lineal del logaritmo del Tabla 10.5encontrar una transformacin de la variable explicativa o respuesta que -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC. permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados Valor predicho Medidas diagnsticas 0,044 tiles0,038 para 0,022 Estimaciones*
(i) ( b1i)

yi ri Di b i i de laxvariable respuesta afectani al residuo estandarizadohpero no al leverage de0una 626,8 1,74 586,6 por observacin, 0,87 lo 475,1 2,30

que

0,60 slo 0,44 son 0,01

1,57 1,79 potencialmente 3,11

0,057 0,062 atenuar la 0,107

1,90 1,92 influencia de 1,93

0,0039 0,0041 0,0041

outliers. Por el contrario, las transformaciones de regresin tras excluir la observacin tanto * Estimaciones de la constante y la pendiente de la rectade la variable explicativa influyencorrespondiente. Las estimaciones (y su error estndar) en la muestra completa de 700 controles fueron b0 = 1,91 (0,055) b1 residuos como en enylos = 0,0040 (0,00032). los leverages, de tal forma que estas transformaciones tambin
En ocasiones para mitigar eliminar las de observaciones extremas en la variable pueden utilizarseresulta lcito la influencia observaciones marcadamente influyentes, bien por tratarse de valores atpicos de la variable respuesta o bien por presentar valores extremos de la variable explicativa. En tal caso, las inferencias derivadas del modelo deben limitarse explicativa. exclusivamente al rango de valores observados en el resto de la muestra. No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su exclusin del ajuste del modelo. Un con errores estndar de uso = SE(b0 generalizado 1) = 0,039. encontrar una ambos lados procedimiento alternativo objeto) de 0,19 y SE(bconsiste en Al exponenciartransformacin de la Ejemplo 10.17 Con reducir la influencia de las observaciones con variable explicativa o respuesta que permita reducir la influencia de dichas observaciones. Por un de la igualdad, se tiene que la media geomtrica de la variable respuesta es una lado, las transformaciones de la -tocoferol (alto leverage) en residuo estandarizado pero no al valores muy elevados del variable respuesta afectan al el modelo de regresin leverage de una observacin, por lo que slo son potencialmente tiles para atenuar la influencia funcin potencial de la variable explicativa (panel b de la Figura 10.17), de outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto en los lineal del logaritmo del -caroteno sobre el -tocoferol, se podra aplicar a su vez residuos como en los leverages, de tal forma que estas transformaciones tambin pueden utilizarse para mitigar la influencia de G = exp(-3,76 + 0,51 log x)la variable explicativa. y observaciones extremas en = 0,023x0,51. una transformacin logartmica a la variable explicativa. En la Figura 10.17(a) se con errores estndar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados Ejemplo 10.17 Con objeto de reducir la influencia de las observaciones con valores muestra la recta de regresin media geomtrica modelo del -caroteno es del Este modelo tienea-tocoferol (alto leverage) en simple en la escala original el logaritmo muy igualdad, se entonces una interpretacin logaritmo de regresin lineal una de la elevados del tiene que laestimada entre el elde la variable respuesta y de del b-caroteno sobre el a-tocoferol, se podra aplicar a su vez una transformacin logaritmo del -tocoferol, ambas variablesvariablevariable explicativa (panel b de la Figura 10.17), logartmica a la ya que, al aumentar c veces la variable explicativa, la recta funcin potencial de la explicativa. En la Figura 10.17(a) se muestrala razn de regresin estimada entre el logaritmo del b-caroteno 0,039. Al exponenciar ambos con errores estndar SE(b0) = 0,19 y SE(b1)y=el logaritmo del a-tocoferol, lados medias geomtricas es constante e igual a log y G = y G = exp(-3,76 3,76 + 0,51 log x, 0,51 de la igualdad, se tiene que la media + 0,51 log x) = la variable. respuesta es una geomtrica de 0,023x con errores estndar SE(b0) = 0,19 y SE(b1) = ,51 0,039. Al exponenciar ambos lados de la y G (cx) 0,023(cx) 0 igualdad, se tiene entonces una explicativa 0, variable respuesta original la funcin potencial quela variable interpretacin51simple0,51; la escala10.17), de potencial b de la = Este modelotiene de la media(geomtrica de(panel= c en Figura es una funcin 49 yG x de la variable explicativa (panel)b de 0,023x 10.17), la Figura

relativo a la variable respuesta. en la variable explicativa les corresponde en es decir,en incrementos relativosPor ejemplo, incrementos del 50% (c = 1,50)un el nivel de IC al 95% para la razn dey G (cx) geomtricas,51 0,51 0,51= 100(1,23 1) = 23% en la media medias ,023(cx) 0 viene 1) por dado a-tocoferol se asocian con un aumento0del 100(1,50 = respuesta. Porde medias geomtricas viene dado por =c ; geomtrica de b-caroteno. la variable ,023 la 51 mismo cambio relativo enEl IC x) 95%0para x 0,razn ejemplo, incrementos del y ( al

ambas variables ya que,= exp( 3,76 + veces la variable explicativa, la razn de y G al aumentar c 0,51 log x) = 0,023x0,51 . es decir, a incrementos relativos en la variable explicativa les corresponde un Este modelo tiene es constante igual a medias geomtricasentonces unaeinterpretacin simple en la escala original de ambas variables ya tiene aumentar variable variable simple en la escala de medias Este modeloque, alentonces c veces larespuesta. Por ejemplo, incrementos degeomtricas mismo cambio relativo en launa interpretacin explicativa, la raznoriginal del es constante e igual a 0 , 51 ambas variablesen el nivel y G (cx) = 0,023(cxasocian c0,51 explicativa, la razn de ya que, al de -tocoferol se la variable ;un aumento del aumentar c veces ) 50% (c = 1,50) = con y G ( x) 0,023x 0,51 0,51 medias geomtricas es constante= 23% en la media geomtrica de -caroteno. El - 1) = 100(1,23 - 1) igual a 100(1,50a incrementos relativos enela variable explicativa les corresponde un mismo cambio es decir,

188

c 1 698; 0 , 975 1 = 1,500,511,960, 039 = (1,19; 1,27), 50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del de donde incrementos relativos en la variable explicativa les corresponde de es decir, ase concluye con una confianza del 95% que la media geomtrica un b-caroteno aumenta se - un 100(1,23 - por cada del media del media el nivel de a-tocoferol. de donde0,51 concluyeycon 27%confianza incremento geomtrica geomtrica de 100(1,50 entre1) =19 un una1) = 23% en la95% que la 50% ende -caroteno. El mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del Pastor-Barriuso R. aumenta razn un 19 y un geomtricas viene dado por caroteno para la entre de medias 27% por cada incremento del 50% en el nivel IC al 95% 50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del de -tocoferol. b t SE ( b ) 0 c 1 698; 0 , 975 1 = 23% ,511,960, 039 = geomtrica 100(1,500,51 - 1) = 100(1,23 - 1) = 1,50 en la media (1,19; 1,27),de -caroteno. El

b t

G SE ( b )

Regresin lineal simple

La utilizacin de una transformacin logartmica para el a-tocoferol ha producido un doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten las observaciones con alto leverage (debidas, en este caso, a valores muy bajos del a-tocoferol), su influencia es ahora sensiblemente menor, como indica el tamao de los crculos de la Figura 10.18(a). Por otro lado, la relacin subyacente entre el a-tocoferol y el b-caroteno parece responder mejor al modelo potencial de la Figura 10.17(b), obtenido mediante transformaciones logartmicas de ambas variables, que al modelo exponencial de la Figura 10.12(b), resultante de transformar nicamente el b-caroteno. Esta apreciacin se fundamenta en que la curvatura de los residuos de la regresin lineal del logaritmo del b-caroteno sobre el a-tocoferol (panel b de la Figura 10.13) desaparece al transformar a distintos nive residuos sean comparables tambin el a-tocoferol (panel b de la Figura 10.18).
0,5 -caroteno (g/g) 0 log(-caroteno) -1 -2 -3 2,5 3 4 5 6 1,6

realizar el diagnstico del modelo mediant ri = ei s 1

1,2 0,8 0,4 0 0 100

1 (x n (n

que se obtienen de dividir los residuos ei p trmino hi se conoce como el leverage de


200 300 400

estandarizada de la distancia entre cada va que se tratar en el apartado siguiente. No -tocoferol (g/g)

log(-tocoferol)

(b) hay valores muy extremos de la variabl no Figura 10.17 Recta de regresin del logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo leverage), variables (b). control del estudio EURAMIC (a) y tendencia potencial resultante en la escala original de ambasambos residuos ei y ri se compo

(a)

En determinados casos el grfico de los


3 2 1 0,5
Figura 10.17

predichos y i no permite apreciar claramen

rk

0 -0,5

de linealidad y homogeneidad de la varian

en tales circunstancias, es aconsejable divi


(b)

ri

0 -1 -2 -3 0,0015 0,003 0,005 0,01 0,02 0,04 1,5

-2 ordenados por valores crecientes de y (po -1,5 -1 -0,5 i

rk = y la varianza
-2 -1,5 -1 -0,5
2 sk =

sk

1 0,5

hi
(a)

yk

( c) de los residuos en cada uno Figura 10.18 Grfico de los residuos estandarizados ri frente a los leverages hi de la regresin lineal del de los grupos. logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo control del estudio EURAMIC (a), Figura donde el rea de los crculos es proporcional a la distancia de Cook Di, y grfico de las medias rk (b) y a los valores pre frente residuos medios 10.18 desviaciones tpicas sk (c) de los residuos estandarizados por deciles de los valores predichos.

indicar falta de linealidad en la relacin,


Pastor-Barriuso R. 189

Correlacin y regresin lineal simple

en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificacin, la 10.3.7 Variable explicativa dicotmica interpretacin del2 modelo1 de regresin lineal de la variable esta codificacin, la variable en los restantes n = n - n sujetos del segundo grupo. Bajo respuesta Y sobre la Hasta el momento se han considerado nicamente modelos de regresin lineal con variables explicativas continuas. No obstante,sencilla, dado explicativas pueden serY sobre la variable indicadora X es particularmente las variablesde la variable respuesta tanto continuas como interpretacin del modelo de regresin lineal que la estimacin de la pendiente se categricas ya que la regresin lineal no establece ninguna asuncin respecto a su distribucin. En reduce a X es particularmente sencilla, dado que la estimacinregresin lineal simple con este apartado indicadora se revisa el ajuste e interpretacin de modelos de de la pendiente se una nica variable explicativa dicotmica, que clasifica a los sujetos en dos grupos o categoras segn los presenciano = n - n1 sujetos del segundo grupo. Bajo esta codificacin, lade variables en la restantes 2 ausencia de una determinada caracterstica. El tratamiento n reduce a explicativas politmicasi condeymiocardiocategoras se abordar en el Tema 11 ya que estas n el riesgo de desarrollar un primer infarto agudooyms en n1 en esgo de desarrollar un primer infarto ( x x )( i de )miocardio agudo tres n n variables restantes n=1modelo1 de regresin lineal de lavariable esta y ) =Yysobre la variable interpretacin=del2 =mltiples variables indicadoras para las respuestacategoras. b1 en los requieren ide nn - n sujetos del segundo( grupo.)Bajo distintas 1 y 2 la = y i y = n ( y1 codificacin, n n 2 s valores obtenidos fueron 0,89, explicativas1,29, 21,29, 1,42,2introducen en los modelos de regresin mediante s. Los valores obtenidos fueron 0,89, (1,58, x y i) y ) 0,84, 0,84, x i dicotmicas se = Las variables 1,58, ( x i 0,79, 1,42, 1 in11 0,79, )( x sencilla,ndado que la estimacin de la pendiente se n indicadora X es particularmente tomandistintosla variable en cada una de las dos categoras i =1modelo de regresin lineal de valores x respuesta Y sobre la variable interpretacin=del i =1 una nica variable indicadora X, que = b1 ( y i y ) = n i ( y1 y ) = y1 y 2 n 6 y mmol/l. La media variable.los niveles del colesterol HDL2 en1 es arbitraria, la codificacin ms frecuente 53 1,53 mmol/l. La media de Aunque la eleccinHDL en1 n i = n de la de los niveles del colesterol 2 de estos valores 2 ( xi x ) reduce a indicadora 1 particularmente sencilla, dado grupo y 0 en los de la pendiente se es xi = 1 en losXnessujetos pertenecientes al primer que la estimacinrestantes n2 = n n1 sujetos i =1 y la constante a s es es pantes del segundo grupo. Bajo esta codificacin, la interpretacin del modelo de regresin lineal de n reduce la variablearespuesta Y sobre la variable indicadora X es particularmente sencilla, dado que la y la constantependiente se)( y i y ) a ( x i x reduce a n 10 1 10 0,89 +estimacin+de la1,53=1 01,58++ ... + 1,... + i ,89 1,58 53 = b0 = y b1 x = y 1 1 ( y1 y 2 ) n y 2 , n n x xi xi = = = b1 = 1,2231,223 mmol/l. = ( n = n mmol/l. n y i y ) = n ( y1 y ) = y1 y 2 0 i =110 i =1 10 10 1 2 i x x )( y i) (i ( ix0x= 2y y )b xn=ny n=11n1 ( y y ) n2 y , 1 n = 2 b i =1 i =1 b = ( 1 n variable2 n ( y1 en yprimera n donde y1 y 1y= son las medias 2muestrales de lay i y ) = respuestay ) =la 1 y 2 y 2 n1 n 2 i =1 2 ca presenta las siguientes propiedades: ( x i x ) senta las siguientes propiedades: i =1 y la constante a son las medias muestrales de respectivamente. As,en la primera y segunda 1categora de la variable explicativa, la variable respuesta la constante donde y y y 2 aslacin). Si seysuma suma una constante a uno de losde los datos en (traslacin). Si se una constante a cada cada uno datos la constante a y la constante a de la variable explicativa, n corresponde simplemente a la media de la variable respuesta en el segundo grupo (xi = segunda categora respectivamente. As, la constante 1 ,edia de la muestra resultante es igual igual abla = inicial x = yla lay1 y 2 ) = y 2 , la media de la muestra resultante es a la media y binicial ms ( 0 media 1 ms n 0) y la pendiente a la diferencia de medias variable primer (xi en1) y el segundo grupo=xi corresponde simplemente a la media de la entre el respuesta = el segundo grupo (xi ( n y c, entonces = cx + cambio 0 = y deborigen que ( y1 y ) = y 2 , . las Un cambio 1 quey ada;=si iy+= , ientonces y 1 = xy 2+sonUnc. mediasde origenx = dela 1variable 2 respuesta en la primera y segunda i yi x i c x + donde b muestrales n As, la respuesta categora de la variableerror estndar de la constante viene dado por corresponde simplemente explicativa, donde pendiente el la diferencia respectivamente.el primer (x = 1) y el segundo grupo (x = 0).la y1 y y 2 son las medias muestrales de la variable constante en la primera y 0) y Asimismo, a de medias entre i i ncia es el centrado de la variable, que consiste en restarsegundo grupo (xi = 0) y la pendiente a la diferencia de recuencia es el a la media de la variableque consiste en restar a centrado de la variable, respuesta en el a 1) y muestrales grupo medias entre y y son lasi medias el explicativa, respectivamente. As,en el primera y segunda 1 el primererrorvariable segundo 2de la variabledado por la la error estndar de la donde y categora de(x =estndar de la constante (xi = 0). Asimismo, constante = 0). Asimismo, el la viene respuesta 2 constantede una dado por centrada ser, por x por = s 1 + n1 = s viene variable (b ) centrada ser, a muestra su media. La media de una variable = s 1 + stra su media. La media SE 0 2 n (n variable respuesta en el la constante n n2 n n corresponde simplemente a la media de la1) s x segunda categora de la variable explicativa, respectivamente. As,2segundo grupo (xi = 2 1 1 n1 x s SE(b0 ) = s + =s + = 2 x 0) y la pendiente a la diferencia de medias1variable primer 2(n i = 1) y el segundo grupo =xi entre el respuesta en el segundo grupo (xi ( n (n n n corresponde simplemente a la media de la ) s x n2 y multiplica cada de pendiente de ala (unidades). multiplica cada uno de losde los datos poruna nidades). Si se Si se el error estndarunoladatos de una y el error estndar de la pendiente por la constante viene dado por = 0).la pendienteel la diferencia de medias entre el primer (xi = 1) y el segundo grupo (xi 0) y Asimismo, a error estndar de stante, la media dey el error estndar de la pendiente porla media n a constante, la media muestra resultante es igual igual a la de la muestra resultante es a la media s 1 1 SE(b1 ) = = 0). Asimismo, el error estndar de n constante n = s dado+ n , la 1 = s n viene n por n11 x2 1 2 1 2s x x onstante utilizada;=si yi, = cxi, entonces cy .(b0) = s s1 + te utilizada; si yi cx entonces y = SE= c x . s s (n 1) s 2 =n n + n 1n = 1 2 2 = s 2 + n,2 donde la varianza residualSE(no)es ms que la= sx s2 b1 = n combinacin de las varianzas s1 y s2 de la variable 2 n1 n 2 1 n11 n 2 s x de origen y escala. dondemultiplica cada uno )suno de los que la combinacin de las varianzas s 2 y s 2 de neo de origen y escala. Si se multiplica cadade no sdatos datos de = s Si se en ambos grupos,b 2 s 1 +n 1 x respuesta la varianza residual = los es msde SE( 0 + = 1 2 2 n (n 1) s x n n2 n n2 n 1 y resultado suma sumaconstante, 2 r una constante y al el errorle respuesta en ambos la0porb1 xmedia constante y al resultado se estndar de la pendiente media ) 2 otra ( constante, la b 2 la variable sesle=otra 2 s2yno es ms que la combinacin de las varianzas s12 y s 2 de donde la varianza residual1 i grupos, i n i= n n2 el inicial por la de la pendiente por esultante es igual ayla media estndarprimera constante, ms la la nte es igual a la media error inicial por1 la primera2 constante, ms 2n s yi b ) ) la variable respuesta en ambos grupos, y j = s 2 ) (SE( 1y1= + ( y n n (= s 11s 2+ +1(n, 1)s 2 n n1 1 n 2 2 ) 1 i =1 s x j =n 1 2 1 2 . = 1 c i yi =si 1xi= cc2,i entonces y = cy x=+ 1cx. + c2. nte; c yi + 1x + c2, entonces 1 = 2 s n 1 n 12 n2 SE(b1) = , =s =s + n1 n 2 n1 n 2 sx n 1 2 2 donde la varianza residual s no es ms que la combinacin de las varianzas s12 y s 2 de 52 nsformar los valores del colesterol HDL HDL de mmol/l a mg/dl se ra transformar los valores del colesterol de mmol/l a mg/dl se 190 Pastor-Barriuso R. resultados se desprende que la pendiente b1 y su error estndar SE(b1) 2 De estos la variable respuesta en ambos grupos, que la combinacin de las varianzas s12 y s 2 de donde la varianza residual s2 no es ms 52 el factor de conversin 38,8.utilizando la propiedad del del or de conversin 38,8. As, As, utilizando la propiedad coinciden exactamente con la estimacin puntual y el error estndar de diferencia de la HDL en mg/dl se en ambos la, la media del colesterol HDL en mg/dl se calculara media del colesterol variable respuesta calculara grupos,

comparacin de medias mediante el test de la t de Student para muestras


independientes con igual varianza.
Referencias

DeEjemplo 10.18 Para comparar los niveles mediosb1 ycolesterol estndar SE(b1) coinciden estos resultados se desprende que la pendiente de su error HDL entre los exactamente con la estimacin puntual y el error estndar de la diferencia de medias en distribuciones infarto de varianza (vase Apartado libres de la enfermedad, se podra que las casos de con igual miocardio y los controles 6.3.1). Puede concluirse, por tanto, inferencias relativas a la pendiente de un modelo de regresin lineal con una nica variable explicativa dicotmica son algebraicamentesimple del colesterol HDL sobre la variable ajustar un modelo de regresin lineal equivalentes a la comparacin de medias mediante el test de la t de Student para muestras independientes con igual varianza. indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de muestrade miocardio y 1los462HDL en los controles = 539 controles del ajustar un modelo infarto completa de n = controles libres de la enfermedad, la enfermedad, cuyo valor esperado del colesterol casos de infarto y n2 libres de se podra estudio de regresin lineal simple del colesterol HDL sobre la variable indicadora del estatus EURAMICes(xi = 1 en los casos y 0 enHDL. La recta de regresin estimada entre 1 = 462 caso/controlcon valores del colesterol los controles) en la muestra completa de n IC al 95% casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol el valorLa recta de regresin estimada entrecontroles libres de la enfermedad,indicadora del colesterol HDL y la variable indicadora el estatus caso/control es HDL. esperado del colesterol HDL en los delcolesterol HDL y la variable cuyo b0 t SE(b0) = 1,09 1,960,012 = (1,06; 1,11). estatus caso/control 999;0,975 es IC al 95% es y = 1,09 0,11x, Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel b0 t999;0,975SE(b0) = 1,09 1,960,012 = s = 0,27 mmol/l que, debido a la con una desviacin tpica residual del colesterol HDL de(1,06; 1,11). con una desviacin tpica residual varianza, se asume constante en variable controles. El hiptesis de homogeneidad de la del colesterol HDL de s = 0,27la casos que, medio de colesterol HDL por cada incremento de una unidad en mmol/l y valor otra parte,del pendiente b es SE(b0) controles y de el cambio en el nivel= 0,017. La error estndar de la constante = -0,11 mmol/l determinala pendiente SE(b1)cuyo Por esperado la colesterol HDL en los = 0,012 libres de la enfermedad, 1 debido a la 0lo que equivale estima la mediadevarianza,entre casosconstante en con valor 0 constante b hiptesis de homogeneidad de ladel colesterolasumeen xi = sujetos indicadora, = 1,09 mmol/l a la diferencia medias se HDL ( los 1) y IC la variable al 95% colesterol HDL por es, el valor esperado del colesterol HDL en demedio dees indicadora; esto cada incremento de una unidad en la variable los controles casos y controles. El error estndar de la es libres de laxenfermedad, al 95% para la diferencia de medias subyacente viene controles ( i = 0). IC cuyo IC al 95% constante es SE(b0) = 0,012 y de la indicadora, lo 0 t999;0,975 SEa b0 )diferencia1,960,012 entre casos (xi = 1) y b que equivale ( la = 1,09 de medias = (1,06; 1,11). pendiente SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del dado por Por otra parte,= 0). El IC al 95% 0,11 mmol/l determina el cambio en el nivel medio de controles (xi la pendiente b1 = para la diferencia de medias subyacente viene Por otra parte, la por cada incrementommol/lla unidad en la variable el nivel HDL pendiente b1 = -0,11 de una variable el cambio en indicadora, lo que colesterol HDL en los sujetos con valor 0 de determina indicadora; esto es, el b1 t999;0,975SE(b1) = -0,11 1,960,017 = (-0,14; -0,08) equivale a la diferencia de medias entre casos (xi = 1) y controles (xi = 0). El IC al 95% dado por medio diferencia de medias cada incremento de una unidad en la variable para la de colesterol HDL porsubyacente viene dado por 53 y el contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante 1 999;0,975 SE( la = 0,11 de medias entre casos ( x = indicadora, lobque tequivale a b1 )diferencia1,960,017 = ( 0,14; 0,08) 1) y i

el estadstico y el contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante el controles ( y el contraste bilateral al la hiptesis diferencia de medias H0: 1 = 0 viene estadstico xi = 0). El IC de 95% para la de igualdadde medias subyacentemediante
dado por el estadstico

t=

b1 0,11 = = 6,35 SE (b1 ) 0,017

b1 P = 2P(t = b1 -0,11 2F( 1,960,017 = (-0,14; -0,08) resulta en un valort999;0,975SE(b1) 6,35) 0,116,35) < 0,001. As, los casos de infarto de 999= = t = -6,35 miocardio un valor Pun 2P(t999 SE (b1 ) colesterol HDL 0,001. As, los casos de que los -6,35) 2(-6,35) < significativamente inferior resulta en presentan = nivel medio de 0,017 sujetos libres de la enfermedad (P < 0,001), con unamedias H0: estimada en 0,11 mmol/l y el contraste bilateral de la hiptesis de igualdad de diferencia 1 = 0 mediante (IC al 95% 0,08-0,14presentan un nivel medio de colesterol HDL infarto de miocardio mmol/l). Notar, por ltimo, que estos resultados son exactamente 2P(t999 el test de la t de Student para muestras independientes resulta los iguales aen un valor P =mediante -6,35) 2(-6,35) < 0,001. As, los casos de el estadstico obtenidos con igual varianza (Ejemplos 6.7 y sujetos libres de la enfermedad (P < 0,001), significativamente inferior que los 6.8). infarto de miocardio presentan un nivel medio de colesterol HDL b con una diferencia estimada = 0,11 mmol/l,11 =al 95% 0,080,14 mmol/l). Notar, en 1 = 0 (IC -6,35 significativamente inferiort que losbsujetos017 de la enfermedad (P < 0,001), SE ( 1 ) 0, libres 10.4 REFERENCIAS por ltimo, que estos resultados son exactamente iguales a los obtenidos mediante con una P, Berry estimada en JNS. Statistical Methods in Medical Research, 1. Armitage diferenciaG, Matthews0,11 mmol/l (IC al 95% 0,080,14 mmol/l). Notar, Fourth resulta en un valor P = 2P(t999 -6,35) 2(-6,35) < 0,001. As, los casos de Edition. Oxford:Student para muestras independientes con igual varianza elpor ltimo, que Blackwell Science, 2002. test de la t de estos resultados son exactamente iguales a los obtenidos mediante 2. Bickel de miocardio presentan un nivel medio de colesterol HDL and Selected Topics. infarto PJ, Doksum KA. Mathematical Statistics: Basic Ideas Englewood6.7 y 6.8). Prentice Hall, 1977. (Ejemplos la t de Student para muestras independientes con igual varianza el test de Cliffs, NJ: significativamente inferior que los sujetos libres de la enfermedad (P < 0,001), Pastor-Barriuso R. (Ejemplos 6.7 y 6.8). con una diferencia 10.4 REFERENCIAS estimada en 0,11 mmol/l (IC al 95% 0,080,14 mmol/l). Notar,

191

Correlacin y regresin lineal simple

3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.

Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley & Sons, 1999. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley & Sons, 1998. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series Temporales. Madrid: Alianza Editorial, 1987. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley & Sons, 2003. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons, 2005.

192

Pastor-Barriuso R.

TEMA 11 REGRESIN LINEAL MLTIPLE


11.1 INTRODUCCIN

En el Tema 10 se present la regresin lineal simple como una herramienta para analizar la relacin lineal entre una variable respuesta continua y una nica variable explicativa. En la prctica, sin embargo, suele contarse con ms de una variable explicativa y el inters se centra en estudiar la relacin de cada una de las variables explicativas con la variable respuesta, teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se ocupa la regresin lineal mltiple. En presencia de mltiples variables explicativas asociadas con la variable respuesta, la utilizacin de distintos modelos de regresin lineal simple para cada variable explicativa da lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersin entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y crculos los valores de otra variable explicativa dicotmica X2. En la Figura 11.1(a), la variable explicativa X2 est asociada con la variable respuesta Y (los valores de Y tienden a ser mayores en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se distribuyen por igual en ambas categoras de X2). Si se ignora la variable X2 y se ajusta un modelo de regresin lineal simple entre X1 e Y a toda la nube de puntos (lnea gruesa), se obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (lneas finas) y, en consecuencia, la asociacin entre X1 e Y no estar confundida por X2. No obstante, la varianza residual alrededor de la recta de regresin es mayor al ignorar la variable explicativa X2, lo que ocasionar un mayor error estndar en la estimacin de la pendiente. Por el contrario, en la Figura 11.1(b), la variable explicativa X2 est asociada de forma independiente con la variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores de la otra variable difieren segn categoras de X2). La pendiente de la recta de regresin simple entre X1 e Y (lnea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2 permanece constante (lneas finas). Esto es debido a que las variables explicativas X1 y X2 estn correlacionadas y la regresin lineal simple estimar los efectos confundidos de ambas variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su asociacin con X2. La principal conclusin del ejemplo anterior es que, si las variables explicativas estn relacionadas entre s, lo que sucede con cierta frecuencia, la regresin lineal simple puede proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas deben estudiarse conjuntamente mediante modelos de regresin lineal mltiple. Estos modelos son una extensin de la regresin lineal simple a la presencia de dos o ms variables explicativas, que pueden ser tanto continuas como categricas. Como veremos a continuacin, la regresin lineal mltiple permite estimar el efecto independiente de cada variable explicativa, manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los anlisis epidemiolgicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto de cada variable explicativa.
Pastor-Barriuso R. 193

11.2 ESTRUCTURA Regresin lineal mltiple

DE LA REGRESIN LINEAL MLTIPLE

El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp; es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de
y la variable respuesta es
p 11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE E(Y|x1 , ..., xp) = 0 + 1 x1 + + p xp = 0 + j x j .

El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y

j =1

(panelmodelo de regresin Y comomltiple asumeLas lneas gruesas representan las rectas de Y El a) y asociada tanto con lineal con X1 (panel b). que la media de la variable respuesta regresin simple entre X1 ede ignorando la variable X2 y el cambio esperado en Y porlas rectas de regresin para coeficiente respuesta es j determina las lneas finas corresponden a cada incremento de la variable Y regresin cada valor de X2.

La constante 0 corresponde combinacin lineal de las variables explicativas X , ..., X ; (a) (b) puede expresarse como una al valor esperado de Y cuando todas las variables 1 p 11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE Figura 11.1 Diagramas de dispersin de la variable respuesta Y frente a la variable explicativa X1 para explicativas son 0, E(Y|0, ,1, otra + estas variables = 0; mientras valor esperado con es decir, para valores fijos x 0) = variable + + p dicotmica X asociada cada distintos valores (puntos y crculos) de ..., xp0de 10 explicativa 0 explicativas, elque con Y pero no de X
2

x1

x1

puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Figura 11.1 Xp; una unidad en Xj, manteniendo constantes el resto de variables explicativas, p 11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE es decir, para valores fijos x1xp..., x 0de estas+ + p xexplicativas,el x j . esperado de E(Y|x1 , ..., , ) = p + 1 x1 variables p = 0 + j valor El modelo de regresin lineal jmltiple ,asume - E(Y|x1mediap ) laj =1 E(Y|x1 , ..., xj-1, x + 1, xj+1 ..., xp ) que la , ..., x de variable respuesta Y puede la variable respuesta es expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp; es decir, para de 0 + x1 al valor esperado de valor j+1 xj+1 + + p xp valoresconstante 0 p = estas 1variables explicativas, el+ 1) + esperado de la variable respuesta es La fijos x1, ..., x corresponde + + j-1 xj-1 + j(xj Y cuando todas las variables E(Y|x10, + xp) = 0 + x1 + + xp = + j x . ( ...,, + = + x10 + explicativas son 0,- E(Y|0, 1 x1 0) 0 +1pp ) = j. + pp0 = 00; mientrasj que cada
j =1 p

194

La As, los coeficientes de regresin asociados a de Y variable en Y por cada incremento de constante 0de regresin j determina el cambio esperado todas las variables explicativas coeficiente corresponde al valor esperado cada cuando explicativa no pueden estar son 0,constante 0 corresponde+ + p0 = 0; mientras que cada coeficiente de regresin j La E(Y|0, , 0) = 0 + 10 al valor esperado de Y cuando todas las variables determina el cambio manteniendo Y por cadael restoya que stas permanecen Xj, manteniendo una unidad por j, esperado en constantes incremento de una unidad en constantes. confundidos en Xlas dems variables explicativas, de variables explicativas, constantes el resto de E(Y|0, ,explicativas, 0 + + p0 = 0; mientras que cada explicativas son 0, variables 0) = 0 + 1 En este sentido, y 1a diferencia+ 1,la jregresin E(Y|x1 ,los coeficientes de regresin lineal E(Y|x , ..., xj 1, xj de x +1, ..., xp ) simple, ..., xp ) coeficiente de regresin j determina el cambio esperado en Y por cada incremento de = 0 + x1 + + j 1 xj 1 + j(xj + 1) + j+1 xj+1 + + p x mltiple facilitan el efecto1independiente de cada variable explicativa sobre pla variable ( 0 + 1 x + + p xel resto una unidad en Xj, manteniendo1 constantes p ) = j. de variables explicativas, respuesta ajustando o controlando por posibles diferencias en la distribucin de las As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar E(Y|x , ..., xj-1, xj + 1, j+1, ..., xp) - E(Y|x1, ..., xp) confundidos por las 1dems variablesxexplicativas, ya que stas permanecen constantes. En este restantes variables explicativas incluidas en el modelo. sentido, y a diferencia de la regresin simple, los coeficientes de regresin lineal mltiple As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar = 0 + 1x1 + de j-1x variable explicativa sobre la pxp facilitan el efecto independiente + cada j-1 + j(xj + 1) + j+1xj+1 + + variable respuesta Para completar la estructura general de la regresin lineal mltiple, se asume que los ajustando o controlando por posibles diferencias en la distribucin de las restantes variables confundidos por las dems variables explicativas, ya que stas permanecen constantes. explicativas incluidas-en el+ 1x1 + + pxp) = j. (0 modelo. valores individuales de la variable respuesta se distribuyen normalmente alrededor del Paraeste sentido, yestructura general de la regresin lineal mltiple, se asume que loslineal En completar la a diferencia de la regresin simple, los coeficientes de regresin valores individuales de la definidoregresin asociados regresin, valor esperado variable respuesta se distribuyen normalmente alrededor del valor esperado As, los coeficientes de por la ecuacin de a cada variable explicativa no pueden estar mltiple la ecuacin de regresin, definido por facilitan el efecto independiente de cada variable explicativa sobre la variable confundidos por las dems variables explicativas, ya que stas permanecen constantes. Y|x1 , ..., xp ~ N( 0 + 1 x1 + + p xp , 2), respuesta ajustando o equivalentemente o controlando por posibles diferencias en la distribucin de las En este sentido, o equivalentementey a diferencia de la regresin simple, los coeficientes de regresin lineal 3 restantes variables explicativas incluidas en el modelo. Y = 0 + 1 1 + p xp + , mltiple facilitan el efecto independientexde+cada variableexplicativa sobre la variable Para completar la estructura general de la regresin lineal mltiple, se asume que los respuesta error aleatorio en la variable respuesta sigue una distribucin normal las donde el ajustando o controlando por posibles diferencias en la distribucin de con Pastor-Barriuso R. valores individuales de la variable respuesta se distribuyen normalmente alrededor del restantes y varianzaexplicativas incluidas en de modelo. media 0 variables 2 para cualquier valor el las variables explicativas. De esta valor esperado definido por la ecuacin de regresin,

Estructura de la regresin lineal mltiple

donde el error aleatorio en la variable respuesta sigue una distribucin normal con media 0 y varianza 2 para cualquier valor de las variables explicativas. De esta especificacin del modelo de regresin lineal mltiple, se desprenden las siguientes asunciones: y Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada variable explicativa Xj, de tal forma que para valores fijos de las dems variables explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un mismo cambio en la media de Y. y Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta es la suma de sus efectos independientes. y Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante para cualquier valor de las variables explicativas. y Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta se distribuye de forma normal. En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el grfico tridimensional de la Figura 11.2. Debido a las hiptesis de linealidad y aditividad, los valores esperados de Y para cualquier combinacin de X1 y X2 se sitan en el plano definido por la ecuacin de regresin 0 + 1x1 + 2x2. Asimismo, por las asunciones de homogeneidad de la varianza y normalidad, los valores individuales de Y para cualquier combinacin de X1 y X2 se distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresin. Las hiptesis de linealidad y homogeneidad de la varianza se evaluarn utilizando procedimientos de diagnstico grfico similares a los empleados en regresin lineal simple. Las desviaciones de la asuncin de aditividad se explorarn, por su parte, mediante la inclusin de trminos de interaccin entre las variables explicativas.
Plano de regresin: E(Y|x1, x2) = 0 + 1x1 + 2x2

0 + 1xj1 + 2xj2 0 + 1xi1 + 2xi2

xi1 xj2 xi2 X2

xj1 X1

Figura 11.2 Asunciones subyacentes al modelo de regresin lineal mltiple con dos variables explicativas.

Pastor-Barriuso R.

195

individuales sobre la variable respuesta seran indiscernibles. Independencia lineal de las variables explicativas: Ninguna variable explicativa

Regresin lineal mltiple

es una combinacin lineal exacta de las dems ya que, en tal caso, sus efectos Ejemplo 11.1 Supongamos que un modelo de regresin lineal mltiple incluye individuales sobre la variable utilizadasseran A estas asunciones,explicativaslasrespuestaarterial indiscernibles. presinaaden dos nuevas como variables anlogas a la presin en regresin lineal simple, se arterial sistlica X1 y la condiciones necesarias para poder estimar la ecuacin de regresin:
diastlica X2, y Independencia lineal de lasque un modelo de regresin lineal variable explicativa es una Ejemplo 11.1 Supongamos variables explicativas: Ninguna mltiple incluye combinacin lineal exacta de las dems ya que, en tal caso, sus efectos individuales sobre la variable respuesta seran indiscernibles. como variables explicativas la presin 1 x1 + 2 x2 + . X1 y la presin arterial Y = 0 + arterial sistlica

Ejemplo X2, diastlica11.1 Supongamos que un modelo de regresin lineal mltiple incluye como Si se aade adems la presin del pulso, definida como presin arterial diastlica X2, variables explicativas la presin arterial sistlica X1 y la la diferencia entre la Y = 0 X3 x + X el . presin arterial sistlica y diastlica+ 1= 1X1 - 2 x22, + modelo resultante puede Si se aade adems la presin del pulso, definida como la diferencia entre la presin reescribirse como Si se aade adems la presin 3delX1 X2,definida como la diferencia entre la arterial sistlica y diastlica X = pulso, el modelo resultante puede reescribirse como presin arterial sistlica = diastlica + 3=xX1+- 32x3el modelo resultante puede Y y 0 + 1 x1 X 2 2 X , + reescribirse como
= 0 + 1 x1 + 2 x2 + 3 (x1 x2 ) + = 0 + ( 1 + 3 )x1 + ( 2 3 )x2 + ,

Y equivalente al modelo x3 + que es algebraicamente = 0 + 1x1 + 2x2 + 3anterior con 1 = 1 + 3 y 2 = 2 3. Existen, por tanto, infinitas combinaciones de los parmetros 1, 2 y 3 que dan lugar a la misma ecuacin de regresin1x1 + cualquier3(x1 - x2) + , basta tomar 1 = 1 3 y 2 = 0 + (para 2x2 + valor de 3 que es algebraicamente equivalente al modelo anterior con = + 3 y 2 = ). = 2 + 3 para obtener los mismos coeficientes de regresin 1 y 21 As, como la 2presin 1 del pulso es una combinacin+ (1 +exacta + (2 presin + , = 0 lineal 3)x1 de la - 3)x arterial sistlica y diastlica, no parmetros 1, 2 y de estas - 3. Existen, por tanto, infinitas combinaciones de los 2 esposible determinar unvocamente los efectos independientes de cada una3 que tres variables explicativas. que es algebraicamente equivalente al modelo anterior con 1 = de 33 basta= 2 dan lugar a la misma ecuacin de regresin (para cualquier valor 1 + , y 2 y El nmero de observaciones n debe ser superior o igual al nmero de coeficientes p + 1 de - ecuacin de regresin. Este requerimiento resulta obvio en el caso y variables la 3. Existen, por tanto, infinitas combinaciones de los parmetros 1, de2 p = 32que explicativas (vase Figura 11.2), ya que para determinar el plano de regresin se necesitan 5 dan lugar la puntos u observaciones no alineadas. al menos na= 3misma ecuacin de regresin (para cualquier valor de 3, basta Cabe destacar que estas dos condiciones son requerimientos tericos mnimos para estimar la ecuacin de regresin. En la prctica, sin embargo, el nmero de observaciones ha de ser muy superior al nmero de coeficientes de regresin para poder obtener estimaciones precisas de 5 estos coeficientes y no incurrir en problemas de sobreajuste (esto es, modelar el error aleatorio en lugar de la relacin subyacente). Un criterio habitual es no incluir ms variables explicativas que el nmero de observaciones dividido por 10. Asimismo, aunque las variables explicativas no presenten una correlacin lineal perfecta, es importante evaluar su grado de colinealidad. Si las variables explicativas son muy dependientes entre s, resulta muy difcil separar sus efectos e identificar la contribucin individual de cada una de ellas, lo que provocar estimaciones inestables de los coeficientes de regresin. Este problema se conoce como multicolinealidad y se tratar ms adelante en el apartado de diagnstico del modelo de regresin lineal mltiple. 11.3 ESTIMACIN E INFERENCIA DE LA ECUACIN DE REGRESIN

En este apartado se presenta, en primer lugar, el procedimiento de estimacin de los coeficientes de regresin lineal mltiple. A continuacin, se describen las propiedades de los estimadores y se derivan intervalos de confianza y tests de hiptesis para los coeficientes de regresin. Finalmente, se presentan intervalos de confianza para el valor esperado de la variable respuesta e intervalos de prediccin para una nueva observacin en funcin de los valores de las variables explicativas.
196 Pastor-Barriuso R.

coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de una muestra de n observaciones (yi, xi1, , xip) mutuamente
Estimacin e inferencia de la ecuacin de regresin

independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables 11.3.1 Estimacin de los coeficientes de regresin explicativas, se trata de estimar los valores b0, b1, , bp que minimicen la suma de Al igual que en regresin lineal simple, las estimaciones puntuales b0, b1, , bp de los coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de una cuadrados deobservaciones residuos ei xipyi mutuamente independientes. En concreto, tal y muestra de n los errores o (yi, xi1, , = ) - y i , que corresponden a las distancias entre como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores los valores observados y de la variable respuesta y los errores o residuos ei = b0, b1, , bp que minimiceni la suma de cuadrados delos correspondientes valores yi i, que corresponden a las distancias entre los valores observados yi de la variable respuesta y los estimados o predichos por la ecuacin de regresin y i = b0 de 1xi1 + = ip correspondientes valores estimados o predichos por la ecuacin + bregresin+ ibpxb0, + b1xi1 + + bpxip, SSE =

ei2 = ( y i y i ) 2 = ( y i b0 b1 xi1 ... b p xip ) 2.


i =1 i =1 i =1

Para estimar los coeficientes de regresin que minimizan esta suma de cuadrados del error, se calculan las derivadas parciales de SSE respecto a b0, b1, , bp y se igualan a cero, resultando [Figura el sistema de p + 1 ecuaciones lineales 11.3 aproximadamente aqu]
n n SSE = 2 ei = 2 ( y i b0 b1 x i1 ... b p x ip ) = 0, Para estimar los0 coeficientes de regresin que minimizan esta suma de cuadrados del b i =1 i =1 n n SSE error, se calculan las ei = 2 xij ( yi b0de b1 xi1 ... b p xa ) 0=b1, , bp = se , p. a = 2 xij derivadas parciales SSE respecto ip b , 0, j y 1, igualan b j i =1 i =1 cero, resultando el sistema de p + 1 ecuaciones lineales En general, este sistema lineal se resuelve utilizando lgebra de matrices. En el Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp que, bajo las En general, linealidad lineal se resuelve estimadores insesgados de los coeficientes de asunciones de este sistemay aditividad, son utilizando lgebra de matrices. En el

Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp (xi1, xi2, yi) Plano de regresin estimado: 7 que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
y coeficientes de regresin 0,ei= ,y, ip. En el caso particular de dos variables 1 i

y = b0 + b1 x1 + b2 x2

explicativas, puede comprobarse que estos estimadores vienen dados por


( xi1 , xi 2 , yi )

b1 =

ryx1 ryx2 rx1 x2 s y 1 rx2 x2 1 s x1

b2 =

ryx2 ryx1 rx1 x2 s y 1 rx2x2 1 s x2

,
x1

b0 = y - b1 x1 - b2 x 2 .

De estas 2expresiones se deduce que, si las variables explicativas X1 y X2 estn x


Figura 11.3 Error o desviacin del valor observado de la variable respuesta respecto a su valorFigura 11.3 estimado incorrelacionadas rx x = 0, las estimaciones de los coeficientes de regresin mltiple se por el plano de regresin. 1 2

reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y / s x2 , que son iguales a las obtenidas en regresin

simple (vase Apartado 10.3.1). Por tanto, cuando las variables explicativas estn

Pastor-Barriuso R.

197

incorrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los

explicativas, puede comprobarse que es ficientes de regresin 0, 1, , p. En el caso particular de dos variables s, puede comprobarse que estos estimadores vienen dados por que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los licativas, puedeRegresin lineal mltiple estos estimadores vienen dados por comprobarse que ry b1 = ryx1 deryx2 rx1 x2 s y 0, 1, , p. En el caso particular de dos variables regresin coeficientes , b1 = 2 1 rxrxyx1 rs x21rx1 x2 s y yx 1 2 , = explicativas,1 , . En 2el caso particular de dos variables explicativas, puede comprobarse regresin 0, b, puede1comprobarse que estos estimadores vienen dados por 1 p r s x1 ry x1 x 2 reX11eeY rryx1(como ocurre en regresin lineal dados por sinotambin de sus e X Y yx1 (comoestos estimadores vienen simple), sino tambin de sus que ocurre en regresin lineal simple), b2 = ryx2 ryx1 rx1 x2 s y b2 = , r r s entre X1 e Y ryx11 (como ocurre en regresin lineal simple),sinortambin de sus r1 x2 1 rx2yx2 rs x12rx1 x2 s y b1 = yx1 yx2 x1 x2 y , yx 2 pectivascorrelaciones con la variable X22 rr2yx2 y rr1xx2 2.., variable X yx2 y x 1 x ectivas correlaciones con la b2 = s x1 1 rx1 x2 s x2 b0 = y 1 rx1 x2 respectivas correlaciones con la variable X2 ryx22 y rx11x22 . r2yx2 ryx1 rx1 x2 s y b0 = y - b1 x1 - b2 x . Una vez estimada la ecuacin de regresin, la varianza de la2variable respuesta Una vez estimada la ecuacin de regresin, 2la varianza 2de la variable respuesta b2 = , s x2 1 rx21 x2 b0 = y - b1 x1 - b2 x 2 . De Una vez estimada la ecuacin de regresin, la varianza de la variable respuesta estas expresiones se deduce que, si l xpresionesdichaecuacin se estima mediante la varianza residual ededorde dicha ecuacin se estima mediante la varianza y X2 estn dedor de se deduce que, si las variables explicativas X1 residual b0 = y b1 x1 b2 x 2 . incorrelacionadas rx1 x2 = 0, las estimaci alrededor de dicha ecuacin se estima mediante la varianza y X2 estn estas expresiones se deduce que, si las variables explicativas X1residual onadas rx1 x2 = 0, las estimaciones desendeduce que, si de regresin mltiple se X y X estn incorrelacionadas n DeSSE expresiones los coeficientes las variables explicativas 1 estas SSE 1 1 2 2 s2= r = 0, las estimaciones(yy i b00coeficientes b pregresin mltiple se reducen a b1 = r s / s y b2 = r s / = = s i b b i ... ip 22 orrelacionadas nx p ,1 = n p 1 ( de los b11xx1i1 ... deb pxx ip)) ,, n yx1 y x1 yx2 y x1 2 p 1 n n SSE p 1i =11 i= 1 = ryx2 s / s x2 ,= queson igualesy lasbobtenidas ...regresin2simple X1 y X2 estn ( a 0 las 1 en b x ip ) , b1 = ryx1 s y / s x1 y bs22 = estasyexpresiones se igualesi a las si b1 x ivariables pexplicativas (vase Apartado 10.3.1). Por ,que son deduce que, obtenidas en regresin De n p las n p explicativas estn incorrelacionadas, sus coeficientes estimados por tanto, cuando 1 variables 1 i =1 iguales a las obtenidas en regresin simple (vase Apartado 10.3.1). Por tan ucen a b1 = ryx1 s y / s x y b2 = ryx2 s / s x , que son ndela suma de10.3.1).1 Pordel error ySSE 2se =dividepor n --p --1 ya que, distintas regresiones simples parase regresin tanto, cuando las variables nobtenidos estn vez de la suma de cuadrados del error coinciden conestimacionesya de coeficientes de regresin mltiple cada 0, las los p 1 de los una incorrelacionadas rx1 ase Apartado cuadrados mltiple SSEx2sedivide por explicativasque,una vez variable explicativa.error el contrario, cuando - p - 1 ya que,explicativas estn correlacionadas, cuadrados del Porcuando las regresin las variables una SSE divide pledonde lapsuma de 10.3.1). de rregresin,los seerrores o desviaciones deestn vez incorrelacionadas, sus coeficientes estim (vase + 1sus entre e Y regresin, ocurre errores por nexplicativas diferir notablemente de sus efectos mados los Apartado + 1coeficientes Poryx1 (como los n envariables lineal simple), sino tambin de sus coeficientes de tanto, regresin mltiple desviaciones de la variable efectos mados los p coeficientes X1 ajustados mediantenregresinomltiple pueden la variable onadas, sus estimados por / s y b2 = r s / coinciden con los a las obtenidas en regresin reducen a b1 = r s y x1 yx y s x 2 , que son iguales crudos coeficientesyx1restantes variables explicativas. As, por de la variable la relacin de la variable estimados los p + 1ignorando lasde regresin, los n2 errores o desviacionesejemplo,obtenidos de distintas regresiones simpl orrelacionadas, aalarespectivasderegresin contienenvariable1Xgradosde libertad. los X se estima mediante el puestarespecto explicativa X1de estimados variable explicativa. Por elde1 x2 la con Bajo 2 laecuacin con la variable regresin p--ajustando por . ecuacin correlaciones con la n -- Y 1gradosy rx libertad. Bajo regresin contienen n uesta respecto sus coeficientes para cada por respuesta pmltipleyxcoinciden variable r 2 de distintas regresiones simples simple), sino tambin de sus 2 como ocurre encoeficientelineal Apartado 10.3.1).bPor tanto, cuando las variables correlacin entre X e Y r (como ocurre e regresin de regresin mltiple , que simple ecuacin slo de yx 1 contrario, cuando respuesta respecto a la (vase de regresin contienendepende no Por el libertad. Bajo entre X11 las variables explicati n - p - grados de la explicativas estn enidos dede linealidad,ocurre en regresin lineal simple),varianza,1 lavarianza respectivas correlaciones con la1 distintas regresiones simples para cada variablevarianza,la varianza 2 explicativa. de sus hiptesis variables explicativas y homogeneidad de lasus efectos ajustados de la variable respuesta aditividad y homogeneidad de (comoUna vez estimada la ecuacin de regresin, la varianza hiptesis de linealidad,aditividadestn correlacionadas,la sino tambin cuando las por laciones con la variable X2 ryx2aditividad y homogeneidad de la varianza, la varianza mediante respectivas correlaciones con l regresin las 2cuando las incorrelacionadas,2 .. coeficientes estimadossus regresin mltiple coinciden con los mltiple pueden dife linealidad, y rx1 x sus trario,2hiptesis devariables explicativas estn correlacionadas, 22. efectos ajustados insesgado del parmetropoblacional idualss esmltiple pueden diferir notablemente depoblacionalla. varianza 2 de la variable respuesta alrededor dual esun estimadorvez estimada laecuacin se sus efectos crudos varianza residual egresin un estimadorinsesgado del parmetro de regresin, Una alrededor de dicha ecuacin estima mediante la obtenidos de distintas regresiones simples para cada variable explicativa. Por las restantes variables explica ignorando elUna vez estimada la ecuaci un estimador insesgado de la variable respuesta residual s2 esde regresin, la varianza delmediante de sus efectos crudos ada la regresinde dicha ecuacindiferir notablementelapoblacional 2. ecuacin mltiple pueden se estima 2 parmetro varianza residual diante las restantes variables explicativas. As, por ejemplo, la relacin de la de desarrollar un primer infarto agudo de miocardio e n contrario, cuando se variables relacin del ndice de masa Ejemplo 11.2 En el Ejemplo 10.7las estudi laexplicativas estn de masa Ejemplo 11.2 En el Ejemplo 10.7 se estudi la relacin del ndicecorrelacionadas, sus efectos ajustadosX con SSE antioxidantes en el riesgo 1 re varianza residual a ecuacinrestantes variables explicativas. As, por ejemplo, la( relacinde1 x i1 ... bvariable explicativade1dichala variablese se estima mediante la s2 = = b la orando las y idel b0 estima masa p xip ) 2 , alrededor ecuacin 1 por adultos. n se estudi p variable ndice obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84 plicativaEjemplo 11.2 En elrespuesta Y ajustando n la 1 i =1 Los2valores de X1 con la variable Ejemplo 10.7 p hombresla relacin X se corporal con el mediante regresin mltiple modelo de regresin lineal de sus mediante el colesterol HDL utilizando un modelo de regresin lineal simple. corporal con el colesterol HDL utilizando unpueden diferir notablementesimple. efectos crudos coeficiente de regresin m n able SSE explicativa X1 con la variable respuesta Y ajustando pordivide por n X2p estima una vez estimados los donde la suma de cuadrados del error SSE se la variable se 1 ya que, 1 corporal con elmltiple b1b1que ...1,06, x ip ) 2 , 1,96 y correlacin La media de los niveles del colesterol SSE colesterol , x utilizando un slo de la regresin lineal simple. depende l =coeficiente=depregresinla y ilas b0 HDL i1 variablesnno modelose1,53 mmol/l. - p -variable respuesta respecto a 2 = HDL en= b errores o deAs, coeficientes determinantesde los niveles de por ejemplo, la s donde ( ignorando restantes No p 1 n +p1 1 i =1 muchosdeterminantes0,87, niveles de colesterol 1 ya de los colesterol No obstante, existen otrossuma de regresin, losp error SSE desviaciones n laHDLrelacin devez n obstante, existen otrosmuchos cuadrados del explicativas. divide por de HDL que, una la n p 1 diante el coeficiente de regresin mltiple b1, que depende no slo de libertad. Bajo las hiptesis de linealidad, la ecuacin de regresin contienen n p 1 grados de la correlacin 8 No obstante, existen otros muchos determinantes de los niveles de colesterol HDL aditividad yexplicativa X1 con Para 10 regresin, los nresidual o2 desviaciones X se estima varianza, la varianza variable homogeneidad de Para de participantes ajustando es estimados los p de coeficientes obtener el efecto independiente como, por ejemplo, el consumo + alcohol. la variable respuesta Y independiente la estimador insesgado como, por ejemplo, el consumo de 1alcohol.estos obtener el efecto es errores s por unvariablede2la variable del 8 cuadrados del parmetro se divide porn.- p - 1 ya que, una vez error SSE poblacional 2 donde la suma de cuadrados de como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente mediante el coeficiente podra ajustarun modelo queregresin 1 slo ... la 53 respuesta respecto la de regresin un modelo de depende -p 1 10 de cada uno de estos determinantes, se ecuacin de regresin contienen n ,89 +1 58 + de+ 1 correlacin de cada uno de estos determinantes,ase podra ajustarmltiple b1, de regresin -no,grados de ,libertad. Bajo 0 x variable = 1,223 con 1 coeficientes de regresin, los n errores oEjemplo 10.7 se estudi la relacin del ndice de masa corporal mmol/l. coeficiente Ejemplo determinantes, se podra ajustar un modelo = regresin 11.2 En el desviaciones de la = 10 x i de estimados los p + 1 de cada uno de estos 10 8 i =1 las hiptesis de HDLcomo variable respuesta y el ndice la varianza, No obstante, lineal mltiple conel colesterol linealidad, aditividadrespuestaregresin de masa el colesterol como variable y homogeneidad de de masa lineal mltiple con el colesterol HDL utilizando un modelo de y el ndicelineal simple. la varianza existen o a la ecuacin de regresin contienen n - p - 1 grados los libertad. de colesterol HDL como, por ejemplo, el a la ecuaci otros muchos determinantes de de niveles Bajo lineal mltiple con 2 colesterol HDL como variable respuesta y el ndice de 2masa respuesta respecto el residual esde estimador media explicativas. consumo un como La insesgado del parmetro poblacional .propiedades: corporal y el consumo de alcoholcomo variables explicativas. variables aritmtica presenta las siguientes corporal y el consumo desalcoholalcohol. Para obtener el efecto independiente de cada uno de estos nealidad, aditividad y homogeneidad de la varianza, la varianza de regresin lineal mltiple con el colesterol linealidad, adit las hiptesis de corporal y eldeterminantes, se podra ajustar un modelo consumo de alcohol como variables explicativas. HDL estudio EURAMIC con el ndice de masade estas En n = 449 controles delestudio EURAMIC con datos disponibles de estas y suma una de alcohol como disponibles corporal En n = 449 controles delcomo variable respuesta ydatosorigen (traslacin). Si seel consumoconstante a cada uno de los dato Cambio de Ejemplo poblacional 2. el estimador insesgado controles del 11.2 En EURAMIC 10.7 datos disponibles de estasndice de masa variables explicativas. Ejemplo con se estudi la relacin del residual s2 es un estimador ins En n = 449 del parmetroestudio 22 = 26,2 = 3,61 kg/m para variables, la mediay la = 449 controles fueron x11 = 26,2 y s media de kg/m para y n desviacin tpica fueron variables, la media Enla desviacin tpica delde unaxmuestra,yla sx1x1 con datos muestra resultante esvariables, la estudio EURAMIC = 3,61 la disponibles de estas igual a la media inicial m corporal con el colesterol HDL utilizando un modelo de regresin lineal simple. = 3,61 kg/m para variables, la media y la media y la tpica fueron x1 = 26,2 y s x11 = 3,61 kg/m22 para el ndice de masa 1.2 En el Ejemplo 10.7 se estudidesviacin del ndice de masa la relacin yi = xi + c constante utilizada;elconsumo de, alcohol y y = 1,08 y .sEjemplo 11.2 En el Ejem siconsumode entonces = x + c Un cambio de origen qu 21,8 g/da para corporal, el ndice de masa corporal, 2 = 16,5 y 2 ==21,8g/da para el 16,5 y 21,8 g/da el ndice de masa corporal, xx 2 = 16,5 y ssxx2otros muchospara el consumo de niveles de colesterol HDL y = 0,295 No obstante, existen = determinantes de los fue rx1= de 2 x2 mmol/l para el colesterolregresin fue rx1 xsimple.-0,091laslas correlaciones de estas variables explicativas HDL. El 21,8 g/da -0,091 y y correlaciones de estas variables explicativas co coeficiente= correlacin de Pearson entre el ndice de el ndice de masa corporal, x 2 = de para el consumo de n el colesterol HDL utilizando un modelo 16,5 y s x22 = lineal de masa=corporalmmol/lpara el colesterol frecuenciacoeficienteyylasdecorrelacionescorporalvariables explica y el consumocolesterolHDL. El1 xcoeficiente de las la variable, de estas con en colestero = el centrado se el de alcohol fue rxPara 0,091 deefecto independienteconsiste el restar a realiza con alcohol. 2 es obtener el correlaciones que estas alcohol y = 1,08 y como, por ejemplo, el 0,295 alcohol y yy = 1,08 y ssy =0,295 mmol/l paraconsumo de HDL. El = -0,091 y variables explicativas con el decolesterolHDL fueron ryx1ryx1 -0,273 y ryx2ryx2 0,232, respectivamente. L colesterol HDL fueron -0,273 y 0,232, colesterol HDL fueron = = 0,273 y = = 0,232, respectivament e, existenalcohol y y = 1,08 y sy = 0,295 mmol/l para elcolesterol HDL El coeficiente de otros muchos determinantes de los niveles colesterol HDL. de regresin mltiple seNo obstante, existen otro respectivamente. Las estimaciones de loscolesterol HDL fueron coeficientes obtienen determinantes, elconsumo media. La podra ajustar un modelo de una variable 0,232, respectiva correlacin de Pearsonentre eluno de de masa corporal yel muestra sude alcohol ryx1 de -0,273 y entre ndice de masa valor correlacin de Pearsonde cadaelndice estos cadacorporaly laseconsumode alcohol media = regresinryx2 =centrada ser, por entonces como obtener el efecto estimaciones de de los coeficientes de regresin mltiple se obtienen e estimaciones los coeficientes de mltiple se obtienen ento ejemplo, el consumo de Pearson entre el ndice de masaindependiente consumo de alcohol regresin como, por ejemplo, el co correlacin de alcohol. Para corporal y el tanto, igualHDL como variable respuesta y el ndice de masa a 0. lineal mltiple con el colesterol estimaciones de los coeficientes de regresin mltiple se obtie o de estos determinantes, se R. 198 Pastor-Barriuso podra ajustar un modelo de regresin yx yx s ryx ryx r rrx xrx x y9s y 0273 + 0+232 0,091 0,de,295 dete , 0,273 , de232 0,091295 0, cada uno 0 estos Cambio de escala b1 b1 = 1 1explicativas. = = = = -0 corporal y el consumo de alcohol como(unidades). Si se 2multiplica cada uno de los datos de una-0,02 variables 22 212 1 29 = 1 1rrrx1 x2 s yx2srxx11x2 9 y 1 10,,0912 + 2 ,232 3061,61 0,295 0,091 r x1 s 091 0 273 0 , ,3 x1 x2 yx ple con el colesterol HDL como variable respuesta y el ndice de masa lineal mltiple con el col = b1 = En n = 449 controles muestra por EURAMIC conla mediade2la muestra resultante0es igual a la media del estudio una constante, datos 1 r disponibles de estas 1 ,0912 s 3,61

r fueron r 1x s 0y ryx 0 232 0 091 0,295 colesterolbHDL yx1 ryx2 rxyx12 = y-0,273 ,273 2+ = ,0,232, ,respectivamente. Las = = -0,0207, 1= 2 s x1 3, e inferencia de la ecuacin de regresin 1 rx1x2 1 0,0912 Estimacin61 estimaciones de los coeficientes de regresin mltiple se obtienen entonces como ryx ryx1 rx1x2 s y 0,232 0,273 0,091 0,295 = b2 = 2 = 0,0028, 2 21,8 ryx1 yx2xrxx21x2 s s x2 0,273 + 0,2322 0,091 0,295 1r r1 1 091 y = b1 = = 0,0207, s x1 3,61 1 rx2x2 1 0,0912 1 b0 = y - b1 x1 - b2 x 2 = 1,08 + 0,020726,2 - 0,002816,5 = 1,58, ryx ryx1 rx1x2 s y 0,232 0,273 0,091 0,295 = b2 = 2 = 0,0028, 2 s x2 21,8 1 rx1x2 1 0,0912 de donde resulta la ecuacin de regresin b0 = y b1 x1 b2 x 2 = 1,08 + 0,020726,2 0,002816,5 = 1,58, y = 1,58 - 0,0207x1 + 0,0028x2, de donde resulta la ecuacin de regresin

= 1,58 0,0207x1 + 0,0028x2, con una varianza residual del colesterol HDL respecto a dicha ecuacin de donde resulta la ecuacin de regresin con una varianza residual del colesterol HDL respecto a dicha ecuacin

s2 =

SSE 1 449 y = 1,58 - 0,0207x1 + 0,0028x2, 2 34,33 = { y i (1,58 0,0207 xi1 + 0,0028 xi 2 )} = 446 = 0,077. 446 446 i =1

con estimaciones pueden obtenerse directamente de ajustar una regresin Estasuna varianza residual del colesterol HDL respecto a dicha ecuacin lineal mltiple Estas estimaciones pueden obtenerse directamente de ajustar de alcohol en lineal del colesterol HDL sobre el ndice de masa corporal y el consumo una regresinlos programas estadsticos convencionales, cuyos resultados completos se muestran en la Tabla 11.1. SSE 1 449 34,33 = (1,58 el ,0207 i1 = 0,077. s2 = del colesterol HDL sobre 0ndicexde+ 0,0028 x i 2 )}2 y el consumo de mltiple { y ipuede utilizarse paramasa corporal = esperado del colesterol La ecuacin de regresin estimar el valor 446 446 446 i =1 HDL en funcin del ndice de masa corporal y el consumo de alcohol. As, por ejemplo, alcohol en los de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da, el para un ndice programas estadsticos convencionales, cuyos resultados completos Estas estimacionesnivel medio de colesterol HDLde ajustar 20) = 1,58 0,0207 25 + modelo estima un pueden obtenerse directamente de (25, una regresin lineal se muestran 1,12 Tabla 11.1. 0,0028 20 = en la mmol/l. mltiple del colesterol HDL sobre el ndice de masa corporal y el consumo de Las estimaciones b1 y b2 determinan el efecto independiente de cada variable explicativa sobre la variable respuesta, una vez controladasconvencionales, aqu] en la otra variable explicativa. [Tabla 11.1 aproximadamente cuyos alcohol en los programas estadsticos las posibles diferencias resultados completos se muestran en la Tabla 11.1. La ecuacin de regresin puede utilizarse para estimar el valor esperado del Tabla 11.1 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC) y la ingesta de alcohol en los controles del colesterol HDL en funcin del ndice de masa corporal y el estudio EURAMIC. [Tabla 11.1 aproximadamente aqu] consumo de alcohol.

As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de Suma de Grados de Razn La ecuacin de regresin puede utilizarse para estimar el valor esperado del de cuadrados libertad Varianza varianzas alcohol de 20 g/da, el modelo estima un nivel medio de colesterol HDL de y (25, Regresin HDL en funcin del ndice de masa corporal y el consumo de29,72 4,58 2 2,29 colesterol alcohol. Error = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l. 34,33 446 0,077 20) As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de Total 38,91 448 10 * Coeficiente de determinacin R2 =estima un = 0,118. alcohol de 20 g/da, el modelo 4,58/38,91 nivel medio de colesterol HDL de y (25,
Coeficientes de regresin

Anlisis de la varianza*

20) = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l.


Estimacin Error estndar 0,098 0,0036 0,0006 IC al 95% (1,39; 1,77) ( 0,0278; 0,0135) (0,0016; 0,0040)

Test H0: j = 0 t 16,14 5,68 4,68 Valor P 10 < 0,001 < 0,001 < 0,001

Constante IMC Alcohol

1,58 0,0207 0,0028

Pastor-Barriuso R.

199

explicativa sobre la variable respuesta, una vez controladas las posibles g/da (aproximadamente una desviacin tpica) en la ingesta de alcoholPorasocian para un mismo nd se otro lado, corporal se asocia con una disminucin media en el colesterol HDL de diferencias en la otra variable explicativa. Por un lado, manteniendo constante el Regresin lineal mltiple con un aumento medio en el colesterol HDL de g/da (aproximadamente una des y de alcohol, cada 1, x2) = b0 b (x c1) kg/m (b0 ndice de x2) consumo(x1 + c1, x2) - y (xincremento+de1c1 1=+3,50+ b2x22 -en el+ b1x1 + b2masa con y (x1, x2 + c2) - y (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + b2x2)un aumento medio en el cole = c consumo de alcohol, = -0,072. Por un lado, manteniendo constante el 1b1 = 3,50(-0,0207) cada incremento de c1 = 3,50 kg/m2 corporal se asocia con una disminucin media en el colesterol HDL de en el ndice de masa corporal se asocia con una disminucin media en el colesterol HDL de = c2b2 = 200,0028 = 0,056. y (x1, x2 + c2) - y (x1, x2) Por otro lado, para2un mismoxndice0de b1(x1 + c1) + b2xincrementos1de b2x=)20 y (x1 + c1, x ) y (x1, 2) = b + masa corporal, 2 (b0 + b1x + c2 2

ajustado mediantec2debe paraxla asociacin1de b2(x2 consumo 0de alcohol en2) yobtenido de y (x1, no ) y confusin b b= por con - coeficiente b2x Para evaluar x2 grado-de a su mltiple+ 1 1x + masa ndice de sino 1a corporalla el de confusin el +se regresin mayorinducido 0,0207 + c2)el (b masax1 + crudo sobrepeso importante (x1, 2) = b0ndice entre el corporal + b un consumo crudoregresin simple en la misma muestra de 449 controles b1 = ryx1 s y / s x1 = -0,2730,295/3 una y ajustado = asociacin ligeramente menor). Norazn entre los coeficientes crudo y comparar el 0,273 0,295/3,61en 0,0222. La cdel estudioel colesterol HDL, ajustado no difieren colesterol HDL ndicecontroles corporal 0,0028 = 0,056. y basta ajustado = 2b2 = 20 y EURAMIC. alcohol entre el = los de masa obstante, los efectos crudo

3,50( el consumo = inducido por0,0207) = 0,072. Para evaluar el grado de confusinc1b1 =tpica) en la ingesta de alcohol en asocian g/da (aproximadamente una desviacin de alcohol se la Por otro (una pequea parte de la reduccin del colesterol incrementos desujetos20 g/da cruda lado, para un mismo ndice de masa corporal, HDL entre los c2 = con asociacin entre el ndice de masa corporal y de colesterol HDL, basta comparar el el grado de confusi Para evaluar con un aumento medio desviacin tpica) enel (aproximadamente una en el colesterol HDL la ingesta de alcohol se asocian con un Por otro lado, para el colesterol HDLde masa corporal, incrementos de c2 = 20 un mismo ndice de aumento medio en debe a su mayor ndice de masa corporal sino a un consumo de sobrepeso no se coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente entre el ndice de mas asociacin y (x1, x2 + c2) y una desviacin 1x1 + b en + c2) (b de b1x1 + 2x asocian g/da (aproximadamente (x1, x2) = b0 + btpica) 2(x2la ingesta 0 + alcoholbse 2) alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren crudo obtenido de una regresin = c2b2 =en la0,0028 = 0,056. de 449 controles simple 20 misma muestra coeficiente ajustado mediante reg con un aumentogrado de confusin inducido de el consumo de alcohol en la asociacin medio en el colesterol HDL por Para evaluar el substancialmente, por lo que el consumo de alcohol no pareceentre los ser un factor de b1 cruda (unax1pequea parte de la reduccin del colesterolbasta compararsujetos con = yx1 y / s de masa corporal -0,0222. La HDL, HDL crudo coeficiente entre rel sndice = -0,2730,295/3,61y=el colesterol razn entre los coeficientesobtenido de una regresin el

200

crudo y ajustado b1 0,0222 coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el un factor de = 1,08 substancialmente, por lo que el=consumo de alcohol no parece ser coeficiente Para evaluar el grado de confusin inducido por el consumo de alcohol en la b1 0,0207 11.3.2 Inferencia sobre los coeficientes de regresin b1 crudo que, si importante para la consumo la misma muestra masa corporal y indica obtenido de una regresinasociacinde alcohol, se sobreestimacontrolesel 1) = confusin no se ajusta por el simple en entre el ndice de de 449 un 100(1,08 asociacin entre el ndice de masa corporal y el colesterol HDL, basta comparar el b1 8% la asociacin inversa del el consumomasa bajo las sobreestimade linealidad, En indica que, sial finalajusta por se demuestra que,corporal con el colesterol HDL. Esto es el Apndice no se del tema ndice de de alcohol, se asunciones un 100(1,08 b1 colesterol el consumo de alcohol = estudio Laleve correlacin negativa con = r 1 y / x1 = en los controles presenta una razn entre debidoyxasquesHDL-0,2730,295/3,61del-0,0222. EURAMIC. los coeficientes el ndice coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente de = 8% la asociacin induce un pequeo sesgo en la estimacin cruda (una j aditividad y corporal, lo quede la varianza, los estimadores de mnimos cuadrados bpequea - 1)masa homogeneidadinversa del ndice de masa corporal con el colesterol HDL.si no se ajusta por el indica que, parte de ajustado una regresin simple en la misma muestra de 449 controles debe a su crudo y la reduccin del colesterol HDL entre los sujetos con sobrepeso no se obtenido de mayor debido sobre consumo de alcohol presenta siguen Inferencia a que eluna distribucinde regresinmedialeve correlacin2negativa asociacin inversa d Esto es ndice de masa corporal sino un consumo una j y varianza- v= en la 11.3.2 aproximadamente los coeficientesa normal con de alcohol ligeramente menor). No 1) jj 8% obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo b1 = ryx1 s y / s x = -0,2730,295/3,61 -0,0222. La razn entre los coeficientes = ,0222 de Apndice al final del tema se1demuestra que, bajo muestras suficientementecorporal,blo = de0confusinpequeo sesgo en lade Esto es debido a que el consumo Enconalcohol no 1 parece ser un factor induce un1,08 las asunciones asociacin entre el el el ndice de masa grandes, que linealidad, = importante para la estimacin b1 ,0207 ndice de masa corporal y el colesterol0HDL en los controles del estudio EURAMIC. 11 crudo y ajustado aditividad y homogeneidad de la varianza, los estimadores de mnimos cuadrados bj de masa corporal, l con el ndice bj j ~ 11.3.2indica que, si no se ajusta por el N de, regresin 1, ,sobreestima un 100(1,08 Inferencia sobre los coeficientes (0 1)de alcohol, se p, consumo , j = 0, v jj b 0 0222 siguen aproximadamente una distribucin ,normal con media j y varianza 2vjj en 1 = 1,08 = En el Apndice al final del tema se demuestra,0207bajo las asunciones el colesterol HDL. 0 que, - 1) = 8% la asociacin inversabdel ndice de masa corporal con de linealidad, aditividad 1 y homogeneidad de la varianza, los estimadores de mnimos cuadrados bj siguen aproximadamente muestras suficientemente grandes, tamao muestral y de las varianzas y donde vjj es un valor conocido que depende del 2 una distribucin normal con media j y de alcohol presenta una leve correlacin negativa Esto es debido a que el consumo varianza vjj en muestras suficientemente grandes, indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 bj j ~ covarianzas entre las variables explicativas. Si se reemplaza el parmetro desconocido N ( induce = pequeo sesgo en la estimacin con el ndice de masa corporal, lo que0, 1) , jun 0, 1, , p, - 1) = 8% la asociacin inversa del ndice de masa corporal con el colesterol HDL. v jj por la desviacin tpica residual s, puede probarse que los estadsticos resultantes siguen 11 dondeEsto es debidoconocido consumo de alcohol presenta una y de las varianzas y covarianzas vjj es un valor a que el que depende del tamao muestral leve correlacin negativa aproximadamente una distribucin depende del con los muestral y de lasvarianzas y donde vjj es un explicativas. Si se t de Student parmetro desconocido libertad entre las variablesvalor conocido que reemplaza el tamao n - p - 1 grados de por la desviacin tpica con el ndice de masa corporal, losque induce un pequeo sesgo enaproximadamente una residual s, puede probarse que lo estadsticos resultantes siguen la estimacin correspondientes alas variablesnexplicativas. Si se reemplaza el parmetro desconocido distribucin t de Studentestimacinde la 1 grados de tpica residual, p desviacin libertad correspondientes a la estimacin covarianzas entre la con los 11 de la desviacin tpica residual, por la desviacin tpica residual s, puede probarse que los estadsticos resultantes siguen bj j ~ t n p 1 , j = 0, 1, , p. s v jj t de Student con los n - p - 1 grados de libertad aproximadamente una distribucin Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no correspondientes a la estimacin desviacin tpica residual, requierenque estas distribuciones de de la y, por tanto, sonmuestras para cualquier distribucin Notar de la asuncin de normalidad los estimadores bj en vlidas suficientemente subyacente de la variable respuesta. grandes no requieren de la b j j ~ normalidad y, por tanto, son vlidas para asuncin de t n p 1 , j = 0, 1, , p. Pastor-Barriuso R. s v jj cualquier distribucin subyacente de la variable respuesta.

coeficientes de regresin j vienen dados por Estimacin e inferencia t la Student que bajo j = 0 se realizan nulas se los estadsticos ariable explicativa H0: dichas hiptesis mediantedistribuyen aproximadamente como una dede ecuacin de regresin Utilizando estos resultados, los intervalos de confianza al 100(1 - )% para los bj t= , con n - p - 1 grados de libertad. bj tn-p-1,1- /2 s v jj s v jj coeficientes de regresinbj los intervalos de j Utilizando estos resultados, vienen dados por confianza al 100(1 )% para los coeficientes t= , s por de regresin j vienen dados v jj Ejemplo 11.3 Los programas hiptesis de ausencia de efecto independiente de y los dichas hiptesis nulas se distribuyen aproximadamente como una t de Student que bajocontrastes bilaterales de lasestadsticos convencionales facilitan directamente cada bj tn p 1,1 /2 s v jj

Utilizando estos resultados, los intervalos de confianza al 100(1 - )% para los jj los contrastes bilaterales de las hiptesis de 0 se realizan efecto independiente de cada ausencia de mediante los estadsticos variable explicativa H : =
0 j

ue bajo dichas hiptesispestimaciones puntuales0de los coeficientes deuna estadsticos mltiple y cada variable variable 1 grados de libertad. se realizan ausencia regresin lineal y losnlas nulas se distribuyenj aproximadamente como de efecto independiente de sus - - explicativa H0 = con contrastes bilaterales:de las hiptesis de mediante los t de Student explicativa H0: j =bilaterales de mediante los de ausencia de efecto independiente de cada y los contrastes 0 se realizan las hiptesis estadsticos libertad. on n - p - 1 grados deerrores estndar. Segn la Tabla 11.1, los errores estndar de los coeficientes bj Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente t= variable explicativa H0: j = 0 masa corporal y el ,consumo de alcohol son se realizan mediante los estadsticos estimados para el ndice de s v jj Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente mltiple y sus las estimaciones puntuales de los coeficientes de regresin lineal que bajo dichas hiptesis b1) = s sev distribuyen b j SE(b2) = s v = 0,0006. Por tanto, y respectivamente SE( nulas 11 = 0,0036 aproximadamente como una t de Student con 22 t los , n queerrores estndar. coeficientes de 11.1,= errores estndar de los p puntuales de los Segn la Tabla regresin aproximadamente como una t de 1 grados de libertad. las estimaciones bajo dichas hiptesis nulas se distribuyenlineal mltiple y sus coeficientes Student s v jj los ICs al 95% para estos coeficientes de regresin son n - p 1 para ndice errores corporal y consumo de alcohol son conestimados11.3 11.1, programas estndar deel convencionales facilitan directamente las errores estndar. Ejemplo Tabla elde libertad. Segn-la gradosLos losde masa estadsticoslos coeficientes estimaciones puntuales de se coeficientes de regresin lineal mltiple y sus errores que bajo dichas hiptesis nulaslos distribuyen aproximadamente como una t de Student b Segn SE b1) b ) estimados para elrespectivamente la Tabla 1y el -0,0207 de y SE(b2) son (-0,0278; -0,0135), tanto, para el ndice de t446;0,975(SE(= s =v consumo 1,970,0036de v = 0,0006. estimados = 0,0036 alcohol s estndar. 1 masa corporal 11.1,11los errores estndar = = los22coeficientesPor Ejemplo 11.3 Los corporal yestadsticos convencionales facilitan directamente programas el consumo de alcohol son respectivamente ndice de afirmarse con una con n - p - 1 grados de libertad. confianza del 95% que el nivel medio de colesterol As, puede masa v = 0,0036 y SE b2) = s 22 = 0,0006. Por tanto, respectivamente SE(b1) = s95%t446;0,975 SE(b2 ) = (0,0028 devregresin son Por tanto,0,0040), al 95% para los ICs alb2 11 para estos coeficientes 1,970,0006 = (0,0016; los ICs lascoeficientes de regresin son coeficientes de regresin lineal mltiple y sus estimaciones puntuales de los estos en la poblacin de referencia del estudio EURAMIC disminuye entre HDL los ICs al 95% para errores 1estndar. Segn) la 0,0207 1,97 erroresla Tabla 11.1. 0,0135), estos b 11.3 Los programas estadsticos 0,0036 = ( 0,0278; En directamente coeficientes de regresin son queEjemplose446;0,975 SE(b1 = Tabla 11.1, los convencionales facilitan general, el tambin t incluyen dentro de los resultados de estndar de los coeficientes 3,500,0135 = 0,047 y 3,500,0278 = 0,097 mmol/l por cada incremento de c1 = b2 t446;0,975 SE(b2 ) = 0,0028 1,97 0,0006 = (0,0016; 0,0040), las estimaciones puntuales de los coeficientes de regresin lineal mltiple y sus intervalo de confianza 1,970,0036 corporal y -0,0135), estimados para el para de masa subyacente c j asociado un aumento b1 t446;0,975SE(b1)2 = -0,0207ndice el efecto = (-0,0278;el jconsumo deaalcohol son de cj 3,50 kg/m en incluyen dentro corporal entre sujetos con 11.1. En general, el que tambin seel ndice de masade los resultados de la Tablala misma ingesta de intervalo errores estndar. Segn la los coeficientes unidades en = 0,0028 explicativa X11.1, jlosasociadoestndar de = 0,0006. Por tanto, de respectivamente SE(b ) = sTabla =se c j errores a=un v confianza variable 1,970,0006 j= 0,0036 y 0,0040), s b2 t446;0,975SE(b2) lapara el efecto subyacente calcula SE(b2)Tablaaumento de cj unidades en la (0,0016; de la v11los resultadoscomo 1 que tambin se incluyen dentro de 11.1. En general, el 22 alcohol, y que la media poblacional del variable explicativa Xj se calcula como colesterol HDL aumenta entre 200,0016 estimados para el ndice de masa corporal y el consumo de alcohol son c bj n p el /2 de la j) = c bj En general, intervalo de confianza testoscoeficientes de{regresin son SE bj)}. aumento de c los ICs al 95% para para1,1 efecto bTablaj 11.1.j n 1,1 /2 que tambin se incluyen dentro de jlosresultadosSE(cjsubyacentectjpasociado (a2un 20 g/da en elj = 0,032 y 200,0040 = 0,080 mmol/l por cada incremento de cel= 0,0036 y que ) nivel 22 = 0,0006. Por tanto, respectivamente SE(b ) = confianza As, puede afirmarse con1una s v11 X=se del 95%SE(b2el = s vmedio de colesterol HDL en calcula unidades en la variable explicativa asociado a un aumento de c j intervalo de confianza para elalcoholsubyacente=c-0,0207mismo como de masa jcorporal. Estos = 0,047 t446;0,975SE del consumo deb de referencia (b1) estudio EURAMIC disminuye entre -0,0135), con ndice la poblacin 1efecto entre sujetosjj el 1,970,0036 = (-0,0278; 3,500,0135 los ICs al 95%0,097estos coeficientes de regresinde c1 = 3,50 kg/m2 en el ndice de para mmol/l por cada incremento son y 3,500,0278 = unidades en la variablecorporal2entre j sujetosndice dejbj) = cingestan-p-1,1-/2= (0,0016;de alcoholpoblacional b se calcula la misma bj t de de SE(b )}. efectos independientes tdel concomomasa jcorporal yalcohol, jy que la media 13 b c X n-p-1,1-/2 = c masa explicativatj446;0,975SE(b2)SE(0,0028 {1,970,0006 la ingesta 0,0040), del colesterol HDL aumenta1entre 200,0016 = 0,032 y 200,0040-0,0135), mmol/l por b1 t446;0,975SE(b ) = -0,0207 1,970,0036 = (-0,0278; = 0,080 sobre el colesterolc c2 cj{bg/da en el/2SE(bj)}. de alcohol entre sujetos con el mismo HDL 20 j t cadaincremento dejbj) = sondentrosignificativos, ya quela Tabla 11.1. En general, el cjbquetn-p-1,1-/2SE( incluyen muyn-p-1,1- consumo de sus correspondientes test j tambin se de los resultados ndice de masa corporal. Estos2) = 0,0028 1,970,0006 =ndice de 0,0040), b2 t446;0,975SE(b efectos independientes del (0,0016; masa corporal y de la estadsticos ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus de intervalo de confianza para el efecto subyacente cjj asociado a un aumento 13 cj correspondientes test estadsticos que tambin se incluyen dentro de los resultados de la Tabla 11.1. En general, el b1 unidades en la variablet explicativa=X se,0207 = como j 0 calcula = 5,68, 13 0,0036 intervalo de confianza paraSE (efecto subyacente cjj asociado a un aumento de cj el b1 ) cjbj tn-p-1,1-b2 (cjb0,0028bj tn-p-1,1-/2SE(bj)}. /2SE j) = c j{ t= = = como unidades en la variable explicativa Xj se calcula 4,68, SE (b2 ) 0,0006
arrojan valores P bilaterales 2P(t446 c 5,68) {b 2F(5,68) SE0,001 y 2P(t446 4,68) cjbj tn-p-1,1-/2SE( jbj) = cj j tn-p-1,1-/2 < (bj)}. 2{1 F(4,68)} < 0,001, tal como muestra la Tabla 11.1. arrojan valores P bilaterales 2P(t446 -5,68) 2(-5,68) < 0,001 y 2P(t446 4,68) 13 11.3.3 2{1 - (4,68)} < 0,001, tal como muestra la Tabla 11.1. Inferencia sobre la ecuacin de regresin

13 La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta en funcin de los valores de las variables explicativas. Dados unos determinados valores x01, , 11.3.3 Inferencia sobre la ecuacin de regresin La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta en funcin de los valores de las variables explicativas. Dados unos
Pastor-Barriuso R. 201

de px variable o, dicho dicho de forma equivalente, de 1x determinada0p y varianza 2h0 de aproximadamente normal con media 0 + una01 + una+determinada variable o,en forma equivalente, estos es respuesta en funcin de los valores de las variables explicativas. Dados unos alrededor de qu agrupan los datos observados. Las medida alrededor de qu valor sevalor se agrupan los datos observados. Las muestras suficientemente grandes, Regresin lineal mltiple determinados valores x01, , x0p de las variables explicativas, el estimador insesgado central de la sirven sirven tanto para los resultados observ central de la muestramuestratanto para resumir resumir los resultados AS DE TENDENCIA CENTRAL TENDENCIA CENTRAL ~ y 0 N( 0 + 1 x01 + + p x0p , 2 h0 ), que,las esperado de la variable respuesta es insesgado del valor forma x0p del valorvariables explicativas, el estimador tema, se distribuye deesperado de la variable de como se muestra en el Apndice de este realizar realizar inferenciasde los parmetros poblacionales correspo inferencias acerca acerca de los parmetros poblacionales c respuestaacerca de culde cul es el valor ms representativo es 2 sdencia central central informan acerca es el con media representativo puedexinterpretarse como en de tendencia informan h es el leverage del punto (x , x ) que + donde 0 aproximadamente normal valor ms01, 0 + x10p01 + p 0p y varianza h0 una y 0 = b0 + b1 x01 + +se pdescriben los principales estimadores de la tendenci continuacin continuacin b x0p se describen los principales estimadores de la t minada variable o,de forma equivalente, estos estimadores indicanindican variable o, dicho dicho de forma equivalente, estos estimadores muestras suficientemente Apndice de este tema,TENDENCIAde forma grandes, medida se muestra en el 1.2 1.2 MEDIDAS DE centro de las medias muestrales ( x1 , al se distribuye CENTRAL que, como estandarizada de su distancia respectoTENDENCIA CENTRALaproximadamente MEDIDAS DE variable. variable. 2h en muestras suficientemente grandes, normal con media 0 + 1x01 + + px0p y varianza qu valor se agrupan los datos observados. Las medidas de tendencia 0 alor se agrupan los datos observados. Las medidas de tendencia ~ , x p ) de las variables explicativas.+ partir de la distribucin tn-p-1 resultante de 0 N( 0 A 1 de + + central 2 h0informan acerca de cul es el valor ms repr yLasLas medidasxtendencia p x0p , informan acerca de cul es el valor ms represe medidas 1.2.1 Media aritmtica ), de 01 tendencia central 1.2.1 Media aritmtica muestra sirven tanto para los resultados observados como como ra sirven tanto para resumirresumir los resultados observadospara para donde h0 es el leverage del punto (x01, , x0p) que puede interpretarse como una medida sustituir 2 porysu t446;0,975 sde2una sigue que el intervaloo, confianza al 100(1 - )% estos estimadores de una se determinada las o, 0,de muestrales x por x ,) dedefine estos 0 estimacin sh,0determinada de variabledicho de de forma ,equivalente, estimadores ind = 1,12 x1,97 0,077 denotada por 1 , estandarizada de leverage del respecto 01, La 0p)variablemediasdicho forma equivalente,secomo lacomo la sum donde hpoblacionales correspondientes.centro Laaritmtica,0025 = (1,09;(1,15). define14 las suma de ca 0 es el su distancia punto (x al ,media media aritmtica, denotada se rencias de los parmetros A acerca acerca de los parmetros poblacionales correspondientes.que puede interpretarse como una p A 2 variables explicativas. A partir de la distribucin tnp1 resultante de sustituir por su estimacin + 1x01 + + pqu valores agrupan los porobservados. medidas de de tende alrededor de qu x0p muestrales dividida esperado alrededor de valor se se para los datos el nmero nmero de Las + medidas realizad se sigue que esperado 0 de distancia respecto valoragrupan el valordatos observados.observacionestendenci s2, para el valor el intervalo suconfianzavaloreses )%muestrales dividida porel+de x Las observaciones medida estandarizada tendencia centralal 100(1 0 ncriben los principales estimadores de la dede la tendencia centralal centro de las mediassujetos con un11 ,01 se describen los principales estimadores valor esperado de una de una HDL entre los muestrales ( x Por el contrario, el del colesterol 0,0025 = (1,09; 1,15). y 0 t446;0,975 s h0 = 1,12 1,97 0,077 + px0p es central de la muestrapor sirven tanto para resumir los resultados observados com central depormuestra la sirven tanto para y por x y valor observado para el comoel resumir el resultados observados para pa los y t n el tamao muestral tn-p-1 resultante el distribucin , x p ) de las variables explicativas.Anpartirdeslanhel .tamao muestrali40por xide valor observado sujeto i0 ndice de masa corporal de 320 kg/mp21,1 /2 consumo de alcohol de y un g/da se realizar del valor acerca de los lospor realizar inferenciasvendra vendra dada respuesta en el punto Por esperar, la el valor esperado del colesterol de la variable sujetos con un correspondientes. A Como cabrael contrario, estimacininferenciasesperado HDL entre los por poblacionales correspondientes. la media dada parmetros la media acerca de parmetros poblacionales estima en su estimacin s2, se sigue que= 1,03 mmol/l, cuyo IC o, ms concretamente, 0,020732 cuanto ms el intervalo de confianza95% sustituir) 2 por 1,58 - laimprecisa+ 0,002840 extremo sea dicho puntorespuesta en - )% aritmtica (x01, , x0p ser esperar, estimacin del valor esperado de la variable al al 100(1 el tica Como cabra tanto ms continuacin se y describen principales estimadores se ndice de su distancia continuacin2 se un consumo de alcohol las40 g/da de de la tendencia central d cuanto mayor sea masa corporal de 32 kg/m describen los los centro de deestimadoresnla tendencia central de u estandarizada h0 respecto al principales medias muestrales n 1 x1 para elpx01 , x como la+suma + cada ,los0p es 0113 itmtica, denotadapuntox(,).se definela suma de x01de +0uno cuanto = (0,97; 1,09)x = 1 x i = o, + i x= x + x x + ... + x n . a, denotada por ( x 1, pordefine, como0p) sertanto 1ms1,97 de 077de ,los ms extremo sea dicho punto ms +1... + 2 n . se cada imprecisa 0 , valor esperado 0 1,03 uno px x= x 2 variable. 0,002840 = 1,03 mmol/l, cuyo IC aln i =1 n i =1 variable. n n estima en 1,58 - 0,020732 + 95% strales dividida por el de observaciones realizadas.su distancia estandarizada kg/m2 y un al centro las dividida por el nmeronmero 11.4 Paramayor seade masa corporal de x01 = 25h0 respecto consumo de alcohol Ejemplo de cuanto un ndice Si denotamos concretamente, observaciones realizadas. Si denotamos y 0 tn-p-1,1- /2 s h . mltiple media es 1,09) de es sensiblementemodelo de regresinLa media estima estimacin (32,detendencia ms utilizada y de m x02 = 20 g/da, el ms impreciso, aritmticaLaes la (0,97;la medida de colesterolcentral ms utilizada 1.2.1 1,97 ya077 el,0113 = medida demedio 40) central HDL 1.2.1 Media aritmtica0 1,03 Media 0, que 0 punto de un nivel tendencia est ao muestral iyel valorel valor1,58 para x1 ,sujeto +sujeto i-simo,1,121, ..., n, El punto de estimacin (x01, x02) = observado , estral y por x por xi de 0muestrales ( el para el i-simo, i = 1, ..., = mmol/l. observado 0,020725x p ). 0,002820 = i n, medias = La media delmuestrales (26,2; por ( presenta como la la suma de los datos de La media aritmtica, denotada variable (26,2; leverage = (25,cabra del centro de centro de las medias muestrales por, x 2 alrespuesta en suma de cada unouno los 20) est prximo al las medias interpretacin. Corresponde se centrocomode de gravedad de de Comodistanteesperar, la estimacin aritmtica, interpretacin.x 1y se,)define un 16,5) el ambasde cada de los d valor denotada 16,5) = (1,09;define de gravedad y 0 t446;0,975 s h0 = 1,12 1,97esperado 0,0025 Corresponde al centro 0,077 de la 1,15). ndra dada por ada por variables explicativas y, en consecuencia, su punto de h0 = 0,0025(32,bajo.est el IC al es sensiblemente ms impreciso, ya que el leverage estimacin es 40) As, 95% 01 , x0p) ser tanto valores muestrales divididalimitacinest2 muy punto o,influenciada por denota ndice ms valores muestrales divididade pornmero de observaciones realizadas. Si Si ext Ejemplo 11.4 Para un ndiceimprecisa cuanto msx01 esel nmeroydeest muy dede realizadas. los val principal el que es principal limitacin = 25 sea que un consumo masa punto alto ,de 0,0113. esperado del de masa corporalentreextremokg/mdichoobservacionespor los valores den (x para el valor ms colesterol HDL por los sujetos con un influenciada 2 corporal x ... xkg/m de esperado del alcohol (26,2; entre los n distante 25 + valor Por + x dedel+centro y un consumo decolesterol HDL 16,5) y sujetos con un ++ 1 n 1 x1el contrario,xel ... + x nlas medias muestrales de 20 g/da es presenta un leverage = alcohol de 2 n x x i = x i =2 1 x02 = mayor.n el su distanciamuestral y por hserreflejoun nivel dede las central central = i = x = concretamente, cuanto.20 g/da, elntamao muestral no serxun xivalor observadotendenciael sujetode la distrib porpor modelo de regresin i el 0el valor observado parasujeto i-simo, i de l el tamao estandarizada por i-simo, 1, un fiel reflejo caso, caso,y ,0025 = (1,09; al la para el n valor predichon y s un sea1,12 1,97puede no 0mltiplerespecto de centro la tendencia n i =1 Eli =1 n y 0 t446;0,975 es h0 estimador insesgado puede nofielestima 1,15). media = 0,077 slo de la esperanza o medio 0 2 alto de 0,0113. ndice de masa corporal de 32 kg/m y un consumo de alcohol de 40 g/da se la la media 0,020725 de contrario, el , media vendra colesterol HDL entre los mmol/l. El un ndice Por muestrales HDL de xp0 ).= 1,58vendra dada+ 0,002820 = 1,12sujetos con punto medias elcolesterol ( x1 ,valoryesperado-del dada porpor poblacional deutilizadavalor esperado del colesterol HDL entrelosEn 40 g/da se estima en 1.4 con los es la de tendencia central contrario, 0,020732 + 0,002840aquellosmmol/l,En este desujetos valoressucesivos ejemplos sobre medidamedida de tendencia central ms utilizadakg/m 2ms fcil Ejemplode alcoholICmismossucesivos ejemplos sobre estima de el en la - el y respuesta y estimams1,58 variable 32 y fcil un = 1,03 sujetos cuyo los en95% en un Pormasa corporal dede ms de entre consumo Ejemplo 1.4 y aleste y conlos de las El valor predicho + 00,002840 = 1,03 insesgado no sloal 95% y es un estimador mmol/l, cuyo IC den la n esperanza o media 1,58 estimacin (x01, x02) = (25, 20) est prximo al centro1de lasxmedias+muestrales + x + x ...+ ... n x n + x+ x 1 de 0,020732 =25 de 1 1 2 2 los x n. Corresponde alvariablesde gravedaddatosde 32 muestra.respuesta individual dekg/m40 g/dacolesterol HDL obtenidos enp responde al centrocentro explicativas, sino tambinde masaSu consumo xx= x= x i un inuevo sujeto y0 =de . de gravedad11.4 Para un de la kg/m2 y unutilizarn los valores valoresun consumo . obtenidos en los 10 Ejemplo de los de los datos de la corporal de de alcohol1= =y del se ndice de masa corporal ndice de la muestra. Suutilizarn=n del 2colesterolnHDL 01 n n i i= 0,0113 = (0,97; 1,09) 1,97 0, poblacional de = (26,2; 1,03 de ambas077aquellos sujetos con1los mismos valoressu las 16,5) variables explicativas y, en consecuencia, de ( x1 , x 2 ) la variable respuesta entre Study on Antioxidants, European + alcohol1,58 pxms impreciso, ya en este este estudio Europeanque, est distante x01 + de mitacin est muy influenciada +los 0,020732 +el modelo dede en mmol/l, cuyo Study 95%nivel medio Myocardial Infarct n es que es que est 0muysensiblementepor + 0. extremos y,que =estudio tema se demuestraon Antioxidants, del Myocardial es 1influenciada = 20 g/da, el extremos y, punto de estima en por x02 valoresvaloresApndiceel1,03 este mltiple estima un bajo las - 0p los En 0,002840 regresin estimacin (32, 40) IC al variables explicativas, sino tambin(26,2; la medida de tendencia central ms utilizada y de ms fcil La La de la es la y presenta un de un nuevo sujeto y = centro de las medias muestrales media respuesta individualleverage alto est utilizada y de ms fcil es sensiblemente0,0025 es media es 16,5)medida de tendencia centralde 0,0113. ms impreciso, ya que el punto de estimacin esperado ms 0 (32, 40) del no ser un fiel de la tendencia de h =central lineal mltiple ICthe 95%the Breast (EURAMIC), un punto multicntrico de la tendencia HDL de la distribucin. al Breast (EURAMIC), un estudio multicntrico de casos y un fiel reflejo reflejo de leverage la0regresindey bajo. As, el(linealidad,0,002820 = homogeneidad de la asunciones central de la distribucin. - 0,020725 + para el valor1,12 mmol/l. El estudio aditividad, = 1,58 de colesterol 0 0 + 1x01 +del centro0p 1,03. 1,97Apndice 0,0113sloal centro de gravedad delas los datos la muestra. S + interpretacin. Corresponde deal esperanza que, En el insesgado no tema la presenta o leveragede interpretacin. de este El valor predicho pxes unestimadormuestrales (26,2; 16,5) y1,09) dede media poblacional de la muestr distante + 0 entre0 los sujetos,con un ndice= (0,97;centro un 25bajo los un e Israel e Israel pa de las medias 0 077 Corresponde se demuestra gravedad 2 y datos de para evalu colesterol HDL de masa corporal kg/m entre 1991 y ocho pases pases Europeos sigue la y normalidad), diferencia y - y entre 1991 y 1992 en1992 en ochoEuropeos de varianza estimacin (x01entre = (25, 20)0sujetos con los centro de las medias muestrales la variable respuesta ,la 02) aquellos est0prximo distribucin normal de las variables x deejemplos sobre estimadores muestrales, se al semismos valores plo 1.4 Enen los sucesivos ejemplos sobre estimadores muestrales, muy En este y este y en los sucesivosla regresin lineal mltiple (linealidad, aditividad, homogeneidad delos valores extremosen e asunciones de tambin de la principal limitacin es estnuevoinfluenciada + los valores extremos y, y, explicativas, 0,0113. alcoholprincipal limitacin es queque est muy influenciada por 01la + respuesta individual de un sujeto y = 0 alto de sino de ms impreciso, ya que el punto de estimacin (32,040) por 1x + consumo de 20 g/da es es sensiblemente est En el Apndice de este - y se demuestra que, bajo las en consecuencia, su tema px0p + 0(. x , x ) = (26,2; 16,5) deyambas~variables(1 + h )), 2 explicativas de asunciones de la regresin rn los valores delvarianza1 yobtenidos en los 10caso,10 0 no N(0,unsujetosdistribucinla tendencia central la distribucin. colesterol HDL obtenidos en primeros sujetos fiel la 0reflejo la normal los puede ser ser un reflejo valores del colesterol HDL normalidad), la diferencia primeros del fieldel de y, tendencia central de de la distribucin. 0 2 caso, puede y 0 no 0 sigue -y lineal mltiple (linealidad, aditividad, homogeneidad de la varianza y normalidad), la diferencia distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage 0 y0valor predicho 0 es un estimador El sigue la distribucin normal o European Study on Antioxidants,=y0,0025 es bajo. As, el IC Cancer of de la esperanza o media opean Study on Antioxidants, Myocardial Infarction and insesgado 95% para el valor esperado del Cancer of no slo leverage h0 Myocardial Infarction and al 15 de alto de 0,0113. intervalo deEjemplo N(0, 100(1y- en)% parasucesivos ejemplos sobre estimadores mue tal forma que el prediccin 1.4 2En + h los los una nueva observacin al este )), en sucesivos ejemplos sobre estimadores muestra Ejemplo y0 y0 ~ 1.4 En (1 este y 0 east (EURAMIC), un estudio multicntrico de controles realizado de con corporal de 25 kg/m y EURAMIC), unpoblacional de la variablecasos ycasos y controles realizado los mismos valores de2 lasun estudio colesterol HDL entre los sujetos con un ndice masa multicntrico de respuesta entre aquellos sujetos de individual y0 vieneintervalo deutilizarn los los100(1 del colesterol HDL obtenidos los los primeros suje tal forma que el dado por prediccin al valores colesterol HDL nueva observacin 10 primeros s utilizarn valores del )% para una obtenidos en en 10 viene sino de de el la respuesta por individual ypredichoelalcoholevaluarevaluar efectoindividual la ununa nuevamedia variablesconsumoIsraeleparaun para g/da es el deal 100(1los )% de esperanzasujeto y0 = explicativas, 0 es tambin de efecto de Europeos e de yintervalo 20 prediccin los no slo de para nuevo o observacin tal forma quedado Israel estimador insesgado de - 1991 y 1992 en ocho valor 0Europeos 1992 en ocho pases pases El estudio European Study. on Antioxidants, Myocardial Infarction andand C t p /2 s 1 + h y estudio European Study on Antioxidants, Myocardial Infarction Canc 0 + 1x01 + de 0la variable0.por el Apndice1,1estesujetos con los mismos valores de las viene + respuesta 0 n aquellos tema 0 demuestra que, bajo las se individual y + px0pdado En poblacional entre de 5 5 the the Breast (EURAMIC), estudio multicntrico de casos y controles rea Breast (EURAMIC), un un estudio multicntrico 15 casos y controles de asunciones de la regresin tambin la respuesta individual de de nico sujeto ser y (linealidad, aditividad, un nuevo sujeto 202 variables explicativas, sinolineal mltiple respuesta individual un homogeneidad de la= Pastor-Barriuso R. Este intervalo de prediccin paraydela 0 0 tn-p-1,1-/2 s 1 + h0 . entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto d entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efect varianza y normalidad), amplioel Apndice sigue la distribucin la respuesta media substancialmente 0p + . En que y intervalo de tema se demuestra que, 0 + 1x01 + + pxmsla 0diferencia el 0 - y0 de este confianza paranormal bajo las de

prediccin incorpora la varianza residual de cada respuesta individual alrededor de


Contrastes de hiptesis en regresin lineal dicha ecuacin de regresin. Notar, adems, que los intervalos de prediccin para una mltiple

nueva observacin requieren de la hiptesis de normalidad, mientras que los intervalos Este intervalo de prediccin para la respuesta individual de un nico sujeto ser substancialmente de confianzaque elel valor esperado tienden a ser correctos en muestras suficientemente con un ms amplio para intervalo de confianza para la respuesta media de todos los sujetos mismo patrn de variables explicativas ya que, adems del error en la estimacin del valor grandes, independientemente de la distribucin subyacente de la incorpora la varianza residual predicho por la ecuacin de regresin, el intervalo de prediccin variable respuesta. de cada respuesta individual alrededor de dicha ecuacin de regresin. Notar, adems, que los intervalos de prediccin para una nueva observacin requieren de la hiptesis de normalidad, Ejemplo 11.5 El valor de confianza para el HDL para un nuevo sujeto con un mientras que los intervalos predicho del colesterolvalor esperado tienden a ser correctos en muestras suficientemente grandes, independientemente de la distribucin subyacente de la 2 ndice de masa variable respuesta. corporal de 25 kg/m y un consumo de alcohol de 20 g/da es de nuevo y 011.5 El 0,020725 + 0,002820 = 1,12 mmol/l. Sin embargo, el con un ndice Ejemplo = 1,58 - valor predicho del colesterol HDL para un nuevo sujeto de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de nuevo 0 = 1,58 0,020725 + 0,002820 = 1,12 mmol/l. Sin embargo, el intervalo de prediccin al 95% intervalo de prediccin al 95% para esta nueva observacin para esta nueva observacin y 0 t446;0,975 s 1 + h0 = 1,12 1,97 0,077(1 + 0,0025) = (0,57; 1,67)
es notablemente ms impreciso que el intervalo de confianza calculado en el ejemplo anterior para el ms medio del colesterol HDL en todos los sujetos con el es notablemente valorimpreciso que el intervalo de confianza calculado en dichos valores del ndice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l). ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con 11.4 dichos valores del DE HIPTESIS EN REGRESIN LINEAL MLTIPLE CONTRASTES ndice de masa corporal y del consumo del alcohol (IC al 95% Como1,091,15 mmol/l). se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresin lineal simple se reduce a evaluar si el coeficiente 1 asociado a la nica variable explicativa es 0, en cuyo caso el modelo no aportar explicacin alguna sobre la variabilidad de la variable respuesta. En regresin lineal mltiple, sin embargo, la presencia de mltiples variables explicativas permite DE HIPTESIS EN REGRESIN LINEAL MLTIPLE 11.4 CONTRASTESrealizar distintos contrastes de hiptesis, que dan respuesta a diferentes preguntas de investigacin. En general, los contrastes de hiptesis en regresin lineal mltiple pueden clasificarse en tres grandes grupos, a saber: Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de y El contraste global determina si el modelo en su conjunto explica una parte significativa de la variabilidad de la variable respuesta. regresin lineal simple se reduce a evaluar si el coeficiente 1 asociado a la nica y Los contrastes parciales individuales evalan la contribucin independiente de cada variable explicativa es 0, en cuyo controlados los efectos de las restantes variablessobre variable explicativa una vez caso el modelo no aportar explicacin alguna explicativas. y Los contrastes parciales mltiples valoran si lineal mltiple, subgrupo de la variabilidad de la variable respuesta. En regresin un determinadosin embargo, lados o ms variables explicativas contribuye significativamente a explicar la variabilidad residual de la variable respuesta que no se explica permite realizar distintos contrastes modelo. presencia de mltiples variables explicativaspor las otras variables incluidas en el de

En los siguientes apartados se describen los procedimientos estadsticos necesarios para realizar hiptesis, que danConviene resaltar que estos contrastes de hiptesis asumen linealidad y aditividad dichos contrastes. respuesta a diferentes preguntas de investigacin. En general, los en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas contrastes de hiptesis en regresin lineal mltiple pueden clasificarse en tres del modelo lineal de bondad del ajuste, ya que no facilitan ninguna informacin sobre la idoneidad grandes aditivo para describir la relacin subyacente de las variables explicativas con la variable respuesta. grupos, a saber: 11.4.1 Contraste global del modelo de regresin lineal mltiple

17

La hiptesis nula del contraste global de un modelo de regresin lineal mltiple establece que ninguna de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse
Pastor-Barriuso R. 203

Regresin lineal mltiple

Al igual que en regresin lineal simple, este contraste global antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en se realiza

descomponiendo variabilidad de la variable respuesta. 0,84, como Hvalores 2 = = p = 0. Bajo esta hiptesis nula, la 1,42, Una vez estimada la ecuacin hombres adultos. LosAl: igual que laregresin lineal 1,58, 0,79, 1,29, ecuacin de regresin se reduce al trmino 0 1 = obtenidos fueron 0,89, en simple, este contraste global se realiza constante 0 y el modelo no aportar entonces ninguna explicacin sobre la variabilidad de la variable suma de HDL H respuesta. El propsito 0 + por tanto, + bpxp, la la hiptesis nula en : = 2 SST de la 0 frente 1,06, 0,87, 1,96 y de regresin y =mediabde1los contrastar colesterol cuadrados1total = = p =variable a la 1,53 mmol/l. La bes, 1x + niveles variable respuesta. Una vez estimada la ecuacin 0 descomponiendo la variabilidad de la del hiptesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente conrespuesta puede corresponde a Hcomo para algn j la es estos 10 participantesrespuesta, quedescomponerse 1: j 0 la suma de = 1, , p. total SST de la variable cuadrados de regresin y = b0 + b1x1 + + bpxp, Al igual que en regresin lineal simple, este contraste global se realiza descomponiendo la n variabilidad de0la variable+respuesta. 2Unan vez estimada la ecuacin de regresin = b0 + b1x1 1 10 ,89 descomponerse como respuesta puede + 1,58 ...(+ 1, y ) = ( y y + y y ) 2 SST = yi 53 = 1,223 mmol/l. i i i x b x la + = +xpi, = suma de cuadrados total=1SST de la variable respuesta puede descomponerse i 10 i =1p 10 i =1 como n n n n n y)2 = ( y + + y ( = ( yi y ) 2 + ( yi yi ) 2 y 2 ) 2yi y )( yi yi ) SST = ( yi i y i i =1i i =1 i =1 i =1 riesgo de desarrollar un primer infarto agudo de miocardio media aritmtica presenta las siguientes propiedades: in=1 en antioxidantes en el riesgo de desarrollar un primer infarto agu n n n 1.2 MEDIDAS DE TENDENCIA CENTRALn DAS DE TENDENCIA CENTRAL = ( yi y ) 2 + ( yi yi ) 2 + 2 ( + SSE, y y ) i = (1,29,y1,42, 0,84, hombres yi yLosi valores obtenidos fueron 0,89, 1,58, 0,7 yi ) 2 + ( yi yi ) 2 = SSR adultos. Los valores obtenidos fueron 0,89, se suma i una constantei =a cada uno de los datos )( =1 1 Cambio de origen (traslacin). Si 1,58, 0,79, i =1 i =1 i =1 n Las medidas de tendencia central informan acerca de cul 2es el valor s de tendencia central informan acerca de cul es el valorn ms representativo ms representativo 1,53 mmol/l. La media de de la muestra resultante es 2igual a yi 1,06, =inicial+ms la mmol/l. La media de los niveles del co los niveles del=colesterolyHDL en la media0,87, 1,96 y 1,53 yi ) SSR SSE, de una muestra, laya que las desviaciones (-yi y y ) + ( media i y yi - iy 1 estn incorrelacionadas i =1i = de una o, dicho de variable o, dicho de forma equivalente, estos rminada variabledeterminada forma equivalente, estos estimadores indican estimadores indican estos origen tes es ya que yi xi + c, entonces = i . Un incorrelacionadasque constante utilizada; si las=desviaciones i y y yx + icestn cambio de10 participantes es n alrededorya que valor se nagrupan - datosyobservados.incorrelacionadas de los datos observados. y y i - y estn Las medidas de tendencia los e qu valor se agrupanqulas desviaciones y i Las medidasni de tendencia )( y i y i ) y i ei y ( y i deyla variable,=que consiste erestar a 1 10 se realiza con frecuencia es 1,53 i =1 en i 0,89 + 1,58 + ... + 1,53 1 10 0,89 + 1,58 + ... + el centrado i =1 =1 = 1,223 m = los resultados 1,223 para resumir los resultados observados como para = xi central de la muestra sirven tantommol/l.observados comopipara n x = 10n xi = a10 muestra sirven tanto para resumir 10 10 n n n n i =1 i =1 cada valor de la muestra su media. Laymedia de y ) = b0 e i b e xij ei y ei = 0 ( i y )( y i unai = y centrada i delos parmetrosvariablei ei + yj = jser, por i =1 A realizar los parmetros poblacionales correspondientes. Ai1=correspondientes. poblacionales 1 i =1 rencias acerca deinferencias acerca 1 i= i =1 i =1 p tanto, igualsiguientes propiedades: n n La mtodo de mnimos cuadrados (vase Apartado resenta las a 0. acuerdo a las ecuaciones lineales derivadasn del media aritmtica presenta las siguientes propiedades: de = b0 central de una xij ei central ei =una ei de tendencia y de 0 + la b j continuacin se describen los principales de cuadrados n se describen los principales estimadores la suma estimadores total SST se descompone en dos trminos 11.3.1). En consecuencia, de la tendencia de acuerdo a las ecuaciones lineales derivadas del mtodo de mnimos cuadrados (vase =1 j= i =1 i =1 Cambio de escala suma una constante a de cuadrados de lailos datos1 de unaorigen (traslacin). Si se sumade la constante a cad (traslacin). Si independientes:Si se multiplica cada uno datos Cambio de que representa la variabilidad una se (unidades). la suma cada uno de los de regresin SSR, variable. es cierta. Por otro lado, como se vio en de regresin, 11.3.1, la suma de cuadradoserror SSE, variable respuesta explicada por el modelo suma de cuadrados totalde cuadrados del delen Apartado 11.3.1). En consecuencia, la el Apartado y la suma SST se descompone muestra por muestrarepresentaa es igual a la media inicialque permanece sin de la media de unmuestra resultante es igual a la acuerdo las ecuaciones residual ms laigual la media media de la una constante, la media de la muestra resultante esdedel mtodo explicar. Por la lado,(vase quede resultante la variabilidad lineales derivadas unaamuestra, mnimos cuadrados la suma error SSE contiene n - p - grados de de p grados de bajo las asunciones del cuadrados de 1.2.1 de dos trminos independientes: la contiene cuadrados delibertad ya que, conocida la media a aritmtica Media aritmticala regresin1 SSR suma libertad. Adems, la regresin SSR, que modelo cx inicial x c entonces y , =11.3.1). Un cambio de origensuma. de cuadrados total bsi+ b= descompone en Apartadolos valores = cxi, entonces lala= que constante utilizada; 0 y 1 i1 c, + bpxip = = x + c i estimados por ; si yi =por+la ,constante utilizada; si. yEn consecuencia, y ecuacin de regresin i = SST ise xxi + entonces y + x + c. Un cam muestral i regresindenotada por suma de cada uno la el explicada uno 2 se distribuye b1(xaritmtica, + como la x p se define completamente determinados por + variabilidad quedan como de los itmtica,La mediarepresenta la lineal pmltiple,,)se variable respuesta cociente SSE/ de los los p coeficientes denotadade x 1,) se define b (xip de la comprueba que suma de cadapor el modelo de regresin, por i1 Cambio simultneo detrminosvariablesSi se multiplica cada unopuede probarse que el cociente SSR/ de la variable, que con escala. consiste en restarhecho, de los datos regresin es el que dos origen yindependientes: la suma de cuadrados de la frecuencia SSR, centrado 2 sigue asociados las se realiza con de uencia es el centrado de laavariable, que explicativas. De a valores pordistribucinde observacionescondeSSE, 1Silibertad realizadas.hiptesis nula muestrales a una chi-cuadradoerror - p - quedenotamos la variabilidad residual que strales divididaunaconforme dividida por el nmero grados degrados de libertad con denotamos H0: 1 =la 2 = el nmero cuadrados del p n observaciones cuando la Si independencia de representa y la suma de chi-cuadrado conrealizadas. una muestra por La media de la y al resultado sela variablevio constante, la de 11.3.1, la suma de cuadrados del una variable c una constante variabilidad de le suma otra encada explicada por el modelo de regresin, de representa una Por otro centrada ser, por el Apartado la muestra su media. La media = uestra su media. p = 0 es cierta. variable lado, como se respuesta valor media hiptesis nula. 1 las observado para 1, ..., n, por errorxiSSEmuestralCombinandoel sujeto la suma i = cuadradosde las regresin dedel modelo ao muestralnyel tamaovalor sin explicar.el valorlado, i-simo, de el sujetobajo ambas= 1, ...,SSR contiene de por el contieneynporpxpara grados de libertad. muestralesi-simo,asunciones observado i Por un distribuciones Adems, de la i sumas n, permanece de la muestra resultante es igualcuadrados del error SSE, quecociente SSE/ 2 se distribuye conforme a una representa a variabilidad residual que y la suma de a la media comprueba que el tanto, igual la 0. regresin lineal mltiple, se inicial por la primera constante, ms la cuadrados, libertad la media vendra dada por p que que, conocida la media muestral 2 y =hiptesis nula. Combinando ndra dada por chi-cuadrado con tiene yagradosla hiptesiscon independencia,de lavalores estimados por la p grados dese n 1 bajo de libertad nula H0: 1 = = los p = 0 la razn entre segunda constante; si yi = c1xisincexplicar. Poryun de x sumas dede cuadrados de la regresin SSR contiene cada uno de los permanece + uno de los datos lado, + csuma Cambio de escala (unidades). Si hiptesis nula las distribuciones 2, entonces = c1 una (unidades). Si se multiplica cada muestrales de ambas la 2. cuadrados, se tiene que bajo la se multiplica 1 = 2 = = p = por regresin + + varianza b x - x = SSE/( b y H0:ecuacin explicada 0 la razn entre la varianzabexplicada+por(la regresin SSR/p(p -la varianza varianza de regresin y = b0 + b1xSSR/p y lapxip = y residual s2 ) + +n - xip 1)x ) la n 1 i1 p + x i1 x + ... + n x1 + x 2 ya que, 1 n2 i x 1 p p=grados ide libertadp+...1+nconocida la2 media muestral y , los valores estimados de lala residual muestra resultante es x.i = 1 s x = . onstante, la mediaxde la = SSE/(n x = 1) igual a la media muestra por una constante, la media por muestra resultante e n n i =1 n del Ejemplo 1.5 Para transformar los valores n i =1colesterol HDL de mmol/l a mg/dl se SSR quedan completamente determinados por los p coeficientes asociados a las variables = cxi, entonces y = c y ante utilizada; si yiecuacin de regresin x i. = b0 + b1xi1 + + inicial por+ bconstante) utilizada; (xip i- =xcxi, entonces y = c x bpxip = y la 1(xi1 - x1 + + bp si y p ) 2 p/p p 2 SSR multiplica por el factor de conversin 38,8. As, utilizando la propiedad del La media es la central hecho, puede probarse que~el cociente ms fcil de a es la medida de tendencia medidaF = tendencia central ms utilizada y deSSR/ 2 = Fp,n una distribucin ms utilizada y de ms fcil 2 = sigue p 1 explicativas. De SSE ps 2 o de origen y escala. Si se completamente determinados porde Cambio n p 1) de origen y escala. Si se multiplica cada u uno p p 1 quedan multiplica cada HDLde los datos 2 calculara /(simultneo los ncoeficientes asociados a las variables cambio de escala, la media del colesterol en mg/dl se interpretacin. Corresponde al centro datos 1)la muestra. datos de p de n. Corresponde al centro de gravedad de los(n gravedad de los Su de la muestra. Su chi-cuadrado con p grados de libertad cuando la hiptesis nula H0: 1 = = = p = 0 na constante y al resultado se le De hecho, constante, la media el cociente SSR/ 2 sigue una2distribucin explicativas. suma otra puede probarse que una muestra por una constante y al resultado se le suma otra c se distribuyemedia en cocientecomo 1,22338,8 = 47,45 mg/dl. directamente a partir de su como el mmol/l de dos distribuciones chi-cuadrado independientes divididas por principal limitacin es que est muy influenciada por y, valores mitacin es que est muy influenciada por los valores extremos los en este extremos y, en este susse distribuye comogrados de libertad,distribuciones chi-cuadrado independientes correspondientes el cociente de dos que equivale a una distribucin F de Fisher con p de resultante = = a = = 0 tante es igual a la chi-cuadrado por la grados de libertad cuando lala muestranula H : es igualla media inicial por la prim media inicial con primera constante, ms la 0 1 2 p 19 grados de libertad en p numerador y n p 1 en el hiptesis el denominador. La raznentre las varianzas caso, puede de la un fiel reflejo de la tendencia central no ser un fiel reflejo no sertendencia central de la distribucin. de la distribucin. 6 a una distribucin F divididas por sus correspondientes grados de libertad, que equivale segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2. ; si yi = c1xi + c2, entonces y = c1 x + c2.

204 Pastor-Barriuso R. 19 de Fisher con p grados de libertad en el numerador estimadores el denominador. plo 1.4 En este Ejemplosucesivos ejemplos sobre estimadores muestrales, -se - 1 en muestrales, se La y en los 1.4 En este y en los sucesivos ejemplos sobre y n p Ejemplo 1.5 Para transformar los valores del colesterol HDL ransformar los valores del colesterol HDL de mmol/l a mg/dl se arn los valoresutilizarn entre HDL obtenidos en los 10 primerosconstituye, por tanto, sujetos del para el delrazn los valores del colesterol HDL residual sujetos del primeros el estadstico colesterol las varianzas explicada y obtenidos en los 10

Contrastes de hiptesis en regresin lineal mltiple

Tabla11.2 Tabla genrica del anlisis de la varianza de regresin lineal mltiple.* 11.2 Tabla genrica del anlisis en la varianza en regresin Tabla lineal mltiple.*
Suma de Suma de cuadrados cuadrados Regresin SSR =
n

Grados de Grados de libertad libertad p

Varianza Varianza SSR p s2 = SSE n p 1

Razn de Razn de varianzas varianzas F= SSR ps 2

(y
i =1 n

y) 2

Error

SSE =

ei2 = ( y i y i ) 2
i =1 i =1

n p 1

Total

SST =

(y
i =1

y) 2

n 1

2 * Coeficiente de determinacin R2 = SSR/SST. * Coeficiente de determinacin R = SSR/SST.

explicada y residual constituye, por tanto, el estadstico para el contraste global del modelo de regresin lineal mltiple. La descomposicin de la variabilidad de la variable respuesta, junto con la razn de varianzas resultante, suele resumirse en la tabla del anlisis de la varianza (Tabla 11.2).

Como complemento al contraste global del modelo, suele calcularse el coeficiente de determinacin R2 = SSR/SST, que es una medida cuantitativa de la proporcin de la variabilidad equivale al cuadrado del coeficiente de correlacin r entre los valores observados yi de la variable respuesta explicada por el modelo de yy regresin mltiple. El coeficiente de determinacin R2 vara entre 0 y 1 y aumenta siempre que se incluyen nuevas variables de la variable respuesta los valores incremento por la ecuacin de regresin, que se explicativas en el modelo, yaunque este predichos y i puede no ser significativo (ver apartado siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de coeficiente de correlacincomo coeficiente de observados yymltiple, correlacin ryy entre los valores correlacin i ide la variable respuesta y los valores predichos i conoce entre los valores observados por la ecuacin de regresin, que se conoce como coeficiente de correlacin mltiple,

2 y los valores predichos y i por la ecuacin de regresin, que se n n 2 ( yi y) 2 ( y y) SSR i =1 i i =1 2 de correlacin mltiple, = n = n R = n SST ( yi y) 2 ( yi y) 2 ( yi y) 2 n n ( y i y )( y i y ) ( y i y i )( y i y ) i =1 = n = n i =1 i =1 n 2 2 = 2 n n ( yi y) ( yi y) ( yi y) i =1 i =1 i =1 ( yi y) 2 ( yi y) 2 i n n 2 ( y i y )( y i y ) ( y i y i )( y i y ) n i =1 i =1 ( y i y )( y i y ) = i =1 = 2 n n = n ryy . n ( yi y) 2 ( yi y) 2 2 2 ( yi y ) ( yi y ) i =1 i =1 2 i =1 i =1 2 i =1 i =1

(y

y)

n ( yi y) 2 i =1

i =1

i =1

i =1

64

n ( y i y )( y i y ) Notar quelas estimaciones de los coeficientes de regresin minimizan la suma de cuadrados del i =1 Notar y, = consecuencia, de los coeficientes de regresin minimizan la del modelo. De la las 2y . = error SSEqueen ryestimaciones maximizan el coeficiente de determinacin R2 suma de n n ( y i y ) 2relacin entre los coeficientes de determinacin y correlacin mltiple, se deriva entonces que ( yi y ) 2 i= i =1 las1 cuadrados del b0, b1,SSE y, en consecuencia, maximizan el coeficiente de determinacin los estimaciones error , bp maximizan la correlacin entre los valores observados yi y
Pastor-Barriuso R. 205

R2 del modelo. De la relacin entre los coeficientes de determinacin y correlacin es de los coeficientes de regresin minimizan la suma de

mltiple, se deriva entonces que las estimaciones b0, b1, , bp maximizan la correlacin y, en consecuencia, maximizan el coeficiente de determinacin

entre los valores observados y y los valores predichos y = b + b x + + b x , de tal

estimada y = 1,58 - 0,0207x1 + 0,0028x2 correlacin con la variable respuesta.


Regresin lineal mltiple

SSR = (1,58 0,0207 x + 0,0028 x i 2 1,08) 2 = 4,58 Ejemplo 11.6 En la primera parte de la i1 Tabla 11.1 se presenta el anlisis de la i =1

449

varianza de la regresin + mltiple del forma que cualquier el ndice de valores predichos i = b0 + b1xi1lineal + bpxip, de talcolesterol HDL sobreotra combinacin lineal y la suma explicativas tendr menor correlacin con la variable respuesta. de las variables de cuadrados residual se descompone enel consumo de alcohol.explicada de cuadrados total del colesterol masa corporal y la suma de cuadrados La suma por la ecuacin de regresin
449 Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el anlisis de la varianza 2 1,58 0,0207x + 0,0028x2 estimada y =SSE =- mltiple,58 colesterol1 HDL sobre2el ndice de masa corporal y el HDL regresin lineal { y i 1(1 del 0,0207 x i + 0,0028 x i )} = 34,33. de descompone en lai =suma de cuadrados explicada por la ecuacin de regresin la se 1 consumo de alcohol. La suma de cuadrados total del colesterol HDL 449 estimada y = 1,58 -449 se descompone en la 0,0207x1 cuadrados 1,08) 2 x por1la2ecuacin de regresin y sumaSST+, 0,0028x2explicada ,08 Por tanto, el SSR = (1de de 0=0207 x i1 + 0,0028 =i 238,91 =24,58/38,91 = 0,118 coeficiente ,58determinacin se estima en R ) = 4,58 ( yi

estimada y = 1,58la 0,0207x + 0,0028x - 449 se coeficiente de correlacin 1 cuadrados 2explicada por = 0,343. Es decir, la el descompone en suma demltiple en ryy = 0,118 la ecuacin de regresin estimada 21 SSR =+ (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58 la suma 0,0207x1 0,0028x2 = 1,58 de cuadrados residual y combinacin lineal del ndice de masa corporal y el consumo de alcohol presenta SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58 449 i =1 y la suma de cuadrados residual SSE de { y i con ,el colesterolxHDL,,0028 x i 2 )}2 = as explicar el = 0,343 (1 58 0,0207 i1 + 0 consiguiendo 34,33. una correlacin y la suma de cuadrados residual i =1 449 y la suma la variabilidad del colesterol HDL en los controles del estudio cuadrados residual 11,8% de deSSE = y (1,58 0,0207 1 + 0,0028 x )}2 = 34,33. {dei determinacin sexiestima en R2i 2= 4,58/38,91 = 0,118 y Por tanto, el coeficiente i =1 449 EURAMIC. Esta variabilidad explicada por se modelo en regresin lineal mltiple y el 2 Por tanto, el coeficiente de determinacin el estima de R2 = 4,58/38,91 = 0,118 SSE = { y i (1,58 0,0207 x i1 + 0,0028 x i 2 )} = 34,33. Es decir, coeficiente coeficiente de mltiple en r = 0,118 = 0,343. Es decir, la0,118 y el coeficientede correlacin determinacinyyse estima en R2 = 4,58/38,91 =la combinacin correlacin mltiple Por tanto, el departei =1 representandice de masa corporal y la variabilidad total del colesterol HDL, ya una significativa de el consumo de alcohol presenta una correlacin de lineal del 0,343 con el colesterol HDL, consiguiendo as explicar 2el 11,8% de lapresenta combinacin lineal del ndice mltiple corporal y 0,118entre=las varianzas=explicada del de alcohol variabilidad el coeficiente deglobal del modelo mediante la el consumo4,58/38,91 0,118 y correlacin de Por tanto,el modelolos controles masa en ryy EURAMIC. 0,343. Esuna parteexplicada por el coeficiente de determinacin significativa R Esta variabilidad que el contraste en contribuyan delforma se = razn = explicar decir, la de la estima en colesterol incluidas en HDL de estudio a el modelo de regresin linealel colesterol HDL, consiguiendo as explicar el variabilidad mltiple representa una parte significativa de la una correlacin de 0,343 con y coeficiente respuesta, pudiendo haber y = 0 del = 0,343. alcohol la combinacin el residual lineal del ndice de masa corporal y ,el consumo mediante presenta total del de lade correlacin mltiple en runa o varias variablesEs decir,la razn o variabilidadcolesterol HDL, ya que el contrastey global118 modelo deque tengan nula entre las varianzas explicada y residual 11,8% de la variabilidad del colesterol HDL en los controles del estudio una correlacin de del ndice decolesterol HDL, el consumo as eliminar algunas escasa contribucin. En este con el4,masa corporal yconsiguiendode alcohol presenta cabra 2,29 combinacin lineal0,343 sentido,58 / 2 preguntarse si es posible explicar el = = 29,72 F= EURAMIC. Esta variabilidad explicada por 0,077 34,33 / 446 el modelo de regresin lineal mltiple 11,8% de la variabilidad con el colesterol HDL, consiguiendo as explicar variables explicativas 0,343 del colesterol HDL en los controles capacidad predictiva del una correlacin de del modelo sin afectar sensiblemente a la del estudio el resulta en un valor P = P(F2,446 29,72) < 0,001 bajo la distribucin F de Fisher con 2 representa una parte significativa de la variabilidad total del colesterol HDL, ya grados de la variabilidad del colesterol HDL el modelo de regresin preguntas, EURAMIC. valor parciales explicada en resulta en unEsta en el numerador y 446< dar denominador. tipo de F de mismo. Los contrastesP = P(F2,446 29,72)de 0,001 bajo la distribucinlineal Fisher 11,8% de libertadvariabilidadse ocupan por enrespuesta este del estudio mltiple los controles que el contraste global del modelo mediante la razn entre las varianzas explicada representa una parciales 11.4.2EURAMIC. Esta variabilidad numeradorpor446variables explicativas a lo ya ya Contrastes parte significativa de la variabilidad total del colesterol HDL, valorando la contribucin adicional de una oy el modelo de regresin lineal mltiple con 2 grados de libertad en el explicada ms en el denominador. y residual Cuando elelcontrasteotras variables presentesvariabilidad total del colesterol HDL, ya resulta que por las global del modelo mediante modelo. explicadocontrasteglobal de regresin la en el la razn entre las varianzas conjunto representa una parte significativa de es significativo, el modelo en su explicada efectivo a la hora de explicar la variabilidad observada en la variable respuesta. No obstante, 11.4.2 Contrastes parciales 58 / 2 2 esto no residual necesariamente modelo mediante,29razn una vez incluidas las variables explicativas incluidas en el modelo y el contraste global del queparcial establece que, entre Laimplica nula del contraste4,todas las variables 29,72 las varianzas explicada quehiptesis F= = la = contribuyan de forma significativa a33 / 446 0,077 34, explicar una parte de la variabilidad de la respuesta, Cuando el contraste global de regresin es significativo, el modelo en su conjunto pudiendo haberX1, ..., Xp-r, 1 r < p, las restantes rnula o escasa contribucin.modelo no se una o varias variables que tengan variables Xp-r+1, ..., Xp del En este sentido, explicativas y residual 4,58 / 2 2,29 cabra preguntarse si es posible eliminar algunas variables explicativas del modelo sin afectar F= = = 29,72 resulta efectivounla hora de explicar ,29,72) < 0,001 bajo la distribucin F de Fisher a valor P = P(F2,44634 33 / 446 0,077 la variabilidad observada en la variable respuesta. resulta en a la capacidad sensiblementelinealmente conpredictiva del mismo. Ms contrastes parciales se ocupan de dar Los concretamente, se pretende relacionan la variable respuesta. 4,58 / 2 2,29 respuesta a este tipo de preguntas, valorando la=contribucin adicional de una o ms variables F= = No obstante, esto no implica necesariamente que todas las29,72 con 2 grados de libertad en ellas otras 446 y 446 presentes en el modelo. numerador 0,077 el denominador. en variables explicativas explicativas aen hiptesis P = P(F:2,446 33 / =< 0,001frentela la hiptesis alternativa resulta lo ya explicado H0 p-r+1 = variables contrastar la un valor nula por 34, 29,72) p = 0 bajo a distribucin F de Fisher 22 La hiptesis nula del contraste parcial establece que, una vez incluidas las variables con 2 1, un 0, 1 P < en j numerador y p, en pr+1, distribucin explicativasHen ...,valor r= P(F2,446 p -29,72)variablesbajodenominador. F delineal bilateral gradosXpr,libertadp, las = r + 1, ,446en Xelmodelo pde regresinno se relacionan resultaX1: j de para algn elrestantes r < 0,001 el la..., X del modelo Fisher 11.4.2 Contrastes parciales respuesta. Ms concretamente, se pretende contrastar la hiptesis linealmente con la variable nula H0: 2 grados de libertad en el numerador y 446 en el denominador. 1: j 0, para algn mltiple = = p = 0 frente a la hiptesis alternativa bilateral H con pr+1 Cuando r +contraste en el modelo de regresin lineal mltiple el 1, , p, global de j = p Contrastes parciales regresin es significativo, el modelo en su conjunto 11.4.2 resulta efectivo a la Y = de explicar la+ p r xp r + p observada en la p xp + . respuesta. hora 0 + 1 x1 + variabilidad r+1 xp r+1 + + variable Cuando el contraste global de 11.4.2 Contrastes parciales regresin es significativo, el modelo en su conjunto No obstante, R.esteno implica necesariamente que todas las variables explicativas esto contraste 206 resulta efectivo a la hora de parcial esla variabilidad la comparacin de dos modelos: el Pastor-Barriuso Notar que explicar equivalente a observada en la variable respuesta. Cuando el contraste global de regresin es significativo, el modelo en su conjunto 22 Noanterior modelo completonecesariamentelas p todas las variables variable modelo obstante, esto la hora de explicar la variabilidad observada en la explicativas no implica que incorpora que variables explicativas y el respuesta. resulta efectivo a
i =1 449

i =1

i =1

Y = 0 + 1 x1 + + p-r xp-r + p-r+1 xp-r+1 + + p xp + . explicativas sometidas al contraste, asegurndose de utilizar las mismas observaciones Contrastes Notar que este contraste parcial es equivalente a la comparacinde hiptesismodelos: el mltiple de dos en regresin lineal en ambos modelos. Al incluir nuevas variables explicativas sobre la misma muestra de anterior modelo completo que incorpora las p variables explicativas y el modelo observaciones, la variabilidad de la variable a la comparacin por el modelos: el anterior Notar que este contraste parcial es equivalenterespuesta explicadade dos modelo completo modelo completo que incorpora las p r variables Xp-r+1, ..., Xy objeto del contraste, que resulta reducido que resulta de excluir las variables explicativas p el modelo reducido de SSR1 ser siempre mayor o,igual pque la variabilidad explicada por el modelo reducido excluir las r variables Xpr+1 ..., X objeto del contraste, Y = 0 + 1 x - + p r x p r + SSR0, de tal forma que la diferencia SSR11 + SSR0representa, el incremento en la dado que los coeficientes asociados a dichas variables son 0 bajo la hiptesis nula. As, los variabilidad coeficientes asociados dichas X comparar Puede de dos modelos As, dado que losexplicada al incluir las variables variables Xp. 0 bajo la hiptesis nula.anidados, contrastes parciales son particularmenteatiles parap-r+1, ..., sonel ajusteprobarse que, si la lo que permite decantarse entre el modelo ms simple o el modelo extendido con variables hiptesis nula H0: del = = = es cierta, los contrastes parciales resultadopdel0contraste. el para comparar - ajuste 2 sigue adicionales en funcin p-r+1 son particularmente tiles cociente (SSR1el SSR0)/de dos una
El procedimiento lo sencillo para realizar por separado el modelos anidados,msque permite r grados deun contraste parcial es ajustar el modelo distribucin chi-cuadrado con los decantarse entre el modelo ms simple o libertad correspondientes al nmero de modelo completo y el modelo reducido excluyendo las r variables explicativas sometidas al contraste, asegurndose deadicionales en funcin del resultado en ambos modelos. Al incluir utilizar las mismas extendidoexplicativas a contrastar. Asimismo,observaciones del contraste. del variables con variables la suma de cuadrados del error nuevas variables explicativas sobre la misma muestra de observaciones, la variabilidad de la variable procedimiento ms sencillomodelo completocontraste parcial es ajustar por El respuesta explicada por el para realizar un SSR ser siempre mayor o igual que la modelo completo SSE1 es independiente del incremento1 en la variabilidad explicada variabilidad explicada por el modelo reducido SSR0, de tal forma que la diferencia SSR1 SSR0 representa elel modelo completo y el 2 variabilidad explicada al incluir las las r variables separado incremento en laSSE1/ modelo reducido excluyendovariables Xpr+1, ...,pXp.1Puede se distribuye segn una chi-cuadrado con n - SSR1 - SSR0 y el cociente probarse que, si la hiptesis nula H0: pr+1 = = p = 0 es cierta, el cociente (SSR1 SSR0)/ 2 sigue una distribucin chi-cuadrado con los r grados de libertad correspondientes al nmero de grados de libertad. a estos resultados se deriva que, de cuadrados error 0, modelo variables explicativasDe contrastar. Asimismo, la sumabajo H0: p-r+1 =del = p = della 23 completo SSE1 es independiente del incremento en la variabilidad explicada SSR1 SSR0 y el razn entre el se distribuye segn una chi-cuadrado con n p 1 grados de libertad. De cociente SSE1/ 2 incremento de la varianza explicada por ambos modelos (SSR1 - SSR0)/restos = resultados se deriva que, bajo H0: pr+1 = = p 2 0, la razn entre el incremento de la varianza s1 = SSE1/(n - p - 1) y la varianza residual del modelo completo)/r y la varianza residual del modelo completo explicada por ambos modelos (SSR1 SSR0 2 s1 = SSE1/(n p 1)
SSR 1 SSR 0 2 SSR 1 SSR 0 r /r r 2 ~ 2 = = Fr,n p 1 F= SSE1 rs12 n p 1 /( n p 1) (n p 1) 2

sigue una distribucin F de Fisher con r y n p 1 grados de libertad al ser el cociente de dos sigue una distribucin F independientes n - p - 1 por sus libertad al grados de libertad. distribuciones chi-cuadradode Fisher con r ydivididasgrados derespectivos ser el cociente Este anlisis de la varianza para el contraste parcial de un modelo de regresin lineal mltiple de dos distribuciones chi-cuadrado independientes divididas por sus respectivos grados se representa esquemticamente en la Tabla 11.3.

de libertad. Este anlisis de la varianza para el contraste parcial de un modelo de


Tabla 11.3 Anlisis de la varianza para el Tabla 11.3 Anlisis de la varianza para el contraste parcial contraste parcial en regresin lineal mltiple se representa esquemticamente en regresin lineal mltiple. en la Tabla 11.3. regresin lineal mltiple.
Suma de Grados de Suma de Grados de Varianza cuadrados libertad cuadrados libertad Varianza [Tabla 11.3 aproximadamente aqu] SSR1 SSR0 p p r r
SSR 1 SSR 0 r SSE 1 n p 1

Razn de Razn de varianzas varianzas

Regresin X1,..., Xp r

Xp r+1,..., Xp|X1,..., Xp r SSR1 SSR0 Error SSE1

F=

SSR 1 SSR 0 rs12

n p 1 s12 =

24

Total
Total

SST
SST

n1
n-1
Pastor-Barriuso R. 207

Regresin lineal mltiple

Ejemplo 11.7 La Tabla 11.4 muestra los resultados obtenidos en el grupo control del estudio EURAMIC al ajustar un modelo de regresin lineal mltiple con el colesterol HDL como variable respuesta, el ndice de masa corporal, el consumo de alcohol y la edad en aos como variables explicativas continuas y el estatus socioeconmico como variable explicativa dicotmica (xi4 = 1 en sujetos con bajo nivel socioeconmico y 0 en sujetos con alto nivel socioeconmico). De la tabla del anlisis de la varianza se desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya que la razn de varianzas del contraste global del modelo F = 14,85 resulta en un valor P = P(F4,440 14,85) < 0,001 bajo la distribucin F de Fisher con 4 y 440 grados de libertad. No obstante, una vez incluidos el ndice de masa corporal y la ingesta de alcohol, ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 0,12) 2{1 F(0,12)} = 0,90) ni el estatus socioeconmico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 0,80) 2{1 F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles de colesterol HDL. De hecho, cada incremento de 10 aos en la edad se asocia con un aumento despreciable de 100,0002 = 0,002 mmol/l en la media del colesterol HDL entre sujetos con igual ndice de masa corporal, consumo de alcohol y nivel socioeconmico. De igual forma, ajustando por diferencias en el ndice de masa corporal, la ingesta de alcohol y la edad, la media del colesterol HDL difiere nicamente en 0,021 mmol/l entre los sujetos con nivel socioeconmico bajo y alto. A partir de estos resultados, sera razonable preguntarse si la edad y el estatus socioeconmico contribuyen conjuntamente a explicar la variabilidad residual del colesterol HDL que permanece sin explicar por el ndice de masa corporal y el consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol como variables explicativas. No obstante, los resultados de ambos modelos no son Tabla 11.4 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus socioeconmico (ESE) en el grupo control del estudio EURAMIC.
Anlisis de la varianza* Suma de cuadrados Regresin Error Total * Coeficientes de regresin Test H0: j = 0 Estimacin Constante IMC Alcohol Edad ESE 1,56 0,021 0,0028 0,0002 0,021 Error estndar 0,12 0,0037 0,0006 0,0014 0,027 IC al 95% (1,33; 1,79) ( 0,028; 0,014) (0,0016; 0,0040) ( 0,0026; 0,0030) ( 0,031; 0,074) t 13,24 5,66 4,64 0,12 0,80 Valor P < 0,001 < 0,001 < 0,001 0,90 0,43 4,58 33,93 38,51 Grados de libertad 4 440 444 Razn de varianzas 14,85

Varianza 1,14 0,077

Coeficiente de determinacin R2 = 4,58/38,51 = 0,119.

208

Pastor-Barriuso R.

consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo


Contrastes de hiptesis en regresin lineal mltiple

reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol como variables explicativas. No obstante, los resultados de Tabla 11.5 Anlisis de la varianza para el contraste parcial mltiple de la edad ymodelos no son directamente (ESE) en la ya que el modelo reducido ambos el estatus socioeconmico comparables regresin lineal del colesterol HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el ESE enobservaciones msdel estudio EURAMIC. (449 versus 445). Esto es emplea 4 el grupo control que el modelo completo
Varianza varianzas debido a que hay 4 sujetoscuadrados ausentes para el estatus socioeconmico, con valores libertad Regresin 4,58 4 que pueden utilizarse en el ajuste del modelo reducido, pero no en el modelo IMC, alcohol 4,53 2 Edad, ESE|IMC, alcohol 0,053 2 0,026 0,34 completo que incluye dicha variable. Para comparar ambos modelos, es preciso Error 33,93 440 0,077 Total 38,51 444 Suma de Grados de Razn de

ajustar el modelo reducido a la misma muestra de 445 controles del estudio

EURAMIC, comparables ya que el modelo reducido emplea 4 observaciones ms directamentede donde se obtiene una suma de cuadrados explicada por el modelo que el modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes reducido de SSR0 = 4,53. As, el incremento en la variabilidad explicada al incluir para el estatus socioeconmico, que pueden utilizarse en el ajuste del modelo reducido, pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos, la preciso ajustar el modelo reducido el modelo muestra es 445 - SSR0 = 4,58 es edad y el estatus socioeconmico ena la mismacompleto de SSR1controles del estudio EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido - 4,53 = = 4,53. As, el incremento en la variabilidad explicada al y la varianza de SSR0 0,053. La razn entre el incremento de la varianza explicadaincluir la edad y el estatus socioeconmico en el modelo completo es SSR1 SSR0 = 4,58 4,53 = 0,053. La residual del el incremento de la varianza razn entre modelo completo es entonces explicada y la varianza residual del modelo completo es entonces F= 0,053 / 2 0,026 = = 0,34, 33,93 / 440 0,077

que corresponde a un valor P = P(F2,440 0,34) = 0,71 bajo la distribucin F de Fisher con 2 y 440 grados de libertad. Este P(F2,440 parcial mltiple sela distribucin la de que corresponde a un valor P = contraste 0,34) = 0,71 bajo representa en F Tabla 11.5. En conclusin, la edad y el estatus socioeconmico no contribuyen significativamente a explicar la 2 y 440 grados de libertad. HDL contrastetenidos en cuenta elrepresenta masa Fisher con variabilidad del colesterol Este una vez parcial mltiple se ndice de corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos ltimas variables explicativas resulta igualmente y el estatus socioeconmico no en la Tabla 11.5. En conclusin, la edad efectivo.

contribuyen significativamente a explicar la variabilidad contribucin adicional Los contrastes parciales pueden emplearse para evaluar la del colesterol HDL una de una nica variable explicativa o de mltiples variables explicativas. El contraste parcial individual vez tenidos en cuenta se reduce a masa corporal y el nula H0: de 0 frente a tal de la variable explicativa Xj el ndice de evaluar la hiptesisconsumo j =alcohol, de la hiptesis alternativa H1: j 0 y, en consecuencia, es equivalente al test para los coeficientes de regresin presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadstico F de la razn de varianzas del contraste parcial individual es igual al cuadrado del estadstico t = bj/SE(bj) del correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 26 son idnticos (la distribucin F de Fisher con 1 grado de libertad en el numerador y n p 1 en el denominador es, por definicin, el cuadrado de la distribucin t de Student con n p 1 grados de libertad).
Ejemplo 11.8 Para evaluar si el estatus socioeconmico contribuye a explicar la variabilidad del colesterol HDL que no se explica por las diferencias de ndice de masa corporal, consumo de alcohol y edad, se podra comparar la variabilidad explicada por el modelo completo con la variabilidad explicada por el modelo que excluye el estatus
Pastor-Barriuso R. 209

explicada por el modelo completo con la variabilidad explicada por el modelo que
Regresin lineal mltiple

excluye el estatus socioeconmico en la misma muestra de 445 controles, obtenindose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. As, el estadstico

F del contraste parcial individual es socioeconmico en la misma muestra de 445 controles, obtenindose una diferencia SSR1 SSR0 = 4,58 4,53 = 0,049. As, el estadstico F del contraste parcial individual es F= 0,049 0,049 = = 0,64, 33,93 / 440 0,077

que corresponde a un valor P = P(F1,440 0,64) = 0,43 bajo la distribucin F de Fisher con 1 y 440 grados de libertad. Notar que este contraste es equivalente al test del coeficiente 2 asociado al estatus socioeconmico en la Tabla 11.4 ya que 2P(t440 0,80) = P( t 440270,802) = P(F1,440 0,64). 11.5 VARIABLES EXPLICATIVAS POLITMICAS La regresin lineal no establece ninguna asuncin respecto a la distribucin de las variables explicativas, que pueden ser tanto continuas como categricas. En anteriores apartados, se ha tratado con modelos de regresin lineal que incorporan variables explicativas continuas y pero s a las estimaciones e interpretacin de los coeficientes asociados a las variables dicotmicas. Queda pendiente de estudiar, por tanto, el ajuste e interpretacin de modelos de regresin lineal mltiple con variables explicativas politmicas, que clasifican a los sujetos en indicadoras. En este apartado se presenta la codificacin de la categora de referencia, tres o ms categoras en funcin de sus distintas caractersticas. Estas variables politmicas pueden ser nominales (nunca fumadores, ex fumadores o fumadores actuales), ordinales (nivel que es el mtodo ms extendido para definir variables indicadoras, de fcil socioeconmico bajo, medio o alto) o incluso variables continuas categorizadas (normopeso, sobrepeso u obesidad para un ndice de masa corporal < 25, 25-30 30 kg/m2, respectivamente). interpretacin y vlido para cualquier tipo de variable politmica. Para cada una de las k En general, las variables explicativas politmicas no se introducen directamente en los modelos de regresin ya quela variable politmica, a estas variables slo indicadora Xj = 1 categoras j = 1, , k de los valores asignados se define la variable sirven para discernir u ordenar las distintas categoras, pero no tienen interpretacin numrica. La forma adecuada de incluir este tipo de variables explicativas en una regresin es mediante variables indicadoras en los sujetos pertenecientes a la categora j y 0 en los restantes sujetos, tal como se que identifiquen cada una de las categoras de la variable. Existen diversos mtodos para indica en la Tabla 11.6. Estas variables indicadoras X1, , Xk uno u otro procedimiento de codificar adecuadamente variables indicadoras. La eleccin entreno pueden incluirse codificacin no afecta al ajuste del modelo (la tabla del anlisis de la varianza permanece simultneamente en un codificacin que permita diferenciar todas constante, ya de inalterable ante cualquier modelo de regresin que contenga el trmino las categorasque una variable politmica), pero s a las estimaciones e interpretacin de los coeficientes asociados a las su suma X1indicadoras. 1 para todos los sujetos y cualquier variable indicadora puede de variables + + Xk = En este apartado se presenta la codificacin de la categora referencia, que es el mtodo ms extendido para definir variables indicadoras, de fcil expresarse y vlido para cualquier tipo de variable politmica. Para y de una de las interpretacin entonces como una combinacin lineal exacta de la constante cada las dems k categoras j = 1, , k de la variable politmica, se define la variable indicadora Xj = 1 en los variables indicadoras, categora y 0 en los restantes en un problema de indica en la sujetos pertenecientes a lacon lo que jel modelo incurrira sujetos, tal como secolinealidad Tabla 11.6. Estas variables indicadoras X1, , Xk no pueden incluirse simultneamente en un modelo perfecta (vase Ejemplo 11.1). Para solventar este problema, basta con excluir una de regresin que contenga el trmino constante, ya que su suma X1 + + Xk = 1 para todos los sujetos y cualquier variable indicadora puede expresarse entonces como una combinacin lineal cualquiera de las variables dems variables indicadoras, con lo que el modelo las otras exacta de la constante y de lasindicadoras, digamos Xk, manteniendo en el modelo incurrira en un problema de colinealidad perfecta (vase Ejemplo 11.1). Para solventar este problema, basta variables indicadoras X , , Xk-1, con excluir una cualquiera1de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras variables indicadoras X1, , Xk1,
E(Y|x1 , ..., xk 1) = 0 + 1 x1 + + k 1 xk1,

donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, la donde 0 simplicidad al valor otras posibles respuesta en la categora k modelo, constante por corresponde se omitenesperado de lavariables explicativas. En estede la variable politmica, que toma valores cero en todas las variables indicadoras incluidas en el modelo, la constante 0 corresponde al valor esperado de la respuesta en la j determina el la E(Y|x1 = 0, ..., xk1 = 0) = 0. Asimismo, cada coeficiente de regresin categora k de cambio en
variable politmica, que toma valores cero en todas las variables indicadoras incluidas
210 Pastor-Barriuso R.

en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1

cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras variables indicadoras X1, , Xk-1, E(Y|x1 , ..., xk-1 ) = 0 + 1 x1 + + k-1 xk-1,
Variables explicativas politmicas

Tabla 11.6 Variables indicadoras para las k categoras de una variable otras posibles donde por simplicidad se omitenpolitmica. variables explicativas. En este modelo,
Variable indicadora Categora X1 X2 Xk 1 1 0 0 variable politmica, que toma valores cero en todas las variables indicadoras incluidas 2 0 1 0

la constante 0 corresponde al valor esperado de la respuesta en la categora k de la

en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1
k 0 0 1

el valor esperado de la respuesta variable politmica, , k 1 respecto a la categora k de la respecto a la categora k de la en la categora j = 1, variable politmica,
E(Y|x1 = 0, ..., xj1 = 0, xj = 1, xj+1 = 0, ..., xk 1 = 0)
E(Y|x1 = 0, ..., xk1 = 0) = 0 + j 0 = j.

Como puede apreciarse, la categora cuya variable indicadora se deja fuera del modelo acta como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categora de referencia. Aunque en principio la eleccin del grupo de referencia es arbitraria, en la prctica suele utilizarse como categora de referencia aquella que representa la ausencia o el menor 29 nivel de exposicin (nunca fumadores, nivel socioeconmico alto, normopeso), siempre y cuando su tamao muestral sea lo suficientemente grande para obtener comparaciones precisas con el resto de categoras de la variable politmica. En general, la contribucin de las variables indicadoras a la capacidad predictiva del modelo debe evaluarse conjuntamente, dado que estas variables no representan ms que las distintas categoras de una misma variable politmica. En este sentido, los contrastes parciales presentados en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para contrastar la hiptesis nula H0: 1 = = k1 = 0, lo que equivale a un test de homogeneidad del valor medio de la respuesta en las k categoras de la variable politmica. Notar que este test de homogeneidad permanece inalterable ante cualquier codificacin de las variables indicadoras o seleccin del grupo de referencia, ya que stas alteran los coeficientes de regresin, pero no cambian la contribucin global de la variable politmica al ajuste del modelo. Ejemplo 11.9 En la Tabla 11.7 se presentan los resultados de ajustar un modelo de regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal, el consumo de alcohol y el hbito tabquico en 448 controles del estudio EURAMIC con informacin completa de estas variables. El hbito tabquico es una variable politmica con tres categoras, que diferencia a los sujetos segn sean nunca fumadores (113 sujetos), ex fumadores (163) o fumadores actuales (172). Se designa como categora de referencia a los nunca fumadores y, en consecuencia, el modelo incluye dos variables indicadoras para los ex fumadores (xi3 = 1 en ex fumadores y 0 en el resto) y los fumadores actuales (xi4 = 1 en fumadores actuales y 0 en el resto). Para evaluar si el nivel medio de colesterol HDL difiere en las tres categoras del hbito tabquico una vez tenidas en cuenta las diferencias de ndice de masa corporal y consumo de alcohol, se realiza el contraste parcial mltiple de las dos variables indicadoras del hbito tabquico H0: 3 = 4 = 0. Para ello, se compara la variabilidad explicada SSR1 = 5,44 por el
Pastor-Barriuso R. 211

la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7 con la variabilidad Regresin lineal mltiple explicada SSR0 = 4,58 por el modelo que excluye ambas

variables indicadoras en la misma muestra de 448 controles, obtenindose un test


modelo completo de la Tabla 11.7 con la variabilidad explicada SSR0 = 4,58 por el modelo estadstico que excluye ambas variables indicadoras en la misma muestra de 448 controles, obtenindose un test estadstico (5,44 4,58) / 2 0,43 = F= = 5,69, 33,42 / 443 0,075 que corresponde a un valor P = P(F2,443 5,69) = 0,004 bajo la distribucin F de Fisher con 2 y 443 grados de libertad. P(F2,443 detectan= 0,004 bajosignificativas en las medias que corresponde a un valor P = As, se 5,69) diferencias la distribucin F de ajustadas del colesterol HDL entre los nunca fumadores, ex fumadores y fumadores actuales. Losy coeficientes de libertad. a lasse detectan indicadoras significativas Fisher con 2 443 grados asociados As, variables diferencias del hbito tabquico permiten cuantificar estas diferencias de acuerdo a la codificacin elegida. Por un lado, unalas medias ajustadas diferencias en HDL entre los nunca fumadores, ex de alcohol, en vez controladas las del colesterol el ndice de masa corporal y la ingesta la media del colesterol HDL presenta una diferencia insignificante de b3 = 0,009 mmol/l entre los ex fumadores actuales. Los coeficientes Sin embargo, los fumadores actuales fumadores y fumadores y los nunca fumadores. asociados a las variables presentan una disminucin significativa en el nivel medio de colesterol HDL de b4 = 0,085 mmol/l en comparacin con los nunca fumadores, incluso despus de ajustar por el ndice indicadoras del hbito tabquico permiten cuantificar estas diferencias de acuerdo de masa corporal y el consumo de alcohol. a la codificacin elegida. indicadoras deben controladas las diferencias en el En general, las variablesPor un lado, una vez tratarse conjuntamente para preservar su interpretacin. No obstante, en vista de que los niveles medios de colesterol HDL no ndice de masa corporal y la y ex fumadores, se media del colesterol HDL difieren en nunca fumadoresingesta de alcohol, lapodra eliminar del modelo la variable indicadora de los ex fumadores. En tal caso, el coeficiente asociado a la variable indicadora presenta una diferencia insignificante de b3 = 0,009 mmol/l entre representar el cambio de los fumadores actuales cambiara de interpretacin, pasando alos ex fumadores medio en el colesterol HDL entre fumadores actuales y no fumadores actuales (nueva y los nunca referencia Sin embargo, los fumadores actuales presentan una categora defumadores.donde se englobaran tanto los nunca como los ex fumadores). El test de homogeneidad permite contrastar si el nivel medio de la respuesta31 difiere significativamente en al menos 2 de las k categoras de una variable explicativa politmica. En el caso de que las categoras estn intrnsecamente ordenadas, como ocurre con las variables Tabla 11.7 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Anlisis de la varianza* Suma de cuadrados Regresin Error Total * 5,44 33,42 38,86 Grados de libertad 4 443 447 Varianza 1,36 0,075 Razn de varianzas 18,03

Coeficiente de determinacin R2 = 5,44/38,86 = 0,140. Test H0: j = 0 Estimacin Error estndar 0,099 0,0036 0,0006 0,034 0,034 IC al 95% (1,42; 1,81) ( 0,028; 0,014) (0,0018; 0,0042) ( 0,058; 0,075) ( 0,151; 0,019) t 16,31 5,79 5,03 0,26 2,53 Valor P < 0,001 < 0,001 < 0,001 0,80 0,012

Coeficientes de regresin

Constante IMC Alcohol Ex fumador Fumador actual


212 Pastor-Barriuso R.

1,61 0,021 0,0030 0,009 0,085

Variables explicativas politmicas

ordinales y las variables continuas categorizadas, cabra preguntarse adems si los niveles medios de la respuesta siguen algn patrn especfico a lo largo de las categoras. En particular, sera relevante contar con un test de tendencia que permitiera detectar la existencia de una componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categoras. Para ello, la variable explicativa politmica X debe tomar valores que preserven el orden de las categoras. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k segn el sujeto pertenezca a la primera, segunda o sucesivas categoras. En el caso de variables continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de tendencia central de cada categora (media o mediana) para preservar no slo el orden de las categoras, sino tambin la distancia entre las mismas. La variable politmica as codificada se incluye directamente en el modelo de regresin, de tal forma que el contraste de su coeficiente determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la respuesta al aumentar la categora de exposicin. Conviene resaltar que este test de tendencia no permite evaluar la idoneidad de la relacin lineal, sino nicamente la existencia de una componente lineal significativa a travs de las categoras, independientemente de cul sea la relacin subyacente. Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL no diferan significativamente en nunca fumadores y ex fumadores, ambas categoras se colapsaron en una nica categora de no fumadores actuales. Adems, como se dispone de informacin sobre el nmero de cigarrillos al da en 154 de los 172 fumadores actuales, se construy una nueva variable politmica que clasificaba a los sujetos en no fumadores actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20 cigarrillos/da (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles del estudio EURAMIC al ajustar una regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal, el consumo de alcohol y esta nueva variable explicativa politmica, donde los no fumadores actuales constituyen la categora de referencia. Tabla 11.8 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC), la ingesta de alcohol y las variables indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/da en los controles del estudio EURAMIC.
Anlisis de la varianza* Suma de cuadrados 4,70 31,59 36,29 Grados de libertad 5 424 429 Varianza 0,94 0,075 Razn de varianzas 12,62

Regresin Error Total *

Coeficiente de determinacin R2 = 4,70/36,29 = 0,130. Test H0: j = 0

Coeficientes de regresin Estimacin 1,59 0,020 0,0028 0,086 0,120 0,055 Error estndar 0,10 0,0037 0,0006 0,042 0,038 0,048 IC al 95% (1,40; 1,79) ( 0,027; 0,013) (0,0017; 0,0040) ( 0,168; 0,003) ( 0,193; 0,046) ( 0,149; 0,040) t 15,90 5,36 4,70 2,04 3,19 1,14 Valor P < 0,001 < 0,001 < 0,001 0,042 0,002 0,26

Constante IMC Alcohol Fumador 1-10 Fumador 11-20 Fumador > 20

Pastor-Barriuso R.

213

Regresin lineal mltiple

0,2 Diferencia en la media del colesterol HDL (mmol/l)

0,1

-0,1

-0,2

-0,3 0 10 20 Nmero de cigarrillos/da


Figura 11.4 Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/da respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las barras verticales representan los intervalos de confianza al 95% para estas diferencias.

30

40

cigarrillos/da, ya que la comparacin de la variabilidad explicada SSR1 = 4,70

por el modelo completo de la Tabla 11.8 y la variabilidad explicada = 4 El contraste parcial mltiple de las tres variables indicadoras H0: 3 SSR0==3,760 revela 5 = que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los por el modelo que excluye las tres variables indicadoras en 20 cigarrillos/da, ya no fumadores actuales y los fumadores de 1-10, 11-20 y > la misma muestra de que la comparacin de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla 430 y la variabilidad en un test estadstico 11.8 controles resulta explicada SSR0 = 3,76 por el modelo que excluye las tres variables indicadoras en la misma muestra de 430 controles resulta en un test estadstico F= (4,70 3,76) / 3 0,31 = = 4,22, 31,59 / 424 0,075

que corresponde a un valor P = P(F3,424 4,22) = 0,006. En comparacin con los no fumadores actualesun valor ndice de masa4,22) = 0,006. En comparacin con fumadores que corresponde a de igual P = P(F3,424 corporal y consumo de alcohol, los los de 1-10, 11-20 y > 20 cigarrillos/da presentan una disminucin en el nivel medio de colesterol HDL de b3 = de igual b4 = 0,120 y b5 = 0,055 consumo de alcohol, los Esta no fumadores actuales 0,086, ndice de masa corporal y mmol/l, respectivamente. tendencia decreciente en la media ajustada del colesterol HDL se representa en la Figura 11.4, donde el eje horizontal corresponde presentan una disminucin en eldiarios fumadores de 110, 1120 y > 20 cigarrillos/da al nmero medio de cigarrillos para cada categora (0 en el caso de no fumadores actuales). nivel medio de si esta HDL de 3 = -0,086, es significativa, se crea una Para contrastar colesteroltendencia bdecrecienteb4 = -0,120 y b5 = -0,055 mmol/l,variable politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio de respectivamente. de tendencia decreciente en la media ajustada del colesterol cigarrillos diariosEsta los sujetos no fumadores y fumadores de 1-10, 11-20 y > 20 cigarrillos/da, respectivamente. Esta variable politmica se incluye directamente en un HDL se representa mltiple junto con el ndice de masa corporal y la ingesta modelo de regresinen la Figura 11.4, donde el eje horizontal corresponde al de alcohol. El coeficiente asociado a la variable politmica y su error estndar se estiman en b3 = nmero y SE(b ) = 0,0012, de diarios para cada categora (0 = 3/SE(b de no 0,0030 medio 3de cigarrillos donde se obtiene un estadstico tenbel caso3) = 0,0030/0,0012 = 2,46 y un valor P = 2P(t426 2,46) 2F(2,46) = 0,014 bajo la distribucin t de fumadores actuales).
214 Pastor-Barriuso R.

Para contrastar si esta tendencia decreciente es significativa, se crea una variable politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio

[Tabla 11.8 aproximadamente aqu] [Figura 11.4 aproximadamente aqu]


Regresin polinomial

Student con n p 1 = 430 3 1 = 426 grados de libertad. As, puede concluirse que la 11.6 REGRESIN POLINOMIAL no slo difiere entre las categoras (P de homogeneidad media ajustada del colesterol HDL = 0,006), sino que tiende a decrecer significativamente conforme aumenta la categora de La exposicin (P demltiple permite explorar relaciones Figura 11.4 entre las variables regresin lineal tendencia = 0,014). No obstante, la no lineales muestra que la relacin subyacente podra no ser estrictamente lineal al presentar un leve repunte en la categora de fumadores de ms respuesta. El modelo explicativas y la variablede 20 cigarrillos/da. ms habitual para acomodar un efecto no

lineal de una variable explicativa continua X es la regresin polinomial de orden k, que 11.6 REGRESIN POLINOMIAL polinomios de orden superior al cuadrtico tienden adems a producir curvas con puntos La incorpora en el modelo los trminos polinomiales X2, , Xno lineales entre las variables regresin lineal mltiple permite explorar relaciones k adems del propio trmino de inflexin y otras formas extraas de difcil interpretacin en trminos explicativas y la variable respuesta. El modelo ms habitual para acomodar un efecto no lineal de lineal X, una variable explicativa continua X es la regresin polinomial de orden k, que incorpora en epidemiolgicos. Por ello, esta presentacin adems dellos modelos polinomiales de superior al cuadrtic polinomios X, el modelo los trminos polinomiales X 2, , X k se limita a propio trmino linealde orden

Y = 0 + incluyen 2 + trmino k + , de inflexin y otras formas extraas de d segundo orden o cuadrticos,que 1 x + 2 x un + k xlineal X y otro cuadrtico X2 de donde sin prdida de generalidad se omiten otras posibles variables explicativas. Estos modelos epidemiolgicos. Por la variable explicativa. La tendencia casos otras estos modelos cuadrticos ser una donde sin pueden de generalidad se omiten particulares de la regresin lineal mltiple cuyas polinomiales prdida considerarse comoresultante deposibles variables explicativas. Estos ello, esta presentac variables explicativas son distintas potencias de una misma variable bsica y, en consecuencia, parbola que, aunque pueden considerarse como casos particulares de laanteriormente para de la relacin, s losmodelos polinomialesno se amolda a cualquier forma subyacente segundo orden o cuadrticos, que inclu procedimientos de estimacin e inferencia son idnticos a los descritos regresin el modelo general de regresin. permite capturar las variables explicativas son distintas potencias de una misma la variable explicativa. La tendencia resu lineal mltiple cuyasdesviaciones ms frecuentes del modelo lineal, incluyendo En teora, los modelos polinomiales de orden k elevado permiten aproximar cualquier tipo 1.2 MEDIDAS DE obstante, si el DE TENDENCIA CENTRAL de tendencias montonasTENDENCIA CENTRALdisminuye progresivamente, as comomuy amolda a cua relacin curvilnea. No1.2 MEDIDAS nmero requerido de trminos polinomiales es no se cuya pendiente procedimientos de estimacin e inferencia son parbola que, aunque variable bsica y, en consecuencia, losaumenta o 1.2 puede ocasionar problemas de sobreajuste elevado, la regresin polinomial MEDIDAS DE TENDENCIA CENTRAL y dar lugar a 1.2Las medidas DEtendenciamedidasinforman acerca deLos MEDIDAS DEderepresentativoal ms represent MEDIDAS de U o los invertida tendencia estimaciones forma deTENDENCIA CENTRAL central informan acerca capturares eldesviaciones ms fre regresin. 1.2 polinomios de orden las valor cul es el valor msTENDENCIA CENTRAL curvas en inestables de de coeficientes de el modelo general de regresin. culsuperior permite idnticos a los descritosLasUcentral decon un cambio de direccin. anteriormente para cuadrtico tienden adems a producir curvasde tendencia central informan acerca de cul es el valor ms repre con puntos de inflexin y otras formas extraas de Las medidas difcilAunque los tendenciacuadrticos se ajustan mediante losestavalorestimadores limita a cuya pendiente au una epidemiolgicos. elevado medidas aproximar indican variable ello, mtodos estndarse central forma tendencia Las una determinada variable o,informan orden Porcul espermiten ms representativo estimadores indic tendencias de Lasdeinterpretacin en trminos determinadaforma kde o, dichoel estos de equivalente, estos los medidas de modelosde polinomiales de acerca equivalente,de presentacin montonas informan acerca d central dicho En teora, los modelos modelos polinomiales de segundo orden o cuadrticos, quedicho de forma equivalente, estos estimadores i incluyen un trmino lineal X y de una determinada variable o, 2 otro una determinadade laalrededorXexplicativa.ase agrupan unadatos observados. Lasmodelos de invertida co cuadrtico qu valor variable de qudatos La tendencia determinada tendenciamedidas muy regresin tipo de variable agrupan los estn equivalente, Lasresultantededeforma o, dicho de tendencia mltiple, las variables y X2 valor menudode estosrequeridoenvariable curvas de indican de alrededor deX relacinse o, dicho de forma observados. los correlacionadas estos de U o de U forma equi estimadores trminos cualquier curvilnea. No obstante, si el nmeromedidas cuadrticos ser una parbola alrededor de quse amolda a cualquier forma subyacente demedidas de tenden que, aunque no valor se agrupan los datos observados. Las la relacin, s de qu valor se agrupan lospara resumir lostanto para resumir loslineal, incluyendo datos observa las de la datos observados. alrededor modelovalorlos central desviaciones ms frecuentesmedidas qutendenciamodelos cuadrticos para central de la Aunque se de alrededor permite2 capturar provocando estimaciones resultados observados comoagrupan los Las del de de resultados > elevado, la regresin polinomial puede ocasionar problemaspara (tpicamente, rmuestra sirven tanto muestra sirven inestables de sus coeficientesde observados comose aj polinomiales esxxmuy0,95), tendencias montonas cuya pendiente de la muestra sirven tanto para resumir los resultados observados como aumenta o disminuye progresivamente, as como curvas central en forma de la muestrainvertida de inferencias acercaresultados observados como para correspondientes.y los e o de con un cambio de direccin.parmetros poblacionales realizar Para mitigar a estimaciones de colinealidad, central de la muestramltiple, regresin sirven central de U y darU sirven tantolos parmetros poblacionales correspondientes. A Loslas variables X A 2 re sobreajuste lugar realizar para inestables de loscoeficientes de primero la regresin. inferencias acercaproblemaresumir los de losconviene centrarregresin. tanto para resumir X este realizar inferencias acerca de los parmetros poblacionales correspondientes. A Aunque los modelos cuadrticos se ajustan mediante los mtodos estndar de regresin realizar inferencias en continuacin se incluir los principales poblacionales la su cuadrado acercaxx tendencia central de una realizar inferencias describenestn a menudoestimadores decorrespondientes. A dede>los parmetros muy los principales (tpicamente, X2 (tpicamente, mltiple, las variableseX ycontinuacin dicha variable centrada ytendencia centralelrmodelo parmetros poblac > 0,95), variable original Xacerca de despus se describen correlacionadasestimadores de la2una0,95), provocando es continuacin se describen los principales estimadores problema de la tendencia central d 35 provocando estimaciones inestables de sus coeficientes de regresin. Para mitigar este variable. continuacin despus dicha principales estimador los variable. conviene centrar primero la variable original tendencia central de una variable continuacin se describen los principales estimadores de la X e incluirse describen mitigar este problema de de colinealidad, de regresin, regresin. Para variable. centrada y su cuadrado en el modelo de regresin, variable. variable original X e incluir despus dich variable. Media aritmtica Media aritmtica 1.2.1 1.2.1 Y = 0 + 1 (x x ) + 2 (x x )2 + . 1.2.1 Media aritmtica de menos la La mediaaritmtica, cuadrados por x )Media aritmtica los de cada Las desviaciones respecto de lamedia por x y se define como la suma de cada unocorrelacionadas uno de los La media aritmtica, 1.2.1 estarnregresin, 1.2.1 Media aritmtica denotada x , sus denotada (x ,2 se define comode suma 2 respecto de la media x - x y sus cuadrados (x - 2 )2 estarn menos Las valores x y x La media aritmtica, denotada (x sern elevados la suma de que los desviaciones , ya que los cuadrados de las desviaciones por x ),xse define como tanto para cada uno de l para valoresaritmtica, denotamos valores altosmuestralesdenotada por el ,positivas) como la La nmero bajos (desviaciones por x , seSi denotam de X (desviaciones xmuestrales dividida por suma de cada observaciones realizadas. define com x nmero de observaciones realizadas. Si denotada x valores el media de uno de los La valoresaritmtica, dividida media se define Y = 0 + 1 (x 2 2 correlacionadas que de la valores muestraleslos cuadrados el al ajuste observaciones realizadas. Si deno negativas). El centradolos valores x y x explicativa X no afecta nmero deglobal del- modelo variable , ya que dividida por de las desviaciones (x x ) cuadrtico el tamao dividida por el nmero deobservado nicamente dei-simo, i = 1, porn, nmero de = 1, ... por y por xi resultante, se trata xi el el sujeto una reparametrizacin valores muestrales dividida sujeto por ni a la tendencia parablica el valor observaciones valor observado para el ..., valoresnmuestrales muestral n el tamao muestral y por para realizadas. Si denotamos el i-simo, i observ Las desviaciones respecto positivas) produciendo delsern elevados tanto para valores altos de X muestral ylineal -yxcuadrtico, como para el sujeto i-simo, i x modelo que reduce la correlacin tamao (desviaciones xxi el valor observado para as de la media = por n el entre el trmino por estimaciones ms muestralla media el valor observado params fcilmente muestral ...,por xi el valor observado estables depor xi vendra dadacontrastespor sujeto i-simo, i = 1, y n, sus coeficientes y por por el n el tamao interpretables. porla media vendra dada y n el tamao correlacionadas que los x x negativas). El centrado valores bajos (desviaciones la-media vendra dada por de la variable explicativa X no valores x y x2, ya Una vez ajustado el modelo cuadrtico, el primer paso es contrastar si el coeficiente 2 la media vendra dada por la media trmino cuadrtico es 0. Si este coeficiente+ ... difiere significativamente del valor asociado alvendra dada por x + x 2 + ... + x n x + x 2 no + xnn 1 1 n tanto afecta al ajuste global del modelo cuadrtico ni a la tendencia. parablica resultante, se para valores altos de . = 1 x = x i n sernxelevados... + x x = xi = 1 1 + x2 + n n n n i=1 1 n i =1 = . x xi = Pastor-Barriuso R. n 215 x1 + x 2 + x1 + x 2 + ... + x n 1 n n i =1 la correlacin entre= 1 n trata nicamente de una reparametrizacin del modelo que. reducevalores bajos (desviacionesxx = x negativ x el i x = xi = n n i =1 n i= n La media1 es la medida de utilizada central ms utilizada y de ms fcil La media es la medida de tendencia central mstendencia y de ms fcil trmino lineal y cuadrtico, produciendo es la medida de tendencia central sus utilizada del modelo cuadr afecta al ajuste La media as estimaciones ms estables de ms global y de ms fcil

alrededor de qu valor se agrupan los datos observados. Las medi alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados obse Regresin lineal mltiple central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parmetros poblacionales corres realizar inferencias acerca de los parmetros poblacionales correspondientes. A nulo, la inclusin del trmino cuadrtico no mejorar significativamente la capacidad predictiva continuacin se describen los y volver al modelo del modelo, de tal forma que podr eliminarse dicho trmino cuadrticoprincipales estimadores de la tenden continuacin se describen los principales estimadores de la tendencia central de una lineal en la variable explicativa X. Por el contrario, si el coeficiente del trmino cuadrtico 1.2 MEDIDAS DE TENDENCIA CENTRAL resulta significativo, el modelo cuadrtico variable. un mejor ajuste que el modelo lineal, presentar variable. debiendo mantener ambos trminos lineal y cuadrtico en el modelo. La interpretacin del Las sencilla como la del modelo lineal, acerca la pendiente de la modelo cuadrtico no es tanmedidas de tendencia central informan ya que de cul es el valor ms representat 1.2.1 Media aritmtica 1.2.1 Media aritmtica relacin vara a lo largo del rango de la variable explicativa. En un modelo cuadrtico con la de una determinadaLa media o, dicho de forma2 por , esdefine como la suma de variable aritmtica, + equivalente, decir, variable X centrada, la pendiente de la relacin viene dada por denotada(x x ); se estos estimadores indican 1 2 1 La media la pendiente en la media se define como la suma y cada uno de los corresponde a aritmtica, denotada por x ,de la variable explicativade 22 representa el cambio alrededor de una valores muestrales datos observados. Las es tanto de pendiente por cada incrementode qu valor se agrupanNo obstante, porinters no medidas de tendencia unidad en X. los dividida el el nmero de observaciones realiz valores muestrales dividida por el nmero representar grficamente la tendencia global interpretar los coeficientes individuales, sino de observaciones realizadas. Si denotamos central de resultante del modelo cuadrtico. la muestra sirventamao muestral y por xi el valor observado para el sujeto por n el tanto para resumir los resultados observados como para por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, realizar inferenciasla media vendra dada porpoblacionales correspondientes. A Ejemplo 11.11 En la Figura 10.10(b)acerca de anterior, el anlisis de los residuos de la del tema los parmetros la media vendra dada por del colesterol HDL sobre el ndice de masa corporal en los regresin lineal simple continuacin mostr indicios de una posible relacin de la tendencia central controles del estudio EURAMICse describen los principales estimadores cuadrtica + x + ... + x de una x entre 1 n 2 n . n ambas variables. Para contrastar formalmente esta tendencia, se x = x imodelo de ajust un = 1 1 + variable. x = 1 HDLxque x 2 + ... + x ntrmino lineal n iotro cuadrticon =1 . xi = regresin mltiple para el colesterol inclua un y n i =1 n del ndice de masa corporal, adems del consumo de alcohol y de la variable indicadora de los fumadores actuales (Tablaaritmtica media es la medidacorporal X1 y su cuadrado utilizada y de 1.2.1 Media 11.9). Como el ndice de masa de tendencia central ms La 2 presentaban una correlacin lineal casi perfecta de 0,995, esta X La media es la medida de tendencia central ms utilizada y de ms fcil variable fue 1 previamente centrada media aritmtica, denotada por Corresponde al 2 antessuma de cada uno de los media muestral se define como la de gravedad La alrededor de su interpretacin. x 1, = 26,2 kg/m centrode incluir en de los datos el modelo losCorresponde al centro de gravedad de (X1 datos de, la muestra. Su trminos lineal X1 26,2 y cuadrtico los 26,2)2 cuya correlacin era interpretacin. nicamente de 0,297. valores muestrales principalpor el nmero queobservaciones realizadas. Si denotamos dividida limitacin es de est muy influenciada por los valores principal limitacin es que est muy influenciada por los trmino extremos y,del este de El contraste para la nulidad del coeficiente asociado al valores cuadrtico en ndice por n el valor P muestralpuede xi el valor observado de la el sujeto i-simo, i = la distn caso, y por no ser un el modelo para tendencia central de 1, ..., masa corporal resulta en un tamao = 0,021, lo que indica quefiel reflejo cuadrtico mejora caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. la media vendra dada por Ejemplo 1.4 En este y HDL sucesivos Tabla 11.9 Resultados de la regresin mltiple del colesterol en los sobre los ejemplos sobre estim Ejemplo 1.4 cuadrtico los sucesivos ejemplos sobre estimadores muestrales, trminos lineal yEn este y en del ndice de masa corporal (IMC), el consumo de se x + x 2 + ... + x n 1 n utilizarn x i en el grupo control HDL alcohol y la variable indicadora de fumadores actualesvalores del colesterol del obtenidos en los 1 . x = los = 1 n i =1 en los 10 primeros sujetos del n utilizarn los valores del colesterol HDL obtenidos estudio EURAMIC. estudio European Study on Antioxidants, Myocardial Infar Anlisis de la varianza* estudio European Study on Antioxidants, Myocardial Infarction and Cancerde ms fcil La media es la Grados de tendencia central ms Razn de y of medida de utilizada Suma de the un estudio cuadrados libertad Breast (EURAMIC), varianzas multicntrico de casos Varianza the Breast (EURAMIC), un Corresponde al centro de gravedad de los datos de la muestra. Su interpretacin. estudio multicntrico de casos y controles realizado Regresin 5,84 4 1,46 19,57 entre 1991 y 1992 en ocho pases Europeos e Israel para eva Error 33,02 443 0,075 entre 1991 y 1992 en ocho pases Europeos e Israelinfluenciada porefecto de losextremos y, en este principal limitacin es que est muy para evaluar el los valores
Total * 38,86 447 Coeficiente de determinacin R = 5,84/38,86 = 0,150.
2

Coeficientes de regresin

caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. 5


Test H0: j = 0

Constante IMC 26,2 (IMC 26,2)2 Alcohol Fumador actual

Estimacin Error estndar IC al 95% t Valor P 1,05 0,020 (1,01; 1,09) 52,62 < 0,001 utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos d 0,024 0,0038 ( 0,031; 0,016) 6,25 < 0,001 0,0016estudio 0,0007 2,32 0,021 European (0,0002;on Antioxidants, Myocardial Infarction and Cancer o Study 0,0029) 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001 0,098 the Breast (EURAMIC), un estudio multicntrico0,001 0,027 ( 0,150; 0,045) 3,63 < de casos y controles realiza

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales

216

Pastor-Barriuso R.

entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo

Regresin polinomial

2,25

alrededor de su media muestral x1 = 26,2 kg/m2 antes de incluir en el modelo los


2

trminos lineal X1 - 26,2 y cuadrtico (X1 - 26,2)2, cuya correlacin era nicamente de 0,297. 1,5 El contraste para la nulidad del coeficiente asociado al trmino cuadrtico del 1.2 MEDIDAS DE TENDENCIA CENTRAL ndice de masa corporal resulta en un valor P = 0,021, lo que indica que el modelo 1
Colesterol HDL (mmol/l)

Las medidas de modelo lineal. En consecuencia, cuadrtico mejora significativamente el ajuste del tendencia central informan acerca de cul es el valor m

la pendiente de la relacin entre elde una determinada variablede masa corporal equivalente, estos estim colesterol HDL y el ndice o, dicho de forma 0,5

alrededor de qu valor se agrupan los datos observados. Las medidas d vara segn el nivel de 0,25 EDIDAS DE 1.2 MEDIDAS CENTRAL exposicin, siendo b1 = -0,024 la estimacin de la TENDENCIA DE TENDENCIA CENTRAL

central de del ndice de masa corporal y 2b = pendiente en el20 nivel medio x1 = 26,2 kg/m2la muestra sirven tanto para resumir los resultados observad 2 28 edidas de tendencia centralde tendencia central informan acercamscul es el valor ms representativo36 Las medidas informan acerca de cul24 el valor de representativo 32 es realizarde masa corporal (kg/m) los parmetros poblacionales correspond Indice inferencias acerca de 2 a determinada de una 20,0016 = devariablecambio de pendiente por cada indicanestimadores indican Figura 11.5 variable o, dicho 0,0032 elequivalente, estos estimadores incremento de 1 kg/m en el determinada forma o, dicho de forma equivalente, estos Figura 11.5 Relacin lineal (lnea fina) y cuadrtica (curva gruesa) entre el ndice de masa corporal y el continuacin se describen los principales estimadores de la tendencia colesterol HDL obtenidas de modelos de regresin mltiple ajustados por consumo de alcohol y hbito tabndice qu datos observados. Las medidas de tendencia de dor de qu valor se agrupan losvalorcorporal. Nolos datos observados. Las medidas de tendencia alrededor de en elmasa se agrupan obstante, es ms informativo representar la tendencia quico actual grupo control del estudio EURAMIC. variable. l de la muestra sirvende la muestra sirvenlos resultados observados como ello, se calculan los para centralglobal estimada a partir delpara resumir los resultados observados como valores tanto para resumir tanto modelo cuadrtico. Para para

significativamente el ajuste predichos lineal. En consecuencia, la pendiente de la relacin del modelo Media aritmtica 1.2.1 ar inferencias realizarde loseldel colesterol HDLparmetros por el modelo cuadrtico para losA de exposicin, acerca mediosparmetros poblacionales correspondientes. Acorrespondientes. distintos inferencias acerca de los entre colesterol HDL y el ndice depoblacionales vara segn el nivel masa corporal 2 siendo b = 0,024 la estimacinLa media aritmtica, denotada constantes define como la suma de cada se el masa corporal, manteniendo por observados los principales de la pendiente en el nivel medio x 1, = 26,2 kg/m del uacin se describen valoresse 1describen x1 del ndice = estimadores de la tendencia centralpendiente por cada continuacin de masa corporal y de la de20,0016 = 0,0032 el cambio de de una los principales estimadores 2b tendencia central de una ndice 2 2 incremento de 1 kg/mla en el ndice de masa corporal. Noactuales enes ms de observaciones realizadas valores muestrales dividida por el sus consumo de alcohol y variable indicadora de fumadores obstante,nmero informativo le. variable. representar la tendencia global estimada a partir del modelo cuadrtico. Para ello, se calculan los valores = 16,5 g/da y n el HDL predichos por el xi el valor observado para por x = 172/448 = 0,38 y por modelo respectivas medias xmedios del colesteroltamao muestral(proporcin decuadrtico para el sujeto i-s 2 3 los distintos valores observados x1 del ndice de masa corporal, manteniendo constantes Media aritmtica Media aritmtica 1.2.1 el consumo de alcohol y la variable media vendra fumadores actuales en sus respectivas la indicadora de dada por fumadores actuales), = 16,5 g/da y x suma de cada uno de (proporcin de de los = define como la suma medias x 2, se denotada por la 3, se 172/448 = 0,38 los de cada uno fumadores actuales), dia aritmtica, denotada por La media aritmtica, define como

x + x 2 + ... + x n 1 n 2 y (x1 16,5; 0,38) = 1,05 0,024(x1 Si denotamos s muestrales dividida muestrales dividida por el nmerode observaciones+ 0,0016(x1 26,2) x i = 1 valores por el nmero; de observaciones realizadas. 26,2) realizadas. = denotamos . x Si n i =1 n + 0,003016,5 0,0980,38 el tamao muestral y por xi el valor observado ipara el sujeto i-simo, i = 1, ..., n, i-simo, i = 1, ..., n, por n el tamao muestral y por x el valor observado para el sujeto = 1,06 0,024(x1 es la medida de x1 26,2)2 .central ms utilizada y de ms La media 26,2) + 0,0016( tendencia dia vendra dada media vendra dada por la por Notar que la eleccin de los valores fijos de las otras variables explicativas gravedad de los datos de la interpretacin. Corresponde al centro de es arbitraria, ya que slo afectan a la constante de la relacin cuadrtica. En la prctica, es habitual fijar n x + 1 n 1 valores fijos 2 + ... + x n Notar que la eleccinxde+los + x n en sus+medias muestrales paraexplicativas es absolutos las otras las restantesi variables2 de ... x i. = x1 xdelimitacinvariables obtenerinfluenciada por los valores extre . es que est muy valores x = x = 1 x = ajuste principal n i =1 n de la variable respuestan n i =1 representativos de la poblacin a estudio. La tendencia cuadrtica arbitraria, ya queel ndice de a la constante deylael colesterol HDL se representa en la relacin cuadrtica. la estimada entre slo afectan masa corporal no ser un fiel reflejo de Entendencia central de la distribuc caso, puede la Figura junto lineal utilizada y de la Tabla media es la medida media es11.5,centralde tendencia centralmsobtenidaajustemismo fcil La de tendenciahabitualcon la relacin devariables de del de ms modelo muestrales 11.9 prctica, la medida mscuadrticoy del ndice de masa corporal.medias es el trmino utilizada fijar las restantes msfcil en sus En comparacin con la excluyendo tendencia lineal, el al centro estima una En este y en ms retacin. Corresponde al centro de gravedad de cuadrtico Ejemplo 1.4 disminucin los sucesivos ejemplos sobre estimado interpretacin. Correspondemodelo losde gravedadrespuesta representativos pronunciada de la para obtener valores absolutos dedatos de la muestra.datos de la muestra. Su la variable de los Su de la

utilizarn en este HDL pal limitacinprincipal limitacin es que est muy influenciada por loslos valores del colesterol Pastor-Barriuso R. 217 los 10 pri es que est muy influenciada por los valores extremos y, valores extremos y, en este obtenidos en 38 estudio European Study on Antioxidants, Myocardial Infarction puede no ser un fielpuede no ser tendencia central la tendencia central de la distribucin. caso, reflejo de la un fiel reflejo de de la distribucin.

Regresin lineal mltiple

media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atena progresivamente al aumentar los niveles del ndice de masa corporal. Aunque los modelos cuadrticos permiten detectar efectos no lineales de las variables explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada por una o muy pocas observaciones con valores extremos de la variable explicativa. En este sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia cuadrtica, o incluso la propia idoneidad del modelo cuadrtico, al excluir del anlisis las observaciones ms influyentes (vase apartado de anlisis diagnstico). 11.7 CONFUSIN E INTERACCIN EN REGRESIN LINEAL

La regresin lineal mltiple puede utilizarse con dos propsitos claramente diferenciados. Por un lado, los modelos de regresin pueden emplearse para predecir el valor de la variable respuesta en funcin de los valores de las variables explicativas. En tal caso, el inters se centra en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a los datos observados (elevado coeficiente de determinacin) y prediga con cierta precisin la respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son particularmente tiles para este propsito, ya que permiten seleccionar las variables explicativas que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos de regresin pueden utilizarse para estudiar la relacin de una o varias variables explicativas de inters con la variable respuesta, controlando por otras variables explicativas o covariables que pudieran afectar a dicha relacin. En este caso, no es necesario que el modelo incluya todos los determinantes de la variable respuesta, sino nicamente aquellos que influyan en la asociacin objeto de estudio; es decir, aquellas covariables cuya inclusin afecte a las estimaciones de los coeficientes de regresin asociados a las variables explicativas de inters. La confusin y la interaccin son dos conceptos epidemiolgicos estrechamente relacionados con este segundo propsito. A continuacin se presenta una descripcin general de ambos conceptos y su tratamiento dentro de los modelos de regresin lineal mltiple. 11.7.1 Control de la confusin en regresin lineal

La confusin se define como una distorsin en el efecto estimado de una variable explicativa sobre la variable respuesta debido a la interposicin de otra covariable, denominada factor de confusin o simplemente confusor, cuyo efecto se confunde o se mezcla con el verdadero efecto de la variable explicativa de inters. La distorsin inducida por el factor de confusin puede ser grande y dar lugar tanto a una sobreestimacin como a una infraestimacin del efecto subyacente, dependiendo de la direccin de las asociaciones del factor de confusin con las variables explicativa y respuesta. El factor de confusin puede producir incluso un cambio en la direccin del efecto observado. Para que una covariable X2 pueda confundir la asociacin entre la variable explicativa de inters X1 y la variable respuesta Y en un modelo de regresin lineal debe cumplir tres condiciones necesarias: y El factor de confusin X2 debe estar linealmente relacionado con la variable explicativa X1. Si las variables X1 y X2 estn incorrelacionadas, sus efectos sobre la variable respuesta Y no podrn confundirse o mezclarse, de tal forma que la estimacin del coeficiente asociado a la variable explicativa de inters X1 no se ver afectada por la inclusin de la covariable
218 Pastor-Barriuso R.

El factor de confusin X2 debe estar asociado con la variable respuesta Y variables X1 y X2 estn correlacionadas, el efecto estimado de la variable

independientemente de su asociacin con la variable explicativa X1. Aunque las explicativa X1 slo podr estar confundido por la covariable X2 cuando sta tenga variables X1 y X estn correlacionadas, el efecto estimado de la variable un efecto independiente sobre2 ya se comprob formalmente en el Apartado X2 en el modelo. Este requisitola variable respuesta Y. Si la covariable X2 se 11.3.1 y se ilustr grficamente en la X slo11.1(a). explicativa Figura podr estar confundido por la covariable X2 cuando sta tenga 1 relaciona con la respuesta Y nicamente a travs de su asociacin con la variable y El factor de confusin X2 debe estar asociado con la variable respuesta Y independientemente un con independiente sobre la X . Aunque las variables X y X2 X2 se de su asociacin efectola variable explicativa variable respuesta Y. Si la covariableestn explicativa X1, puede probarse que r = ryx1 rx1x ,1 de donde se deriva que las1 correlacionadas, el efecto estimado de yx2 variable2explicativa X1 slo podr estar confundido la relaciona con la respuesta efecto independiente de su asociacin con la variable por la covariable X2 cuando sta tenga unY nicamente a travs sobre la variable respuesta estimaciones de los se relaciona con la respuesta Y nicamente a travs de su asociacin Y. Si la covariable X2coeficientes de regresin mltiple asociados a las variables X1 con la variableexplicativa X11,puede probarse que ryx2 = ryx1 rx1x2,,de donde se deriva que las explicativa X , puede probarse que de donde se deriva que las y X2 se reducen a. estimaciones de los coeficientes de regresin mltiple asociados a las variables X1 y X2 se reducen a estimaciones de los coeficientes de regresin mltiple asociados a las variables X

Confusin e interaccin en regresin lineal

ryx1 ryx2 rx1x2 s y ryx1 (1 rx2x2 ) s y sy 1 bse reducen 2a. = = ryx1 , 1= y X2 1 rx1x2 s x1 1 rx2x2 s x1 s x1 1 b2 =

y El factor de confusin estimado para laun paso intermedio en1 la relacin de la variable mientras que el efecto X2 no debe ser variable explicativa X permanecer explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores, por As, la covariable puede comprobarse con los datos disponibles y requiere este requisito epidemiolgico noX2 no se relacionar con la respuesta al controlar41 X1, de informacin externa o juicio experto sobre los mecanismos subyacentes que relacionan mientras que el respuesta. Por ejemplo, el ndice de masa X1 permanecer la variable explicativa con la efecto estimado para la variable explicativacorporal podra considerarse a simple vista un potencial factor de confusin para la asociacin entre la actividad fsica y el colesterol HDL, ya que se relaciona de forma independiente con ambas variables. Sin embargo, el ndice de masa corporal no es un factor extrao que distorsiona dicha asociacin, sino ms bien un factor intermedio, ya que la actividad fsica reduce el ndice de masa corporal, que a su vez provoca un aumento del colesterol HDL. En general, los modelos de regresin no deben incluir factores intermedios para la asociacin objeto de estudio, a no ser que se pretenda estimar el efecto que no est mediado por dichos factores. La seleccin de los potenciales factores de confusin debe limitarse, por tanto, a las covariables que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de forma independiente con las variables explicativa y respuesta y que no constituyan un paso intermedio en la relacin entre ambas variables. No obstante, es posible que una covariable cumpla los tres requisitos y no sea un factor de confusin, en el sentido de no introducir un sesgo en la asociacin a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos potenciales sesgos de confusin se compensan al actuar en direcciones opuestas. En la prctica, para determinar si una o varias covariables son en realidad factores de confusin, se compara la estimacin cruda de la asociacin objeto de estudio con la estimacin ajustada por los potenciales factores de confusin. Como se vio en el Apartado 11.2, estas estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresin mltiple que incorporen los potenciales factores de confusin adems de la variable explicativa de inters. As, los factores de confusin vendrn determinados por aquellas covariables cuya inclusin en el modelo produzca un cambio substancial en la estimacin del coeficiente de regresin asociado a la variable explicativa de inters. La comparacin entre los coeficientes
Pastor-Barriuso R. 219

As, la covariable X2 no se relacionar con la respuesta al controlar por X1, mientras que el al efecto estimado para la variable explicativayxXr1x1permanecer1xinalterable s y ajustar por X2, r r 1 r rx 2 r r s se relacionaryxcon 2de x2 y = yx controlar por As, la covariable X2 no X no ser = factorla respuesta al1para la yx1 x1x2 X1, =entre X e Y. b2 un 2 confusin 1 r 2 asociacin 0. con lo que la covariable 2 1 1 r s s
x1 x2 x2 x1 x2 x2

ryx2 ryx1 rx1 x2 s y ryx1 rx1x2 ryx1 rx1x2 s y 2 ryx1 = ryx2 rx1x2 s2y ryx1 (1 =x10.) s y r x sy = sx 2 2 = ryx1 , 1 rx2xb1 = s x2 2 1 rx1 x2 1 2 1 rx1x2 s x1 1 2 rx1 x2 s x1 s x1

41

Regresin lineal mltiple

asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos para ser potenciales factores de confusin.

La Tabla 11.10 muestra las estimaciones factores de confusin al se realiza estimados con y sin ajuste por los potencialesdel coeficiente asociadono ndice de mediante pruebas estadsticas, ya que la significacin estadstica no depende nicamente de la magnitud masa sino tambin del tamao muestral (vase Apartado 5.4.2). Aunque el criterio del cambio, corporal en distintos modelos de regresin lineal, a saber, un primer modelo vara segn el mbito de aplicacin, en general se considera necesario controlar la confusin cuando sin covariables de ajuste, ajustada en ms del 10%. la estimacin cruda difiere de laun segundo modelo ajustado por el consumo de alcohol, asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos un tercer modelo ajustado por el hbito tabquico actual y un ltimo modelo Ejemplo 11.12 En los ejemplos anteriores para ser potenciales factores de confusin. se han considerado otros determinantes del colesterol HDL distintos del ndice de masa corporal, pero no se ha prestado especial ajustado atencin por ambas covariables. Todos los modelos se obtuvieron a partir de la La Tabla a la confusin que estimaciones del coeficiente asociado al ndiceentre el ndice 11.10 muestra las podran inducir estos factores en la asociacin de de masa corporal y el colesterol HDL. La edad y el estatus socioeconmico no mostraron misma muestra de 448 controles del estudio colesterol con (Tabla 11.4), un efecto independiente sobre los niveles deEURAMICHDLinformacin por lo masa corporal en distintos modelos de regresin lineal, a saber, un primer modeloque no cumplen una de las condiciones necesarias para ser factores de confusin. Sin embargo, completa de todas las variables. Tomando como referencia el modelo el consumo de de ajuste, un segundo modelo ajustado por el consumoajustado por sin covariables alcohol y el hbito tabquico actual s se asociaron con el colesterol HDL de alcohol, independientemente del ndice de masa corporal (Tablas 11.7, 11.8 y 11.9). Adems, el ambas y el tabaco el cambio relativo que se produce en el coeficiente estimado alcoholcovariables, son factores hbito tabquico actual y la ltimo modelo un tercer modelo ajustado por elexternos que no median en un relacin del ndice de masa corporal con el colesterol HDL. Si ambas covariables se asociaran tambin con el ndice del ndice de masa verificaran los el consumo de alcohol es de masa corporal,corporal al excluir tres modelos se obtuvieron a partir de la ajustado por ambas covariables. Todos los requisitos para ser potenciales factores de confusin. b1 0,0225 misma muestra de 448 controles|3del estudiodel coeficiente asociado al ndice de masa La Tabla 11.10 muestra las estimaciones EURAMIC con informacin = = 1,08; corporal en distintos modelos de|2regresin lineal, a saber, un primer modelo sin covariables b1 ,3 0,0209 completa de todas las variables. ajustado por el consumo de modelo ajustado por de ajuste, un segundo modelo Tomando como referencia el alcohol, un tercer modelo ajustado por el hbito tabquico actual y un ltimo modelo ajustado por ambas covariables. es decir, modelos el cambio relativo que tabquico actual, las diferencias en el ambas losuna vez tenido en cuenta partir dese produce en el coeficiente estimado estudio Todos covariables,se obtuvieron a el hbitola misma muestra de 448 controles del EURAMIC con informacin completa de todas las variables. Tomando como referencia consumo ajustado por ambas covariables, el cambio relativo delmodelodealcohol provocan excluir el consumo de alcohol es - que se produce en el el ndicede masa corporal al una sobreestimacin del 100(1,08 1) = 8% en la coeficiente estimado del ndice de masa corporal al excluir el consumo de alcohol es asociacin inversa del ndice de masa corporal con el colesterol HDL. Como se b1|3 0,0225 = 1,08; = b1| 3 0,0209 apunt en el Ejemplo 11.2, esto2,es debido a que una pequea parte de la reduccin
es decir, una vez tenido enlos sujetos con mayor ndice de masadiferencias en el consumo del colesterol HDL entre cuenta el hbito tabquico actual, las corporal se debe de alcohol provocan una sobreestimacin del 100(1,08 1) = las en la asociacin es decir, una vez tenido en cuenta el hbito tabquico actual, 8% diferencias en el inversa delrealidad a su menor consumo el colesterolPor otra parte,se apunt en el Ejemplo 11.2, en ndice de masa corporal con de alcohol. HDL. Como si se excluye la consumo de alcohol provocan una sobreestimacin del 100(1,08 - 1) = 8% en laentre los esto es debido a que una pequea parte de la reduccin del colesterol HDL sujetos con mayor ndice de masa corporal se debe en realidad a es menor consumo de variable indicadora de los fumadores actuales, el cambio relativo su asociacin inversa del ndiceexcluye la variablecon el colesterol HDL. Como se alcohol. Por otra parte, si se de masa corporal indicadora de los fumadores actuales, el cambio relativo es el hbito tabquico no11.2, esto1|es debido a que una pequea parteel grupo control b con ndice apunt en el Ejemplo se asocia 2 el 0,0206 de masa corporal en de la reduccin = 0,99; = b1|2,3 0,0209 del estudio EURAMIC (la media delcon mayormasa corporal escorporal se 2debe del colesterol HDL entre los sujetos ndice de ndice de masa 26,3 kg/m en los esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito tabquico no realidad introduce kg/m2 en los fumadoresPor otra parte, si se excluye excluyenestudio esto es, una y controladas las de ningn actuales). Por alcohol, hbito actual no avez menor consumodiferencias sesgo en la asociacinelobjeto en fumadoressu 26,1 virtualmente alcohol.en la ingesta de ltimo, si se la de (infraestimacin del 100(0,99 1) = 1%). Esto es consecuencia de que el hbito tabquico simultneamenteel ndice de masa corporal en el grupo control del esen el EURAMIC (la tabquico actual ambas covariables actuales, el cambio en la asociacin no se asocia con no introduce virtualmente ningn cambio relativo variable indicadora de los fumadoresdel modelo, el sesgo relativo estudio objeto media del ndice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los coeficiente(infraestimacin del 100(0,99corporalsimultneamente ambas covariables del de estudio estimado Por ltimo, masa - 1) = es fumadores actuales). del ndice desi se excluyen-1%). Esto es consecuencia de que b1 0,0206 modelo, el cambio relativo en el|2coeficiente estimado del ndice de masa corporal es = = 0,99; 44 b1|2,3 0,0209 b1 0,0222 = = 1,06. b1|2,3 0,0209 esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito
220 Pastor-Barriuso R.

Notar que actual no introduce virtualmente ningn sesgo en la asociacin objeto tabquico esta sobreestimacin del 6% es resultado de la combinacin de los sesgos inducidos de forma independiente-por = -1%). Estode alcohol y el hbito de estudio (infraestimacin del 100(0,99 1) el consumo es consecuencia de que

Confusin e interaccin en regresin lineal

Tabla 11.10 Estimacin de la relacin del ndice de masa corporal (IMC) con el colesterol HDL a partir de diferentes modelos de regresin lineal mltiple ajustados por distintas combinaciones del consumo de alcohol y el hbito tabquico actual en el grupo control del estudio EURAMIC.
Coeficiente asociado al IMC Covariable de ajuste Ninguna Alcohol Fumador actual Alcohol, fumador actual Estimacin 0,0222 0,0206 0,0225 0,0209 Error estndar 0,0037 0,0036 0,0037 0,0036 IC al 95% ( 0,0295; 0,0149) ( 0,0278; 0,0135) ( 0,0297; 0,0152) ( 0,0279; 0,0138)

Notar que esta sobreestimacin del 6% es resultado de la combinacin de los sesgos inducidos de forma independiente por el consumo de alcohol y el hbito tabquico. Si se adoptara el criterio estndar del 10%, se concluira que el consumo de alcohol y el hbito tabquico no son factores de confusin importantes para la asociacin entre el ndice de masa corporal y el colesterol HDL en los controles del estudio EURAMIC. No obstante, a pesar de no cumplir este criterio cuantitativo, se podra decidir ajustar por ambas covariables por razones de credibilidad, ya que el alcohol y el tabaco son determinantes conocidos del colesterol HDL y cualquier estudio sobre este tpico generara desconfianza si no incluyera estas variables en el anlisis. La confusin es un sesgo introducido por un factor externo en la asociacin objeto de estudio que debe prevenirse en el diseo o controlarse en el anlisis de los datos. En este sentido, la regresin lineal mltiple es una herramienta til para controlar la confusin en el anlisis, ya que facilita estimaciones ajustadas por las restantes variables explicativas incluidas en el modelo. No obstante, la capacidad de ajuste de los modelos de regresin est condicionada por los siguientes factores: y La disponibilidad de informacin sobre los potenciales factores de confusin. Obviamente, no se podr controlar en el anlisis ningn factor de confusin que no se haya medido previamente. y El efecto conjunto de la variable explicativa de inters y de los factores de confusin. La regresin lineal mltiple asume que los efectos conjuntos son aditivos, de tal forma que si esta asuncin no se cumple, la estimacin del coeficiente de regresin asociado a la variable explicativa de inters puede estar sesgada. y Los errores de medida y la especificacin de los factores de confusin. Si los factores de confusin estn medidos con un error considerable, o si su efecto sobre la variable respuesta se modela de forma inadecuada (por ejemplo, usando trminos lineales para relaciones subyacentes curvilneas), el ajuste no ser completo, pudiendo quedar una apreciable confusin residual. 11.7.2 Evaluacin de la interaccin en regresin lineal

La interaccin o modificacin de efecto se refiere al cambio en la magnitud de la asociacin entre la variable explicativa de inters y la variable respuesta a diferentes niveles de otra variable, que se denomina modificador de efecto. A diferencia de la confusin, que es un sesgo
Pastor-Barriuso R. 221

Regresin lineal mltiple

la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de confusin al referirse a sujetos con idntico valor de la

covariable. Por el contrario, cuando no existe interaccin, el caracterstica inherente a corregir en la estimacin del efecto, la interaccin es una efecto se asume igual en de la asociacin a estudio, que debe describirse mediante estimaciones especficas del efecto de la todos los niveles de la covariable distintos niveles con obtener una nica estimacin variable explicativa de inters en los y basta entonces del modificador de efecto.
La confusin y la interaccin son fenmenos diferentes que pueden o no ocurrir para todos los sujetos, que s podra estar confundida por diferencias en la distribucin simultneamente. No obstante, cuando existe evidencia de interaccin con una determinada covariable, la valoracin de la confusin inducida por dicha covariable es irrelevante. En de la covariable. Por ello, en la prctica slo tiene sentido controlar la confusin cuando presencia de interaccin, la magnitud del efecto vara segn el nivel de la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de se ha descartado previamente la presencia de interaccin. confusin al referirse a sujetos con idntico valor de la covariable. Por el contrario, cuando no existe interaccin, el efecto se asume igual en todos los niveles de la covariable y basta entonces Los efectos independientes de una variable explicativa de inters X y otra covariable con obtener una nica estimacin para todos los sujetos, que s podra 1 estar confundida por diferencias en la distribucin de la covariable. Por ello, en la prctica slo tiene sentido controlar X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal la confusin cuando se ha descartado previamente la presencia de interaccin. Los efectos independientes de una variable explicativa de inters X1 y otra covariable X2 mltiple sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal mltiple

Y = 0 + 1 x1 + 2 x2 + ,
que incluye distintos trminos para cada variable explicativa. Bajo este modelo, la relacin entre que incluye distintos trminos para cada variable explicativa. Bajo este modelo, ( X1 e Y para un determinado valor fijo c2 de la covariable X2 viene dada por E(Y|x1, c2) =la 0 + 2c2) + 1x1. As, este modelo asume que no existe interaccin entre X1 y X2 ya que el cambio esperado relacin entre X1 e Y de una determinado valor fijo igual a covariable X2 viene dada en Y por cada incrementopara un unidad en X1 es siempre c2 de la1, independientemente del nivel de X2. De hecho, los cambios en el valor de la covariable X2 slo afectan a la constante de la recta por E(Y|x , c ) sobre X1 pero 1 1 As, este modelo asume que no existe interaccin de regresin 1de 2Y = (0 + ,2c2) + noxa. su pendiente. Esta ausencia de interaccin se representa grficamente en la Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas entre X1 y X2 ya que el distintos valores en Y por crculos) de una de una unidad en X1 de igual pendiente para los cambio esperado(puntos y cada incrementocovariable dicotmica X2. En regresin lineal mltiple, la forma ms sencilla de modelar la interaccin entre la variable es siempre igual a , independientemente del nivel de X2. De hecho, los cambios en el explicativa de inters X1 y la covariable X2 consiste en aadir al modelo un nuevo trmino con 1 el producto de ambas variables, valor de la covariable X2 slo afectan a la constante de la recta de regresin de Y sobre Y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + . X1, pero no a su pendiente. Esta ausencia de interaccin se representa grficamente en la

Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas de igual principales para las variables X1 y X2. Bajo este modelo extendido con el trmino pendiente para los distintos valores (puntos y crculos) de una covariable dicotmica X2. producto, la recta de regresin de Y sobre X1 para un determinado valor fijo c2 de la y [Figura 11.6 aproximadamente aqu] covariable X2 viene dada por E(Y|x1, c2) = (0 + 2c2) + (1 + 3c2)x1. As, el nuevo modelo contempla la posibilidadla forma ms sencilla X1 y X2 ya que interaccinesperado En regresin lineal mltiple, de interaccin entre de modelar la el cambio entre la en Y por explicativa de inters X1 unidad en X1 es X2 consiste en3aadir al modelodel de variable cada incremento x1 una y la covariable igual a 1 + c2, que depende un x1
(a) (b) nuevo trmino con que el coeficiente 3 variables, nivel de X2 siempreel producto de ambas del trmino producto sea distinto de 0. La

Figura 11.6 Rectas de regresin de la variable respuesta Y sobre la variable explicativa X1 para distintos 47 presencia de interaccin se ilustra en la Figura X2 que no interacciona con de regresin de valores (puntos y crculos) de una covariable dicotmica 11.6(b), donde las rectasX1 (panel a) y que interacciona con X1 (panel b).

Y sobre X1 presentan distintas pendientes para los dos valores (puntos y crculos) de una Figura 11.6 X2.

222

covariable Pastor-Barriuso R. dicotmica

A diferencia de la confusin, la interaccin s se evala estadsticamente mediante el

Confusin e interaccin en regresin lineal

2 significativamente en los+ b3 c2 ) = var(b1 ) + cX2var(bausencia de interaccin, ha de eliminarse el var(b1 distintos niveles de 2 . En 3 ) + 2c2 cov(b1 , b ) insesgado de la y volver al modelo con los trminos principales3 de ambas variables, que pendiente especfica subyacente, trmino producto permite estimar el efecto global = X(vajustado 33 + 2c2 v13 ), el contrario, si el coeficiente 3 del de 2 1 11 + c 2 v por X2. Por 2 trmino producto resulta significativo, el E(b1 ) +de X1 )c2 = 1 + 3 c2 , E(b1 + b3 c2 ) = efecto E(b3 diferir significativamente segn el nivel de X2 b c )xconsecuencia, se tendr una interaccin significativa por cada incremento de una + y, en 1, de tal forma que el cambio en el nivel medio de Y entre ambas variables. Aunque 3 2 que depende de de los coeficientes b3 modelo con su covarianza ya que, como se las estimacioneslas varianzas de b1 ydel y tambin de el trmino producto no tienen en general cuya varianza viene dada por (vase Apartado 3.4) unaunidad ende tal forma que el cambio en c .nivel combinacin constituye un estimador de la + interpretacin estima mediante combinarse para obtener estimaciones especificas b3c2)x1, X se directa, pueden b + b el Esta medio de Y por cada incremento de una 1 1 3 2 muestra de X con la variable tema, las estimaciones de niveles de X2. de regresin relacin en el1Apndice de esterespuesta Y en los distintoslos coeficientes Para un determinado 2 valor fijo cen X1 se estima 1mediante=bvar(b3cdeEsta combinacin constituye2un estimador) + (b1 unidad 2 de lala pendiente b, c2 )ecuacin)2+ regresin) estimada es1(x31) c ) = (b0 + b2c2 var(b 1 + b 1 . c 2 var(b 23 la insesgado de covariable+Xespecfica subyacente, 3 + 2c2 cov(b , b , + b3c2)x1,estn correlacionadas. As, el intervalomedio de Y por cada incremento de una unidad mltiple de tal forma que el cambio en el nivel de confianza al 100(1 - )% para la Esta combinacin en X1 se estima mediante b1 + b3c2.= 2 (v11 + c 2 v33 + constituye un estimador insesgado de la insesgado de la pendiente especfica subyacente, 2c2 v13 ), 2 E(b1 + bla 2relacin1 ) + E(b31)c2Y en1el valor c2 de la covariable pendiente especfica subyacente, 3 c ) = E(b entre X e = + 3 c2 , subyacente 1 + 3c2 de

Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos principales + b3 2)x , de tal forma X2 Bajo este modelo extendido Y por trmino producto, una paraclas 1variables X1 yque. el cambio en el nivel medio decon el cada incremento dela recta de regresin de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por unidad c2 = ( + 2c ) + (1 + 1 c )x1 Esta combinacin constituye un la posibilidad de E(Y|x1, en) X1 se 0estima 2mediante b3+ 2b3c.2.As, el nuevo modelo contemplaestimador interaccin entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en insesgado a la + 3c2, que depende del nivel de X1 es igualde 1 pendiente especfica subyacente, X2 siempre que el coeficiente 3 del trmino producto sea distinto de 0. La presencia de interaccin se ilustra en la Figura 11.6(b), donde las rectas de regresin de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y E(b + b3 c2 ) = E(b ) + E(b3 )c2 = 1 + 3 c2 , . crculos) de una covariable1dicotmica X21 + diferencia de la confusin, la interaccin s se evala estadsticamente mediante el contraste b3c2)x1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una A cuya varianza viene dada por (vase Apartado 3.4) parcial del coeficiente 3 asociado al trmino producto. Si este coeficiente no difiere unidad en X1 se del valor nulo, b efecto Esta sobre la variable respuesta Y no variar significativamente estima mediante el1 + b3c2. de X combinacin constituye un estimador
1

E(b1 + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 , se calcula como X2 que depende de las varianzas de b1 y Apartado 3.4) su covarianza ya que, como se cuya varianza viene dada por (vase b3 y tambin de cuya varianza viene dada por (vase Apartado 3.4) cuya varianza viene dada por (vase las estimaciones de los coeficientes de regresin muestra en el Apndice de este tema,Apartado 3.4) 2 2 var(b1b+cb3 2t)n -= var(bs ) +11c +var(b3 )++ 2cvcov(b1 , b3 ) b1 + 3 2 c p-1,1- /2 1 v 2 c 2 v 33 2c 2 2 13 . mltiple estn correlacionadas. As, 2 (vintervalo33 + confianza al 100(1 - )% para la de 2 v = el 1 + c2 var(b2c+ 13 ), cov(b1, b3) 2c2 var(b1 + b3c2) = var(b11) + c 22 v 3) 2
que depende de las varianzas de3c2 deblayrelacin2 entre Xcovarianza valor c2 como covariable en y tambin de su 1 Y en ya pendiente subyacente 1 + b1 una3posible modificacin del efectoque, ndice se muestra Ejemplo 11.13 Para evaluar = 2(v11 + c v33 + 2c2e 13), el del de la de v 2 los coeficientes de regresin mltiple estn el Apndice de este tema, las estimaciones de que depende de correlacionadas. comoelvarianzas de b1 y b3 y tambin desu covarianzapendiente subyacente 1 se calcula As,sobre el colesterol HDL en los estratos de fumadores que, como se X2 masa corporallas intervalo de confianza al 100(1 )% para la ya actuales y no + quede la relacin entre X1 e Y de b1 valoryctambin de su covarianza ya que, como se 3c2 depende de las varianzas en el y b3 2 de la covariable X2 se calcula como muestra en el Apndice de este tema, las estimaciones de los coeficientes de regresin fumadores actuales, se ajust un modelo de regresin + 2c v mltiple en los 2 b + b3 c2 tnp 1,1 s v11 + c 2 v lineal 13 . muestra en el Apndice1de este tema,el /2estimaciones33 los 2coeficientes de regresin las de mltiple estn correlacionadas. As, intervalo de confianza al 100(1 - )% para la controles del estudio EURAMIC que inclua los trminos principales del ndice de Ejemplo 11.13 Para evaluar una intervalo de confianza al efecto )% para de mltiple estn correlacionadas. As, el posible modificacin del 100(1 - del ndice la masa pendiente subyacente 1 + 3c2 de la relacin entre X1 e Y en el valor c2 de la covariable corporal sobre X1, colesterol HDLalcohol estratos variable indicadoradel de los fumadores masa corporal el el consumo de en los X2modificacin del efecto X3 ndice de Ejemplo 11.13 Para evaluar una posible y la de fumadores actuales y no actuales, se ajust un modelo la regresin lineal e Y en el valor 2 de la covariable pendiente subyacente 1 + 3c2 dede relacin entre X1mltiple en los ccontroles del estudio se calcula como X2 EURAMIC que inclua los trminos principales del ndice de masa corporal X , el consumo fumadores actuales, as el colesterol HDLadicional con elde fumadores actuales y no ndice masa corporal sobre como un trmino en los estratos producto entre el 1 de calcula comola variable indicadora X3 de los fumadores actuales, as como un trmino alcohol X2 y X2 se 2 adicionalcorporal y la variable indicadora dede + fumadores actuales, indicadora de los de fumadores el producto 3ajustn-p-1,1-/2 sde v11 regresin2cy v13 variable en los masa con actuales,+se entre tel ndice masaccorporal 2 la mltiple b1 b c2 un modelo los 2 v 33 + lineal . fumadores actuales, 2 b1 + EURAMIC /2 v11 + los trminos principales del ndice de controles del estudio b3c2 tn-p-1,1-quesinclua c 2 v 33 + 2c 2 v13 . Y = 0 + 1 x1 + 2 x2 + 3 x3 + 4 x1 x3 + . Ejemplo 11.13 1, el evaluar una alcohol X2 y la variable indicadora ndice de masa corporal XPara consumo de posible modificacin del efecto del X3 de los Ejemplo 11.13 sobre evaluar una posibleen los estratos de efecto del actuales y no masa corporal Para el como un HDL modificacin del producto ndice de fumadores actuales, as colesteroltrmino adicional con elfumadoresentre el ndice
Pastor-Barriuso R. 223

49 masa corporal sobre el colesterol HDL en los estratos de fumadores actuales y no fumadores actuales, variable indicadora de los fumadores mltiple de masa corporal y lase ajust un modelo de regresin linealactuales, en los

fumadoresdel estudio EURAMICmodelo de regresin lineal mltiple en los controles actuales, se ajust un que inclua los trminos principales del ndice de

entre el ndice de masa corporal y el hbito tabquico actual en los controles del especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada estudio EURAMIC. No obstante, este contraste podra tener escasa potencia Regresin lineal mltiple estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172 estadstica para detectar cambios relevantes en la magnitud de los efectos fumadores actuales. En este sentido, es aconsejable utilizar los resultados del La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada correlaciones entre los distintos paresestimar los efectos especficos y valorar la modelo con el trmino producto para de coeficientes, que forman parte de los resultados facilitados por los programas estadsticos convencionales. El contraste para la nulidad estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172 del coeficientecambio. relevancia del 4 asociado al trmino producto arroja un valor P = 0,16, lo que indica que no existe una interaccin estadsticamente significativa entre el ndice de masa fumadores actuales. En este sentido, es aconsejable utilizar los resultados del corporal y el en el estrato de actual en los controles del estudio EURAMIC. No obstante, Por un lado, hbito tabquico 1.2 MEDIDAS DE TENDENCIA CENTRAL los no fumadores actuales, la variable indicadora X3 este contraste podra tener escasa potencia estadstica para detectar cambios relevantes modelo con el trmino producto para estimar los efectos especficos y valorar la en la magnitud la ecuacin de especficos del ndice reduce a corporal sobre el colesterol toma valor 0 y de los efectos regresin estimada se de masa Las medidas de tendencia central informan acerca ya que el estudio cuenta nicamente con 276 no fumadores HDL dentro de cada estrato, de cul es el valor ms representativo relevancia del cambio. actuales y 172 fumadores actuales. En este sentido, es aconsejable utilizar los resultados y producto estos b1 x1 + los de una determinada variable o, dicho de forma equivalente, = b0 +estimar b2 x2 .efectos especficos y valorar la del modelo con el trmino (x1 , x2 , 0) para estimadores indican Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3 relevancia del cambio. y (x1 ; 16,5; 0) = 1,49 - 0,016x1 + 0,002916,5 = 1,54 - 0,016x1 . alrededor de qu valor se agrupan controladas las diferenciasmedidas de tendencia As, valor 0 los datos observados. Las en el consumo de alcohol, cada Por un lado, en ecuacin de regresin estimada se reduce tomauna vez y lael estrato de los no fumadores actuales, laavariable indicadora X3 toma valor 0 y la ecuacin de regresin estimada se reduce a central de la muestraPor otro lado, en el estratolos resultados observados como para noindicadora X3 sirven tanto para resumir de los fumadores actuales, la de los incremento de 3,50 kg/m2 en el ndice de masa corporal variable fumadores y (x1 , x2 , 0) = b0 + b1 x1 + b2 x2 . realizar inferencias acerca valor 1parmetros poblacionales correspondientes. A por de losasocia con una de regresin estimada viene dada HDL de 3,50b = toma una se ycontroladas las diferencias en elen el colesterol ecuacin actuales vez la16,5; 0) = disminucin media consumo= 1,54 - 0,016x . incremento de As, 1,49 - 0,016x1 + 0,002916,5 de alcohol, cada 1 y (x1 ; 1 2 3,50 kg/m en el ndice de masa corporal de consumo de alcohol, cada As, una vez controladas las diferencias en ellos no fumadores actuales se asocia con una continuacin se describen los principales estimadores deun IC al 95% central de unaentre la tendencia comprendido 3,50(-0,016) = -0,057(x1 , colesterol 0 + b ) + (b1 + = 3,50( x2 . disminucin media en mmol/l, con HDL3de 3,50b1b4 )x1 + b20,016) = 0,057 mmol/l, con y el x2 , 1) = (b PorIC al 95% comprendidodeel ndice de masa corporal de los no indicadora X3 otro lado, en el kg/m2 en los fumadores actuales, la variable fumadores estrato entre un incremento de 3,50 variable. 3,50{b1 1)} = 3,50( 0,016 1,970,0049) = As, despus t443;0,975SE(bdisminucin media en loscolesterol( 0,090; 0,023).2 en toma valor 1 dela con una de regresin alcohol, viene dada por 3,50 kg/m y ajustar por actuales se asocia ecuacin la ingesta de estimada el incrementos de de 3,50b1 = HDL La 11.7 16,5; 0) = trazo fino la + 0,002916,5 = 1,54 - 0,016x 1.2.1 Media aritmtica Figura y (x ; muestra en1,49 - 0,016x recta de regresin estimada del. colesterol HDL 1 1 el ndice ndice -0,057 mmol/l, con unlalos no de regresin estimada del 1 consumo medio La Figura 11.7 muestra corporal fumadores fumadores actuales con sobre el de masa masa ende los fino IC al 95% comprendido con un 3,50(-0,016) = decorporal xtrazo=entre+ rectaactuales4se1asocianentre unacolesterol y (x1 , 2 , 1) (b0 b3 ) + (b1 + b )x + b2 x2 . de alcohol de La media aritmtica, denotada por x 2, = 16,5 g/da, la suma de cada uno de los se define como disminucinel en el en elmasa corporal entre 3,50(b1fumadores actuales con un 3 = HDL sobre media estrato de los fumadores actuales, la = 3,50(-0,016 - 0,010) Por otro lado, ndice de colesterol HDL de los no + b4)variable indicadora X y (x1 ; 16,5; 0) = 1,49 0,016x1 + 0,002916,5 = 1,54 0,016x1 . As,3,50{b1 nmero de observaciones realizadas. Si denotamos despus t443;0,975SE(b la = 3,50(-0,016 1,970,0049) = (-0,090; -0,023). valores muestrales dividida por elde ajustar por1)} ingesta de alcohol, los incrementos de 3,50 kg/m2 en -0,092valor 1 yen de estrato de los2estimacin actuales, la variable indicadora X toma valor consumo medio ecuacin una = 16,5 g/da, Por otro lado, Para obtenerde x fumadores por intervalo del efecto toma mmol/l. la el alcohol de regresin estimada viene dada por especfico en 3 1 y otro 11.7 muestra en el y ecuacin de observado fumadores de regresin estimada por n el tamao muestralFiguradei masaelregresin estimadalasujetoactuales se=variable indicadora X3 i-simo, Landice lado, en corporal trazopara elviene dada por i asociann, del colesterol Por la por x el valorestrato de losfino recta actuales, la 1, ..., con una este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 50 y (x1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 . disminucin la ecuacin de regresin estimada viene dada actuales con un la media vendra dada por valor 1 media en el colesterol HDL de los no 1 + b4) = 3,50(-0,016 - 0,010) = HDL sobre elyndice de masa corporal entre 3,50(bfumadorespor toma As, var(b1 + b4 ) ajustar 1 ) + la ingesta2cov(b1 , b4 ) los incrementos de 3,50 kg/m2 en el despus de = var(bpor var(b4 ) + de alcohol, -0,092 mmol/l. de alcohol la x = 16,5 actuales se asocian efecto 3,50 kg/m en ndice de masan ajustar de de fumadoresg/da, As, despus de Para obtener una2 estimacin por los incrementos de especfico2en consumo mediocorporalpor losingesta debalcohol,intervalo del con una disminucin media (x + 1) = (b 1 y x1 1, x 2, + ... + x + 3) + (b1 + b4)x + b2x2. ) en el colesterol HDL de)2 2 SE(b+)20n+ 2SE(b1 )SE(b4 ) r1 0,010) = 0,092 mmol/l. Para x = x i SE(b1 3,50(b1 4 b4. = 3,50( 0,016 b b + == 4 nse=1 corporalprimer lugardel varianza muestral en bconestrato, se calcula en nlos fumadores actuales se 1asocian 1 + b4 este estrato, i calcula en de obtener de estimacin por intervalo la efecto especfico de este una el ndiceuna masa 50 primer lugar de ajustar muestral de 2 1 + b4 As, despus la varianzapor la ingestabde alcohol, los incrementos de 3,50 kg/m2 en 2 + 0,0072 20,00490,0072(-0,679) = 0,000028, disminucin+ b ) = 0,0049) + var(b ) ++2cov(b , bfcil La media es la medida de tendencia = en el colesterol4HDL de 3,50(b)1 + b4) = 3,50(-0,016 - 0,010) = var(b1 media var(b1ms utilizada y de ms 4 4 central 1 el ndice de masa corporal 2de los fumadores actuales se asocian con una 2 -0,092 al centro = entre se datos por intervalo donde mmol/l. Para obtener una4estimacin de la muestra. parte de la Tabla 11.11. interpretacin. Correspondela correlacinSE(b1 )b1+ySE(b4 )obtiene de )SE(b4 ) rb1b4 del efecto especfico en de gravedadbde los + 2SE(b1 la segunda Su disminucin media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = = 0,00492 + 0,00722 + 20,00490,0072(0,679) = 0,000028, este estrato, para el efecto especfico del varianza muestral de b en Elque al 95%se calcula en primer los valores extremos y, en este 1 + b4los IC est muy influenciada por lugar la ndice de masa corporal principal limitacin es donde mmol/l. Para entre b y b se obtiene de intervalo del efecto especfico en -0,092 la correlacin obtener1una 4estimacin porla segunda parte de la Tabla 11.11. El IC para el ) = var(b fumadores actuales se especfico delde la distribucin. entonces como caso, puede no ser unal 95%la correlacin entre) bcentralsendice dede, la4) corporal en los fumadores actuales se fiel reflejo + befecto calcula var(b4) obtiene masa var(b1 de la tendencia + y b4 + 2cov(b1 b segunda parte de la Tabla 11.11. 4 1 1 donde calcula entonces como este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 3,50{b1 +=bSE(b443;0,975SE(b4)1 + b4 )} 1)SE(b4) rb1b 4 t 1) + SE(b + 2SE(b Ejemplo 1.4 EnEl ICvar(blos para= var(b ) + var(b ) + del ndicebde masa4 corporal en los este y en + sucesivos ejemplos sobre2cov(b , ) muestrales, se al 95% b4) el efecto especfico estimadores 1 1 4 1 4 = 3,50( 0,016 0,010 21,97 0,000028 ) = (0,129; 0,056). 2 = HDL utilizarn los valores del colesterol0,00492 + 0,0072 +los 10 primeros sujetos del 0,000028, en 20,00490,0072(-0,679) = fumadores actuales SE(b1)obtenidos)2 + como 1)SE(b4) r + entonces 2SE(b = se calcula SE(b4
b1b4

estudio European Study on11.7 se representa en se obtiene de la recta Cancer ofde la Tabla 11.11. b4 trazo donde la correlacin entre 2Myocardial grueso la and de parte En la Figura Antioxidants,b1 y0,00722+ Infarction segundaregresin 0,000028,del 3,50{b1 + b4 t443;0,975SE(b1 +b20,00490,0072(-0,679) = estimada 4)} = 0,0049 + 224 Pastor-Barriuso R. the Breast (EURAMIC), unpara el efecto especfico del ndice entre losrealizado en actuales con El IC al 95% estudio multicntrico de corporal de masa fumadores colesterol HDL sobre el ndice de masacasos y controles corporal los = 3,50(-0,016 y b se 1,97 0, la segunda parte de la Tabla donde la correlacin entre b1 - 0,010 obtiene de000028 ) = (-0,129; -0,056). 11.11. 4 entre 1991 y 1992 en ochoactualesEuropeos e entonces como fumadores pases se calcula Israel para evaluar una ingesta media de alcohol de x = 16,5 g/da, el efecto de los

= 3,50(-0,016 - 0,010 1,97 0,000028 ) = (-0,129; -0,056).

continuacin se describen los principales estimadores de la tendencia central de una Confusin e estimada regresin lineal En la Figura 11.7 se representa en trazo grueso la recta de regresininteraccin en del variable. colesterol HDL sobre el ndice de masa corporal entre los fumadores actuales con En 1.2.1 Media aritmtica la Figura 11.7 se representa en trazo grueso la recta de regresin estimada del colesterol una ingesta el ndice de masa corporal 16,5 g/da, HDL sobre media de alcohol de x 2 = entre los fumadores actuales con una ingesta media de alcohol de La media aritmtica, denotada por x 2, = 16,5 g/da, la suma de cada uno de los se define como

y (x1 ; 16,5; 1) = (1,49 + 0,18) (0,016 + 0,010)x1 + 0,0029 16,5 valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos = 1,72 0,026x1 . por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, En conclusin, a partir del modelo con la interaccin se tiene que un mismo incremento de 3,50 kg/m2 en el ndice de masa corporal se asocia con distintas disminuciones en el la media vendra dada por nivel medio de colesterol HDL de 0,057 mmol/l en los no fumadores y 0,092 mmol/l 51 en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido n al limitado1 tamao x1 + x 2 + ... + xambos estratos, las estimaciones especficas son muestral de n . x= x = relativamente i imprecisas y el test de interaccin no alcanza la significacin estadstica. n i =1 n Por tanto, los resultados de este estudio no son concluyentes respecto a la posible accin sinrgica del ndice de masa corporal y el tabaco en los niveles de colesterol HDL, y se La media es la medida de tendencia central ms utilizada yparams fcil un cambio subyacente de dicha requerira de un estudio ms potente de detectar magnitud en los efectos especficos del ndice de masa corporal en fumadores y no interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su fumadores actuales.

principal limitacin es que est muy influenciada por los valores extremos y, en este

Tabla 11.11 Resultados de la regresin lineal mltiple del colesterol HDL caso, puede no ser unsobre el ndice de masa corporal (IMC), el consumo de alcohol, la variable fiel reflejo de la tendencia central de la distribucin. indicadora de fumadores actuales y el producto entre IMC y fumador actual en el grupo control del estudio EURAMIC. Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Coeficientes de regresin

utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del H : = 0 Test 0 j
Estimacin Error estndar IC al 95% t Constante 1,49 0,13 (1,24; 1,75) 11,47 IMC 0,016 0,0049 ( 0,026; 0,007) 3,30 the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 Fumador 0,18 0,19 ( 0,20; 0,55) 0,91 entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los IMCFumador 0,010 0,0072 ( 0,024; 0,004) 1,40

estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

Valor P < 0,001 0,001 < 0,001 0,36 0,16

Matriz de correlaciones de las estimaciones Constante IMC Alcohol Fumador IMC 0,990 Alcohol 0,052 0,016 Fumador 0,670 0,674 0,134

5
IMC Fumador 0,664 0,679 0,120 0,990

Pastor-Barriuso R.

225

Regresin lineal mltiple

2,25 2

Colesterol HDL (mmol/l)

1,5

0,5 0,25 20 24 28 Indice de masa corporal (kg/m) 32 36

Figura 11.7 Rectas de regresin del colesterol HDL sobre el ndice de masa corporal en fumadores actuales (puntos y lnea gruesa) y no fumadores actuales (crculos y lnea fina) obtenidas de un modelo con interaccin entre el ndice de masa corporal y el hbito tabquico actual en el grupo control del estudio EURAMIC.

Figura 11.7

En regresin lineal, la ausencia de interaccin entre dos variables explicativas X1 y X2 implica que sus efectos sobre la variable respuesta son aditivos; es decir, el efecto conjunto de ambas E(Y|x1 + 1, x2 + 1) - E(Y|x1 , x2 ) variables es la suma de sus efectos independientes. La presencia de interaccin puede interpretarse, por tanto, como una desviacin de la aditividad, que puede deberse tanto a = 0 + (x + 1) + (x + 1) + 3 (x1 + 1)(x2 + 1) efectos subaditivosE(Y|x1 a efectos11) - E(Y|x2 , x22 ) Ms concretamente, en un modelo de regresin como + 1, x1 + supraaditivos. 2 1 lineal con el trmino producto entre X1 y X2, el cambio esperado en Y al aumentar simultneamente x) + 2 (x1 + - ( + 1 x1 + 2 2 + una unidad ambas variables00explicativasxes 2 3 x1+ 21)= 13 (x1+ + 32 + 1) x2 + 1). + 1)(x = + 1 (x1 + 1) + (x2

E(Y|x1 + 1, x2 + 1) E(Y|x1 , x2 ) En el mismo modelo, loscambios+ 2 x2 + 3 x1 x2Y = aumentar 3por + x2 + 1). una unidad - ( 0 + 1 x1 esperados en ) al 1 + 2 + (x1 separado = 0 + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1) cada variable explicativa + x + x + x x ) = + + (x + x + 1). son ( los 1 1 En el mismo modelo, 0 cambios 2esperados en Y al1 aumentar3por separado una unidad 2 3 1 2 2 1 2
En el mismo E(Y|x1 explicativaE(Y|x1esperados+ 1Y 1 +aumentar2 por 3separado 2una unidad cada modelo, los ) - son cada variable + 1, x2cambios , x2 ) = 0 en (xal 1) + 2 x + (x1 + 1)x variable explicativa son En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad - + (x1 + + x x 3 (x1 + E(Y|x1 + 1, x2 ) E(Y|x1 , x2 ) = ( 00 + 11 x1 + 1)2 x2 2 x23+1 2 ) = + 11)x2 3 x2 y

cada variable explicativa son y


y

( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 3 x2

E(Y|x1 + 1, x2) - E(Y|x1, x2) = 0 + 1(x1 + 1) + 2x2 + 3(x1 + 1)x2 E(Y|x1 , x2 + 1) E(Y |x1 , x2 ) = 0 + 1 x1 + 2 (x2 + 1) + 3 x1 (x2 + 1) 0 + 1 + 2 + 1 2 = + 2 -(( + 1xx + 2xx + 3xx xx ))= 1 + 3xx . 1 2 2 2 E(Y|x1, x2 + 1) - E(Y|x1, x2) = 00+ 1x1 1+ 2(x22+ 1) 3+ 13x1(x2 + 1) 3 1

y - ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 . As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto


226 Pastor-Barriuso R. E(Y|x1,

x2 + 1) - E(Y|x1 x ) + 1x + 2(x2 + 1) + 3 2 As, si existe interaccin entre ,X12y = 2, 0ambas1 variables diferirx1(xla+ 1) de sus ser distinto de 0 y el efecto conjuntoXdeel coeficiente 3 asociado al trmino producto de suma - ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 . ser efectos distinto de 0 y el efecto conjunto de ambas variables diferir de la suma de sus independientes,

ser distinto de 0 y el efecto conjunto de ambas variables2diferirxde2 ) =suma 3 xsus - ( 0 + 1 x1 + x2 + 3 1 x la 2 + de 1 . efectos independientes, Confusin e interaccin en regresin lineal As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto E(Y de y el efecto conjunto ser distinto|x1 +01, x2 + 1) - E(Y|x1 , x2 )de ambas variables diferir de la suma de sus As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto ser - efecto distinto deindependientes,1 conjunto- de ambas) + E(Y|x1 , xdiferir E(Y |x1 , suma de sus efectos efectos 0 y el {E(Y|x + 1, x2 ) E(Y|x1 , x2 variables 2 + 1) - de la x2 )} independientes, = y (28,5; 20;(x1 + x2 + 1)0,01628,5 2 + 2 + 3 x1 ) = 3 . 1 + 2 + 3 0) = 1,49 - - ( 1 + 3 x+ 0,002920 = 1,091, E(Y |x1 + 1, x2 + 1) E(Y|x1 , x2 ) (28,5; 20; 1, x ) E(Y|x1 , x2 ) + E(Y|x1 , x2 + 1) E(Y |x1 y {E(Y|x1 + 0) =21,49 - 0,01628,5 + 0,002920 = 1,091, , x2 )} el de los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un Ejemplo 11.14 A 1partir + las 1estimacionesdel modelocon 3 x1 ) = 3 . producto = + 2 de 3 (x + x + 1) ( 1 + x2 + 2 + el trmino y (28,5; 20; 0) = 1,492 - 0,01628,5 +3 0,002920 = 1,091, 2 el de los de alcohol de 20 g/da un consumofumadores actuales cones ndice de masa corporal de 25 kg/m y un de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un Ejemplo 11.14 A partir de las estimaciones del modelo con el trmino producto de la consumo de alcohol de 20 g/da un el de los fumadores actuales cones 2ndice de masa corporal de 25 kg/m2 y un de masa Tabla 11.11, el nivel= 1,49 -25 colesterol0,002920 +de alcohol de 20= 1,070 y masa corporal de 0,01625 + HDL de los no fumadores con un es ndice de(25, 20, 1) 2medio de kg/m y un consumo 0,18 - 0,01025 g/dandice corporal de 25 kg/m partir consumo-de alcohol del20 g/da con 1,091, Ejemplo 11.14 A y un0) = las estimaciones de 0,002920 = el trmino producto y (28,5; 20; de 1,49 0,01628,5 + modelo es consumo de alcohol de 20 g/da es y (25, 20, 1) = 1,49 - 0,01625 + 0,002920 + 0,18 - 0,01025 = 1,070 y (25, 20, 0) = con de colesterol HDL masa no fumadores con y elde la Tabla 11.11, el nivel medio 0,016 25 + 0,002920 los corporal de 28,5 un de los fumadores actuales 1,49 un elevado ndice de de = 1,148, el de los fumadores actuales con un - 0,01628,5 + 0,002920de 1,091, 2 y un ndice de masa corporal 25 kg/m y (28,5; con - elevado el de 2 y no fumadores1,490) 0,01625 ndice de masa corporal = 28,5= 1,070 un consumo los (25, 20, 1) = 20; un= 1,49 +2 0,002920 + 0,18 - 0,01025 kg/m2 y de y el de unfumadoresde alcohol de un elevado ndice de masa corporal de 28,5 kg/m ylosde masa corporal de 25 kg/m y un consumo de alcohol de 20 g/da2 es ndice consumo actuales con 20 g/da es de alcohol fumadores con un elevado ndice de masa corporal de 28,5 kg/m y un el de los node 20 g/da es g/da es consumo de alcohol de 20 el de los fumadores actuales= 1,49 ndice de ndice de masa= 25 kg/m2 28,5 y (28,5; actuales con 0,01628,5 kg/m los consumo 20; 0) con un20 g/da es + 0,002920 corporal y el 2 y unfumadoresde alcohol de un elevado masa corporal de 1,091, de y un de y (28,5; alcohol (25, 20, 0) es consumo de 20; 1) = de 20- g/da= 1,49 + 0,01625 + + 0,18 - 0,01028,5 = 0,978. y 1,49 0,01628,5 - 0,002920 0,002920 = 1,148, fumadores actuales con un + 0,002920 + corporal de 25 = 1,070 y (25, 20, 1) = 1,49 - 0,01625ndice de masa 0,18 - 0,01025 kg/m2 y un consumo el de 2losun consumo de 20 g/da de 20 g/da es consumo kg/m y de alcohol de alcohol es 2 y (28,5; 20; g/da es el de los fumadores actuales con un ndice de masa + 0,18 - 0,01028,5 = 0,978. 2 de alcohol de 201) = 1,49 - 0,01628,5 + 0,002920 corporal de 25 kg/m y un Tomando comofumadores con un elevado ndice de masa corporal de 28,5 kg/m 53 un referencia a los sujetos no fumadores con un ndice de masa y el de los no y el de los fumadores actuales con 25 + 0,002920 + 0,18 0,010 25 = 1,070 28,5 (25,alcohol = 1,49 g/da es un elevado ndice de masa corporal de0,978. y y (28,5; 20, 1) 1,49 0,01628,5 + 0,002920 + 0,18 - 0,01028,5 = consumo de 20; 1) =2de 20- 0,016 Tomando comoalcohol de 20fumadores con un elevado ndice de masa corporal corporal de 25 kg/m , los no los sujetos no fumadores con un ndice de masa consumo de referencia a g/da es y el de los consumo actuales con 20 g/da es kg/m2 y unfumadoresde alcohol de un elevado ndice de masa corporal de 28,5 kg/m2 y un consumode y 28,5loscomo referencia a los es un elevado media con colesterol de de de fumadores actuales con corporal (25, 220, 1) 2de una disminucin fumadores del 0,01025 = masa kg/m los - fumadores con la elevado masa de masa corporal deel de ykg/malcohol=, 1,49 g/da sujetos 0,002920 + de ndicecorporal1,070 Tomando de25presentan20no0,01625 + noen unndice0,18 -un ndice HDL 28,5 53 y 2(28,5; 20; 1) = 21,49 0,01628,5 + 0,002920 + 0,18 0,01028,5 = 0,978. 2 kg/m y un consumo losuna fumadores con es media del colesterol HDL de presentan no disminucin enun de 28,5 de 25 de masa corporalkg/m ykg/m ,de alcoholyde 20 g/da =la elevado ndice-0,057, corporal - (25, elevado ndice y el de loscomo (28,5;actuales con un20, 0)fumadores1,148 = ndice dede 28,5 fumadores 20; 0) los sujetos no 1,091 - de masa corporal masa corporal de Tomando referencia a con un 25 kg/m2 los presentan a con un noen la ndice con un ndice HDL de fumadores de masa corporal Tomando ,comono = 1,49una lossujetoselevado media0,18 colesterol de = 0,978. kg/m2 de 28,5 kg/m2 y (28,5; 20;-0) disminucin0)fumadores 1,148 0,01028,5 masa 28,5 y y un 20; 1) + referencia - yde 2020,0,002920 +- del - = -0,057, = alcohol (25, g/da es1,091 HDL de kg/m2(28,5;consumo decon 0,01628,5ndicecolesterolcorporal de 25 kg/m2 de presentan una actuales los fumadores disminucin en mismo del de masa el la media corporal de 25 kg/m2, los no fumadores con un elevado ndice de masa corporal y (28,5; 20; 0) y (25, 20, 0) = 1,091 1,148 = 0,057, Tomando como 1) = 1,49 - ael mismo ndice de masa corporal ndice kg/m0,978. sujetos 0,002920 con los fumadores actuales con 0,01628,5 +no fumadores0,18 - 0,01028,5 = 2 de de 25 y (28,5; 20; yreferencia -los (25, 20, 0) = 1,070 + 1,148un -0,078 de masa (25, 20, 1) y = de 28,5 kg/m2 presentan una disminucin en de mediacorporal de 25 HDL 2de los fumadores actuales con el mismo ndice la masa del colesterol kg/m de no corporal de 25 kg/m2, con mismo ndice un elevado ndice de masa corporal los fumadores actualeslos 1)elfumadores con de masa corporal de 25 kg/m2 de referencia a los sujetos 0) = 1,070 con = 0,078 (25, 20, y Tomando comoyactuales conun (25, 20,no fumadores1,148unndice de masa 2 de y los fumadores(28,5; 20; 0) - y elevado ndice de masa corporal de 28,5 kg/m (25, 20, 0) = 1,091 - 1,148 = -0,057, 2y delos fumadores actualesuna disminucinndice media del colesterol HDL kg/m2 de y 28,5 kg/m presentan con un elevado en la de masa corporal de 28,5 de 2 (25,, 20, 1) -fumadores con un elevado ndice de masa corporal (25, 20, 0) = 1,070 - 1,148 = -0,078 y y corporal de 25 kg/m los con un elevado ndice de masa corporal de 28,5 kg/m2 de y los fumadores actuales no y (28,5; 20; 1) y (25, 20, 0) = 0,978 1,148 = 0,170. los fumadores y (28,5; 20; 0) -mismo ndice = 1,091 -corporal de 25 kg/m2 de actuales con el y (25, 20, de masa en del colesterol 28,5 de delos fumadores actuales una disminucinndice media 1,148 = -0,057, 28,5 kg/m2 presentan con un elevado 0) la de masa corporal de HDL kg/m2 de y la disminucin media 1) - colesterol HDL0,978 - 1,148 = -0,170. conjuntamente a As, y (28,5; 20; del y (25, 20, 0) = de 0,170 mmol/l debida As, la y aumentar elmedia del ymasa 20, 0) = 1,070 - 1,148 valor absoluto que la suma de fumar disminucin ndice de (25, corporal es mayor en = -0,078 y (25, 20, 1) - colesterol HDL de -0,170 mmol/l debida los fumadores y (28,5; 20; 0) 0,078 = 0,135de masa-corporal a cada kg/m2 de separado. actuales conel- mismo 20, 0) =mmol/l debidas -0,057,factor por ndice de 25 (28,5; 20; 1) - y (25, 20, 0) = 1,091 - 1,148 = -0,170. las disminuciones 0,057 y y (25, 0,978 1,148 = As, la disminucin media del estudio ndice dede -0,170 mmol/l debida en valor conjuntamente a fumar y aumentar el EURAMIC apuntan a un posible efecto supraaditivo En otras palabras, los datos del colesterol HDL masa corporal es mayor 2 y los fumadoresndice 20, masa y (25, 20,yndice de masa corporal de 28,5 2 (25, de 1) o sinrgico delactuales con elun elevado 0) =de masa corporalniveleskg/m kg/m deHDL. corporal el 1,070 - 1,148 = de 25 yactuales con- mismo ndice tabaco sobre los -0,078 de colesterol los fumadores a fumar ylas disminuciones -0,057-0,170 mmol/l debida ende conjuntamente absoluto que la suma de aumentar el ndice de masa corporal es mayor valor As, la disminucin media del colesterol HDL de - 0,078 = -0,135 mmol/l debidas y (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. 2 y los fumadoresy (25, de aumentar el ndice los datos del estudio mmol/l valor absoluto que la separado. disminuciones -0,057 -0,078 suma 20, 1) - otras 20, ndice de corporal es de 28,5 kg/m a cada factor por fumar y con un elevado0) = de masa 1,148==-0,135 EURAMIC de conjuntamente a actualeslasEn y (25, palabras,1,070-masa corporal mayor en debidas -0,078 As, la factor la suma efecto En colesterol HDL0,9780,078 =estudiomasa corporal y a cada disminucin media disminuciones -0,057datos mmol/l debida apuntan que por separado.del otras palabras, los -0,170 ndice de mmol/l debidas absoluto a un posible de las supraaditivo o sinrgico -deldel = -0,170. y actuales con un (25, 20, 0) = de - 1,148 -0,135 EURAMIC y los fumadores (28,5; 20; 1) - y elevado ndice de masa corporal de 28,5 kg/m2 de conjuntamente a fumar y aumentar el ndice de masadeldel estudiomasa corporal y apuntan un posible efecto supraaditivo o sinrgico corporal de EURAMIC el tabacoasobre los niveles En otras palabras, a cada factor por separado.de colesterol HDL.los datos ndicees mayor en valor As, la disminucin media1) - colesterol HDL0,978 - 1,148 = -0,170. y (28,5; 20; del y (25, 20, 0) = de -0,170 mmol/l debida absoluto asobre suma efectode colesterol HDL. el tabaco un posible de las supraaditivo o -0,057 - del ndice de mmol/l debidas R. Pastor-Barriuso apuntan que la los niveles disminuciones sinrgico0,078 = -0,135masa corporal y conjuntamente a fumar y aumentar el ndice de masa corporal es mayor en valor As, la disminucinniveles de colesterol HDL de -0,170 mmol/l debida a cada factor por separado.delcolesterol HDL.los datos del estudio EURAMIC el tabaco sobre los media En otras palabras, 54 absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas

227

MLTIPLE Segn la estructura de la regresin lineal mltiple presentada en el Apartado 11.2, cada media 0 y varianza constante 2. Estas n ecuaciones lineales pueden reescribirse en 11.8lineal estructura FORMULACIN MATRICIALxDEpresenta la relacin11.2, cada una APNDICE: de la regresin lineal mltiple presentada en el Apartado LINEAL Segn las n observaciones independientes (yi, xi1, , ip) LA REGRESINlineal Regresin de lamltiple forma matricial como MLTIPLE una de las n observaciones independientes (yi, xi1, , xip) presenta la relacin lineal i = 1, , n, yi = 0 + 1 xi1 + + p xip + i, y1 1 x11 x1 p DE LA REGRESIN LINEAL 1 11.8 APNDICE: FORMULACIN MATRICIAL Segn la estructura y = + x +lineal x + presentada1,, n, de la regresin + mltiple , 0 i = en el Apartado 11.2, cada MLTIPLE i1 i 0 p ip donde los errores aleatorios i 1 independientes i estn distribuidos normalmente con y 1 son = una de las n observaciones independientes (yi, , , xip)+ enel Apartado 11.2, cada Segn la estructura de la regresin linealmltiplexpresentadapresenta la relacin lineal una de i1 y media los varianza constantei 2.(yiindependientes lineales pueden normalmente las donde 0 y erroresindependientes Estas n ecuacionesestn distribuidosreescribirse en con n observaciones aleatorios son , xi1, , xip) presentala relacin lineal xn x , n y+ 1 xi11+ 1+ p xip +np i p i =1, , n, yi = n media matricial como 0 2 Estas n ecuaciones lineales pueden reescribirse en forma 0 y varianza constante . donde los errores aleatorios i son independientes y estn distribuidos normalmente con media 0 ydonde matricial como 2. Estas i n ecuaciones lineales estn distribuidos normalmente con varianza errores aleatorios son independientes y pueden reescribirse en forma matricial forma los constante o, abreviadamente, 1 y1 1 x11 x1 p como 0 2 . Estas + , lineales media 0 y varianza constante 1 x yn=ecuaciones pueden reescribirse en X x1 p 1 1 y1 11 0 + = forma matricial como 1 = con los valores de lavariable respuesta, X es una matriz de donde y es un vector n 1 y n 1 x n1 x np p + n 1 y1 1 x11son los x1 p de cada columnas dimensin n (p + 1) cuyas valores p variable explicativa ms y n 1 x n1 x np 0 n o, abreviadamente, + 1 1 con los coeficientes de una primera columna de unos,= es un vector (p+1) o, abreviadamente, o, abreviadamente, y = X + , regresin y es un vector n 1 con los errores aleatorios. El vector de errores aleatorios y n 1 x n1 x np p n respuesta, X es una matriz de dimensin donde y es un vector n 1 con los valores de= X + , y la variable sigue cuyas columnas son los losnormal multivarianteexplicativa ms matriz diagonal n donde yentonces una n 1 convalores de cadala variable respuesta,0X es una matrizcolumna (p + 1) es un vector distribucin valores de variable con media y una primera de de unos, es un vector (p + 1) 1 con los coeficientes de regresin y es un vector n 1 con o, abreviadamente, asuncin de homogeneidad de la varianza, todas las varianzas de la diagonal de la los donde y aleatorios. Elnvector Idelos valores de la variable respuesta, una explicativa ms errores es un (p + 1) , dimensin n vector cuyas2 columnas son los valores de cada variable distribucin de de varianzas-covarianzas1 con errores aleatorios sigue entonces X es una matriz normal multivariante con media 0 y matriz diagonal de varianzas-covarianzas 2I, 2 matriz de varianzas-covarianzas son iguales + ,y que, por tratarse de observaciones y = Xa dimensin n columna de unos, es un vector (p 2+ 1) de con los coeficientes de ms (p + 1) cuyas columnas son los valores 1 cada variable explicativa una primera ~ N(0, I), independientes, las covarianzas de fuera de la diagonal son iguales a cero. donde y es unel vectorde unos,1 conun todos (paleatorios. El los coeficientes de I denota donde 0 denotacolumna n nuloconlos con vector susvariable respuesta, X es una matriz de la n es los errores 1) 1 con vector de a cero aleatorios una primera vector regresin y es un vector1n 1 valores de la +componentes iguales errores e donde 0 denota el vector nulo n la 1 con del modelo de de ella.iguales amltiple, resulta matrizA partir den n formulacin matricialtodosceros fueraregresin linealque, por ladenota identidad esta con unos en diagonal y sus componentes Notar cero e I asuncin de homogeneidad (p una varianza, 1 con losson los valoresla con media 0 dematriz diagonal dimensinyn de+ vector n todas las errores aleatorios.cada variable matriz de varianzas1) cuyas columnas varianzas de de El vector la explicativa ms es regresin sigue entoncesunla distribucin normal multivariante diagonal de y errores aleatorios covarianzascalcular lasnestimaciones de los diagonal y cerosregresin ella.el mtodocovarianzas la matriz son iguales a n y que, por en la coeficientes de fuera de por Notarlas de la identidad 2 con unos tratarse de observaciones independientes, que, por sencillo de fuera deentonces unason iguales aes un vector (p + 1) 1 con los coeficientes de una primera columna distribucin cero. multivariante con media 0 y matriz diagonal sigue la diagonal de 2I, de varianzas-covarianzasunos, normal 55 mnimos cuadrados. En el Apartado del modelo de regresin estas estimaciones vienen A partir de esta formulacin matricial11.3.1, se comprob quelineal mltiple, resulta sencillo 2 regresin y es un vector I de varianzas-covarianzas n coeficientes de regresin por El vector calcular las estimaciones de los,1 con los errores aleatorios. el mtodo de errores aleatorios mnimos cuadrados. ~ N(0, 2I), En dadas por la solucinse comprob que 1 ecuaciones lineales el Apartado 11.3.1, al sistema de p + estas estimaciones vienen dadas por la solucin al sigue p + 1 ecuaciones lineales sistema de entonces una distribucin normal multivariante con media 0 y matriz diagonal ~ N(0, 2I), donde 0 denota el vectorn nulo n 1 con n todos sus componentes iguales a cero e I denota n 2 de varianzas-covarianzas i I= nb0 + b1 x i1 + ... + b p x ip , y , i i =1 donde 0 identidad n n nulo n nen la =1 n sus ceros fuera iguales a cero e I por la todos la matrizdenota el vector=1con unos1 coni diagonal ycomponentesde ella. Notar que, denota n n x i1 y i = b0 x1 ~ N(0, 22I), ... + b p x i1 x ip , + b1 x i1 + i 55 la matriz identidad n i1 n con unosi =en la diagonal y ceros fuera de ella. Notar que, por la i =1 1 = i =1 n n n n 55 2 donde 0 denota el vector ip y i =n con + b1 sus x ip + ... + b p iguales a cero e I denota x nulo b0 1 xip todos xi1 componentes xip ,
i =1 i =1 i =1 i =1

la matriz identidad n n con unos en la diagonal y ceros fuera de ella. Notar que, por la que puede representarse matricialmente como
1 x Pastor-Barriuso R. 11 x1 p y 1 1 1 x n1 x11 = x np x1 p y 1 x11 x1 p 1 b0 b x n1 1 b x np 1 x x p

55

228

2 y i = b0 x ip + b1 x i1 x ip + ... + b p x ip , i =1 i= i= i =1 que puede representarse matricialmente como1 Apndice: formulacin1matricial de la regresin lineal mltiple

i =1 n

ip

i =1 n

i =1 n

i =1 n

ecuacin anterior por la matriz inversa (XX)-1, se obtienen las estimaciones de los que puede representarse matricialmente como 1 x11 x1 p y 1 1 1 1 1 de matricialmente como b0 quecoeficientes regresin puede representarse x x b x n1 x n1 11 11 1 x x1 p 1 11 y 1 1 = 1 1 b = (XX)-1 Xy. 1 b0 x x b x n1 x n1 b x np x np x1 p las x x de 1 11 y = x1 11 ecuacinp anterior por la matrizninversa p(XX)-1, se obtienen1 estimaciones los n1 np Deesta formula matricialse desprende que los estimadores de mnimos cuadrados b x np las x1 coeficientes de regresinnp x1 y de los ecuacinp anterior por laxmatriz inversa p(XX)-1, se obtienen1 estimaciones b p n x n1 cuyos o, abreviadamente, lineales de los valores de la variable respuesta y, x npcoeficientes son combinaciones o, abreviadamente,regresin coeficientes de b = (XX)-1 Xy. dependen de los valores de las variablesy = XXb, X que se asumen constantes. En o, abreviadamente, X explicativas
donde De esta formula traspuestase desprende elX) losy.(p + 1) 1de puedeestimaciones de los X' es la matriz matricial de X n =esX vector que X estimadores con las aplicarse una consecuencia, si el tamao muestralybbes(suficientemente grande, mnimos cuadrados b donde X Como el modelo de regresin lineal Xb, (p + 1) que las variables explicativas y y = el vector coeficientes. es la matriz traspuesta de X Xb es Xmltiple asume 1 con las estimaciones sonecuacin anterior por la matriz los valoresX)-1,los demostrar que los, estimadores b igual al linealmente independientes se desprende de la variable respuesta y es superior o son combinaciones matricialde inversa (nmero se estimadores estimacionescoeficientes generalizacin del teorema central del lmite para obtienen las de mnimos cuadrados b De esta formula lineales y que el X que de observaciones n cuyos de los nmero de coeficientes p + 1, modelo deX es el vector (p mltipleen consecuencia, la matriz de los X es la matriz traspuesta de X regresin lineal + 1 y, con las estimaciones donde coeficientes. Como el la matrizy b tiene rango p + 1) 1 asume que las cuadrada X'Xdede regresindeMultiplicandoexplicativas Xde la se asumenanterior por la matriz no singular. dependen siguen aproximadamente de variables normal multivariante con constantes. En coeficienteseslos valores una distribucinambosvariableque ecuacincuyos coeficientes son combinaciones lineales las los valores de la lados respuesta y, media 1 variables explicativas son el modelo de regresin lineal que de asume que inversa (X'X) , se obtienen las estimaciones de los coeficientesel nmero de observaciones de los coeficientes. Como linealmente independientes y mltipleregresin las consecuencia, si el tamao las variables suficientemente grande, puede aplicarse En n es dependen de los valores ) =muestral)b X(explicativas X X(X asumen constantes.una X coeficientes XX1, la matriz X )} } X E{( E(b de E{(deX -1 = yX= )1p +y.X)-1 que se + tiene rango p + 1 y, en n es superior o igual al nmero variables explicativas son linealmente independientes y que el nmero de observaciones generalizacin del tamao central del es suficientemente grande, puede aplicarse una para De esta formula el teoremase desprende que los estimadoresque mnimos cuadrados b son consecuencia, si matricial=muestral n -1lmite ) = demostrar de los estimadores b + (XX) es E( Xno singular. Multiplicando ambos cuadrados b consecuencia, igual de los valores X De esta formula matricial se desprende que p 1, la matriz X mnimos lados dependen combinaciones lineales al nmero deXde la variable+respuesta y, cuyos coeficientes1 y,la n es superior ola matriz cuadrada coeficientes los estimadores de tiene rango p + de en siguen aproximadamente una distribucin que se asumen constantes.media de los valores de las variables explicativaslmite para demostrar quecon estimadores b generalizacin del teorema central del X normal multivariante los En consecuencia, si el son muestral la matriz cuadrada X es no la variable respuesta y cuyos lados de la tamaocombinacionessuficientementevalores desingular. Multiplicando, ambos coeficientes y matriz de varianzas-covarianzas consecuencia, n es lineales de losXgrande, puede aplicarse una generalizacin del teorema central del aproximadamente una distribucin}normalXX)-1 Xaproximadamente una distribucin siguen lmite para demostrarE{(XX)-1 Xy = E{( siguen (X + con media 56 E(b) = que los estimadores b multivariante )} dependen de los valores de las normal multivariante con media variables explicativas X que se asumen constantes. En var(b) = E{(b - )(b - )} = E{(XX)-1 X X(XX)-1 } -1 1 + ( X 1 XE( ) = + E(b) = E{(XXX) es suficientemente grande, )} consecuencia, si el tamao muestral)n Xy} = E{(XX) X(X 2 puede aplicarse una 56 = (XX)-1 XE( )X(XX)-1 = (XX)-1 X( I)X(XX)-1 = + (XX)1 XE( ) = generalizacin del teorema central del lmite para demostrar que los estimadores b y matriz de varianzas-covarianzas = 2 (XX -1 y matriz de varianzas-covarianzas) ,
-1

-1 X X (X X) X X ) = = (X= )-1+ E() X(E(X) -1 = (XX)-1X( 2I)X(XX)-1 ya que E() = 0 y E(') = var() = 2I por las asunciones de linealidad, aditividad, homogeneidad es entonces un estimador insesgado de su correspondiente coeficiente de regresin j y de la varianza e independencia. Cada 2 estimador de mnimos cuadrados bj es entonces un = ) por las E() 2( var(-1 = y matriz de) varianzas-covarianzas I normal asunciones de linealidad, aditividad, estimador insesgado de su laXX) , ya que E( = 0 y = correspondiente coeficiente de regresin j y sigue aproximadamente sigue aproximadamente distribucin la distribucin normal homogeneidad de E( = E{( var( )(b - 2I 2 = E{( asunciones de linealidad, aditividad, bj e 0 y la varianza ) = )} las Cada estimador de mnimos cuadrados por ya que E() = var(b) ) = b - ~ independencia.XX)-1XX(XX)-1} bj N( j, vjj ), j = 0, 1, , p,

siguen aproximadamente una distribucin normal multivariante con media y matriz de varianzas-covarianzas )} = E{(XX)1 X X(XX)1 } var(b) = E{(b )(b ya que E() = 0 y E() = var() = 2I por las1asunciones de linealidad, aditividad, = (XX)1 XE(-1 X(XX) = (XX)1 X( 2 I)X(XX)1 ) -1 X E(E{(= E{()(bX))}y} E{(XX)XX(X( + ))}} var(b) = b)2 b - 1 - X = = E{(X -1 ) X X XX -1 homogeneidad de la varianzaX) independencia. Cada estimador de mnimos cuadrados bj = (X e ,

es vjj es el un de la =(j, insesgado ) su correspondiente coeficiente de regresin jy b homogeneidad estimadorj)-simo dedeXmatriz-1Cada estimador2I losXX)-1 dondeentonces elementovarianza e independencia. (X'X)1. )Adems,)Xmnimos cuadradosybkj de (X X)-1XE( la (XX) = (X X -1X( de ( estimadores b j -1 donde vjj es el elemento (j, j)-simo correlacionados con una covarianza cov(bj, b ) y distintos coeficientes de regresin estnde la matriz (XX) . Adems, los estimadores kbj= 2vjk. sigue aproximadamente la distribucin normal Cabe destacar que estimador (insesgado muestrales no requieren de la asuncin de normalidad y distribuciones es entonces un estas= 2 XX)-1, de su correspondiente coeficiente de regresin j y sonbk de distintos cualquier distribucin subyacente de la variable respuesta, siempre que el vlidas para coeficientes de regresin estn correlacionados con una covarianza ~ 2 tamao muestral sea suficientemente grande. ), sigue aproximadamente labdistribucin normal j = 0, 1, , p, j N(j, = y . Cabe destacar que vjj distribuciones de linealidad, requieren ya que, E() ) = 02vjkE() = var() = 2I por las asunciones muestrales no aditividad,de la estas cov(bj bk bj ~ N( , 2 jj), homogeneidadelemento (j, j)-simo jde lavmatriz j XX)1,. , p, de mnimos cuadrados 57 e donde vjj es el de la varianza independencia. Cada0, -1 Adems, los estimadores bj y bj ( = estimador es entonces un elemento (j, j)-simo de su matriz (XX)-1. Adems, los estimadores bj jy bk de vjj es el estimador insesgado de la correspondiente coeficiente covarianza dondedistintos coeficientes de regresin estn correlacionados con unade regresin y R. Pastor-Barriuso sigue distintos coeficientesdistribucin normalcorrelacionados con una covarianza de la cov(bj, bk) = 2vjk. Cabe destacar que estas distribuciones muestrales no requieren bk de aproximadamente la de regresin estn
229

Regresin lineal mltiple

E( y 0 ) = x E(b) = x 0 0 y 0 = b0 + b1 x + + b x0p = x 0 b Una vez estimados los coeficientes de01regresin,pel valor esperado de la variable

y varianza respuesta Y dados unos valores fijos x0 = (1, x01, , x0p) de las variables explicativas que, al ser una combinacin lineal de b, tambin se distribuye de forma puede estimarse como) coeficientes )(b - )}x0 = 2 xgrandes,x0 = lah0; Una vez estimados y = en muestras suficientemente XX)-1 con 2 variable respuesta Y 0 var( los aproximadamente normal x E{(b - de regresin, el valor(esperado demedia 0 0 dados unos valores fijos x0 = (1, x01, , x0p)' de las variables explicativas puede estimarse como y 0 = b0 + b) x01x E(b+ =px0p= x b 0 E( y 0 1 = + ) b x es decir, 0 0 que, al ser una combinacin lineal de b, tambin se distribuye de forma aproximadamente ~ normal al ser una combinacin linealgrandes, conmedia ), que, en muestras suficientemente yde tambin 2 h0 0 b, N( x , se distribuye de forma 0 y varianza

E( y00 suficientemente x grandes, con media y E( = 0 aproximadamente normal en muestras )) = x 0 E(b) = x00 2 -1 var( 0 ) x 0 ( X)b - es una )}x0 = estandarizada de 2h0; donde el leverage hy 0= = xXE{(-1x0)(b - medida x (XX) x0 = la desviacin de x0 0 0 y varianza E( 0 ) = 2 var( y - y0 ) = y E{(bx E(b) =xx 0 + var( 0 var( 0 ) muestrales 0)(b 0 )(b )}x(XX) 1x 0) valor 0; = 0 E{(b de las variables 2 0x0 (XX) El 2 2 0 var( y y 0 )= 0xx0E{(b x)(b -)}x0 =- explicativas.1x0== hh;predicho y es 0 0 respecto de las medias es decir,
Regresin lineal mltiple

2 Regresin lineal mltiple = 2 {1 + x (XX)-1 x 0 os coeficientes es y varianza el valor esperado de la variable respuesta Y0 } = (1 + h0 ). la variable dedecir, regresin, un estimador insesgado no slo dela esperanza o media poblacional de 2 y0 ~ 0 estimarse h0 s x0 = (1, x01, , x0p)' de las variables explicativas puede N( x ,como), var( y estimados 0 E{(b - )(b - )} regresin, ) Una vez 0 - y0 ) = xlos coeficientes de x0 + var( 0el valor esperado de la variable respuesta 2 + bSi 01el leverage,var( y0 0)(X'X)1x0 b -respuesta individual deXXnuevo normal = xx0 respecto y 0 = b0 dondeademsxelx0p0 = xde la nueva observacinxestandarizada dex0 = sujeto y0 (asuncin0 sino = respuesta + bp h = tambinE{( la unab - )} se= 2 x 0 ( un )-1 la desviacin de + 1x + 0 error 0 b x 0 de es )( medida 0 distribuye de forma h0; dados unosde regresin, x0 valor x01, , x0pdede las variables explicativas puede estimarse com valores fijos el = (1, esperado )' la variable respuesta Y0 Una vez estimados los muestrales de las variables explicativas. El valor predicho es un estimador de donde el leverage h = x (XX)-1 0 2 las medias coeficientes medida -1 de la 0 dados unos b, tambin x0 = de la0esperanza de x es una x (XX)estandarizada+h0 ). desviacin de x0 nacin lineal devalores fijosslodistribuye 0de )' o =lasaproximadamente0 } x +2 (1 + estimarse como tambin {1 + y explicativas puede b x = 0 insesgado no se (1, x01, , x0p forma y0variables seguir b1 variable respuesta x , sino p 0p = 0 0 = b + la 01 0media poblacional0de la distribucinxnormal b y - tambin de normalidad), la ya que ficientemente grandes, con media y diferencia nuevo sujeto y = x + ya que 0 = b de b1 de es decir, la respuesta individual 0 + unx01 + + bpx0p0 = 0 b 0 respecto de las medias muestrales x E{(b - )(b - )}x0 tambin )se distribuye deyforma aproximadamen var( y - y ) = de las variables de b, + var( El que, al ser 0una 0combinacin lineal explicativas. 0 valor predicho 0 es 0 0 Si x 0 E(b) = normal de muestras observacin se2 distribuye con media E( yuna=adems el error 0 ende b, tambin se distribuye de forma forma normal (asuncin x ) combinacin0 lineal la nueva suficientemente grandes, de aproximadamente que, al ser E( y 0 y0 ) = E{y 0 -b N( x0 } =(12+E(b ) E( 0 ) = 0. N(0, 0 xy ( y0~~ ) , x 0h0h0 )). ), 0 normal en muestras suficientemente grandes, = lamediax (Xo )-1 x0 } = 2 (1 + h0 ).de la variable con2 {1 + 0 0 Xmedia poblacional un estimador insesgado no slo de esperanza ) distribucin x 0 E( y 0la = yx,0la varianza de esta diferencia es Comonormalidad), la diferencia y 0 -de0 la nueva observacin 0 E(b) = normal de el valor predicho 0 no depende y tambin seguir E(xy = = h 0; E(b) = x la 2 predicho1 y 0 )no2depende de 0 nueva observacin y , la varianza de esta Como }xvalor, x 0 hvar(x(0X de la respuesta individual x + var( )0 resultados ( y 0 ) = x 0 E{(b )(b Enel leverage(X tambinunaxnicaE{(b )(explicativa, todos de la desviacin de + 0 el =0 varianza 0 0 respuesta x sino0 X) 0 X = una medida )} de un nuevo donde) el 0casoyparticularyde y0 ) -1x0xes variable b estandarizada 0lossujeto y0 = x 0 x0 = 0 0 0 Si adems el error 0 de la nueva observacin se2 distribuye de forma normal (asuncin 2 1 y varianza y0~ N(0, X (1 + 0 0 = y 0var({1 +=xx ( X) xh})). )2 (1 +=h0 ). x (X X)1x 2 2 E{(b )(b }x = - y 0 anteriores se 0 diferencia es reducen a los obtenidos en )regresin lineal simple0(vase 0Apartados= h0; 0 ya que de las medias muestrales de las variables explicativas. El valor predicho y 0 es ~ N( x , y 2 h ), E{(b )(b ) }x = 0 2 x (X X) 1x = 2h ; 0 respecto el error x de la nueva - y00 tambin se distribuye 0de forma normal ySi normalidad), la0 diferencia y 0 observacin seguir0 la distribucin normal (asuncin de var( de 0 0 adems0 0 ) = 0 es decir, As, se tiene que 10.3.1,el la diferencia de y tambin seguir la distribucin normal normalidad),caso y 10.3.4). 0 una nica variable explicativa, todos los resultados En 10.3.3 particular la desviacin de x respecto ~ 1 x0'(X'X) x0 es una medida estandarizada-de ) slo de la esperanza = media poblacional h 0.la variable es decir, 0 un estimador insesgado no = 0E{ x 0 (b - ) - 0} o x 0E(b -N()x- E(0)2 =0 ), 0 , de E( y 0 y y0 58 Si adems el error valor 0 ~ 0 es 2un estimador les de las variables explicativas. El 0 de la nueva0 observacin 2 (1 + h0 )). de forma normal (asuncin predicho y0 ~ N(0, se distribuye y y 0 N( 0 , h0 ), 1 anteriores sede la variable respuestaxen regresin linealmedida estandarizada de la desviacin de x respect reducen aleverage hx x' sino1 tambin simple (vase Apartados los obtenidos '(X'X) x es una esperanza o mediarespuesta x donde tambin n 0 respuesta individualde un nuevo sujeto y = x + poblacional , sino elb de la = 0 ,x 0 y 0 0 0 0 0 i i En normalidad),layamedias noydepende de las variablesdesviacin ,denormal anteriores es un estimado de y x' 0 de 1 diferencia 0 - tambin seguir la todos y0 varianza 0 ual de un nuevo sujetoel 0caso00particulardeuna medida 0estandarizada de la distribucinla x0 respecto esta se donde el leverage h el valor+ las=0 queunamuestrales 2 la explicativa, explicativas. El valor predicho 0 Como = x '(X'X)0b x es y 0 nicay variable nueva observacinlos resultados de predicho = b regresin variable x y i Apartados resultados y 10.3.4). As, x lineal reducen a 10.3.3 particular de una nica x isimple mediapoblacional de la variable y 10.3.4). En los obtenidos en o (vase de las medias10.3.1,el casoinsesgado1no slo dei la esperanzavalori predicho 0 es 10.3.1, 10.3.3respuesta x'0 , sino tambi muestrales de las variablesse tiene que El explicativa, todos losun estimador explicativas. (b yase de que0 E(b ) E( individual de un nuevo sujeto y = x' + tambin y 0 y0 ) = E{ x no slo 0la esperanzarespuestapoblacional de variable respuesta x' , sino ya que As, que } = xde la o media 0 ) = 0. ) tiene insesgado0 diferencia es la x i2 x x - 0 ~ N(0, 2(1 + i )). 0 i 00 i y i ,0 y 0 1 yen regresin yh0simple (vaseApartados anteriores se de un a los= obtenidos de la respuesta nueva observacinnuevo varianza 0de esta diferencialineal individual reducen , la sujeto y = x'0 2+01 ya que 0 no depende de la y b E(i y )x i = xy ibi ) x i y i E( n n n ( x 0 x 0 E{ x 0esy 0 0 - ) = 0i b E( ) 0 0. E( y 0 - 0y )==E{ x (b y2-) 0} x(E( -)-0 } = 0x= b ) E( 0 ) = 0. b= 0 b xx E(b ) x E( ) = 0. y 0 y0 = E{ x b ) y var( y 0 y0 ) = x E{(b E()(b y)10.3.4).1 (de0se x i0 } =variableexplicativa, todos los resultados 0 10.3.1, 10.3.3 )}x0 + 0 As, tiene 0i i i 0 Enel casoComo elvar( ) nicaque depende de la nueva observacin y0, la varianza de esta diferencia es particular una valor predicho 0 no 58 2 1 donde ( 0 los } = 2 {1 + x 0 todos) depende de lason 1 y de Como el=XXnox0 sumatorios no). sobre i = 1, xn.observacinesta y i varianza de esta valorComoel valor predicho(1 + h0 depende de ,yi0, la varianzax i yx,i la predicho nueva observacin 2 Pori tanto, la estimacin de la diferencia es y0 la 0 var( y nueva ,x0 + var( 0 0 anteriores se reducen a los=obtenidos enx 01yn ) =xxy E{(b x )(b y )}Apartados0 ) 2 b ( x b x regresin lineal simple (vase b 0 E{( normal (asuncin yi i 0 n n =0 xforma i)( )i)}x + var(2i ) i i 1 de la nueva observacin se es y 0 y0 ) de 0 {1 + x0 (XX) x0} = 2 (1 + h0). de var( b = pendiente distribuye = = seguir laes distribucin1 As, xi cia 0 y0 tambin10.3.1, 10.3.3 y 10.3.4).normal tiene x12 2 i y i 2 b {1 se x diferencia los sumatorios son sobre(i =quei,}n. Por(1 + h0 ). estimacin de la pendiente es =XX) x0 x tanto, la + 0 donde todos 1, = Si adems el error 0 de la nueva observacin se distribuye de forma normal (asuncin d 2 2 0 y0 donde todos los sumatorios son sobre i = 1, , n. Por tanto,x estimacin de la y ~ N(0, (1 + h0 )). n i y tambin seguir la distribucin de normalidad), la diferencia 0 0 x i de forma la x (asuncin normal Si adems el error 0 de la nueva observacin1se distribuye y i normali y i , = x )( ( xdistribucinxyiysei xi 2 y i i 2 1 y i ) ar denormalidad), la diferencia 0 y0 todos losseguir1lax )x i n normal y una nica variable explicativa, tambin n ( xii= anteriores y n b resultados 0 r s 58 pendiente es bApartados10.3.1, 2 n 2 y y 0 iy= ~ N(0, (1 + h0 )). = 0 = b1 = s s en regresin lineal simple (vase 10.3.3 10.3.4). 1 y by0 ~ x i x h0 x x i y i x (1 + N(0, ( i )). ) 2 En el0 caso particular de ixuna nica variable explicativa, todos los resultados anteriores s n i =1 , i2 Por simple x anteriores En el casodondetodosdereducen a los son sobre ien 1, xn.linealresultadosi y i Apartados 10.3.1, 10.3.3 y 10.3.4 particular los sumatorios obtenidos = regresin ylos x i (vase de lase una nica variable explicativa, todos itanto, la estimacin 1 1 = n xi y b ( xi x )( y y ) , obtenidos en iregresin lineal simple x ) 2 ni x y s y x = 0 reducen a lospendiente es As, se tiene que ( x=1 (vase Apartadosr 10.3.1, 10.3.3 y 10.3.4). = n = ii i = i yi i 2 b1 y la xi x xi y b1 As, se tiene que i estimacini de la constante es n s x 1 2 xi yi b 1 0( xi x )n 2 x i2 b0 y i n x i x i x ii b = i =b y i = y n 1 1 donde todos los sumatorios son sobre i = 1, , n. Por tanto, la estimacin de la xi xi xi y i n 1 n = , b= = n b1 i y i x iiy y ix i i2 x ) 2( ixyx )(xi i xy)( y i sy ) x x n ( xi x ) 2 ( x x xi ( y ) i i =1 x 2 y i xi xi y i 1 =r y 230 Pastor-Barriuso R.es pendiente y la estimacin debla = i =1 b1 = constante es n 2n i =1 = y i b1 x . , 2 orios son sobre i = 1, , n. Por tanto, 0la estimacin de x i pendiente (xx x i)s xi n x y x la y= 2 2 es x y 1 yi i i i = x(ixyixnx ) x i i y , ( i ) i i n n i =1 x i i n ( xi n x ) 2 n i =1 n ( xi x )( y i ydonde todos los sumatorios son sobre i = 1, , n. Por tanto, la estimacin de la pendiente es ) 2

b1 =

(x
i =1

=r
i

x)

sx

Apndice: formulacin matricial de la regresin lineal mltiple

1 y la estimacin de la constante es n cov(b0 , b1 ) var(b0 ) xi 2 var(b = constante es y la estimacin de) la = x 2 , 1 var( i cov(b0bb) ) cov(bb1,) n) n n i xx 1 var( 0 0 b1 y ( xi x ) 2 x (=i 2 x )( y2i y 2 2 x ) i var(b) = xi x cov(b , b ) var(b1 )i =1= xi xy b1 x . i , b = i0=1 1 = i 0 n n n ( xi x ) 2 x2i ( xi x ) 2 2 1xi xi, = i =1 n )2 i x x cov(b0 , b1 ) n2 (n i x x i var(b0 ) Adems, la matriz deque estos de dondevar(b) = varianzas-covarianzas de= estimadores2es se sigue xi xi cov(b0 , b1 ) var(b1 ) Adems, la matrizde varianzas-covarianzas de estos estimadores1 es n 2 x i x 2 x cov(b0 , b1 ) var( de donde se sigue que b0 ) 2 n i i, = var(b) = 2 ( x i b ) 2 = x 2 2 xi i cov(b0 , b1 ) var(1x ) + nn ix x x 2 x i n (x 1) 1 var(b0 ) = 2 i =n n = 2 2 + 2 2 , 2 2 n (n x) s x i ) + n( xi (xix x=) 2nx 2 1 2 x12i x , 59 2 i =1 n ( x ) + x i 2 , n x =i 1 i =n de donde se siguevar(b0 ) = que n (n 1) s x n ( x i x ) 2 de donde se sigue que 2 2 i =1 n de donde se sigue que var(b1)(= x ) 2 + nx 2 = xi n ( x x ) 2 (n2 1)s x2 , x 2 1 2 i =1 2 == 2+ , 2 , i var(b0 ) = var(b ) = n 2 n 1) s 1 n 1 n i =n ( 2 x n xx ) x nx)22 (n 1) s x ( x i ( i (2 i+) i =1 x 2 2 1 2 x , var(b0) = 2 i =1 n i =1 2 x = 2 2+ x 2 = n (n 1) s x . cov(b0, b1) = n 2 2 n var(b1) = (nx i x ) 2 = (n 1)2s,x x x x(i)x2 ) 2 (= ) x2 x . n 1s i =1 = (1 cov(b0, b1) i =n i x 2 (n 1) s x i =1 x (2 i x ) 2 2 2 var(b1de la n i =1 2 explicativa, la , ) = variable x = 2x Por ltimo, para un valorcov(b 0 b ) = fijo x , =n 1) s x varianza del valor predicho . ( 0 1 2 n x ( x(i x )x ) 2 (n 1)s x2 i variable Por b0 + b x0 es y 0 =ltimo,1para un valor fijo x0 de la=1i =1 i explicativa, la varianza del valor predicho

1.2 MEDIDAS DE TENDENCIA CENTRAL Por ltimo, + b1x0un valor fijo x0 de la variable2 explicativa,2 la varianza del valor predicho x x y 0 = b0 para es . cov(b0, b1) = n 1 = 2 0 = b0 + b1x0 es n 1) s x xix) 2 1(n tendencia central informan acerca de cul es el val 2 var( y ) = [1 x ] ( x i medidas de Las Por ltimo, para un0 valor fijo x00de variablex i2 1 x 0 la varianza del valor predicho x la nii=1 explicativa, xi 1 2 2 var( y 0 ) = [1 2x 0 ] de una determinada xi 1 2 y 0 = b0 + b1x0 es variable x xi x0 variableo, dicho de forma equivalente, estos e = fijo x0 de la [1xi x 0 explicativa, la varianza del valor predicho ] i Por ltimo, para un valor 2 n n ( x i 2 x ) x2i qu valor x 0 de alrededor x 1 xi seagrupan los datos observados. Las medid n = [1 x 0 ] 1 2i 2 2 y 0 = b0 + b1x0 es n ( xix ) n + n0xx1 n x 0 2 (x x i ( x x ) centrali de )la muestra sirven x ) para resumir los resultados obser var( y 0 ) = 2 [1=n x 0i] 2 i 1 x= 2 1 + ( x 0 tanto , 2 = x 2 n x 1 sx x 2 + n( x20 i 2( xinn)xii realizar x1)2 10 2n1 ((n 0)los2parmetros poblacionales corresp x ) inferencias ( xi acerca de x ) x 2 = 2 i =1 = 1 var( y 0 ) = 2 [1 x 0 ] i =n [1 x ] x i = xi+ 1 2 , n n 1) s 2 0 2 ( n ( xi x ) 2 ( xcontinuacin 0 describenxlos principales estimadores de la tenden n xi i )x i xix se n 0 x x i =1 2 n 2 donde se observa que el leverage del valor x0 x2 xi 1 = [2 + x 0 ] 0 x ) i 1 variable. xi x ) donde se observa que el leverage(delxvalor x0n( x xi n x 2 ni =1xi ) 2 x 2 ( 2 1 ( 0 0 x ) = = + donde se observa que el leverage del valor x0 2 n n (n 1) s 2 , n ) 1 ( x x2 x 2 + ) 2 0 hx 1.2.1 Media 0 ( ( xi n)(=xi+ nxx(0n x))s x2 2aritmtica( x0 x ) 2 n 1 1 i =1 2 i =1 = 1 ( x0 x ) = 2 + n = n ( 1) 2 , h0 La+ respecto 2 aritmtica, denotadaspor se define como es una medida estandarizada de su desviacinmedia1) s 2de la medianmuestral x ,de la variable la suma de c x n ( x i n x ) ( n x donde se observa que el leverage del valor x0 explicativa. i =1 valores muestrales dividida por el nmero de observaciones realiz 60 2 1 0 donde se observa que el leverage del valor x( x 0 x ) para h0 = por n el tamao muestral y por xi el valor observado 231 el sujeto + Pastor-Barriuso R. 2 60 n (n 1) s x la ( x x ) 2 1 media vendra dada por h0 = + 0 n (n 1) s 2

Regresin lineal mltiple

11.9 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.

REFERENCIAS Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth Edition. Oxford: Blackwell Science, 2002. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley & Sons, 1998. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008. McCullagh P, Nelder JA. Generalized Linear Models, Second Edition. London: Chapman & Hall, 1989. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series Temporales. Madrid: Alianza Editorial, 1987. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley & Sons, 2003. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons, 2005.

232

Pastor-Barriuso R.

APNDICE TABLAS ESTADSTICAS

Pastor-Barriuso R.

233

Tablas estadsticas

n Tabla 1 1 Probabilidades P(X = k) = k (1 ) n k parala distribucin binomial X con para la distribucin binomial X con Tabla Probabilidades k parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.* parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*
n
2

k
0 1 2 0

0,05

0,10

0,15

0,20

0,25 0,30

0,35

0,40

0,45

0,50

n 2

1 0 2
1 2 0 3 1

0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 0,0025 0,0100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 0,9025 0,8100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500 0,8574 0,0025 0,1354 0,0071 0,8574 0,0001 0,1354 0,8145 0,0001 0,1715 0,0135 0,8145 0,0005 0,1715 0,0135 0,0000 0,7738 0,0000 0,2036 0,7738 0,0214 0,2036 0,0011 0,0214 0,0000 0,0011 0,0000

0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
0,2430 0,0270 0,7290 0,0010 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750 0,0574 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250 0,6141 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750

3
4

2 0 3

1 2 0 3 1 2 4

0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
0,2916 0,0486 0,6561 0,0036 0,2916 0,0486 0,0001 0,3281 0,5905 0,0729 0,3281 0,0081 0,0729 0,0005 0,0081 0,0000

3 0 4 0 2 1 3 2 4 3 5 4 5 0
1 1

0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500 0,5905 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625 0,0001 0,4437 0,3277 0,2373 0,1681 0,1160 0,0778 0,0503 0,0313
0,3915

0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500 0,0975 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625 0,5220 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563

0,4437 0,1382 0,3915 0,0244 0,1382 0,0022 0,0244 0,0001 0,0000 0,0005 0,0022 0,0000 0,0000 0,3771 0,7351 0,5314 0,0001
0,2321 0,7351 0,0305 0,2321 0,0021 0,0305 0,0001 0,0021 0,0000 0,0001 0,0000 0,0000 0,6983 0,2573 0,6983 0,0406 0,2573 0,0406 0,0036 0,0036 0,0002 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,6634 0,6634 0,2793 0,2793 0,0515 0,0515 0,0054 0,0054 0,0004 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,3277 0,2048 0,4096 0,0512 0,2048 0,0064 0,0512 0,0003 0,0064 0,0003 0,2621 0,2621 0,2458 0,3932 0,0819 0,2458 0,0154 0,0819 0,0015 0,0154 0,0001 0,0015 0,0001
0,2097 0,3670 0,2097 0,2753 0,3670 0,2753 0,1147 0,1147 0,0287 0,0287 0,0043 0,0043 0,0004 0,0004 0,0000 0,0000 0,3932

0,2373 0,2637 0,3955 0,0879 0,2637 0,0146 0,0879 0,0010 0,0146 0,0010 0,1780
0,3560

0,1681 0,3087 0,3602 0,1323 0,3087 0,0284 0,1323 0,0024 0,0284 0,0024 0,1176
0,3025

0,1160 0,3364 0,3124 0,1811 0,3364 0,0488 0,1811 0,0053 0,0488 0,0053 0,0754
0,2437

0,0778 0,3456 0,2592 0,2304 0,3456 0,0768 0,2304 0,0102 0,0768 0,0102 0,0467
0,1866

0,0503 0,0313 0,3369 0,3125 0,2059 0,1563 0,2757 0,3125 0,3369 0,3125 0,1128 0,1563 0,2757 0,3125 0,0185 0,0313 0,1128 0,1563 0,0185 0,0313 0,0277 0,0156
0,1359 0,0938

0 2 1 3 2 4 3 5 4 6 5 6
0 1 0 2 1 2 3 3 4 4 5 5 6 6 7 7 0

0,3771 0,1762 0,3993 0,0415 0,1762 0,0055 0,0415 0,0004 0,0055 0,0000 0,0004 0,0000 0,0000 0,0000
0,4783 0,3720 0,4783 0,1240 0,3720 0,1240 0,0230 0,0230 0,0026 0,0026 0,0002 0,0002 0,0000 0,0000 0,0000 0,0000 0,3206 0,3960 0,3206 0,2097 0,3960 0,2097 0,0617 0,0617 0,0109 0,0109 0,0012 0,0012 0,0001 0,0001 0,0000 0,0000

0,3543 0,5314 0,0984 0,3543 0,0146 0,0984 0,0012 0,0146 0,0001 0,0012 0,0000 0,0001

0,3993

0,1780 0,2966 0,3560 0,1318 0,2966 0,0330 0,1318 0,0044 0,0330 0,0002 0,0044 0,0002
0,1335 0,3115 0,1335 0,3115 0,3115 0,3115 0,1730 0,1730 0,0577 0,0577 0,0115 0,0115 0,0013 0,0013 0,0001 0,0001 0,1001

0,1176 0,3241 0,3025 0,1852 0,3241 0,0595 0,1852 0,0102 0,0595 0,0007 0,0102 0,0007
0,0824 0,2471 0,0824 0,3177 0,2471 0,3177 0,2269 0,2269 0,0972 0,0972 0,0250 0,0250 0,0036 0,0036 0,0002 0,0002 0,0576

0,0754 0,3280 0,2437 0,2355 0,3280 0,0951 0,2355 0,0205 0,0951 0,0018 0,0205 0,0018
0,0490 0,1848 0,0490 0,2985 0,1848 0,2985 0,2679 0,2679 0,1442 0,1442 0,0466 0,0466 0,0084 0,0084 0,0006 0,0006 0,0319

0,0467 0,3110 0,1866 0,2765 0,3110 0,1382 0,2765 0,0369 0,1382 0,0041 0,0369 0,0041
0,0280 0,1306 0,0280 0,2613 0,1306 0,2613 0,2903 0,2903 0,1935 0,1935 0,0774 0,0774 0,0172 0,0172 0,0016 0,0016 0,0168

0,0277 0,0156 0,2780 0,2344 0,1359 0,0938 0,3032 0,3125 0,2780 0,2344 0,1861 0,2344 0,3032 0,3125 0,0609 0,0938 0,1861 0,2344 0,0083 0,0156 0,0609 0,0938 0,0083 0,0156
0,0152 0,0078 0,0872 0,0547 0,0152 0,0078 0,2140 0,1641 0,0872 0,0547 0,2140 0,1641 0,2918 0,2734 0,2918 0,2734 0,2388 0,2734 0,2388 0,2734 0,1172 0,1641 0,1172 0,1641 0,0320 0,0547 0,0320 0,0547 0,0037 0,0078 0,0037 0,0078 0,0084 0,0039

0 1 1 2 2 3 3 4 5 6 6 7 7
8

0,4305 0,4305 0,3826 0,3826 0,1488 0,1488 0,0331 0,0331 0,0046 0,0046 0,0004 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000

0,2725 0,2725 0,3847 0,3847 0,2376 0,2376 0,0839 0,0839 0,0185 0,0185 0,0026 0,0026 0,0002 0,0002 0,0000 0,0000 0,0000

0,1678 0,3355 0,3355 0,2936 0,2936 0,1468 0,1468 0,0459 0,0459 0,0092 0,0092 0,0011 0,0011 0,0001 0,0001
0,0000

0,1678

0,1001 0,2670 0,2670 0,3115 0,3115 0,2076 0,2076 0,0865 0,0865 0,0231 0,0231 0,0038 0,0038 0,0004 0,0004
0,0000

0,0576 0,1977 0,1977 0,2965 0,2965 0,2541 0,2541 0,1361 0,1361 0,0467 0,0467 0,0100 0,0100 0,0012 0,0012
0,0001

0,0319 0,1373 0,1373 0,2587 0,2587 0,2786 0,2786 0,1875 0,1875 0,0808 0,0808 0,0217 0,0217 0,0033 0,0033
0,0002

0,0168 0,0896 0,0896 0,2090 0,2090 0,2787 0,2787 0,2322 0,2322 0,1239 0,1239 0,0413 0,0413 0,0079 0,0079
0,0007

0,0084 0,0039 0,0548 0,0313 0,0548 0,0313 0,1569 0,1094 0,1569 0,1094 0,2568 0,2188 0,2568 0,2188 0,2627 0,2734 0,2627 0,2734 0,1719 0,2188 0,1719 0,2188 0,0703 0,1094 0,0703 0,1094 0,0164 0,0313 0,0164 0,0313
0,0017 0,0039

234

Pastor-Barriuso R.

Tablas estadsticas

Tabla 1 (Continuacin)
n
9

k
0 1 2 3 4 5 6 7 8 9

0,05
0,6302 0,2985 0,0629 0,0077 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000 0,5987 0,3151 0,0746 0,0105 0,0010 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,5688 0,3293 0,0867 0,0137 0,0014 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,5404 0,3413 0,0988 0,0173 0,0021 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10
0,3874 0,3874 0,1722 0,0446 0,0074 0,0008 0,0001 0,0000 0,0000 0,0000 0,3487 0,3874 0,1937 0,0574 0,0112 0,0015 0,0001 0,0000 0,0000 0,0000 0,0000 0,3138 0,3835 0,2131 0,0710 0,0158 0,0025 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,2824 0,3766 0,2301 0,0852 0,0213 0,0038 0,0005 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15
0,2316 0,3679 0,2597 0,1069 0,0283 0,0050 0,0006 0,0000 0,0000 0,0000 0,1969 0,3474 0,2759 0,1298 0,0401 0,0085 0,0012 0,0001 0,0000 0,0000 0,0000 0,1673 0,3248 0,2866 0,1517 0,0536 0,0132 0,0023 0,0003 0,0000 0,0000 0,0000 0,0000 0,1422 0,3012 0,2924 0,1720 0,0683 0,0193 0,0040 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000

0,20
0,1342 0,3020 0,3020 0,1762 0,0661 0,0165 0,0028 0,0003 0,0000 0,0000 0,1074 0,2684 0,3020 0,2013 0,0881 0,0264 0,0055 0,0008 0,0001 0,0000 0,0000 0,0859 0,2362 0,2953 0,2215 0,1107 0,0388 0,0097 0,0017 0,0002 0,0000 0,0000 0,0000 0,0687 0,2062 0,2835 0,2362 0,1329 0,0532 0,0155 0,0033 0,0005 0,0001 0,0000 0,0000 0,0000

0,25
0,0751 0,2253 0,3003 0,2336 0,1168 0,0389 0,0087 0,0012 0,0001 0,0000 0,0563 0,1877 0,2816 0,2503 0,1460 0,0584 0,0162 0,0031 0,0004 0,0000 0,0000 0,0422 0,1549 0,2581 0,2581 0,1721 0,0803 0,0268 0,0064 0,0011 0,0001 0,0000 0,0000 0,0317 0,1267 0,2323 0,2581 0,1936 0,1032 0,0401 0,0115 0,0024 0,0004 0,0000 0,0000 0,0000

0,30
0,0404 0,1556 0,2668 0,2668 0,1715 0,0735 0,0210 0,0039 0,0004 0,0000 0,0282 0,1211 0,2335 0,2668 0,2001 0,1029 0,0368 0,0090 0,0014 0,0001 0,0000 0,0198 0,0932 0,1998 0,2568 0,2201 0,1321 0,0566 0,0173 0,0037 0,0005 0,0000 0,0000 0,0138 0,0712 0,1678 0,2397 0,2311 0,1585 0,0792 0,0291 0,0078 0,0015 0,0002 0,0000 0,0000

0,35
0,0207 0,1004 0,2162 0,2716 0,2194 0,1181 0,0424 0,0098 0,0013 0,0001 0,0135 0,0725 0,1757 0,2522 0,2377 0,1536 0,0689 0,0212 0,0043 0,0005 0,0000 0,0088 0,0518 0,1395 0,2254 0,2428 0,1830 0,0985 0,0379 0,0102 0,0018 0,0002 0,0000 0,0057 0,0368 0,1088 0,1954 0,2367 0,2039 0,1281 0,0591 0,0199 0,0048 0,0008 0,0001 0,0000

0,40
0,0101 0,0605 0,1612 0,2508 0,2508 0,1672 0,0743 0,0212 0,0035 0,0003 0,0060 0,0403 0,1209 0,2150 0,2508 0,2007 0,1115 0,0425 0,0106 0,0016 0,0001 0,0036 0,0266 0,0887 0,1774 0,2365 0,2207 0,1471 0,0701 0,0234 0,0052 0,0007 0,0000 0,0022 0,0174 0,0639 0,1419 0,2128 0,2270 0,1766 0,1009 0,0420 0,0125 0,0025 0,0003 0,0000

0,45
0,0046 0,0339 0,1110 0,2119 0,2600 0,2128 0,1160 0,0407 0,0083 0,0008 0,0025 0,0207 0,0763 0,1665 0,2384 0,2340 0,1596 0,0746 0,0229 0,0042 0,0003 0,0014 0,0125 0,0513 0,1259 0,2060 0,2360 0,1931 0,1128 0,0462 0,0126 0,0021 0,0002 0,0008 0,0075 0,0339 0,0923 0,1700 0,2225 0,2124 0,1489 0,0762 0,0277 0,0068 0,0010 0,0001

0,50
0,0020 0,0176 0,0703 0,1641 0,2461 0,2461 0,1641 0,0703 0,0176 0,0020 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010 0,0005 0,0054 0,0269 0,0806 0,1611 0,2256 0,2256 0,1611 0,0806 0,0269 0,0054 0,0005 0,0002 0,0029 0,0161 0,0537 0,1208 0,1934 0,2256 0,1934 0,1208 0,0537 0,0161 0,0029 0,0002
235

10

0 1 2 3 4 5 6 7 8 9 10

11

0 1 2 3 4 5 6 7 8 9 10 11

12

0 1 2 3 4 5 6 7 8 9 10 11 12

Pastor-Barriuso R.

Tablas estadsticas

Tabla 1 (Continuacin)
n
13

k
0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3

0,05
0,5133 0,3512 0,1109 0,0214 0,0028 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4877 0,3593 0,1229 0,0259 0,0037 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4633 0,3658 0,1348 0,0307 0,0049 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4401 0,3706 0,1463 0,0359

0,10
0,2542 0,3672 0,2448 0,0997 0,0277 0,0055 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2288 0,3559 0,2570 0,1142 0,0349 0,0078 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2059 0,3432 0,2669 0,1285 0,0428 0,0105 0,0019 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1853 0,3294 0,2745 0,1423

0,15
0,1209 0,2774 0,2937 0,1900 0,0838 0,0266 0,0063 0,0011 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,1028 0,2539 0,2912 0,2056 0,0998 0,0352 0,0093 0,0019 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0874 0,2312 0,2856 0,2184 0,1156 0,0449 0,0132 0,0030 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0743 0,2097 0,2775 0,2285

0,20
0,0550 0,1787 0,2680 0,2457 0,1535 0,0691 0,0230 0,0058 0,0011 0,0001 0,0000 0,0000 0,0000 0,0000 0,0440 0,1539 0,2501 0,2501 0,1720 0,0860 0,0322 0,0092 0,0020 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0352 0,1319 0,2309 0,2501 0,1876 0,1032 0,0430 0,0138 0,0035 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0281 0,1126 0,2111 0,2463

0,25
0,0238 0,1029 0,2059 0,2517 0,2097 0,1258 0,0559 0,0186 0,0047 0,0009 0,0001 0,0000 0,0000 0,0000 0,0178 0,0832 0,1802 0,2402 0,2202 0,1468 0,0734 0,0280 0,0082 0,0018 0,0003 0,0000 0,0000 0,0000 0,0000 0,0134 0,0668 0,1559 0,2252 0,2252 0,1651 0,0917 0,0393 0,0131 0,0034 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0100 0,0535 0,1336 0,2079

0,30
0,0097 0,0540 0,1388 0,2181 0,2337 0,1803 0,1030 0,0442 0,0142 0,0034 0,0006 0,0001 0,0000 0,0000 0,0068 0,0407 0,1134 0,1943 0,2290 0,1963 0,1262 0,0618 0,0232 0,0066 0,0014 0,0002 0,0000 0,0000 0,0000 0,0047 0,0305 0,0916 0,1700 0,2186 0,2061 0,1472 0,0811 0,0348 0,0116 0,0030 0,0006 0,0001 0,0000 0,0000 0,0000 0,0033 0,0228 0,0732 0,1465

0,35
0,0037 0,0259 0,0836 0,1651 0,2222 0,2154 0,1546 0,0833 0,0336 0,0101 0,0022 0,0003 0,0000 0,0000 0,0024 0,0181 0,0634 0,1366 0,2022 0,2178 0,1759 0,1082 0,0510 0,0183 0,0049 0,0010 0,0001 0,0000 0,0000 0,0016 0,0126 0,0476 0,1110 0,1792 0,2123 0,1906 0,1319 0,0710 0,0298 0,0096 0,0024 0,0004 0,0001 0,0000 0,0000 0,0010 0,0087 0,0353 0,0888

0,40
0,0013 0,0113 0,0453 0,1107 0,1845 0,2214 0,1968 0,1312 0,0656 0,0243 0,0065 0,0012 0,0001 0,0000 0,0008 0,0073 0,0317 0,0845 0,1549 0,2066 0,2066 0,1574 0,0918 0,0408 0,0136 0,0033 0,0005 0,0001 0,0000 0,0005 0,0047 0,0219 0,0634 0,1268 0,1859 0,2066 0,1771 0,1181 0,0612 0,0245 0,0074 0,0016 0,0003 0,0000 0,0000 0,0003 0,0030 0,0150 0,0468

0,45
0,0004 0,0045 0,0220 0,0660 0,1350 0,1989 0,2169 0,1775 0,1089 0,0495 0,0162 0,0036 0,0005 0,0000 0,0002 0,0027 0,0141 0,0462 0,1040 0,1701 0,2088 0,1952 0,1398 0,0762 0,0312 0,0093 0,0019 0,0002 0,0000 0,0001 0,0016 0,0090 0,0318 0,0780 0,1404 0,1914 0,2013 0,1647 0,1048 0,0515 0,0191 0,0052 0,0010 0,0001 0,0000 0,0001 0,0009 0,0056 0,0215

0,50
0,0001 0,0016 0,0095 0,0349 0,0873 0,1571 0,2095 0,2095 0,1571 0,0873 0,0349 0,0095 0,0016 0,0001 0,0001 0,0009 0,0056 0,0222 0,0611 0,1222 0,1833 0,2095 0,1833 0,1222 0,0611 0,0222 0,0056 0,0009 0,0001 0,0000 0,0005 0,0032 0,0139 0,0417 0,0916 0,1527 0,1964 0,1964 0,1527 0,0916 0,0417 0,0139 0,0032 0,0005 0,0000 0,0000 0,0002 0,0018 0,0085

14

15

16

236

Pastor-Barriuso R.

Tablas estadsticas

Tabla 1 (Continuacin)
n k
4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

0,05
0,0061 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4181 0,3741 0,1575 0,0415 0,0076 0,0010 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3972 0,3763 0,1683 0,0473 0,0093 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10
0,0514 0,0137 0,0028 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1668 0,3150 0,2800 0,1556 0,0605 0,0175 0,0039 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1501 0,3002 0,2835 0,1680 0,0700 0,0218 0,0052 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15
0,1311 0,0555 0,0180 0,0045 0,0009 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0631 0,1893 0,2673 0,2359 0,1457 0,0668 0,0236 0,0065 0,0014 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0536 0,1704 0,2556 0,2406 0,1592 0,0787 0,0301 0,0091 0,0022 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,20
0,2001 0,1201 0,0550 0,0197 0,0055 0,0012 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0225 0,0957 0,1914 0,2393 0,2093 0,1361 0,0680 0,0267 0,0084 0,0021 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0180 0,0811 0,1723 0,2297 0,2153 0,1507 0,0816 0,0350 0,0120 0,0033 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000

0,25
0,2252 0,1802 0,1101 0,0524 0,0197 0,0058 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0075 0,0426 0,1136 0,1893 0,2209 0,1914 0,1276 0,0668 0,0279 0,0093 0,0025 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0056 0,0338 0,0958 0,1704 0,2130 0,1988 0,1436 0,0820 0,0376 0,0139 0,0042 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000

0,30
0,2040 0,2099 0,1649 0,1010 0,0487 0,0185 0,0056 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0023 0,0169 0,0581 0,1245 0,1868 0,2081 0,1784 0,1201 0,0644 0,0276 0,0095 0,0026 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0016 0,0126 0,0458 0,1046 0,1681 0,2017 0,1873 0,1376 0,0811 0,0386 0,0149 0,0046 0,0012 0,0002 0,0000 0,0000 0,0000

0,35
0,1553 0,2008 0,1982 0,1524 0,0923 0,0442 0,0167 0,0049 0,0011 0,0002 0,0000 0,0000 0,0000 0,0007 0,0060 0,0260 0,0701 0,1320 0,1849 0,1991 0,1685 0,1134 0,0611 0,0263 0,0090 0,0024 0,0005 0,0001 0,0000 0,0000 0,0000 0,0004 0,0042 0,0190 0,0547 0,1104 0,1664 0,1941 0,1792 0,1327 0,0794 0,0385 0,0151 0,0047 0,0012 0,0002 0,0000 0,0000

0,40
0,1014 0,1623 0,1983 0,1889 0,1417 0,0840 0,0392 0,0142 0,0040 0,0008 0,0001 0,0000 0,0000 0,0002 0,0019 0,0102 0,0341 0,0796 0,1379 0,1839 0,1927 0,1606 0,1070 0,0571 0,0242 0,0081 0,0021 0,0004 0,0001 0,0000 0,0000 0,0001 0,0012 0,0069 0,0246 0,0614 0,1146 0,1655 0,1892 0,1734 0,1284 0,0771 0,0374 0,0145 0,0045 0,0011 0,0002 0,0000

0,45
0,0572 0,1123 0,1684 0,1969 0,1812 0,1318 0,0755 0,0337 0,0115 0,0029 0,0005 0,0001 0,0000 0,0000 0,0005 0,0035 0,0144 0,0411 0,0875 0,1432 0,1841 0,1883 0,1540 0,1008 0,0525 0,0215 0,0068 0,0016 0,0003 0,0000 0,0000 0,0000 0,0003 0,0022 0,0095 0,0291 0,0666 0,1181 0,1657 0,1864 0,1694 0,1248 0,0742 0,0354 0,0134 0,0039 0,0009 0,0001

0,50
0,0278 0,0667 0,1222 0,1746 0,1964 0,1746 0,1222 0,0667 0,0278 0,0085 0,0018 0,0002 0,0000 0,0000 0,0001 0,0010 0,0052 0,0182 0,0472 0,0944 0,1484 0,1855 0,1855 0,1484 0,0944 0,0472 0,0182 0,0052 0,0010 0,0001 0,0000 0,0000 0,0001 0,0006 0,0031 0,0117 0,0327 0,0708 0,1214 0,1669 0,1855 0,1669 0,1214 0,0708 0,0327 0,0117 0,0031 0,0006
237

18

Pastor-Barriuso R.

Tablas estadsticas

Tabla 1 (Continuacin)
n k
17 18 19 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0,05
0,0000 0,0000 0,3774 0,3774 0,1787 0,0533 0,0112 0,0018 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3585 0,3774 0,1887 0,0596 0,0133 0,0022 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10
0,0000 0,0000 0,1351 0,2852 0,2852 0,1796 0,0798 0,0266 0,0069 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1216 0,2702 0,2852 0,1901 0,0898 0,0319 0,0089 0,0020 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15
0,0000 0,0000 0,0456 0,1529 0,2428 0,2428 0,1714 0,0907 0,0374 0,0122 0,0032 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0388 0,1368 0,2293 0,2428 0,1821 0,1028 0,0454 0,0160 0,0046 0,0011 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,20
0,0000 0,0000 0,0144 0,0685 0,1540 0,2182 0,2182 0,1636 0,0955 0,0443 0,0166 0,0051 0,0013 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0115 0,0576 0,1369 0,2054 0,2182 0,1746 0,1091 0,0545 0,0222 0,0074 0,0020 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,25
0,0000 0,0000 0,0042 0,0268 0,0803 0,1517 0,2023 0,2023 0,1574 0,0974 0,0487 0,0198 0,0066 0,0018 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0032 0,0211 0,0669 0,1339 0,1897 0,2023 0,1686 0,1124 0,0609 0,0271 0,0099 0,0030 0,0008 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,30
0,0000 0,0000 0,0011 0,0093 0,0358 0,0869 0,1491 0,1916 0,1916 0,1525 0,0981 0,0514 0,0220 0,0077 0,0022 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0008 0,0068 0,0278 0,0716 0,1304 0,1789 0,1916 0,1643 0,1144 0,0654 0,0308 0,0120 0,0039 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,35
0,0000 0,0000 0,0003 0,0029 0,0138 0,0422 0,0909 0,1468 0,1844 0,1844 0,1489 0,0980 0,0528 0,0233 0,0083 0,0024 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0002 0,0020 0,0100 0,0323 0,0738 0,1272 0,1712 0,1844 0,1614 0,1158 0,0686 0,0336 0,0136 0,0045 0,0012 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000

0,40
0,0000 0,0000 0,0001 0,0008 0,0046 0,0175 0,0467 0,0933 0,1451 0,1797 0,1797 0,1464 0,0976 0,0532 0,0237 0,0085 0,0024 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0005 0,0031 0,0123 0,0350 0,0746 0,1244 0,1659 0,1797 0,1597 0,1171 0,0710 0,0355 0,0146 0,0049 0,0013 0,0003 0,0000 0,0000 0,0000 0,0000

0,45
0,0000 0,0000 0,0000 0,0002 0,0013 0,0062 0,0203 0,0497 0,0949 0,1443 0,1771 0,1771 0,1449 0,0970 0,0529 0,0233 0,0082 0,0022 0,0005 0,0001 0,0000 0,0000 0,0000 0,0001 0,0008 0,0040 0,0139 0,0365 0,0746 0,1221 0,1623 0,1771 0,1593 0,1185 0,0727 0,0366 0,0150 0,0049 0,0013 0,0002 0,0000 0,0000 0,0000

0,50
0,0001 0,0000 0,0000 0,0000 0,0003 0,0018 0,0074 0,0222 0,0518 0,0961 0,1442 0,1762 0,1762 0,1442 0,0961 0,0518 0,0222 0,0074 0,0018 0,0003 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0046 0,0148 0,0370 0,0739 0,1201 0,1602 0,1762 0,1602 0,1201 0,0739 0,0370 0,0148 0,0046 0,0011 0,0002 0,0000 0,0000

20

Para = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n k) donde Y es la distribucin binomial con parmetros n y 1 .

238

Pastor-Barriuso R.

Tablas estadsticas

Tabla 2 Probabilidades P(X = k) = Tabla 2 Probabilidades

e k para distribucin de de Poisson para la la distribucinPoisson X con X con k! parmetro de 0,5 a 20 en intervalos de 0,5. parmetro de 0,5 a 20 en intervalos de 0,5.
k
0 1 2

0,5

1,0
0,3679 0,3679 0,1839

1,5
0,2231 0,3347 0,2510

2,0
0,1353 0,2707 0,2707 0,1804 0,1353

0,6065 0,3033 0,0758

0,0821 0,0498 0,2052 0,2565

2,5

3,0

3,5
0,0302 0,1057 0,1850 0,2158 0,0302 0,1057 0,1888 0,1850 0,1322 0,2158 0,0771 0,1888 0,0385 0,1322 0,0169 0,0771 0,0066 0,0385 0,0169 0,0023 0,0066 0,0007 0,0023 0,0002 0,0007 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 8,5 8,5 0,0002 0,0017 0,0002 0,0074 0,0017 0,0208 0,0074 0,0208 0,0443 0,0443 0,0752 0,0752 0,1066 0,1066 0,1294 0,1294 0,1375 0,1375 0,1299 0,1299 0,1104 0,1104 0,0853 0,0853 0,0604 0,0604 0,0395 0,0395 0,0240 0,0240 0,0136 0,0136 0,0072 0,0036 0,0072 0,0017 0,0036 0,0008 0,0017 0,0003 0,0008 0,0001 0,0003 0,0001 0,0001 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000

4,0
0,0183 0,0733 0,1465 0,1954 0,0183 0,0733 0,1954 0,1465 0,1563 0,1954 0,1042 0,1954 0,0595 0,1563 0,0298 0,1042 0,0132 0,0595 0,0298 0,0053 0,0132 0,0019 0,0053 0,0006 0,0019 0,0002 0,0006 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 9,0 9,0 0,0001 0,0011 0,0001 0,0050 0,0011 0,0150 0,0050 0,0150 0,0337 0,0337 0,0607 0,0607 0,0911 0,0911 0,1171 0,1171 0,1318 0,1318 0,1318 0,1318 0,1186 0,1186 0,0970 0,0970 0,0728 0,0728 0,0504 0,0504 0,0324 0,0324 0,0194 0,0194 0,0109 0,0058 0,0109 0,0029 0,0058 0,0014 0,0029 0,0006 0,0014 0,0003 0,0006 0,0001 0,0003 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000

4,5
0,0111 0,0500 0,1125 0,1687 0,0111 0,0500 0,1898 0,1125 0,1708 0,1687 0,1281 0,1898 0,0824 0,1708 0,0463 0,1281 0,0232 0,0824 0,0463 0,0104 0,0232 0,0043 0,0104 0,0016 0,0043 0,0006 0,0016 0,0002 0,0006 0,0001 0,0002 0,0000 0,0001 0,0000 9,5 9,5 0,0001 0,0007 0,0001 0,0034 0,0007 0,0107 0,0034 0,0107 0,0254 0,0254 0,0483 0,0483 0,0764 0,0764 0,1037 0,1037 0,1232 0,1232 0,1300 0,1300 0,1235 0,1235 0,1067 0,1067 0,0844 0,0844 0,0617 0,0617 0,0419 0,0419 0,0265 0,0265 0,0157 0,0088 0,0157 0,0046 0,0088 0,0023 0,0046 0,0011 0,0023 0,0005 0,0011 0,0002 0,0005 0,0001 0,0002 0,0000 0,0000 0,0001 0,0000 0,0000

5,0
0,0067 0,0337 0,0842 0,1404 0,0067 0,0337 0,1755 0,0842 0,1755 0,1404 0,1462 0,1755 0,1044 0,1755 0,0653 0,1462 0,0363 0,1044 0,0653 0,0181 0,0363 0,0082 0,0181 0,0034 0,0082 0,0013 0,0034 0,0005 0,0013 0,0002 0,0005 0,0000 0,0002 0,0000 10,0 10,0 0,0000 0,0005 0,0000 0,0023 0,0005 0,0076 0,0023 0,0076 0,0189 0,0189 0,0378 0,0378 0,0631 0,0631 0,0901 0,0901 0,1126 0,1126 0,1251 0,1251 0,1251 0,1251 0,1137 0,1137 0,0948 0,0948 0,0729 0,0729 0,0521 0,0521 0,0347 0,0347 0,0217 0,0128 0,0217 0,0071 0,0128 0,0037 0,0071 0,0019 0,0037 0,0009 0,0019 0,0004 0,0009 0,0002 0,0004 0,0001 0,0000 0,0002 0,0001 0,0000

0,5

1,0

1,5

2,0

2,5

0,1494 0,2240 0,2240 0,0498 0,1494 0,1680 0,2240 0,1008 0,2240 0,0504 0,1680 0,0216 0,1008 0,0081 0,0504 0,0027 0,0216 0,0081 0,0008 0,0027 0,0002 0,0008 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 8,0 8,0 0,0003 0,0027 0,0003 0,0107 0,0027 0,0286 0,0107 0,0286 0,0573 0,0573 0,0916 0,0916 0,1221 0,1221 0,1396 0,1396 0,1396 0,1396 0,1241 0,1241 0,0993 0,0993 0,0722 0,0722 0,0481 0,0481 0,0296 0,0296 0,0169 0,0169 0,0090 0,0090 0,0045 0,0021 0,0045 0,0009 0,0021 0,0004 0,0009 0,0002 0,0004 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

3,0

3,5

4,0

4,5

5,0

63 4 7 5 86 97 108 119 10 12 11 13 12 14 13 15 14 16 15 16 0 1 21

52

41

30

0,0126 0,0000 0,0016 0,0000 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 5,5 5,5 0,0041
0,0225

0,0758 0,0031 0,0141 0,0361 0,1839 0,2510 0,2707 0,0002 0,0613 0,0005 0,0153 0,0001 0,0031 0,0000 0,0005 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 6,0 6,0 0,0025 0,1255 0,0035 0,0471 0,0008 0,0141 0,0001 0,0035 0,0000 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 6,5 6,5 0,0015 0,1804 0,0120 0,0902 0,0034 0,0361 0,0009 0,0120 0,0002 0,0034 0,0009 0,0000 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 7,0 7,0 0,0009

0,3033 0,0153 0,0471 0,0902 0,3679 0,3347 0,2707 0,0016

0,0126 0,6065 0,0613 0,1255 0,3679 0,2231

0,1336 0,0668 0,0031 0,0278 0,0009 0,0099 0,0031 0,0002 0,0009 0,0000 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 7,5 7,5 0,0006
0,0099 0,0041 0,0156 0,0041

0,2138 0,0278

0,2565 0,0668

0,2052 0,1336

0,2138 0,0821

5 6 6 7 7 88 99 10 10 11 11 12 12 13 13 14 14 15 15 16 17 16 18 17 19 18 20 19 21 20 22 21 23 22 24 25 23
24 25

54

43

32

0,0041 0,0149 0,0098 0,0064 0,0025 0,0015 0,0009 0,0223 0,0064 0,1133 0,0892 0,0688 0,0521 0,0618 0,0446 0,0318 0,0223 0,1133 0,1339 0,1118 0,0912 0,0892 0,0688 0,0521 0,1558 0,1558 0,1606 0,1454 0,1277 0,1339 0,1118 0,0912 0,1714 0,1714 0,1606 0,1575 0,1490 0,1606 0,1454 0,1277 0,1571 0,1571 0,1606 0,1575 0,1490 0,1234 0,1377 0,1462 0,1490 0,1234 0,1377 0,1462 0,1490 0,0849 0,1033 0,1188 0,1304 0,0849 0,1033 0,1188 0,1304 0,0519 0,0519 0,0688 0,0858 0,1014 0,0688 0,0858 0,1014 0,0285 0,0413 0,0558 0,0710 0,0413 0,0558 0,0710 0,0285 0,0143 0,0225 0,0330 0,0452 0,0225 0,0330 0,0452 0,0143 0,0065 0,0113 0,0179 0,0263 0,0113 0,0179 0,0263 0,0065 0,0028 0,0052 0,0089 0,0142 0,0028 0,0052 0,0089 0,0142 0,0011 0,0022 0,0041 0,0071 0,0011 0,0004 0,0022 0,0041 0,0071 0,0009 0,0018 0,0033 0,0004 0,0001 0,0009 0,0018 0,0033 0,0003 0,0007 0,0014 0,0000 0,0003 0,0007 0,0014 0,0001 0,0003 0,0006 0,0001 0,0000 0,0001 0,0003 0,0006 0,0000 0,0001 0,0002 0,0000 0,0000 0,0000 0,0001 0,0002 0,0000 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0618 0,0225 0,0446 0,0318 0,0149 0,0098 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,0006

0,0389 0,0729 0,1094 0,1367 0,1465 0,1465 0,1373 0,1373 0,1144 0,1144 0,0858 0,0858 0,0585 0,0585 0,0366 0,0366 0,0211 0,0211 0,0113 0,0113 0,0057 0,0057 0,0026 0,0012 0,0026 0,0005 0,0012 0,0002 0,0005 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,1367 0,0000 0,0000

0,0389 0,0156

0,0729 0,1094

Pastor-Barriuso R.

239

Tablas estadsticas

Tabla 2 (Continuacin)
k
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

10,5
0,0000 0,0003 0,0015 0,0053 0,0139 0,0293 0,0513 0,0769 0,1009 0,1177 0,1236 0,1180 0,1032 0,0834 0,0625 0,0438 0,0287 0,0177 0,0104 0,0057 0,0030 0,0015 0,0007 0,0003 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

11,0
0,0000 0,0002 0,0010 0,0037 0,0102 0,0224 0,0411 0,0646 0,0888 0,1085 0,1194 0,1194 0,1094 0,0926 0,0728 0,0534 0,0367 0,0237 0,0145 0,0084 0,0046 0,0024 0,0012 0,0006 0,0003 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

11,5
0,0000 0,0001 0,0007 0,0026 0,0074 0,0170 0,0325 0,0535 0,0769 0,0982 0,1129 0,1181 0,1131 0,1001 0,0822 0,0630 0,0453 0,0306 0,0196 0,0119 0,0068 0,0037 0,0020 0,0010 0,0005 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

12,0
0,0000 0,0001 0,0004 0,0018 0,0053 0,0127 0,0255 0,0437 0,0655 0,0874 0,1048 0,1144 0,1144 0,1056 0,0905 0,0724 0,0543 0,0383 0,0255 0,0161 0,0097 0,0055 0,0030 0,0016 0,0008 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

12,5
0,0000 0,0000 0,0003 0,0012 0,0038 0,0095 0,0197 0,0353 0,0551 0,0765 0,0956 0,1087 0,1132 0,1089 0,0972 0,0810 0,0633 0,0465 0,0323 0,0213 0,0133 0,0079 0,0045 0,0024 0,0013 0,0006 0,0003 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000

13,0
0,0000 0,0000 0,0002 0,0008 0,0027 0,0070 0,0152 0,0281 0,0457 0,0661 0,0859 0,1015 0,1099 0,1099 0,1021 0,0885 0,0719 0,0550 0,0397 0,0272 0,0177 0,0109 0,0065 0,0037 0,0020 0,0010 0,0005 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000

13,5
0,0000 0,0000 0,0001 0,0006 0,0019 0,0051 0,0115 0,0222 0,0375 0,0563 0,0760 0,0932 0,1049 0,1089 0,1050 0,0945 0,0798 0,0633 0,0475 0,0337 0,0228 0,0146 0,0090 0,0053 0,0030 0,0016 0,0008 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000

14,0
0,0000 0,0000 0,0001 0,0004 0,0013 0,0037 0,0087 0,0174 0,0304 0,0473 0,0663 0,0844 0,0984 0,1060 0,1060 0,0989 0,0866 0,0713 0,0554 0,0409 0,0286 0,0191 0,0121 0,0074 0,0043 0,0024 0,0013 0,0007 0,0003 0,0002 0,0001 0,0000 0,0000 0,0000

14,5
0,0000 0,0000 0,0001 0,0003 0,0009 0,0027 0,0065 0,0135 0,0244 0,0394 0,0571 0,0753 0,0910 0,1014 0,1051 0,1016 0,0920 0,0785 0,0632 0,0483 0,0350 0,0242 0,0159 0,0100 0,0061 0,0035 0,0020 0,0011 0,0005 0,0003 0,0001 0,0001 0,0000 0,0000

15,0
0,0000 0,0000 0,0000 0,0002 0,0006 0,0019 0,0048 0,0104 0,0194 0,0324 0,0486 0,0663 0,0829 0,0956 0,1024 0,1024 0,0960 0,0847 0,0706 0,0557 0,0418 0,0299 0,0204 0,0133 0,0083 0,0050 0,0029 0,0016 0,0009 0,0004 0,0002 0,0001 0,0001 0,0000

15,5
0 1 2 3 4 5 6 7 8 9 10 11 12
240 Pastor-Barriuso R.

16,0
0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0026 0,0060 0,0120 0,0213 0,0341 0,0496 0,0661

16,5
0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0019 0,0045 0,0093 0,0171 0,0281 0,0422 0,0580

17,0
0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0014 0,0034 0,0072 0,0135 0,0230 0,0355 0,0504

17,5
0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0025 0,0055 0,0107 0,0186 0,0297 0,0432

18,0
0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0019 0,0042 0,0083 0,0150 0,0245 0,0368

18,5
0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005 0,0014 0,0031 0,0065 0,0120 0,0201 0,0310

19,0
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0010 0,0024 0,0050 0,0095 0,0164 0,0259

19,5
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0007 0,0018 0,0038 0,0074 0,0132 0,0214

20,0
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0005 0,0013 0,0029 0,0058 0,0106 0,0176

0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0036 0,0079 0,0153 0,0264 0,0409 0,0577 0,0745

Tablas estadsticas

Tabla 2 (Continuacin)
k
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

15,5
0,0888 0,0983 0,1016 0,0984 0,0897 0,0773 0,0630 0,0489 0,0361 0,0254 0,0171 0,0111 0,0069 0,0041 0,0023 0,0013 0,0007 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

16,0
0,0814 0,0930 0,0992 0,0992 0,0934 0,0830 0,0699 0,0559 0,0426 0,0310 0,0216 0,0144 0,0092 0,0057 0,0034 0,0019 0,0011 0,0006 0,0003 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

16,5
0,0736 0,0868 0,0955 0,0985 0,0956 0,0876 0,0761 0,0628 0,0493 0,0370 0,0265 0,0182 0,0120 0,0076 0,0047 0,0028 0,0016 0,0009 0,0005 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

17,0
0,0658 0,0800 0,0906 0,0963 0,0963 0,0909 0,0814 0,0692 0,0560 0,0433 0,0320 0,0226 0,0154 0,0101 0,0063 0,0038 0,0023 0,0013 0,0007 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

17,5
0,0582 0,0728 0,0849 0,0929 0,0956 0,0929 0,0856 0,0749 0,0624 0,0496 0,0378 0,0275 0,0193 0,0130 0,0084 0,0053 0,0032 0,0019 0,0010 0,0006 0,0003 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000

18,0
0,0509 0,0655 0,0786 0,0884 0,0936 0,0936 0,0887 0,0798 0,0684 0,0560 0,0438 0,0328 0,0237 0,0164 0,0109 0,0070 0,0044 0,0026 0,0015 0,0009 0,0005 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000

18,5
0,0441 0,0583 0,0719 0,0831 0,0904 0,0930 0,0905 0,0837 0,0738 0,0620 0,0499 0,0385 0,0285 0,0202 0,0139 0,0092 0,0058 0,0036 0,0022 0,0012 0,0007 0,0004 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000

19,0
0,0378 0,0514 0,0650 0,0772 0,0863 0,0911 0,0911 0,0866 0,0783 0,0676 0,0559 0,0442 0,0336 0,0246 0,0173 0,0117 0,0077 0,0049 0,0030 0,0018 0,0010 0,0006 0,0003 0,0002 0,0001 0,0000 0,0000 0,0000

19,5
0,0322 0,0448 0,0582 0,0710 0,0814 0,0882 0,0905 0,0883 0,0820 0,0727 0,0616 0,0500 0,0390 0,0293 0,0211 0,0147 0,0099 0,0064 0,0040 0,0025 0,0015 0,0008 0,0005 0,0003 0,0001 0,0001 0,0000 0,0000

20,0
0,0271 0,0387 0,0516 0,0646 0,0760 0,0844 0,0888 0,0888 0,0846 0,0769 0,0669 0,0557 0,0446 0,0343 0,0254 0,0181 0,0125 0,0083 0,0054 0,0034 0,0020 0,0012 0,0007 0,0004 0,0002 0,0001 0,0001 0,0000

Pastor-Barriuso R.

241

Tablas estadsticas

Tabla 3 Funcin de distribucin normal estandarizada (z) = P(Z z) para valores z de 0 a 3,99 en intervalos de 0,01.*
z 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,10 1,20 1,30 1,40 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 3,10 3,20 3,30 3,40 3,50 3,60 3,70 3,80 3,90 * 0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000

Para valores z negativos, (z) = P(Z z) = P(Z z) = 1 P(Z z) = 1 ( z).

242

Pastor-Barriuso R.

Tablas estadsticas

Tabla 4 Tabla de 1000 dgitos aleatorios.


15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 28068 77798 33911 45302 31759 81262 27510 84888 92551 48644 71226 59902 24973 27005 25651 34255 74791 63485 99762 85157 610 97497 61589 76198 20953 68429 04831 88900 90443 42420 97274 14223 65129 51863 74018 65765 68331 18769 89564 44503 99008 1115 24717 36980 97068 65158 61028 92203 41437 23200 29984 33475 27559 28077 86605 05569 98249 66861 92325 62107 91645 25927 1620 94945 18859 89844 70637 00200 25447 07409 86340 87522 71381 00943 80487 16991 70982 24231 37285 19959 80055 15352 31118 2125 71584 78471 07886 42792 02062 65875 87437 07731 19370 27387 46943 79160 58423 80438 32819 34606 90031 08094 25957 65466 2630 46975 07605 96716 85207 92555 71086 79309 64171 30357 50740 40680 56426 33341 76901 26680 68167 27008 85412 73662 48706 3135 80676 41910 18354 32911 82037 12676 83499 76935 33530 03176 96829 47978 70147 80061 17613 55636 25857 33589 71146 20302 3640 37564 98737 66921 93401 69832 42753 50721 02931 58101 96910 09265 08556 06005 11144 29917 70101 68520 71900 26161 26133 4145 85194 97310 85958 90088 74185 79223 40752 66982 59423 94049 94401 20753 81833 91733 47814 51328 41469 05892 98418 04751 4650 26562 76984 59963 88104 76010 63135 82801 30842 91700 65052 98461 10206 00868 07228 92539 57528 45100 63260 10195 34701

Pastor-Barriuso R.

243

Tablas estadsticas

Tabla 5

Percentiles de la distribucin t de Student para distintos grados de libertad.


Percentil 0,75 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674 0,80 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842 0,85 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,050 1,045 1,041 1,036 0,90 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282 0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960 0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326 0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576 0,9995 636,619 31,599 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,551 3,460 3,373 3,291

Grados de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

244

Pastor-Barriuso R.

Tablas estadsticas

Tabla 6

Percentiles de la distribucin chi-cuadrado para distintos grados de libertad d.


Percentil

d
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100

0,005
0,000 0,01 0,07 0,21 0,41 0,68 0,99 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 5,70 6,26 6,84 7,43 8,03 8,64 9,26 9,89 10,52 11,16 11,81 12,46 13,12 13,79 17,19 20,71 24,31 27,99 35,53 43,28 51,17 59,20 67,33

0,01

0,025

0,05
0,004 0,10 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26

0,10
0,02 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,09 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47 17,29 18,11 18,94 19,77 20,60 24,80 29,05 33,35 37,69 46,46 55,33 64,28 73,29 82,36

0,25
0,10 0,58 1,21 1,92 2,67 3,45 4,25 5,07 5,90 6,74 7,58 8,44 9,30 10,17 11,04 11,91 12,79 13,68 14,56 15,45 16,34 17,24 18,14 19,04 19,94 20,84 21,75 22,66 23,57 24,48 29,05 33,66 38,29 42,94 52,29 61,70 71,14 80,62 90,13

0,50
0,45 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,34 11,34 12,34 13,34 14,34 15,34 16,34 17,34 18,34 19,34 20,34 21,34 22,34 23,34 24,34 25,34 26,34 27,34 28,34 29,34 34,34 39,34 44,34 49,33

0,75
1,32 2,77 4,11 5,39 6,63 7,84 9,04 10,22 11,39 12,55 13,70 14,85 15,98 17,12 18,25 19,37 20,49 21,60 22,72 23,83 24,93 26,04 27,14 28,24 29,34 30,43 31,53 32,62 33,71 34,80 40,22 45,62 50,98 56,33

0,90
2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,20 34,38 35,56 36,74 37,92 39,09 40,26 46,06 51,81 57,51 63,17

0,95
3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 49,80 55,76 61,66 67,50

0,975
5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 53,20 59,34 65,41 71,42

0,99
6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 57,34 63,69 69,96 76,15

0,995
7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,95 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,64 50,99 52,34 53,67 60,27 66,77 73,17 79,49

0,0002 0,001 0,02 0,05 0,11 0,22 0,30 0,48 0,55 0,83 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,56 14,26 14,95 18,51 22,16 25,90 29,71 37,48 45,44 53,54 61,75 70,06 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26

6,91 7,96 7,56 8,67 8,23 9,39 8,91 10,12 9,59 10,85 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 20,57 24,43 28,37 32,36 40,48 48,76 57,15 65,65 74,22 11,59 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 22,47 26,51 30,61 34,76 43,19 51,74 60,39 69,13 77,93

59,33 66,98 74,40 79,08 83,30 88,38 91,95 69,33 77,58 85,53 90,53 95,02 100,43 104,21 79,33 88,13 96,58 101,88 106,63 112,33 116,32 89,33 98,65 107,57 113,15 118,14 124,12 128,30 99,33 109,14 118,50 124,34 129,56 135,81 140,17
Pastor-Barriuso R. 245

Tablas estadsticas

Tabla 7 Percentiles de la distribucin F de Fisher para distintos grados de libertad del numerador d1 y del denominador d2.*
d1 d2
1

Percentil
0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975

10

15

20

30

39,86 49,50 161,45 199,50 647,79 799,50 4052,2 4999,5 16211 20000

53,59 55,83 57,24 58,20 59,44 60,19 61,22 61,74 62,26 63,33 215,71 224,58 230,16 233,99 238,88 241,88 245,95 248,01 250,10 254,31 864,16 899,58 921,85 937,11 956,66 968,63 984,87 993,10 1001,4 1018,3 5403,4 5624,6 5763,7 5859,0 5981,1 6055,9 6157,3 6208,7 6260,7 6365,9 21615 22500 23056 23437 23925 24224 24630 24836 25044 25464

8,53 9,00 9,16 9,24 9,29 9,33 9,37 9,39 9,42 9,44 9,46 9,49 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50 38,51 39,00 39,17 39,25 39,30 39,33 39,37 39,40 39,43 39,45 39,46 39,50 98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,40 99,43 99,45 99,47 99,50 198,50 199,00 199,17 199,25 199,30 199,33 199,37 199,40 199,43 199,45 199,47 199,50 5,54 10,13 17,44 34,12 55,55 4,54 7,71 12,22 21,20 31,33 4,06 6,61 10,01 16,26 22,78 3,78 5,99 8,81 13,75 18,63 3,59 5,59 8,07 12,25 16,24 3,46 5,32 7,57 11,26 14,69 3,36 5,12 7,21 10,56 13,61 3,29 4,96 6,94 10,04 12,83 3,18 4,75 6,55 5,46 9,55 16,04 30,82 49,80 4,32 6,94 10,65 18,00 26,28 3,78 5,79 8,43 13,27 18,31 3,46 5,14 7,26 10,92 14,54 3,26 4,74 6,54 9,55 12,40 3,11 4,46 6,06 8,65 11,04 3,01 4,26 5,71 8,02 10,11 2,92 4,10 5,46 7,56 9,43 2,81 3,89 5,10 5,39 9,28 15,44 29,46 47,47 4,19 6,59 9,98 16,69 24,26 3,62 5,41 7,76 12,06 16,53 3,29 4,76 6,60 9,78 12,92 3,07 4,35 5,89 8,45 10,88 2,92 4,07 5,42 7,59 9,60 2,81 3,86 5,08 6,99 8,72 2,73 3,71 4,83 6,55 8,08 2,61 3,49 4,47 5,34 9,12 15,10 28,71 46,19 4,11 6,39 9,60 15,98 23,15 3,52 5,19 7,39 11,39 15,56 3,18 4,53 6,23 9,15 12,03 2,96 4,12 5,52 7,85 10,05 2,81 3,84 5,05 7,01 8,81 2,69 3,63 4,72 6,42 7,96 2,61 3,48 4,47 5,99 7,34 2,48 3,26 4,12 5,31 9,01 14,88 28,24 45,39 4,05 6,26 9,36 15,52 22,46 3,45 5,05 7,15 10,97 14,94 3,11 4,39 5,99 8,75 11,46 2,88 3,97 5,29 7,46 9,52 2,73 3,69 4,82 6,63 8,30 2,61 3,48 4,48 6,06 7,47 2,52 3,33 4,24 5,64 6,87 2,39 3,11 3,89 5,28 8,94 14,73 27,91 44,84 4,01 6,16 9,20 15,21 21,97 3,40 4,95 6,98 10,67 14,51 3,05 4,28 5,82 8,47 11,07 2,83 3,87 5,12 7,19 9,16 2,67 3,58 4,65 6,37 7,95 2,55 3,37 4,32 5,80 7,13 2,46 3,22 4,07 5,39 6,54 2,33 3,00 3,73 5,25 8,85 14,54 27,49 44,13 3,95 6,04 8,98 14,80 21,35 3,34 4,82 6,76 10,29 13,96 2,98 4,15 5,60 8,10 10,57 2,75 3,73 4,90 6,84 8,68 2,59 3,44 4,43 6,03 7,50 2,47 3,23 4,10 5,47 6,69 2,38 3,07 3,85 5,06 6,12 2,24 2,85 3,51 5,23 8,79 14,42 27,23 43,69 3,92 5,96 8,84 14,55 20,97 3,30 4,74 6,62 10,05 13,62 2,94 4,06 5,46 7,87 10,25 2,70 3,64 4,76 6,62 8,38 2,54 3,35 4,30 5,81 7,21 2,42 3,14 3,96 5,26 6,42 2,32 2,98 3,72 4,85 5,85 2,19 2,75 3,37 5,20 8,70 14,25 26,87 43,08 3,87 5,86 8,66 14,20 20,44 3,24 4,62 6,43 9,72 13,15 2,87 3,94 5,27 7,56 9,81 2,63 3,51 4,57 6,31 7,97 2,46 3,22 4,10 5,52 6,81 2,34 3,01 3,77 4,96 6,03 2,24 2,85 3,52 4,56 5,47 2,10 2,62 3,18 5,18 8,66 14,17 26,69 42,78 3,84 5,80 8,56 14,02 20,17 3,21 4,56 6,33 9,55 12,90 2,84 3,87 5,17 7,40 9,59 2,59 3,44 4,47 6,16 7,75 2,42 3,15 4,00 5,36 6,61 2,30 2,94 3,67 4,81 5,83 2,20 2,77 3,42 4,41 5,27 2,06 2,54 3,07 5,17 8,62 14,08 26,50 42,47 3,82 5,75 8,46 13,84 19,89 3,17 4,50 6,23 9,38 12,66 2,80 3,81 5,07 7,23 9,36 2,56 3,38 4,36 5,99 7,53 2,38 3,08 3,89 5,20 6,40 2,25 2,86 3,56 4,65 5,62 2,16 2,70 3,31 4,25 5,07 2,01 2,47 2,96 5,13 8,53 13,90 26,13 41,83 3,76 5,63 8,26 13,46 19,32 3,10 4,36 6,02 9,02 12,14 2,72 3,67 4,85 6,88 8,88 2,47 3,23 4,14 5,65 7,08 2,29 2,93 3,67 4,86 5,95 2,16 2,71 3,33 4,31 5,19 2,06 2,54 3,08 3,91 4,64 1,90 2,30 2,72

10

12

246

Pastor-Barriuso R.

Tablas estadsticas

Tabla 7 (Continuacin)
d1 d2 Percentil
0,99 0,995 14 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995

1
9,33 11,75 3,10 4,60 6,30 8,86 11,06 3,05 4,49 6,12 8,53 10,58 3,01 4,41 5,98 8,29 10,22 2,97 4,35 5,87 8,10 9,94 2,92 4,24 5,69 7,77 9,48 2,88 4,17 5,57 7,56 9,18 2,85 4,12 5,48 7,42 8,98 2,84 4,08 5,42 7,31 8,83 2,79 4,00 5,29 7,08 8,49 2,75 3,92 5,15 6,85 8,18

2
6,93 8,51 2,73 3,74 4,86 6,51 7,92 2,67 3,63 4,69 6,23 7,51 2,62 3,55 4,56 6,01 7,21 2,59 3,49 4,46 5,85 6,99 2,53 3,39 4,29 5,57 6,60 2,49 3,32 4,18 5,39 6,35 2,46 3,27 4,11 5,27 6,19 2,44 3,23 4,05 5,18 6,07 2,39 3,15 3,93 4,98 5,79 2,35 3,07 3,80 4,79 5,54

3
5,95 7,23 2,52 3,34 4,24 5,56 6,68 2,46 3,24 4,08 5,29 6,30 2,42 3,16 3,95 5,09 6,03 2,38 3,10 3,86 4,94 5,82 2,32 2,99 3,69 4,68 5,46 2,28 2,92 3,59 4,51 5,24 2,25 2,87 3,52 4,40 5,09 2,23 2,84 3,46 4,31 4,98 2,18 2,76 3,34 4,13 4,73 2,13 2,68 3,23 3,95 4,50

4
5,41 6,52 2,39 3,11 3,89 5,04 6,00 2,33 3,01 3,73 4,77 5,64 2,29 2,93 3,61 4,58 5,37 2,25 2,87 3,51 4,43 5,17 2,18 2,76 3,35 4,18 4,84 2,14 2,69 3,25 4,02 4,62 2,11 2,64 3,18 3,91 4,48 2,09 2,61 3,13 3,83 4,37 2,04 2,53 3,01 3,65 4,14 1,99 2,45 2,89 3,48 3,92

5
5,06 6,07 2,31 2,96 3,66 4,69 5,56 2,24 2,85 3,50 4,44 5,21 2,20 2,77 3,38 4,25 4,96 2,16 2,71 3,29 4,10 4,76 2,09 2,60 3,13 3,85 4,43 2,05 2,53 3,03 3,70 4,23 2,02 2,49 2,96 3,59 4,09 2,00 2,45 2,90 3,51 3,99 1,95 2,37 2,79 3,34 3,76 1,90 2,29 2,67 3,17 3,55

6
4,82 5,76 2,24 2,85 3,50 4,46 5,26 2,18 2,74 3,34 4,20 4,91 2,13 2,66 3,22 4,01 4,66 2,09 2,60 3,13 3,87 4,47 2,02 2,49 2,97 3,63 4,15 1,98 2,42 2,87 3,47 3,95 1,95 2,37 2,80 3,37 3,81 1,93 2,34 2,74 3,29 3,71 1,87 2,25 2,63 3,12 3,49 1,82 2,18 2,52 2,96 3,28

8
4,50 5,35 2,15 2,70 3,29 4,14 4,86 2,09 2,59 3,12 3,89 4,52 2,04 2,51 3,01 3,71 4,28 2,00 2,45 2,91 3,56 4,09 1,93 2,34 2,75 3,32 3,78 1,88 2,27 2,65 3,17 3,58 1,85 2,22 2,58 3,07 3,45 1,83 2,18 2,53 2,99 3,35 1,77 2,10 2,41 2,82 3,13 1,72 2,02 2,30 2,66 2,93

10
4,30 5,09 2,10 2,60 3,15 3,94 4,60 2,03 2,49 2,99 3,69 4,27 1,98 2,41 2,87 3,51 4,03 1,94 2,35 2,77 3,37 3,85 1,87 2,24 2,61 3,13 3,54 1,82 2,16 2,51 2,98 3,34 1,79 2,11 2,44 2,88 3,21 1,76 2,08 2,39 2,80 3,12 1,71 1,99 2,27 2,63 2,90 1,65 1,91 2,16 2,47 2,71

15
4,01 4,72 2,01 2,46 2,95 3,66 4,25 1,94 2,35 2,79 3,41 3,92 1,89 2,27 2,67 3,23 3,68 1,84 2,20 2,57 3,09 3,50 1,77 2,09 2,41 2,85 3,20 1,72 2,01 2,31 2,70 3,01 1,69 1,96 2,23 2,60 2,88 1,66 1,92 2,18 2,52 2,78 1,60 1,84 2,06 2,35 2,57 1,55 1,75 1,94 2,19 2,37

20
3,86 4,53 1,96 2,39 2,84 3,51 4,06 1,89 2,28 2,68 3,26 3,73 1,84 2,19 2,56 3,08 3,50 1,79 2,12 2,46 2,94 3,32 1,72 2,01 2,30 2,70 3,01 1,67 1,93 2,20 2,55 2,82 1,63 1,88 2,12 2,44 2,69 1,61 1,84 2,07 2,37 2,60 1,54 1,75 1,94 2,20 2,39 1,48 1,66 1,82 2,03 2,19

30
3,70 4,33 1,91 2,31 2,73 3,35 3,86 1,84 2,19 2,57 3,10 3,54 1,78 2,11 2,44 2,92 3,30 1,74 2,04 2,35 2,78 3,12 1,66 1,92 2,18 2,54 2,82 1,61 1,84 2,07 2,39 2,63 1,57 1,79 2,00 2,28 2,50 1,54 1,74 1,94 2,20 2,40 1,48 1,65 1,82 2,03 2,19 1,41 1,55 1,69 1,86 1,98

3,36 3,90 1,80 2,13 2,49 3,00 3,44 1,72 2,01 2,32 2,75 3,11 1,66 1,92 2,19 2,57 2,87 1,61 1,84 2,09 2,42 2,69 1,52 1,71 1,91 2,17 2,38 1,46 1,62 1,79 2,01 2,18 1,41 1,56 1,70 1,89 2,04 1,38 1,51 1,64 1,80 1,93 1,29 1,39 1,48 1,60 1,69 1,19 1,25 1,31 1,38 1,43

16

18

20

25

30

35

40

60

120

Pastor-Barriuso R.

247

Tablas estadsticas

Tabla 7 (Continuacin)
d1 d2

Percentil
0,90 0,95 0,975 0,99 0,995

1
2,71 3,84 5,02 6,63 7,88

2
2,30 3,00 3,69 4,61 5,30

3
2,08 2,60 3,12 3,78 4,28

4
1,94 2,37 2,79 3,32 3,72

5
1,85 2,21 2,57 3,02 3,35

6
1,77 2,10 2,41 2,80 3,09

8
1,67 1,94 2,19 2,51 2,74

10
1,60 1,83 2,05 2,32 2,52

15
1,49 1,67 1,83 2,04 2,19

20
1,42 1,57 1,71 1,88 2,00

30
1,34 1,46 1,57 1,70 1,79

1,00 1,00 1,00 1,00 1,00

Para percentiles inferiores = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2, = 1/ Fd2,d1,1.

248

Pastor-Barriuso R.

Tablas estadsticas

Tabla 8 Percentiles de en Tabla 8 Percentiles de la distribucin bajo H0 de la suma de rangos de Wilcoxon U = ri en la muestra de i =1 la muestra de menor tamao n1 n2 para n1 = 3, 4, ..., 8.*
Percentil 0,95 n1 n2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
n1

Percentil 0,975 n1 7 8 3
15 18

P
7

3
14 17 19 21 24 26 28 31 33 36 38 40 43 45 47 50 52 54 57 59 61 64 66 68 71 73 75 78 80 82 85 87 89 92 94 96 99 101 103 106 108 110 113 115 117 119 122

4
24 27 30 33 36 39 42 45 48 51 54 57 59 62 65 68 71 74 77 80 83 86 89 92 95 98 101 104 107 110 113 116 119 122 125 127 130 133 136 139 142 145 148 151 154 157

4
25 28 31 34 37 41 44 47 50 53 56 59 62 66 69 72 75 78 81 84 88 91 94 97 100 103 106 109 113 116 119 122 125 128 131 134 138 141 144 147 150 153 156 159 162 166

n2 8
3 4

3
14 17 19 21 24 26 28 31 33 36 38 40 43 45 47 50 52 54 57 59 61 64 66 68 71 73 75 78 80 82 85 87 89 92 94 96 99 101 103 106 108 110 113 115 117 119 122

4
24 27 30 33 36 39 42 45 48 51 54 57 59 62 65 68 71 74 77 80 83 86 89 92 95 98 101 104 107 110 113 116 119 122 125 127 130 133 136 139 142 145 148 151 154 157

35 39 43 46 50 53 57 61 64 68 71 75 79 82 86 89 93 96 100 104 107 111 114 118 121 125 129 132 136 139 143 146 150 154 157 161 164 168 171 175 179 182 186 189 193

49 54 58 62 66 70 75 79 83 87 91 96 100 104 108 112 116 121 125 129 133 137 142 146 150 154 158 162 167 171 175 179 183 187 192 196 200 204 208 212 217 221 225 229

65 70 75 80 85 90 94 99 104 109 113 118 123 128 133 137 142 147 152 156 161 166 171 176 180 185 190 195 199 204 209 214 218 223 228 233 237 242 247 252 257 261 266

84 89 95 100 105 111 116 122 127 132 138 143 148 154 159 165 170 175 181 186 191 197 202 207 213 218 223 229 234 240 245 250 256 261 266 272 277 282 288 293 298 304

20 22 25 27 30 32 35 37 40 42 45 47 50 52 55 57 60 62 65 67 70 72 75 77 79 82 84 87 89 92 94 97 99 102 104 107 109 112 114 117 119 121 124 126 129

37 41 44 48 52 56 60 63 67 71 75 79 82 86 90 94 97 101 105 109 112 116 120 124 127 131 135 139 142 146 150 154 158 161 165 169 173 176 180 184 188 191 195 199 203

51 56 60 64 69 73 78 82 87 91 95 100 104 109 113 117 122 126 131 135 139 144 148 152 157 161 166 170 174 179 183 187 192 196 201 205 209 214 218 223 227 231 236 240

68 73 78 83 88 93 98 103 108 113 118 123 128 133 138 143 148 153 158 163 168 173 178 183 188 193 198 203 208 213 218 223 228 233 238 243 248 253 258 263 268 273 278

5 6 7 86 8 9 92 10 104 11 109 12 115 13 14 121

98

126 15 16 132 17 137 18 143 19 149


20 154 21 160 22 166 23 171 24

25 182 26 188 27 28 194 29 199 30 31 210 32 216 33 222 34

177

1 1

1 1 1 1 1

205

233 35 36 238 37 244 38 250 39


40 261 41 42 266 43 272 44 278

227

1 1 1 1 1

255

1 1 1 1 1

1 1 1 1 1

45 289 46 47 294 48 300 49

283

306 311 317

1 1 1 1 1

Pastor-Barriuso R.

249

Tablas estadsticas

Tabla 8 (Continuacin)
Percentil 0,99 n1 n2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49

Percentil 0,995 n1 7 8 3
15 18

3
15 18 21 24 26 29 31 34 37 39 42 45 47 50 52 55 58 60 63 66 68 71 73 76 79 81 84 86 89 92 94 97 99 102 105 107 110 112 115 118 120 123 126 128 131 133 136

4
26 29 32 36 39 42 46 49 52 56 59 62 66 69 72 76 79 82 86 89 92 96 99 102 105 109 112 115 119 122 125 129 132 135 139 142 145 148 152 155 158 162 165 168 172 175

4
26 30 33 37 40 44 47 51 54 58 61 64 68 71 75 78 81 85 88 92 95 99 102 105 109 112 116 119 123 126 129 133 136 140 143 146 150 153 157 160 164 167 170 174 177 181

38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 130 134 138 142 146 150 154 158 162 166 170 174 178 182 186 190 194 198 202 205 209 213

53 58 62 67 72 77 81 86 91 95 100 104 109 114 118 123 128 132 137 141 146 151 155 160 165 169 174 178 183 188 192 197 202 206 211 215 220 225 229 234 238 243 248 252

70 76 81 86 92 97 102 108 113 118 123 129 134 139 144 150 155 160 166 171 176 181 187 192 197 202 208 213 218 223 229 234 239 244 250 255 260 265 271 276 281 286 292

90 96 102 108 114 119 125 131 137 143 149 155 161 167 173 179 185 190 196 202 208 214 220 226 232 238 243 249 255 261 267 273 279 285 290 296 302 308 314 320 326 332

21 24 27 30 32 35 38 40 43 46 48 51 54 57 59 62 65 67 70 73 75 78 81 84 86 89 92 94 97 100 102 105 108 110 113 116 119 121 124 127 129 132 135 137 140

39 43 48 52 56 60 64 68 72 77 81 85 89 93 97 101 105 110 114 118 122 126 130 134 138 142 147 151 155 159 163 167 171 175 179 183 188 192 196 200 204 208 212 216 220

54 59 64 69 74 79 83 88 93 98 103 107 112 117 122 127 131 136 141 146 151 155 160 165 170 174 179 184 189 193 198 203 208 213 217 222 227 232 236 241 246 251 255 260

72 77 83 88 94 99 105 110 116 121 127 132 138 143 149 154 159 165 170 176 181 187 192 197 203 208 214 219 225 230 235 241 246 252 257 263 268 273 279 284 290 295 301

92 98 104 110 116 122 129 135 141 147 153 159 165 171 177 184 190 196 202 208 214 220 226 232 238 244 250 256 263 269 275 281 287 293 299 305 311 317 323 329 335 341

Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, u = n1(n1 + n2 + 1) u1.

250

Pastor-Barriuso R.

Tablas estadsticas

Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de Wilcoxon Wilcoxon W = ri para un nmero de parejas con diferencias nono nulas n 16.* para W= nmero de parejas con diferencias nulas n 16.*
i =1 m

0,95

Percentil 0,975
15 20 25 32 39 46 55 64

Percentil 0,99 0,995 15 21 28 35 43 51 60 70 81 92 104 116

n 5 6 7 8 9 10 11 12

5 6 7 8 9 10 11 12 13 14 15 16

0,95 14 18 24 30 36 44 52 60

14 0,975 18 15 24 20 30 25 32 36 44 52 60

0,99 15 21 27 34 41 49 58 68

15 0,995 21 15 27 21 34 28 35 41 49 58 68

69 73 78 69 73 78 81 79 83 89 79 83 89 92 89 94 100 89 94 100 104 100 106 112 100 106 112 116 * Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 w1. * Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 - w1-.

39 46 55 64

43 51 60 70

13 14 15 16

Tabla 10 Percentiles de la distribucin bajo H0 del coeficiente de correlacin rs de Spearman en muestras de tamao n 10.*
Percentil n 4 5 6 7 8 9 10 * 0,95 0,800 0,800 0,771 0,679 0,619 0,583 0,552 0,975 1,000 0,900 0,829 0,750 0,714 0,683 0,636 0,99 1,000 0,900 0,886 0,857 0,810 0,767 0,733 0,995 1,000 1,000 0,943 0,893 0,857 0,817 0,782

Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, rs, = rs,1.

19
Pastor-Barriuso R. 251

You might also like