You are on page 1of 56

RAFAEL LVAREZ CCERES

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

Rafael lvarez Cceres, 2007 Reservados todos los derechos. No est permitida la reproduccin total o parcial de este libro, ni su tratamiento informtico, ni la transmisin de ninguna forma o por cualquier medio, ya sea electrnico, mecnico, por fotocopia, por registro u otros mtodos, sin el permiso previo y por escrito de los titulares del Copyright. Ediciones Daz de Santos E-mail: ediciones@diazdesantos.es Internet://http:www.diazdesantos.es ISBN: 978-84-7978-823-0 Depsito legal: M. 21.952-2007 Diseo de cubierta: ngel Calvete y Rafael lvarez Fotocomposicin e impresin: Fernndez Ciudad Encuadernacin: Rstica - Hilo Impreso en Espaa

AGRADECIMIENTOS

La elaboracin de un libro tan complejo y extenso como este ha necesitado mucho tiempo, sin la comprensin y el estmulo de mi mujer y de mis hijos no hubiera podido realizarlo. A mis alumnos que me han enseado y me siguen enseando muchas cosas; en cada curso aprendo algo nuevo. Al doctor Patricio Alonso Sacristn por haber ledo parte del original y por sus interesantes sugerencias.

NDICE

PRLOGO ................................................................................................. XXIII PREFACIO ................................................................................................. XXV GUA DE LECTURA ................................................................................ XXIX 1. INTRODUCCIN A LA ESTADSTICA .......................................... 1.1. Estadstica .................................................................................... 1.2. Historia ........................................................................................ 1.3. Poblacin y muestra .................................................................... 1.4. Estadstica aplicada ..................................................................... 1.5. Aplicaciones estadsticas a las ciencias de la salud ..................... 1.6. Variables estadsticas: escalas de medida ................................... 1.7. Variables en estadstica aplicada ................................................. 1.8. Bibliografa .................................................................................. 2. ESTADSTICA DESCRIPTIVA ........................................................ 2.1. Estadstica descriptiva ............................................................... 2.2. Variables aleatorias ................................................................... 2.3. Descripcin de variables cualitativas ........................................ 2.4. Descripcin de variables cuantitativas ...................................... 2.5. Medidas de tendencia central .................................................... 2.6. Medidas de dispersin ............................................................... 2.7. Medidas de posicin: n-tiles ...................................................... 2.8. Valores atpicos (outliers) ......................................................... 2.9. Momentos respecto al origen .................................................... 2.10. Momentos respecto a la media ..................................................
XI

1 1 3 4 7 10 10 11 13 15 15 16 17 21 28 42 51 57 59 59

XII

NDICE

2.11. 2.12. 2.13. 2.14.

Medidas de forma ...................................................................... Estadstica descriptiva con SPSS .............................................. Ejercicios ................................................................................... Bibliografa ................................................................................

60 63 74 76 77 77 78 78 80 88 88 89 90 92 93 94 95 95 98 98 101 105 106

3. FUNDAMENTOS MATEMTICOS DE LA PROBABILIDAD ..... 3.1. Sucesos ...................................................................................... 3.2. Probabilidad ............................................................................... 3.3. Cuantificacin de la probabilidad .............................................. 3.4. Tcnicas de contar ..................................................................... 3.5. Espacio muestral ........................................................................ 3.6. lgebra de sucesos .................................................................... 3.7. Espacio de probabilidad ............................................................ 3.8. Axiomas de la probabilidad ....................................................... 3.9. Regla general de la adicin ....................................................... 3.10. Ejercicios ................................................................................... 3.11. Bibliografa ................................................................................ 4. PROBABILIDAD CONDICIONADA. TEOREMA DE BAYES ..... 4.1. Probabilidad condicionada .......................................................... 4.2. Teorema de la multiplicacin ...................................................... 4.3. Independencia de sucesos ............................................................ 4.4. Teorema de Bayes ....................................................................... 4.5. Ejercicios ..................................................................................... 4.6. Bibliografa .................................................................................. 5. APLICACIONES DEL CLCULO DE PROBABILIDADES A LAS CIENCIAS DE LA SALUD ................................................................ 5.1. El riesgo. Factores de riesgo y de proteccin ............................ 5.2. Medidas de riesgo ...................................................................... 5.3. Diferencia de riesgos ................................................................. 5.4. Riesgo relativo (RR) .................................................................. 5.5. Reduccin relativa del riesgo, RRR .......................................... 5.6. Predominio. Razn de predominio (OR) ................................... 5.7. Diagnstico ................................................................................ 5.8. Normalidad, anormalidad y patologa de los datos clnicos ...... 5.9. Caractersticas probabilsticas de las pruebas diagnsticas ....... 5.10. Sensibilidad y proporcin de falsos negativos .......................... 5.11. Especificidad y falsos positivos ................................................ 5.12. Valor predictivo positivo ........................................................... 5.13. Valor predictivo negativo .......................................................... 5.14. Determinacin de los valores de la sensibilidad y de la especificidad ........................................................................................

107 107 108 108 109 113 113 115 116 117 118 118 119 120 121

NDICE

XIII

5.15. Determinacin de los valores predictivos: teorema de Bayes ... 5.16. Deduccin de las expresiones para el clculo de los valores predictivos mediante el teorema de Bayes ................................ 5.17. Ejercicios ................................................................................... 5.18. Bibliografa ................................................................................

122 127 131 132

6. VARIABLE ALEATORIA ................................................................. 6.1. Variable aleatoria ...................................................................... 6.2. Propiedades ............................................................................... 6.3. Variable aleatoria discreta ......................................................... 6.4. Funcin probabilidad de una variable aleatoria discreta ........... 6.5. Funcin de distribucin acumulativa de una variable aleatoria discreta ....................................................................................... 6.6. Funcin probabilidad en variables aleatorias continuas ............ 6.7. Propiedades de la funcin probabilidad en variables aleatorias continuas .................................................................................... 6.8. Funcin de distribucin acumulativa en variable aleatoria continua ........................................................................................... 6.9. Valor esperado de una variable aleatoria .................................. 6.10. Propiedades del valor esperado ................................................. 6.11. Varianza de una variable aleatoria ............................................ 6.12. Covarianza de dos variables aleatorias ...................................... 6.13. Propiedades de la varianza ........................................................ 6.14. Teorema de Tchebychev ........................................................... 6.15. Ejercicios ................................................................................... 6.16. Bibliografa ................................................................................

133 133 134 136 136 140 142 145 146 146 148 150 151 152 153 154 155

7. DISTRIBUCIN DE VARIABLES ALEATORIAS DISCRETAS: BINOMIAL, POISSON, HIPERGEOMTRICA, GEOMTRICA, MULTINOMIAL. BINOMIAL INVERSA ........................................ 7.1. Distribuciones tericas .............................................................. 7.2. Ensayos o pruebas de Bernouilli ............................................... 7.3. Distribucin binomial ................................................................ 7.4. Distribucin multinomial .......................................................... 7.5. Distribucin geomtrica ............................................................ 7.6. Distribucin binomial negativa ................................................. 7.7. Distribucin de Poisson ............................................................. 7.8. Distribucin hipergeomtrica .................................................... 7.9. Ejercicios ................................................................................... 7.10. Bibliografa ................................................................................

157 157 158 161 174 176 177 178 181 184 185

XIV

NDICE

8. DISTRIBUCIONES DE VARIABLES ALEATORIAS CONTINUAS: NORMAL, T DE STUDENT, CHI-CUADRADO, F DE SNEDECOR ........................................................................................ 8.1. Distribucin normal ................................................................... 8.2. Propiedades de la curva normal ................................................. 8.3. Tipificacin de la variable ......................................................... 8.4. Funcin de distribucin acumulativa de una variable aleatoria normal ........................................................................................ 8.5. Clculo de probabilidades mediante tablas ............................... 8.6. Teorema central del lmite ......................................................... 8.7. Aproximacin de una distribucin binomial a una normal ....... 8.8. Aproximacin de la distribucin de Poisson a la normal .......... 8.9. Distribucin gamma .................................................................. 8.10. La distribucin Chi cuadrado ( 2) ............................................. 8.11. Distribucin T de Student .......................................................... 8.12. Distribucin F de Snedecor ....................................................... 8.13. Ejercicios ................................................................................... 8.14. Bibliografa ................................................................................ 9. INFERENCIA ESTADSTICA: TCNICAS DE MUESTREO ........ 9.1. Poblaciones estadsticas ............................................................ 9.2. Inferencia estadstica ................................................................. 9.3. Muestras estadsticas ................................................................. 9.4. Representatividad de la muestra ................................................ 9.5. Fraccin muestral ...................................................................... 9.6. Tcnicas de muestreo no probabilstico .................................... 9.7. Muestreos probabilsticos .......................................................... 9.8. Muestreo aleatorio simple ......................................................... 9.9. Muestreo sistemtico aleatorio .................................................. 9.10. Muestreo estratificado aleatorio ................................................. 9.11. Muestreo por conglomerados .................................................... 9.12. Ejercicios ................................................................................... 9.13. Bibliografa ................................................................................ 10. INFERENCIA ESTADSTICA: ESTIMACIN DE PARMETROS . 10.1. Estimaciones ............................................................................ 10.2. Variable aleatoria estimada X: fraccin muestral .................... 10.3. Estimadores ............................................................................. 10.4. Estimacin de la media aritmtica poblacional ....................... 10.5. Predeterminacin del tamao de la muestra en la estimacin de medias ...................................................................................... 10.6. Estimacin de proporciones .................................................... 10.7. Predeterminacin del tamao de la muestra para estimar proporciones .................................................................................

187 187 189 194 196 198 205 205 207 208 208 211 214 217 218 219 219 221 222 223 224 225 227 227 229 232 238 240 241 243 243 246 247 250 268 275 282

NDICE

XV

10.8.

Estimacin del parmetro de Poisson ...................................... 10.8.1. Predeterminacin del tamao de la muestra ............... 10.9. Estimacin por el mtodo de mxima verosimilitud ............... 10.9.1. El mtodo de mxima verosimilitud .......................... 10.10. Estimacin de parmetros con SPSS ....................................... 10.11. Ejercicios ................................................................................. 10.12. Bibliografa .............................................................................. 11. INFERENCIA ESTADSTICA: CONTRASTES DE HIPTESIS ... 11.1. Introduccin ............................................................................. 11.2. Extrapolacin de los resultados de un contraste de hiptesis estadsticas .................................................................................. 11.3. Estructura de un contraste de hiptesis ................................... 11.4. Errores aleatorios en un contraste de hiptesis ....................... 11.5. Relacin entre alfa y beta ........................................................ 11.6. Predeterminacin del tamao de la muestra ............................ 11.7. Qu significa estadsticamente significativo? ........................ 11.8. Interpretacin errnea de contrastes de hiptesis .................... 11.9. Contrastes de hiptesis versus intervalos de confianza ........... 11.10. Ejercicios ................................................................................. 11.11. Bibliografa .............................................................................. 12. RELACIONES ENTRE VARIABLES ............................................... 12.1. Relaciones entre variables ......................................................... 12.2. Asociacin entre variables ......................................................... 12.3. Tipos de asociacin ................................................................... 12.4. Estudio simultneo entre dos o ms variables: estadstica bivariante y multivariante ................................................................. 12.5. Sesgo de confusin .................................................................... 12.6. Interaccin ................................................................................. 12.7. Bibliografa ................................................................................ 13. COMPARACIN DE DOS PROPORCIONES: PRUEBAS PARAMTRICAS ................................................................................... 13.1. Introduccin ............................................................................... 13.2. Contraste de hiptesis sobre proporciones: contraste respecto a un valor de referencia ................................................................ 13.3. Predeterminacin del tamao de la muestra .............................. 13.4. Comparacin de dos proporciones: datos dependientes ............ 13.5. Comparacin de dos proporciones: datos independientes ......... 13.6. Ejercicios ................................................................................... 13.7. Bibliografa ................................................................................

288 290 292 292 295 296 297 299 299 300 302 310 325 327 333 338 346 348 348 349 349 350 351 353 354 355 356

357 357 359 362 365 367 372 373

XVI

NDICE

14. PRUEBAS BASADAS EN LA DISTRIBUCIN CHI-CUADRADO: BONDAD DEL AJUSTE, TABLAS DE CONTINGENCIA. PRUEBA DE FISHER, PRUEBA DE MCNEMAR .......................... 14.1. Pruebas basadas en la distribucin Chi-cuadrado: bondad del ajuste de datos experimentales a distribuciones tericas ......... 14.2. Pruebas de independencia y homogeneidad: asociacin entre variables cualitativas ............................................................... 14.3. Tablas de contingencia ............................................................ 14.4. Estadstica analtica mediante tablas de contingencia 2 2: contrastes de hiptesis e intervalos de confianza: pruebas basadas en la distribucin chi-cuadrado ...................................... 14.5. Anlisis de tablas de contingencia K R ............................... 14.6. Significacin estadstica y fuerza de la asociacin ................. 14.7. Anlisis del riesgo mediante tablas de contingencia ............... 14.8. Anlisis estratificado ............................................................... 14.9. Anlisis del sesgo de confusin, e interaccin entre variables cualitativas ............................................................................... 14.10. Bondad del ajuste y anlisis de tablas de contingencia con SPSS ........................................................................................ 14.11. Ejercicios ................................................................................. 14.12. Bibliografa .............................................................................. 15. COMPARACIN DE DOS MEDIAS, PRUEBAS PARAMTRICAS ..................................................................................................... 15.1. Comparacin de dos varianzas .................................................. 15.2. Comparacin de dos medias ...................................................... 15.3. Comparacin de dos medias, datos dependientes o pareados ... 15.4. Comparacin de dos medias con datos independientes ............. 15.5. Comparacin de dos medias con SPSS ..................................... 15.6. Ejercicios ................................................................................... 15.7. Bibliografa ................................................................................ 16. ANLISIS DE LA VARIANZA ........................................................ 16.1. Anlisis de la varianza unifactorial ......................................... 16.2. Tipos de anlisis de la varianza ............................................... 16.3. Fundamentos del anlisis de la varianza ................................. 16.4. Aplicaciones experimentales del anlisis de la varianza ......... 16.5. Modelo matemtico ................................................................. 16.6. Hiptesis de ANOVA .............................................................. 16.7. Asunciones del anlisis de la varianza .................................... 16.8. Comparacin de K varianzas ................................................... 16.9. Modelos de anlisis de la varianza de una va ......................... 16.10. Comparaciones mltiples ........................................................ 16.11. Predeterminacin del tamao de la muestra ............................

375 382 385

389 405 414 416 418 418 432 442 444

445 445 450 451 458 469 474 475 477 477 479 479 484 488 493 498 500 502 507 517

NDICE

XVII

16.12. Anlisis de la varianza unifactorial con SPSS ......................... 16.13. Ejercicios ................................................................................. 16.14. Bibliografa .............................................................................. 17. ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS ..................................................................................................... 17.1. Anlisis de la varianza con bloques aleatorizados. Modelos con efectos fijos y aleatorios ................................................... 17.2. Modelo matemtico ................................................................. 17.3. Variabilidad cuadrtica: suma de cuadrados ........................... 17.4. Cuadrados medios ................................................................... 17.5. Hiptesis de ANOVA bloques ................................................ 17.6. Comparaciones mltiples ........................................................ 17.7. Estudio de la interaccin: prueba de no aditividad de Tukey .. 17.8. Medidas repetidas .................................................................... 17.9. ANOVA medidas repetidas con SPSS .................................... 17.10. Ejercicios ................................................................................. 17.11. Bibliografa .............................................................................. 18. CORRELACIN ................................................................................. 18.1. Introduccin ............................................................................... 18.2. Clculo del coeficiente de correlacin lineal de Pearson .......... 18.3. Contraste de hiptesis sobre ................................................... 18.4. Intervalos de confianza .............................................................. 18.5. Coeficiente de correlacin de Spearman ................................... 18.6. Correlacin con SPSS ............................................................... 18.7. Ejercicios ................................................................................... 18.8. Bibliografa ................................................................................ 19. REGRESIN LINEAL SIMPLE ........................................................ 19.1. Introduccin ............................................................................. 19.2. Tipos de anlisis de regresin ................................................. 19.3. Regresin lineal simple ........................................................... 19.4. Coeficientes de regresin estandarizados ................................ 19.5. Variabilidad cuadrtica. Relacin entre el coeficiente de regresin y el de correlacin ....................................................... 19.6. Valores observados, valores esperados y residuos .................. 19.7. Modelo matemtico ................................................................. 19.8. Consistencia de la asociacin lineal ........................................ 19.9. Hiptesis en regresin lineal simple ........................................ 19.10. Regresin y anlisis de la varianza .......................................... 19.11. Intervalos de confianza de los coeficientes de la recta de regresin ..................................................................................... 19.12. Estimaciones en regresin lineal simple: predicciones ...........

519 525 526

527 527 530 532 533 534 538 539 541 552 558 559 561 561 562 566 574 575 579 586 588 589 589 591 592 595 595 597 599 602 604 607 609 611

XVIII

NDICE

19.13. 19.14. 19.15. 19.16.

Asunciones del anlisis de regresin ....................................... Anlisis de residuos ................................................................. Comparacin de dos coeficientes de regresin ....................... Anlisis de un modelo de regresin simple: errores ms frecuentes ..................................................................................... 19.17. Ejercicios ................................................................................. 19.18. Bibliografa .............................................................................. 20. REGRESIN LINEAL MLTIPLE .................................................. 20.1. Regresin lineal mltiple: clculo de los coeficientes de regresin ..................................................................................... 20.2. Coeficientes de regresin estandarizados ................................ 20.3. Variabilidad cuadrtica ............................................................ 20.4. Coeficientes de correlacin binarios ....................................... 20.5. Valores observados, valores esperados y residuos .................. 20.6. Modelo matemtico ................................................................. 20.7. Consistencia de la asociacin lineal: coeficiente de correlacin mltiple, coeficiente de determinacin ............................ 20.8. Hiptesis general en regresin lineal mltiple. Tabla de ANOVA ................................................................................... 20.9. Intervalos de confianza de los coeficientes de regresin ........ 20.10. Estimaciones en regresin lineal mltiple: predicciones ........ 20.11. Asunciones del anlisis de regresin mltiple ........................ 20.12. Interaccin ............................................................................... 20.13. Colinealidad ............................................................................. 20.14. Correlacin parcial y semiparcial ............................................ 20.15. Confusin en regresin mltiple ............................................. 20.16. Modelos de regresin con variables cualitativas: variables ficticias o Dummy ....................................................................... 20.17. Anlisis de residuos en regresin mltiple .............................. 20.18. Construccin de un modelo de regresin mltiple .................. 20.19. Anlisis de un modelo de regresin mltiple: errores ms frecuentes ..................................................................................... 20.20. Anlisis de regresin lineal con SPSS ..................................... 20.21. Ejercicios ................................................................................. 20.22. Bibliografa .............................................................................. 21. REGRESIN LOGSTICA ................................................................. 21.1. Introduccin ............................................................................. 21.2. Estimacin de los coeficientes de regresin logstica ............. 21.3. Contraste de hiptesis de los coeficientes de regresin logstica ........................................................................................... 21.4. Intervalos de confianza de los coeficientes ............................. 21.5. Interaccin ...............................................................................

614 614 616 619 621 622 623 623 630 631 633 634 635 640 642 647 648 650 650 654 657 659 661 670 673 674 676 697 698 699 699 702 705 712 713

NDICE

XIX

21.6. Confusin ................................................................................ 21.7. Variables ficticias o dummy .................................................... 21.8. Clculo de probabilidades: riesgo ........................................... 21.9. Predominio y razn de predominio (Odds y Odds ratio); probabilidad relativa y riesgo relativo, RR ................................... 21.10. Residuos en regresin logstica ............................................... 21.11. Validez de los modelos de regresin logstica ........................ 21.12. Bondad del ajuste: prueba de Hosmer-Lemeshow .................. 21.13. Regresin logstica con SPSS .................................................. 21.14. Ejercicios ................................................................................. 21.15. Bibliografa .............................................................................. 22. ESTADSTICA NO PARAMTRICA ............................................... 22.1. Estadstica paramtrica y no paramtrica .................................. 22.2. Pruebas para una sola muestra ................................................... 22.2.1. Prueba binomial ........................................................... 22.2.2. Bondad del ajuste: prueba 2 ........................................ 22.2.3. Pruebas de Kolmogorov-Smirnov, Kolmogorov-Smirnov-Lilliefors y Shapiro Wilks ..................................... 22.2.4. Pruebas de aleatoriedad: prueba de las rachas ............. 22.3. Pruebas no paramtricas con dos variables relacionadas .......... 22.3.1. Prueba de los signos para dos variables relacionadas .. 22.3.2. La prueba de Wilcoxon ................................................ 22.4. Pruebas no paramtricas para dos muestras independientes ..... 22.4.1. Prueba de la mediana para dos muestras independientes . 22.4.2. La prueba de Mann-Whitney ........................................ 22.4.3. La prueba de Kolmogorov-Smirnov para dos variables independientes .............................................................. 22.4.4. La prueba de las rachas de Wald-Wolfowitz para dos variables independientes .............................................. 22.4.5. La prueba de los valores extremos de Moses ............... 22.5. Pruebas para k variables relacionadas ....................................... 22.5.1. Prueba de Friedman ...................................................... 22.5.2. Coeficiente de concordancia de Kendall ...................... 22.5.3. La prueba de la Q de Cochran ...................................... 22.6. Pruebas no paramtricas para k variables independientes ......... 22.6.1. La prueba de Kruskal Wallis ........................................ 22.6.2. La prueba de la mediana para k variables .................... 22.7. Ejercicios ................................................................................... 22.8. Bibliografa ................................................................................ 23. FUNCIN DE LA ESTADSTICA EN EL PROCESO DE INVESTIGACIN .......................................................................................... 23.1. Investigacin cientfica ............................................................

716 716 722 725 734 735 739 741 760 761 763 763 764 764 770 771 778 782 783 786 790 791 794 798 801 804 808 809 815 819 822 823 829 831 832

833 833

XX

NDICE

23.2. 23.3. 23.4. 23.5. 23.6. 23.7. 23.8. 23.9. 23.10. 23.11.

Caractersticas principales de una investigacin cientfica ..... Objetivos e hiptesis ............................................................... Tipo de estudios ....................................................................... Poblaciones de referencia ........................................................ Seleccin de la muestra ........................................................... Variables: mediciones ............................................................. Plan estadstico ........................................................................ Validez interna ........................................................................ Validez externa ........................................................................ Bibliografa ..............................................................................

835 835 837 837 839 839 842 845 847 850

24. CARACTERSTICAS ESTADSTICAS DE LOS ESTUDIOS OBSERVACIONALES: SERIES DE CASOS, TRANSVERSALES, COHORTES, CASOS Y CONTROLES ............................................. 24.1. Comunicaciones de un caso ...................................................... 24.2. Series de casos ........................................................................... 24.3. Estudios transversales ................................................................ 24.4. Estudios de cohortes .................................................................. 24.5. Estudios de casos y controles .................................................... 24.6. Bibliografa ................................................................................ 25. CARACTERSTICAS ESTADSTICAS DE LOS ESTUDIOS EXPERIMENTALES Y CUASIEXPERIMENTALES: ENSAYOS CLNICOS ........................................................................................... 25.1. Estudios experimentales .......................................................... 25.2. Estudios cuasiexperimentales: ensayos clnicos ...................... 25.3. Fases de los ensayos clnicos ................................................... 25.4. Factores que influyen en la evolucin de las enfermedades ... 25.5. Control de los factores que pueden influir en la evolucin de las enfermedades ..................................................................... 25.6. Poblaciones en un ensayo clnico. Seleccin de los participantes en el ensayo .................................................................. 25.7. Estudios controlados con asignacin aleatoria ........................ 25.8. Anlisis de los resultados ........................................................ 25.9. Anlisis estadsticos ms utilizados en los ensayos clnicos ... 25.10. Validez de los ensayos clnicos ............................................... 25.11. Bibliografa .............................................................................. 26. ERRORES MS FRECUENTES EN LA APLICACIN DE LA ESTADSTICA A LAS CIENCIAS DE LA SALUD ............................. 26.1. Confundir la poblacin diana o poblaciones de inters en investigacin con la poblacin estadstica del estudio ................. 26.2. Realizar conclusiones inferenciales en muestras no aleatorias . 26.3. El extrao caso de las muestras representativas ........................

851 851 851 853 857 864 868

869 869 871 871 875 876 883 885 890 891 898 902

903 903 904 905

NDICE

XXI

26.4. Confundir los errores tipo I y tipo II de los contrastes de hiptesis con sus probabilidades ...................................................... 26.5. Considerar demostrada la hiptesis nula cuando no se ha rechazado en un contraste de hiptesis .............................................. 26.6. Considerar que la significacin estadstica es el parmetro fundamental para evaluar las conclusiones de un estudio .............. 26.7. Otro extrao caso: la media seguida de la desviacin tpica o el error estndar de la media ...................................................... 26.8. Uso de modelos matemticos como ecuaciones determinsticas . 26.9. El extrao caso de las constantes vitales ................................... A1. LGEBRA DE BOOLE ...................................................................... A1.1. Conjuntos .................................................................................. A1.2. Subconjuntos ............................................................................ A1.3. Conjunto de las partes de un conjunto ...................................... A1.4. Operaciones con conjuntos ....................................................... A1.5. Relaciones entre conjuntos-aplicaciones .................................. A2. SOLUCIONES A LOS EJERCICIOS ................................................. A2.1. Captulo 2 ............................................................................... A2.2. Captulo 3 ............................................................................... A2.3. Captulo 4 ............................................................................... A2.4. Captulo 5 ............................................................................... A2.5. Captulo 6 ............................................................................... A2.6. Captulo 7 ............................................................................... A2.7. Captulo 8 ............................................................................... A2.8. Captulo 9 ............................................................................... A2.9. Captulo 10 ............................................................................. A2.10. Captulo 11 ............................................................................. A2.11. Captulo 13 ............................................................................. A2.12. Captulo 14 ............................................................................. A2.13. Captulo 15 ............................................................................. A2.14. Captulo 16 ............................................................................. A2.15. Captulo 17 ............................................................................. A2.16. Captulo 18 ............................................................................. A2.17. Captulo 19 ............................................................................. A2.18. Captulo 20 ............................................................................. A2.19. Captulo 21 ............................................................................. A2.20. Captulo 22 ............................................................................. A3. TABLAS ESTADSTICAS ................................................................. NDICE ANALTICO ................................................................................

905 906 906 907 908 909 911 911 912 913 913 917 921 921 923 926 928 930 931 933 936 937 941 943 945 948 950 952 956 958 960 961 964 967 989

PRLOGO

Siempre he admirado a los buenos docentes no slo por su pasin por la transmisin del saber, sino por su curiosidad intelectual y rigor. Conoc a Rafael lvarez Cceres durante mi etapa en la Escuela Nacional de Sanidad (Madrid), donde trabaj primero como responsable del Departamento de Epidemiologa y Estadstica (1991-1995), del que Rafael lvarez era profesor, y despus como director (1995-2000). Desde el primer momento fui testigo de su capacidad, polivalencia y atencin a las necesidades reales de los estudiantes, adems de su cuidada tcnica pedaggica. As, siempre se destac por transmitir de forma rigurosa y al mismo tiempo amena, las ideas fundamentales del anlisis estadstico. Materia en la que pocos profesores son capaces de triunfar, la estadstica constituye sin duda uno de los pilares de la ciencia y su aplicacin al campo de la salud ha progresado exponencialmente en los ltimos aos. En la actualidad, es difcil comprender la medicina moderna, la epidemiologa y salud pblica, la metodologa de la investigacin e incluso la gestin sanitaria sin slidos conocimientos de estadstica. Esto ltimo tuve ocasin de comprobarlo durante mi experiencia como Director General de Salud Pblica del Ministerio de Sanidad y Consumo (2002-2004). En esa etapa profesional pude comprender hasta qu punto la estadstica me ayud al anlisis del riesgo asociado a la exposicin a los residuos del Prestige, cmo caracterizar y predecir la tendencia de la neumona asitica (SARS)... o cmo tras una leve temporada de gripe (con baja mortalidad invernal), la ola de calor haba hecho que durante el verano hubiese aumentado la mortalidad de forma significativa... El anlisis estadstico tiene consecuencias prcticas evidentes si queremos proceder con bsica inteligencia sanitaria para la consiguiente accin. Dicho anlisis, tan importante para caracterizar factores de riesgo o de proteccin, est basado en el clculo de probabilidades; las caractersticas de las pruebas diagnsticas (sensibilidad, especificidad y valores predictivos) son probabilidades; la significacin estadstica de la que tanto se habla y tanto se desconoce es simplemente una probabilidad; la diferencia estadsticamente significativa entre dos tratamientos es una decisin basada en la probabiXXIII

XXIV

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

lidad; el control de calidad se fundamenta en clculos probabilsticos. Sera interminable la lista de circunstancias fundamentales en las ciencias de la salud que seran muy difciles de entender sin conocimientos slidos de estadstica. Aunque la lista de textos de estadstica aplicada a las ciencias de la salud es extensa, el que ahora tengo el privilegio de prologar no es simplemente uno ms. En primer lugar llama la atencin la cantidad de informacin que contiene; con cientos de ejemplos que permiten aclarar los conceptos estadsticos que a veces son muy complejos. Es destacable el tratamiento de la inferencia distinguiendo muy bien entre significacin tcnica y estadstica, que es lo que realmente diferencia la estadstica inferencial matemtica y la aplicada. Adems, se abordan temas que no se tratan frecuentemente en los libros de estadstica aplicada a las ciencias de la salud, como el anlisis de la varianza de medidas repetidas, la regresin logstica y la regresin mltiple, y todo ello con rigor y profundidad. Dado lo convencido que estoy de la importancia de la materia y de la capacidad del autor para explicarlo, creo que estamos ante un texto singular con valor aadido con respecto a lo que ya existe en la bibliografa. Deseo que las personas que tienen en sus manos esta obra disfruten con su estudio y tengan el mayor xito en sus trabajos. JOS MARA MARTN MORENO
Catedrtico de Medicina Preventiva y Salud Pblica de la Facultad de Medicina y Hospital Clnico Universitario de Valencia & Member, European Advisory Committee on Health Research, World Health Organization

PREFACIO

La aplicacin de la estadstica a las ciencias de la salud y a las ciencias sociales est aumentando rpidamente en los ltimos aos. Pocos artculos se publican sin que incluyan estudios estadsticos, al menos descriptivos. La estadstica es una herramienta muy til y poderosa para describir y analizar datos, tambin como apoyo a la toma de decisiones. Debido a su rpido desarrollo, no ha sido todava debidamente implementada a las tcnicas de investigacin propias de cada disciplina. La estadstica aplicada tiene grandes diferencias conceptuales respecto a la estadstica matemtica, aunque sus fundamentos son los mismos. En estadstica matemtica se trabaja con nmeros que no tienen errores de medida, mientras que en estadstica aplicada las poblaciones de nmeros que son los valores de las variables se obtienen despus de haber realizado observaciones y medidas; debido a ello, si las mediciones no pueden ser exactas, lo que ocurre en la mayora de las circunstancias, habr que tener en cuenta, en los clculos estadsticos, los errores de medida; sin embargo esto es raro que se haga, y una vez obtenidos los resultados de investigacin se tratan como si procedieran de poblaciones de nmeros. Las primeras ciencias a las que se empezaron a aplicar tcnicas estadsticas fueron a la fsica, la qumica, y a sus aplicaciones tecnolgicas: la ingeniera. En general, las mediciones que se realizan en estas disciplinas tienen pocos errores y, adems, la mayora de las variables tienen variabilidades pequeas, por eso el xito en la aplicacin de la estadstica ha sido enorme. En la actualidad, no se podra entender la fsica moderna sin el uso de la estadstica; teoras como la mecnica estadstica y la mecnica cuntica no slo estn basadas en la estadstica, son teoras estadsticas con muy buenos resultados en la aplicacin prctica. Mediante la estimacin de parmetros, los contrastes de hiptesis y el control de calidad aplicados a estas disciplinas se suelen obtener magnficos resultados debido a la pequea varianza de la mayora de las variables a las que se aplican. La aplicacin de la estadstica a las ciencias de la salud y sociales, se ha realizado y se realiza sin tener e cuenta, en muchos casos, que las mediciones no se

XXVI

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

pueden hacer con mucha exactitud y que las variables en muchos casos tienen varianzas relativamente grandes. Por eso cuando las mediciones pueden hacerse con cierta exactitud y las varianzas son pequeas se obtienen grandes xitos, como ocurre, en general, en bioqumica, gentica y fisiologa; sin embargo en medicina clnica, administracin sanitaria y ciencias sociales se cometen importantes errores. Los errores en la estadstica aplicada estn muy generalizados, y no slo debido a la aplicacin de mtodos complejos, es muy frecuente aplicar intervalos de confianza y realizar contrastes estadsticos con muestras no probabilsticas, lo cual no tiene ningn fundamento y las tomas de decisiones realizadas de esta manera no tienen la precisin ni el rigor que parecen tener. Un ejemplo muy conocido es el de los estudios de casos y controles, muy tiles en algunas ocasiones; sin embargo, en la mayora de los casos los datos no se obtienen mediante muestreos probabilsticos, pero se estudian como tales. La toma de decisiones basadas en la significacin estadstica parece muy cmoda y adems no hay que pensar mucho. Se coloca un nivel de decisin, frecuentemente 0,05, y si la probabilidad obtenida en el contraste de hiptesis es menor se rechaza la hiptesis nula, en caso contrario no se rechaza. El problema es que en estadstica aplicada la significacin estadstica es un parmetro secundario en la toma de decisiones. El parmetro principal es la significacin tcnica, es decir, la importancia clnica, psicolgica, sociolgica o fisiolgica del valor calculado de los parmetros, y slo si estos son relevantes tiene sentido preguntarse la probabilidad de haber obtenido los resultados por azar, que es lo nico que contesta la significacin estadstica, y esto si el estudio se basa en un muestreo probabilstico. Sin embargo, es muy frecuente que la discusin de los resultados de un experimento se hagan tomando como parmetro principal la significacin estadstica, muchas veces sin mencionar el valor de los parmetros clnicos o sociolgicos calculados y, en muchos casos, a partir de muestras no probabilsticas. Si las muestras son grandes la significacin estadstica est casi garantizada. El poder poltico y econmico necesita apoyo a sus decisiones. En la antigedad se consultaban los orculos, que se consideraban la voz de la verdad porque provenan de los dioses o de fuerzas superiores que rara vez se equivocaban. Si el consultante era poderoso, las predicciones casi siempre apoyaban sus deseos; si fallaban se achacaba a errores de interpretacin o a ofensas a las divinidades realizadas despus de las profecas. Aunque muchos usuarios poderosos y sacerdotes saban que los orculos eran una patraa, les interesaba mantenerla: los poderosos porque reciban un respaldo divino a sus decisiones, y los sacerdotes de todos los rangos porque vivan muy bien de este trabajo. En la actualidad el poder poltico, en lugar de orculos consulta encuestas, y en el caso de las ciencias de la salud, el poder econmico consulta estudios de investigacin; curiosamente los resultados apoyan casi siempre a los poderosos, como ocurra en la antigedad. Parece que este sistema es cmodo para casi todos los implicados en l, y a pocos preocupa los graves errores que hay en su aplicacin. La gran diferencia entre los orculos y el mtodo cientfico es que este ltimo permite obtener informacin acertada cuando se utiliza correctamente.

PREFACIO

XXVII

Si los estudios se realizan con el rigor cientfico y la precisin que los expertos dicen tener: cmo es posible que se cometan tantos errores y que con tanta frecuencia los resultados, apoyados por los mejores expertos, muchas veces se compruebe que eran errneos? Mencin especial merecen los ensayos clnicos. Los tratamientos mdicos se basan en ellos, y la tcnica de estos estudios no ha variado sustancialmente en los ltimos treinta aos. Sin embargo, muchos estudios realizados hace quince o veinte aos, sobre tratamientos que parecan estupendos, la prctica ha demostrado que no eran acertados o que sus riesgos eran mucho mayores de lo que pareca, y que el error aleatorio no es suficiente para explicar tantos desatinos. Sin tener en cuenta el fraude, que puede explicar una parte de los errores, el problema principal es la aplicacin incorrecta de tcnicas estadsticas y la interpretacin inadecuada de los resultados basndose en la significacin estadstica en lugar de la significacin clnica. Las consecuencias pueden ser dramticas: tratamientos inadecuados, fallecimientos y secuelas por efectos secundarios no previstos, etc. Es necesario revisar la aplicacin de la estadstica a las ciencias de la salud, y su implementacin con los mtodos de investigacin, a fin de optimizar los resultados de las investigaciones, lo que sin duda ser beneficioso para la mayora de los ciudadanos. En Villa Libertad, Benalmdena a 11 de marzo de 2007.
RAFAEL C. LVAREZ CCERES ralvarez@nacom.es

GUA DE LECTURA

Este libro puede ser til como libro de aprendizaje; es decir, como libro de texto y como libro de consulta. Se incluyen casi todos los casos que pueden necesitarse en estadstica aplicada, huyendo del simplismo generalizado de aproximar a la normal casi todos los ejemplos, cometiendo importantes errores en muchas ocasiones. En la actualidad, los clculos estadsticos se realizan mediante programas estadsticos. Uno de los ms utilizados en ciencias de la salud y en ciencias sociales es SPSS 1; por eso en este libro se explican las salidas de resultados ms utilizadas de este programa, aunque como los resultados correspondientes a la mayora de las aplicaciones (estadstica descriptiva, comparacin de dos medias, tablas de contingencia, correlacin, regresin, regresin logstica, etc.) son muy similares a la mayora de los programas estadsticos, los comentarios acerca de las tablas de resultados obtenidas mediante SPSS pueden ser tiles para los usuarios de otros muchos programas como G-STAT, SAS y STAT GRAPHICS, entre otros. Existe la creencia muy extendida de que los programas estadsticos lo hacen todo respecto a los clculos estadsticos, y que no es necesario tener grandes conocimientos estadsticos para obtener buenos resultados. Esto es inexacto. Obtener resultados mediante programas estadsticos es relativamente sencillo, pero interpretar los parmetros obtenidos y elegir los adecuados no es tarea fcil y exige amplios conocimientos de estadstica para no cometer errores importantes. Adems, en el caso de clculos estadsticos de cierto nivel es necesario saber los parmetros necesarios para realizar los clculos que muchas veces no se obtiene de manera inmediata; por ejemplo, el clculo del riesgo relativo mediante un modelo de regresin logstica no se obtiene de manera explcita; tampoco es posible comparar de manera inmediata dos coeficientes de regresin o de correlacin. Cierto es que la mayora de los grandes paquetes estadsticos como SPSS, adems
1

SPSS es marca registrada de SPSS INC Chicago USA.

XXX

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

de los mens permiten obtener resultados mediante programacin, pero ello exige importantes conocimientos informticos y estadsticos. Cada vez es ms necesario tener conocimientos amplios de estadstica para utilizar eficientemente los programas. Este libro expone con detalle las principales tcnicas utilizadas en estadstica aplicada en general, y en particular las de uso cotidiano en las ciencias de la salud. El libro se puede dividir en dos partes: los primeros once captulos incluyen la materia fundamental, los conocimientos generales e imprescindibles; la segunda parte incluye tcnicas estadsticas concretas. El Captulo 1 expone los principios fundamentales estadsticos y cientficos. Se recomienda leerlo atentamente porque muchos errores se cometen por interpretaciones inadecuadas de los conceptos de poblacin y muestra, y de un principio elemental en estadstica aplicada: la validez de los valores de las variables. Todo estudio estadstico se basa en procesar la informacin disponible acerca de un conjunto de variables, si los valores de stas son inexactos, tambin lo son los clculos estadsticos. El Captulo 2 se refiere a la estadstica descriptiva; es decir, tabulacin, grficos y parmetros fundamentales correspondientes a los tipos de variables utilizadas en estadstica aplicada. El Captulo 3 hace una introduccin a los principios elementales de la probabilidad: espacio muestral, axiomas y principales teoremas de la probabilidad son algunos de los temas comentados. Se utiliza como herramienta matemtica el lgebra de Boole. Si algn lector necesita recordar los fundamentos de esta tcnica matemtica, en el apndice uno se recuerdan sus fundamentos. El Captulo 4 aborda los conceptos de sucesos mutuamente excluyentes e independientes; adems se estudia la probabilidad condicionada y el teorema de Vayes, fundamental para el clculo de probabilidades en la aplicacin a las ciencias de la salud, como en el caso de ayudas al diagnstico. El Captulo 5 trata de la aplicacin del clculo de probabilidades al clculo de parmetros muy utilizados en ciencias de la salud, como riesgo, riesgo relativo, razn de predominio, sensibilidad, especificidad y valores predictivos. El Captulo 6 es ms tcnico desde el punto de vista estadstico, pero es muy interesante como base para abordar las principales distribuciones de probabilidad en los captulos siguientes. Se recomienda estudiarlo detenidamente. El Captulo 7 estudia las principales distribuciones de probabilidad aplicables a variables aleatorias discretas. La ms importante es la binomial, pero tambin se utilizan con frecuencia las distribuciones de Poisson, multinomial, hipergeomtrica, geomtrica y binomial negativa. En el Captulo 8 se estudian las distribuciones de probabilidad ms importantes aplicables a variables aleatorias continuas. La ms utilizada es la distribucin normal o de Gauss, pero tambin son de uso frecuente las distribuciones de la t de Student, la Chi-cuadrado y la F de Snedecor. En este captulo se dan las instrucciones necesarias para el manejo de las tablas que permiten el clculo de probabilidades mediante las distribuciones antedichas.

GUA DE LECTURA

XXXI

El Captulo 9 introduce los principios de la estadstica analtica. Es fundamental distinguir entre inferencia estadstica e inferencia tcnica; tambin se estudian las principales tcnicas de muestreo, con especial atencin al muestreo probabilstico. El Captulo 10 estudia uno de los temas que aborda la estadstica analtica, la estimacin de parmetros puntual y por intervalo. Se analiza el clculo de intervalos de confianza para la estimacin de medias y de proporciones teniendo en cuenta muchas circunstancias distintas; tambin se predetermina el tamao de muestra necesario para estimar parmetros con una precisin determinada. El Captulo 11 estudia con detalle el otro tema que aborda la estadstica analtica, el contraste de hiptesis. Los contrastes de hiptesis estadsticos siempre han estado rodeados de controversia, incluso hay quien aboga por su eliminacin. Es cierto que su interpretacin es compleja, pero son imprescindibles en la toma de decisiones en estadstica analtica. Como todas las herramientas complejas, si no se saben utilizar se pueden cometer importantes errores. Se analizan con detalle muchos ejemplos y se estudian los errores que se cometen habitualmente en el contraste de hiptesis estadsticas. El Captulo 12 analiza algunos principios bsicos a tener en cuenta en estadstica aplicada, como causalidad, interaccin entre variables y fenmenos de confusin. El Captulo 13 estudia la comparacin de dos proporciones, tanto en el caso de datos pareados como independientes. Se realizan clculos de intervalos de confianza y contraste de hiptesis en los casos ms utilizados en estadstica aplicada. El Captulo 14 estudia la estadstica descriptiva y analtica mediante el uso de tablas de contingencia, que se utilizan muy frecuentemente en estadstica aplicada a las ciencias de la salud y a las ciencias sociales. El clculo de la Chi-cuadrado de Pearson, la correccin de Yates, la prueba de Fisher y la prueba de McNemar, son algunas de las pruebas estadsticas analizadas. Se realiza el clculo de los parmetros ms utilizados en el anlisis del riesgo mediante tablas de contingencia. El Captulo 15 trata sobre la comparacin de dos medias, tanto en el caso de datos apareados como datos independientes. El clculo de intervalos de confianza, contraste de hiptesis y predeterminacin del tamao muestral particularizados cuando se analizan simultneamente dos medias, son los temas fundamentales estudiados en este captulo. En el Captulo 16 se estudia el anlisis de la varianza unifactorial. Esta interesante tcnica estadstica permite comparar k medias de manera simultnea siendo k 2. Adems, el contraste de hiptesis mediante el cociente de dos varianzas y el anlisis de la tabla de ANOVA se utilizan en muchas tcnicas de estadstica avanzada, como el anlisis de regresin. Las tcnicas de comparacin mltiple se utilizan tambin en otras tcnicas estadsticas, como las pruebas de Friedman y de Kruskall Wallis. Se recomienda al lector interesado en las tcnicas estadsticas avanzadas estudiar este captulo, puesto que los principios que en l se exponen son aplicables a otras muchas tcnicas.

XXXII

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

El Captulo 17 estudia el anlisis de la varianza bloques y el anlisis de la varianza de medidas repetidas, que permite comparar k medias, siendo k 2, en el caso de datos pareados. Tambin se estudian las pruebas de comparacin mltiple aplicables en el caso de rechazar la hiptesis nula de igualdad de medias. En el Captulo 18 se estudia la asociacin entre variables cuantitativas, fundamentalmente las medidas de correlacin de Pearson y de Spearman. Tambin se analiza la comparacin de dos coeficientes de correlacin. El Captulo 19 analiza la regresin lineal simple. Con objeto de fijar conceptos, se recomienda al lector estudiar primero la regresin simple, y despus la mltiple, ya que muchos conceptos son similares y aplicables de manera inmediata a esta ltima. El Captulo 20 analiza la regresin lineal mltiple. Se han evitado los complejos anlisis matemticos, aunque se comenta que el modelo matricial no es imprescindible para el seguimiento del captulo, aunque s deseable. Entre otros temas, se analiza con detalle la inclusin en los modelos de variables ficticias (Dummy). En el Captulo 21 se estudia la regresin logstica simple y mltiple; esta es una de las tcnicas ms utilizadas en ciencias de la salud en los artculos publicados en las revistas ms prestigiosas del mundo. En primer lugar se analiza la regresin simple para fijar conceptos, y despus la mltiple. Al igual que en el caso de la regresin lineal mltiple, se hace un estudio amplio sobre las variables ficticias (Dummy). Despus se estudia el anlisis del riesgo mediante modelos de regresin logstica. En el Captulo 22 se analizan las tcnicas estadsticas no paramtricas ms utilizadas en estadstica aplicada. El Captulo 23 tercero trata los aspectos estadsticos generales de la metodologa de la investigacin aplicada a las ciencias de la salud. El Captulo 24 estudia los aspectos estadsticos ms importantes de los estudios observacionales. El Captulo 25 analiza las caractersticas ms importantes de los ensayos clnicos y sus peculiaridades estadsticas. Y como punto final, en el Captulo 26 se comentan los errores ms frecuentes que se suelen cometer en estadstica aplicada.

198

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

familiarizarse con ciertas expresiones matemticas. Los clculos necesarios se realizan consultando tablas, la tabla de la curva normal tipificada que se utiliza habitualmente en este texto est basada en la funcin de distribucin acumulativa. Cuando se determina el valor de un rea mediante la tabla se realiza de una manera sencilla un clculo que de otra manera habra que realizar resolviendo complejas expresiones integrales.

8.5. CLCULO DE PROBABILIDADES MEDIANTE TABLAS


Como se ha indicado en apartados anteriores, el clculo de probabilidades de variables aleatorias normalmente distribuidas puede realizarse resolviendo complicadas expresiones integrales o mediante el uso de tablas, lo cual es mucho ms sencillo. Las tablas pueden ser distintas, no todas estn basadas en la funcin de distribucin acumulativa; saber manejar un tipo de tabla no presupone que se sepan manejar todas; se recomienda al lector que si necesita manejar una tabla distinta de la que emplea habitualmente, para evitar errores, antes de utilizarla estudie detenidamente sus fundamentos. Las tablas que se utilizan en este libro, para el clculo de probabilidades correspondientes a variables aleatorias normales y, tambin para el clculo de probabilidades de variables aleatorias que se distribuyen de manera distinta a la normal, estn basadas en la funcin de distribucin acumulativa. Los problemas a resolver son fundamentalmente de dos tipos: a) Conocida la abscisa de la variable aleatoria X, o de la variable aleatoria tipificada z, calcular la probabilidad de que la variable tenga un valor dentro de un determinado intervalo. b) Calcular la abscisa o abscisas que delimiten una proporcin de rea determinada. Mediante el siguiente ejemplo se comenta detalladamente el uso de la tabla. Se recomienda al lector seguirlo con especial atencin, puesto que las cuestiones a resolver han sido especialmente diseadas para comprender el manejo de la tabla.

DISTRIBUCIONES DE VARIABLES ALEATORIAS CONTINUAS

199

EJEMPLO 8.2
La glucemia basal de los diabticos atendidos en un centro sanitario puede considerarse como una variable normalmente distribuida, con media 106 mg por 100 ml, y desviacin tpica 8 mg por 100 ml N(106; 8). Calcular: a) La proporcin de diabticos con una glucemia basal inferior a 120 mg por 100 ml, P(X 120) (recuerde que en variable continua es lo mismo menor que menor o igual). b) La proporcin de diabticos con una glucemia basal comprendida entre 106 y 120 mg por 100 ml. c) La proporcin de diabticos con una glucemia basal mayor de 120 mg por 100 ml. d) El nivel de glucemia basal tal que por debajo de l estn el 25% de los diabticos, es decir, el primer cuartil. a) El clculo anterior no puede realizarse directamente, puesto que no se dispone de tablas para los parmetros correspondientes a la variable X, pero tipificando 120 se obtiene: Z (120 8 106) 1,75

El valor tipificado tiene la siguiente propiedad: P(X 120) P(Z 1,75)

200

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

x 106 120

FIGURA 8.9. P(X

120).

Z 0 1,75

FIGURA 8.10. P(Z

1,75).

DISTRIBUCIONES DE VARIABLES ALEATORIAS CONTINUAS

201

En los grficos anteriores el rea sombreada representa la probabilidad pedida. Observe que el rea bajo la curva N(106; 8) para X 120 es igual que el rea bajo la curva tipificada N(0; 1) para Z 1,75. Por lo tanto, con la tabla de la curva normal tipificada se calcula el rea necesaria para resolver este punto del ejercicio. Busque en la Tabla I en la columna encabezada por z, el valor 1,7, una vez localizado este valor observe que en la parte superior de la tabla hay 10 columnas desde la 0,00 hasta la 0,09, la confluencia de la fila cuyo comienzo es 1,7 y la columna 0,00 corresponde a P(X 1,70) cuyo valor es 0,9554, la segunda columna P(X 1,71) y as sucesivamente hasta llegar a la columna encabezada por 0,05, que corresponde a 1,75 cuya probabilidad es la que se desea calcular; la probabilidad buscada es 0,9599. Observe que el valor de la columna encabezada por Z corresponde al valor entero y al primer decimal de la normal tipificada, en la fila correspondiente estn los valores de las probabilidades, cada columna aade una centsima al valor que encabeza la fila, en el primer punto del ejemplo se desea calcular la probabilidad que deja a su izquierda el valor de Z 1,75, es decir, la funcin de distribucin acumulativa, F(Z 1,75) P(Z 1,75), en primer lugar se localiza la fila correspondiente a 1,7, a este valor cada columna aade una centsima a dicho valor, hasta 0,05, que son las centsimas que hay que aadir 1,7 para obtener 1,75; la interseccin entre la fila encabezada por 1,7 y la columna encabezada por 0,05, muestra la probabilidad que se quiere calcular. P(X 120) P(Z 1,75) 0,9599

La proporcin de diabticos con una glucemia basal menor de 120 mg por 100 ml es 0,9599. Tambin se podra decir que la probabilidad de que un diabtico seleccionado al azar en esta poblacin tenga una glucemia basal inferior a 120 mg por 100 ml es 0,9599. b) Se pide la probabilidad de que el valor de la variable aleatoria est comprendida entre 106 y 110, P ( 106 X 110). En la Figura 8.11 se representa la probabilidad pedida. Observe que si al rea bajo la curva para X 110, se le resta el rea bajo la curva para X 106 se obtiene la probabilidad pedida, que se corresponde con el rea sombreada, esto puede expresarse matemticamente de la siguiente manera: P(106 X 110) P(X 110) 106 8 P(X 106)

El valor tipificado de 110 es 0,5: Z 0: Z 106 106

110

; el valor tipificado de 106 es

. Observe que Z es la distancia en desviaciones tpicas de un va8 lor a la media, puesto que 106 es la media su distancia a 106, o sea, a s misma es 0. El rea sombreada en la curva normal tipificada es la probabilidad pedida (Figura 8.12).

202

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

rea bajo la curva para: (106 X 110)

X 106 110

FIGURA 8.11. P(106

110).

rea bajo la curva para: (0 Z 0,5)

Z 0 0,5

FIGURA 8.12. P(0

0,5).

DISTRIBUCIONES DE VARIABLES ALEATORIAS CONTINUAS

203

P(106 P(Z P(Z P(X

110)

P(X

110)

P(X

106)

P(Z

0,5)

P(Z

0)

0,5) consultando en la tabla es igual a 0,6915. 0) es 0,5 puesto que es la mitad de la curva. 110) P(X 106) P(Z 0,5) P(Z 0) 0,6915 0,5 0,1915

La proporcin de diabticos con una glucemia basal comprendida entre 110 y 106 mg por 100 ml es 0,1915. c) Se pide la proporcin de diabticos con una glucemia basal mayor de 120 mg por 100 ml, P(X 120). En variable continua que 120 o 120, es lo mismo, puesto que la nica diferencia sera la probabilidad de que la variable tome, exactamente, el valor 120, que es 120 seguido de infinitos ceros, dicha probabilidad es cero. P(X 120) P(X 120) 1

Observe que en la expresin anterior estn contempladas todas las posibilidades, por lo tanto la probabilidad es 1. En el punto a se ha calculado P(X 120), cuyo valor es 0,9599. P(X 120) 1 P(X 120) 1 0,9599 0,0401

La proporcin de diabticos con una glucemia basal mayor de 120 mg por 100 ml es 0,0401. d) En este caso se pide el valor de la glucemia basal a, que cumpla la siguiente condicin: P(X a) 0,25

Observe que esta cuestin es distinta a las anteriores, en este caso se conoce la probabilidad pero no el valor de X. En la Figura 8.13 se representa grficamente el problema. El punto a tiene un valor tipificado Za caracterizado por: (Z za) 0,25. Buscando en la tabla en los valores de las probabilidades, no en la columna Z, tenga en cuenta que en este caso se conoce la probabilidad, 0,25, y se quiere calcular el valor de Z que le corresponde. El valor 0,25 exacto no est en la tabla, los valores mayor y menor que el son 0,2514, al que le corresponde el valor Z 0,67, y 0,2483 al que corresponde el valor Z 0,68; el valor buscado est entre los dos valores de Z anteriores y, aproximadamente, en el punto medio de los dos, por lo tanto: P(Z 0,675) 0,25, o sea, que 0,675 es el valor que corresponde al primer cuartil de la variable normal tipificada. En la curva de la Figura 8.14 se representa grficamente la situacin en la curva normal tipificada.

204

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

0,25 X a 106

FIGURA 8.13. P(X

a)

0.25.

0,25 Z 0,675 0

FIGURA 8.14. P(Z

0,675)

0.25.

DISTRIBUCIONES DE VARIABLES ALEATORIAS CONTINUAS

205

0,675 es el valor tipificado de a, ahora hay que calcular el valor de la variable X, denotado mediante a, que corresponde a ese valor: 0,675 Despejando a en la ecuacin anterior: a 100,6 a 106 8

El valor pedido es 100,6, esto significa que el 25% de los diabticos de la poblacin estudiada tienen una glucemia basal inferior a 100,6 mg por 100 ml.

8.6. TEOREMA CENTRAL DEL LMITE


Si una variable aleatoria X puede expresarse como suma de n variables aleatorias independientes, para n 30, X es aproximadamente normal. El teorema central del lmite tiene un gran nmero de aplicaciones en estadstica. Hay muchas variables que pueden descomponerse en la suma de n variables aleatorias independientes y cuando n es mayor de 30 se puede considerar que dichas variables son aproximadamente normales. La mayora de los autores aceptan que con n 30 es suficiente para que la aproximacin a la normal sea adecuada, lo cual ha sido comprobado en mltiples experimentos de simulacin con ordenador. La aproximacin a la normal mejora segn aumenta n.

8.7. APROXIMACIN DE UNA DISTRIBUCIN BINOMIAL

A UNA NORMAL
En ocasiones y bajo ciertas condiciones se puede aproximar una distribucin binomial a una normal, lo cual puede facilitar notablemente los clculos. La aproximacin no siempre es posible, y si no se tienen en cuenta las condiciones que la permiten pueden cometerse importantes errores de clculo. Si una variable aleatoria X es binomial con parmetros n y p, B(n, p), puede aproximarse a una distribucin normal con np y desviacin tpica : npq cuando se cumplen simultneamente las siguientes condiciones: a) p b) q c) n 0,05 0,05 (q 30

p)

Una distribucin binomial de parmetros n y p, consiste en n pruebas independientes, la variable aleatoria binomial X, puede considerarse como la suma de

206

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

n procesos de Bernouille, cada uno de ellos compuesto por una variable aleatoria dicotmica, por lo tanto una variable aleatoria binomial est compuesta por n variables aleatorias independientes. Muchos autores consideran que la aproximacin binomial a la normal es posible si np 5 y nq 5, pero esta condicin puede ser insuficiente en muchos casos, por ejemplo si p 0,5 y n 11 se cumple la condicin np y nq 5, sin embargo el teorema central del lmite exige que n sea al menos igual a 30. La variable aleatoria binomial X es discreta, mientras que las variables normalmente distribuidas son continuas; cuando una variable binomial cumple los requisitos para realizar la aproximacin a la normal debe tenerse en cuenta que P(X a) 0, si X es continua, para evitar errores debe realizarse la correccin por continuidad, esto significa que la equivalencia P(X a) cuando X es binomial y por lo tanto discreta, debe considerarse como P(a 0,5 X a 0,5), al realizar la aproximacin a la normal y ser X continua, calculando la probabilidad de que X est contenida en un determinado intervalo. EJEMPLO 8.3
Un tratamiento antibitico es efectivo frente a infecciones pulmonares por legionella en el 25% de los casos. Los pacientes mejoran permaneciendo con buen estado general y afebriles antes de transcurridas 72 horas del comienzo del tratamiento. En una epidemia de infecciones pulmonares por legionella se aplica el tratamiento a 80 pacientes. Calcular la probabilidad de que antes de 72 horas de iniciado el tratamiento mejoren entre 25 y 35 pacientes, es decir, sea efectivo el tratamiento. Cada paciente tratado es una prueba independiente de las dems. La variable aleatoria X nmero de pacientes que mejoran antes de 72 horas de administrado el tratamiento es discreta y el experimento cumple los requisitos de la distribucin binomial con parmetros n 80 y p 0,25, B(80; 0,25). Se cumplen los requisitos de aproximacin a la normal: a) p b) q c) n 0,25 p 0,75 q 80 n 0,05 0,05 30

Podemos pasar de una B(80; 0,25) a una normal con 20 y 3,875, los parmetros de la variable normal son: N(20; 3,87). El problema pide calcular: P(25 X 30), aproximando a la normal y teniendo en cuenta la correccin por continuidad la probabilidad pedida es: P(24,5 X 30,5)

Tenga en cuenta que 25 al pasar de variable discreta a continua es el intervalo 24,5 - 25,5 y 30 el intervalo 29,5 - 30,5.

DISTRIBUCIONES DE VARIABLES ALEATORIAS CONTINUAS

207

Resumiendo, se dispone de una variable aleatoria normal con N(20; 3,87). P(24,5 X 30,5) P(X 30,5) P (X 24,5)

20 y

3,87

El valor tipificado de 30,5 es: 2,71, y el de 24,5: 1,16. Por lo tanto: P(X 30,5) P (X 24,5) P(Z 2,71) P(Z 1,16)

Consultando en las tablas de la curva normal tipificada: P(Z 2,71) P(Z 1,16) 0,9966 0,8770 0,1196

Hay una probabilidad de 0,1196 de que de los 80 pacientes tratados, entre 25 y 30 mejoren antes de 72 horas de iniciado el tratamiento.

8.8. APROXIMACIN DE LA DISTRIBUCIN DE POISSON

A LA NORMAL
La distribucin de Poisson es aplicable a variables aleatorias discretas. Cuando el parmetro es mayor de 10, se puede aproximar a una distribucin normal . con y Teniendo en cuenta que la variable aleatoria X es discreta, al realizar la aproximacin a la normal debe hacerse la correccin por continuidad. EJEMPLO 8.4.
En un hospital el nmero medio de pacientes con dolor abdominal atendidos por da es 16. Calcular la probabilidad de que un da determinado haya ms de 25 pacientes con dolor abdominal. El nmero de pacientes con dolor abdominal puede considerarse un suceso de Poisson con 16, teniendo en cuenta que 10 se puede hacer una aproximacin a una normal con 16 y 4. La probabilidad pedida es: P(X 25) 1 P(X 25)

Al realizar la aproximacin a la normal hay que hacer la correccin por continuidad, por lo tanto, la probabilidad anterior queda de la siguiente manera: P(X 24,5) 1 1 P(X 24,5) P(X 24,5); el valor tipificado de 24,5 es: 2,13 1 P(Z 2,13) 1 0,9834 0,0166

208

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

8.9. DISTRIBUCIN GAMMA


La distribucin o funcin gamma ( ) de Euler es la base de algunas de las ms importantes distribuciones de probabilidad utilizadas en estadstica. La funcin gamma de grado k est definida por la siguiente expresin: (k) Xk 1e
x

dx

[8.7]

La funcin anterior est definida para k 0. Se puede demostrar que (k) (k 1)! En el caso particular k 1: (1) e
x

dx 0.

[8.8]

(1) es la funcin exponencial negativa para x Resolviendo [8.7]: (1) [e x] X entre 0 e

(1) 1; teniendo en cuenta que (k) (k 1)!, (1) 0! 1. Observe que 0! 1 es una igualdad matemtica y no un convenio. La funcin exponencial negativa para x 0 es igual a 1 y, por lo tanto, puede definir una distribucin de probabilidad. Recuerde que una condicin necesaria de una funcin para poder definir una distribucin de probabilidad es que el rea entre la curva y el eje de abscisas sea igual a 1.

8.10. LA DISTRIBUCIN CHI-CUADRADO ( 2)


La distribucin 2 es una de las ms utilizadas en ciencias de la salud, muchos estimadores de uso corriente en investigacin clnica y epidemiolgica se distribuyen segn esta curva. En este apartado se estudian las caractersticas funcionales de la distribucin y sus propiedades ms importantes, incluyendo la utilizacin de la tabla. Una variable aleatoria continua X, sigue una distribucin chi-cuadrado con grados de libertad 1; 2 , si su funcin de probabilidad es la siguiente:

Grados de libertad es el nmero de variables que pueden tomar valores libremente. Las restricciones son los parmetros que tienen que tomar un valor determinado.

ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS

533

SSResidual

j 1 i 1

(Xji

XGj

XBi

X )2

[17.10]

Para facilitar los clculos de la suma de cuadrados es preferible utilizar las siguientes frmulas:

SSTotal

j 1 i 1

X2 ji

j 1 i 1

Xji

Kb

[17.11]

SSGrupos

2 Gj

( (

j 1 i 1

Xji

j 1

Kb

[17.12]

En la expresin anterior TGj es la suma de todos los valores del j-simo grupo.
K b

SSBloques

T2 Bi K

j 1 i 1

Xji

i 1

Kb

[17.13]

En la expresin anterior TBi es la suma de todos los valores del i-simo bloque. SSResidual SSTotal SSGrupos SSBloques [17.14]

17.4. CUADRADOS MEDIOS


Los cuadrados medios, que son la estimacin puntual de las varianzas, se obtienen dividiendo la suma de cuadrados por los correspondientes grados de libertad. Los grados de libertad, GL, son aditivos, es decir, los grados de libertad totales, son iguales a los grados de libertad entre grupos ms los grados de libertad de bloques ms los grados de libertad residuales: GLTotal GLTotal GLGrupos Kb GLBloques K GLResidual 1; GLBloques b 1 [17.15]

1; GLGrupos

Despejando en 17.15. GLResidual GLResidual GLTotal (Kb 1) GLGrupos (K 1) GLBloques (b 1) [17.16]

534

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

GLResidual MSTotal MSGrupos MSBloques MSResidual

(K SSTotal Kb

1)(b

1)

[17.17] [17.18]

SSGrupos K 1 SSBloques b 1 SSResidual (K 1) (b 1)

[17.19]

[17.20]

[17.21]

17.5. HIPTESIS DE ANOVA BLOQUES


En el anlisis de la varianza de bloques la hiptesis principal a contrastar es la igualdad de las medias de los grupos. H0 H1
G1 Gi

GK Gj para algn i, j
G2

En el ejemplo 17.1, la hiptesis principal a contrastar es si existen diferencias en disminucin del colesterol entre los hipolipemiantes, una vez controlado el posible efecto distorsionador de los hipotensores. Una hiptesis secundaria a contrastar, aunque muchas veces carece de inters, es la igualdad entre las medias de los bloques. H0 H1
B1 Bi

BK Bj para algn i, j
B2

Lo ms frecuente es que haya diferencias entre los bloques, precisamente por eso se controla su efecto para que esta distorsin no afecte al objetivo principal del estudio, que es comparar las medias de los grupos. En cualquier caso, sea o no estadsticamente significativo, el efecto bloques no afecta al resultado del contraste de la hiptesis principal. Lo importante es el diseo, bloquear el posible efecto de una variable extraa a los objetivos del estudio. En el ejemplo 17.1, el contraste entre las medias de los bloques comparara las medias del colesterol entre los distintos tratamientos hipotensores. De manera similar que en el anlisis de la varianza unifactorial, la hiptesis principal se contrasta comparando el cuadrado medio entre grupos y el cuadrado

ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS

535

medio residual mediante la prueba de la F de Snedecor, si la significacin estadstica es menor que el valor del contraste de hiptesis se concluye que hay un efecto sobre la variable dependiente debido al grupo, en el ejemplo de los hipolipemiantes, indicara que el efecto de los tratamientos es diferente. La hiptesis secundaria se contrasta comparando el cuadrado medio bloques con el cuadrado medio residual, tambin mediante la prueba de la F de Snedecor, si la significacin estadstica es menor que el valor del contraste de hiptesis se concluye que hay un efecto sobre la variable dependiente debido al bloque. Si se sospecha que en las poblaciones de referencia no se cumplen los supuestos de ANOVA, se puede contrastar la hiptesis principal mediante el cociente entre MSG y MSR, igual que antes, pero considerando que la F tiene 1 y (b 1) grados de libertad, en lugar de (K 1) y (K 1) (b 1) grados de libertad, de esta manera aumenta la probabilidad de cometer un error tipo II, pero disminuye la probabilidad de cometer error tipo I.

17.5.1. Tabla de ANOVA bloques


Los parmetros fundamentales para realizar un anlisis de la varianza bloques se suelen exponer en una tabla similar a la siguiente:
Anlisis de la varianza bloques Fuente de variacin Entre grupos Bloques Residual Total (k GL K-1 b-1 1)(b Kb 1 1) Suma de cuadrados SSGrupos SSBloques SSResidual SSTotal Cuadrados medios MSGrupos MSBloques MSResidual F cociente MSGrupos/MSResidual MSBloques/MSResidual F prob. P

EJEMPLO 17.2
El objetivo de un estudio es evaluar el poder hipocolesterolemiante de tres tratamientos diferentes A, B y C en pacientes hipertensos; el tipo de tratamiento hipotensor puede influir en los resultados; para controlar este posible efecto se realiza un diseo de bloques. Hay tres pacientes por cada uno de los seis tipos principales de tratamiento hipotensor: diurticos, betabloqueantes, alfabloqueantes, IECAS, ARAII y calcioantagonistas; se seleccionan tres pacientes de cada tipo de tratamiento hipotensor y se asignan al azar a cada uno de los tres tratamientos hipolipemiantes; tres meses despus se analiza el nivel del colesterol total de cada uno de los dieciocho pacientes que participan en el estudio en mg por 100 ml. Los datos obtenidos son los siguientes:

536

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

TABLA 17.2. Hipolipemiantes A Diurticos Betabloq. Alfabloq. IECAS ARAII Calcioant. TA xA SA X 227 231 216 222 217 211 1.324 TB 220,67 xB 7,45 215,83 SB
3 6

B 233 241 252 237 242 250 1.455 TC 242,50 xC 7,34 Xji SC

C 210 190 186 175 177 168 1.106 184,3 14,84 TD TBQ TAQ TIE TAR TCL 670 662 654 634 636 629 xD xBQ xAQ xIE xAR xCL 223,33 220,67 218 211,33 212,00 209,67 SD SBQ SAQ SIE SAR SCL 11,93 27,02 33,05 32,35 32,79 41,02

850.521,00

j 1i 1

Hay diferencias entre los valores del colesterol obtenidos mediante los tratamientos de los tres hipolipemiantes? Hay efecto de bloques? Estas son las preguntas cuya respuesta se quiere obtener, mediante el anlisis de la varianza bloques. El contraste se resuelve con 0,05. A continuacin se calculan las sumas de cuadrados. Aplicando la expresin 17.11 se calcula la suma de cuadrados total: SSTOTAL 850.521,00 838.512,5; SSTOTAL 12.008,5

Aplicando la expresin 17.12 se calcula la suma de cuadrados grupos: SSGRUPOS 1.3242 6 1.4552 6 1.1062 6 838.512,5; SSGRUPOS 10.360,32

Aplicando la expresin 17.13 se calcula la suma de cuadrados bloques: SSBLOQUES SSBLOQUES 6702 3 471,82 6622 3 6542 3 6342 3 6362 3 6292 3 838.512,5

Aplicando la expresin 17.14 se calcula la suma de cuadrados residual: SSRESIDUAL 12.008,50 10.360,32 471,82; SSRESIDUAL 1.176,36

A continuacin teniendo en cuenta los correspondientes grados de libertad se calculan los cuadrados medios:

ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS

537

MSGRUPOS MSBLOQUES MSRESIDUAL

10.360,32 2 471,82 5 1.176,36 10

MSGRUPOS MSBLOQUES MSRESIDUAL

5.180,16 94,36 117,63

La hiptesis principal a contrastar es si hay diferencias entre las medias de colesterol total correspondientes a los grupos tratados con los tres hipolipemiantes. H0 H1
A i j B C

para algn i, j

0,05

La hiptesis anterior se resuelve comparando el cuadrado medio entre grupos con el cuadrado medio residual mediante la prueba de la F de Snedecor. La hiptesis secundaria es comprobar si hay efecto de bloques: H0 H1
D i j BQ AQ IE AR CL

para algn i, j

0,05

La hiptesis anterior se resuelve comparando el cuadrado medio entre bloques con el cuadrado medio residual mediante la prueba de la F de Snedecor. Los resultados de los contrastes se exponen en la siguiente tabla:
Anlisis de la varianza bloques Fuente de variacin Entre grupos Bloques Residual Total GL 2 5 10 17 Suma de cuadrados 10.360,32 471,82 1.176,36 12.008,50 Cuadrados medios 5.180,16 94,36 117,63 F cociente 44,14 0,80 F prob. 0,00001 NS

La diferencia entre los colesteroles totales correspondientes a los tres grupos definidos por los tratamientos A, B y C son clnicamente significativos; adems, las diferencias son estadsticamente muy significativas, y habr que dilucidar entre qu medias hay diferencias; esto se har en los apartados siguientes. No hay diferencias estadsticamente significativas entre los bloques, es decir, no se ha podido probar que haya efecto bloques; debe tenerse en cuenta que las muestras son pequeas y, adems, haya o no efecto bloques, esto no influye en los resultados principales.

538

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

17.6. COMPARACIONES MLTIPLES


Si al contrastar la hiptesis principal se rechaza la hiptesis nula, hay que dilucidar entre qu medias hay diferencias estadsticamente significativas (evidentemente esto tiene inters prctico si las diferencias son tcnicamente significativas), para ello pueden utilizarse las pruebas de comparacin mltiple estudiadas en el captulo anterior, aunque hay que tener en cuenta algunas diferencias. En el caso del anlisis de la varianza unifactorial la varianza dentro de grupos es equivalente a la varianza residual en el anlisis de la varianza bloques. Cuando en alguna prueba hay que utilizar los grados de libertad correspondientes a la variabilidad dentro de grupos que son N K, siendo N el nmero total de casos, es decir, bk, en el anlisis de la varianza bloques hay que tener en cuenta que los grados de libertad residual son (K 1) (b 1). En el anlisis de la varianza bloques los grupos tienen el mismo nmero de casos; una de las pruebas ms utilizadas es la de Tukey 1; en el caso de que las comparaciones se realicen respecto a la media de uno de los grupos se recomienda utilizar la de Dunnet. En general, haya o no efecto bloques, no se comparan las medias de los bloques, si se quisiera hacerlo habra que considerar a los bloques como grupos. EJEMPLO 17.3
Realizar las pruebas de comparacin mltiple correspondientes al ejercicio 17.2, con 0,05. En el ejercicio 17.2 se rechaz la hiptesis nula principal, por lo tanto la conclusin es que hay diferencias estadsticamente significativas entre los tratamientos hipolipemiantes; hay que analizar entre qu medias son las diferencias detectadas. Los colesteroles medios correspondientes a los tres grupos son los siguientes: xA 220,67 xB 242,50 xC 184,33

Interesa realizar todas las posibles comparaciones binarias entre las medias. Como todos los grupos tienen el mismo nmero de casos, seis, se puede aplicar la prueba de Tukey. Las diferencias entre las medias son: xA xB 21,83 xA xC 36,37 xB xC 58,17

Segn Tukey, la diferencia mnima que tiene que haber entre dos medias para considerar que hay diferencias estadsticamente significativas, DMS, se calculan mediante la siguiente expresin:

Las caractersticas principales de las pruebas de Tukey y de Dunnnett se estudian en el Captulo 16.

ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS

539

DMS En esta caso 0,05; K

, K, (K 1)(b 1)

MSR b 117,36. Por lo tanto: 117,36 6

3; b

6; MSR

DMS

q0,05; 3; 10 3,877. 17,15

Consultando la tabla VIII, q0,05; 3; 10 DMS

Se considerar que hay diferencias estadsticamente significativas si las diferencias entre dos medias en valor absoluto son mayores que 17,15. En este caso todas las diferencias binarias son mayores que 17,15, la conclusin es que hay diferencias estadsticamente significativas entre todas las medias. El mejor hipocolesterolemiante es el C, seguido del A, y por ltimo del B.

17.7. ESTUDIO DE LA INTERACCIN:

PRUEBA DE NO ADITIVIDAD DE TUKEY


Uno de los supuestos del modelo es que entre el efecto grupos y el efecto bloques, si es que los hay, no hay interaccin, es decir, dichos efectos son aditivos. La interaccin es un efecto especial, ms all de la simple suma, entre alguno de los grupos y alguno de los bloques, lo que puede ocasionar importantes errores en la interpretacin de los resultados. Estudiar la interaccin entre grupos y bloques no es una tarea sencilla porque, entre otras razones, slo hay un caso por cada una de las posibles combinaciones de grupos y de bloques. Tukey propuso un mtodo denominado prueba de no aditividad de Tukey, el cual se expone en la Tabla 17.3. En dicha tabla, adems de los elementos que haba en la tabla 17.1, hay unos parmetros que no estaban en ella, los dGj, los dBi y sus correspondientes cuadrados. Hay un dGj por cada grupo, es la diferencia entre la media de su grupo correspondiente y la media global, X : dGj (xGj X ); hay un dBj por cada bloque y es la diferencia entre la media de su bloque correspondiente y la media global, X : dBi (xBi X ). Tukey sugiere descomponer la suma de cuadrados residual SSResidual en suma de cuadrados debidos a la no aditividad SSNAD y la suma de cuadrados correspondiente al resto de circunstancias, SSResto. SSResidual SSResto SSNAD [17.21]

540

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

1 X11 X12 X1i X1n xG1 S2 G1 dG1 d


2 G1

2 X21 X22 X2i X2n xG2 S2 G2 dG2 d


2 G2

K Xk1 Xk2 Xki Xkn xGk S2 GK dGK d2 GK xB1 xB2 xBi xBn S2 B1 S2 B2 S S
2 Bi

dB1 dB2 dBi dBn S2

d2 B1 d2 B2 d2 Bi d2 Bn

2 BK

TABLA 17.3. Prueba de no aditividad de Tukey

La suma de cuadrados de no aditividad se calcula mediante la siguiente expresin:

SSNAD

j 1 i 1 K

Xji dGjdBi
B

[17.22]

d
j 1

2 Gj

d
i 1

2 Bi

Despejando en 17.21, se calcula SSResto mediante la siguiente expresin: SSResto SSResidual SSNAD [17.23]

Los grados de libertad correspondientes a la no aditividad son 1, y los correspondientes al resto (K 1) (B 1) 1; recuerde que los grados de libertad residuales son (K 1) (B 1), y se tiene que cumplir que los grados de libertad residuales son iguales a la suma de los grados de libertad de no aditividad y correspondientes al resto. Las varianzas correspondientes, es decir, los cuadrados medios, se obtienen dividiendo la suma de cuadrados entre sus correspondientes grados de libertad. El cuadrado medio correspondiente a la no aditividad se obtiene mediante la siguiente expresin: MSNAD SSNAD 1 [17.24]

ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS

541

El cuadrado medio correspondiente al resto se obtiene mediante la siguiente expresin: MSResto SSResto (K 1) (B 1) 1 [17.25]

El contraste de hiptesis de no aditividad es el siguiente: H0 H1 No interaccin entre bloques y grupos. Hay interaccin .

Si la variabilidad debida a la no aditividad es significativamente mayor que la variabilidad correspondiente al resto de circunstancias, se rechaza la hiptesis nula y se concluye que hay interaccin entre grupos y bloques, lo que indicara que, en ese caso, no sera aplicable el anlisis de la varianza bloques. La evaluacin de la variabilidad de no aditividad con respecto a la del resto se realiza mediante la prueba de la F de Snedecor: F MSNAD
, 1, (G 1) (B 1) 1

MSResto

[17.26]

Si la F es estadsticamente significativa al nivel alfa especificado, se rechaza la hiptesis nula y se concluye que hay interaccin, en caso contrario se considera que no hay pruebas estadsticas de interaccin; consecuentemente, sera aplicable el anlisis de la varianza bloques, si se cumplen el resto de supuestos del modelo.

17.8. MEDIDAS REPETIDAS


En muchas ocasiones interesa estudiar un determinado parmetro repetidas veces en los mismos elementos de una muestra. En este caso se realiza la primera medida cuando comienza el estudio, t0, se hacen una o ms medidas antes de acabar el estudio, ti, y la ltima al finalizar el estudio, tf, en total K medidas, siendo K 1; en el caso ms sencillo K 2, slo hay dos medidas: al comenzar y al finalizar el estudio, es el caso de la comparacin de dos medias con datos pareados o dependientes, que se puede hacer mediante la prueba de la t de Student (vase Captulo 15). El anlisis de la varianza con medidas repetidas es una comparacin de K medias con datos pareados o dependientes. A continuacin se analizan dos ejemplos tericos correspondientes a los dos casos ms utilizados en la prctica. Por ejemplo, se quiere estudiar la evolucin de un grupo de pacientes hipertensos en relacin a un nuevo tratamiento, se selecciona al azar un grupo de n pa-

542

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

cientes, al comenzar se mide la tensin arterial a los n pacientes participantes, durante el estudio y al finalizar se hacen nuevas medidas de la tensin arterial sistlica, el objetivo es analizar la evolucin de la tensin arterial en relacin al tiempo de tratamiento para conocer cunto tiempo tarda en estabilizarse. En este caso interesa comparar todas las medias entre s; se considerar que la tensin arterial se ha estabilizado cuando no haya diferencias clnica y estadsticamente significativas entre dos medias consecutivas. Se hacen K medidas de la tensin arterial sistlica en los n pacientes para estudiar la respuesta en el tiempo a un determinado tratamiento. El objetivo de un estudio es analizar el efecto hipoglucemiante de K frmacos en ratas; se seleccionan al azar n ratas; para evitar las diferencias interindividuales que puedan enmascarar los resultados se prueban los k frmacos en todas las ratas. Al comenzar el estudio, antes de aplicar ningn tratamiento se mide la glucemia basal, a continuacin se aplica el primer tratamiento, y a la semana se vuelve a analizar la glucemia basal; se deja un tiempo sin aplicar ningn tratamiento, tiempo de lavado, y se aplica a los animales un nuevo frmaco; a la semana de tratamiento se vuelve a analizar la glucemia basal, y se vuelve a dejar un tiempo de lavado hasta la aplicacin de un nuevo frmaco, y as sucesivamente hasta completar los K frmacos. En este caso las k medidas se realizan bajo situaciones experimentales diferentes, una basal y el resto con tratamientos diferentes; se pretende comparar el efecto de los frmacos entre s y con la situacin basal, es decir, interesa realizar todas las comparaciones posibles entre las medias. Debe tenerse en cuenta que si en un estudio se comprueba que hay diferencias tcnica y estadsticamente significativas respecto a un determinado parmetro, no significa que necesariamente sean debidas a la diferencia en tratamientos o a las situaciones que se estn estudiando, los anlisis estadsticos indican si existen o no diferencias, pero no las causas de las mismas. Por ejemplo, para comprobar el efecto hipolipemiante de un determinado frmaco se estudia el colesterol LDL basal, es decir, antes de comenzar a tomar el medicamento; al mes y a los seis meses. Las diferencias entre el colesterol LDL basal y los valores al mes y seis meses de tratamiento fueron clnica y estadsticamente significativas; puede ser que las diferencias sean debidas al frmaco o bien que los pacientes diagnosticados de hiperlipemia, al conocer su problema metablico reduzcan la ingesta de grasas y hagan ms ejercicio, de esta manera, al menos en parte, la reduccin del colesterol LDL podra ser debida a causas diferentes al tratamiento, el diseo metodolgico y la eleccin de las pruebas adecuadas a cada caso deben solventar estos problemas. En el caso de medidas repetidas cada individuo es un bloque. En el anlisis de la varianza bloques se pretende que los elementos de la muestra sean homogneos utilizando una variable de bloqueo, en el caso del anlisis de la varianza de medidas repetidas los elementos son homogneos respecto a las k medidas porque son los mismos en cada serie de observaciones. En estadstica aplicada, el anlisis de la varianza de medidas repetidas es mucho ms utilizado que el anlisis de la varianza utilizando variables de bloqueo, sobre todo en ciencias de la salud. En-

ANLISIS DE LA VARIANZA: BLOQUES, MEDIDAS REPETIDAS

543

tre el anlisis de la varianza bloques y el de medidas repetidas hay muchas similitudes, pero tambin importantes diferencias. En un estudio que consta de n elementos y K medidas a cada uno de ellos los datos y los principales parmetros estadsticos pueden tabularse de la siguiente manera:
1 X11 X12 X1i X1n xM1 S2 M1 2 X21 X22 X2i X2n xM2 S2 M2 TABLA 17.3 K Xk1 Xk2 Xki Xkn xMk S2 MK xE1 xE2 xEi xEn S2 E1 S2 E2 S2 Ei S2 En S2

En la tabla anterior hay algunas diferencias con la Tabla 17.1, correspondiente al anlisis de la varianza bloques. Las columnas se corresponden con las medidas, desde 1 hasta K, en lugar de los grupos utilizados en el anlisis de la varianza bloques, por ejemplo, el subndice M2 significa segunda medida. En las filas los elementos de la muestra se identifican por el subndice E, elemento, seguido del orden correspondiente en el muestreo, desde 1 hasta n. Igual que en el anlisis de la varianza unifactorial y en el anlisis de la varianza bloques, si no hay diferencias estadsticamente significativas entre las medidas; entre la varianza entre medidas, la varianza de los elementos de la muestra correspondientes a cada una de las medidas, intramedida, y la varianza global, S2, slo debe haber diferencias explicables por el azar. Si hay diferencias entre las medias debidas a pertenecer a medidas distintas, debe haber diferencias entre la varianza entre medidas y la varianza residual detectables mediante la prueba de la F de Snedecor. La diferencia fundamental de los anlisis de la varianza unifactorial y bloques entre el anlisis de la varianza de medidas repetidas, es que en este caso los grupos se corresponden con medidas, es decir, el factor es una variable con K categoras, siendo cada una de ellas una medida.

768

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

FIGURA 22.1

La variable que se quiere contrastar, en este caso Fumar, se pasa a la ventana encabezada por contrastar variables. En la parte inferior a la izquierda Definir la dicotoma se puede optar por que se obtenga la dicotoma de los datos o mediante punto de corte. Obtener de los datos se utiliza cuando la variable que se quiere contrastar es dicotmica, es decir, slo tiene dos valores definidos. La opcin punto de corte se utiliza para variables numricas con ms de dos valores, se consideran pertenecientes a la primera categora los valores menores o iguales que el valor especificado a la derecha de Punto de corte, pertenecientes a la otra categora se consideraran los valores mayores que el punto de corte. En mitad de la pantalla en la parte inferior est Contrastar proporcin por defecto el valor indicado es 0,50, este valor puede cambiarlo el usuario. Dejando el valor 0,50 en contrastar proporcin, las hiptesis que se contrastan son las siguientes: H0 H1 P(SI) P(SI) P(NO) P(NO) 0,5 0,05

En este caso las dos proporciones son iguales, cuando son diferentes, la proporcin especificada en Contrastar proporcin es la correspondiente a la primera categora. Pulsando en Aceptar se obtienen los siguientes resultados:

ESTADSTICA NO PARAMTRICA

769

Pruebas no paramtricas
Prueba binomial Categora Fumar Grupo 1 Grupo 2 Total S No N 8 16 24 Proporcin observada 0,33 0,67 1,00 Prop. de prueba 0,50 Sig. exacta (bilateral) 0,152

En la tabla anterior se muestran los valores observados en cada categora: 8 para S y 16 para NO, la proporcin de cada una de ellas, 0,33 y 0,67 respectivamente, la proporcin de prueba que es la asignada para realizar el contraste, y la significacin estadstica que en este caso es 0,152, como es mayor que 0,05, no se rechaza la hiptesis nula y se concluye que no hay pruebas estadsticas de que la proporcin de la primera categora sea diferente de 0,5. Recuerde que no rechazar la hiptesis nula no quiere decir que se haya demostrado, de hecho, tampoco se rechazara para muchos otros valores; pruebe con 0,33, 0,40, 0,38..., ver que tampoco se rechaza la hiptesis nula para estos valores, sera absurdo considerar que se ha demostrado que la proporcin es igual a todas ellas. En la parte inferior derecha de la pantalla 22.1, hay dos posibilidades: Exactas y Opciones. La primera no se incluye en todas las versiones y permite realizar los clculos mediante el mtodo de Montecarlo, puede ser til para hacer simulaciones. Pulsando opciones aparece la siguiente pantalla:

FIGURA 22.2

Si se marca Descriptivos, en los resultados aparece una tabla con la media, la desviacin tpica, el nmero de casos, el mximo y el mnimo. Si se marca

770

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

Cuartiles se obtienen los valores correspondientes a los cuartiles. Tanto los descriptivos como los cuartiles tienen sentido si la variable es cuantitativa continua, o discreta con muchas categoras. Esta opcin puede ser til cuando se usan variables dicotomizadas mediante punto de corte. En valores perdidos hay dos posibilidades: Excluir casos segn prueba y Excluir casos segn lista. La opcin por defecto es la primera; en este caso si se especifican varias variables para hacer contrastes, se excluyen los casos con valores ausentes al realizar cada uno de ellos; si se marca Excluir casos segn lista, se excluyen de la realizacin de todas las pruebas los casos que tengan valores ausentes en alguna de las variables.

22.2.2. Bondad del ajuste: prueba

Una de las pruebas ms utilizadas para analizar el ajuste de datos experimentales a distribuciones tericas es la basada en la distribucin 2. En el Captulo 14 se analiza esta prueba con detalle y se realizan varios ejemplos; tambin se estudia cmo realizar ajustes de datos a distribuciones tericas con SPSS. La prueba compara las frecuencias observadas con las esperadas, bajo la hiptesis de que en la poblacin muestreada la variable se ajusta a una distribucin terica determinada. El estadstico de contraste es el siguiente:
k 2 i 1

(Oi Ei

Ei)2

[22.3]

En la expresin anterior, Oi representa las frecuencias relativas observadas y Ei a las frecuencias relativas esperadas, K es el nmero de categoras que se comparan. Los grados de libertad del estadstico son K 1. La prueba Chi-cuadrado no es aplicable si ms del 20% de las frecuencias esperadas son menores que 5. Las hiptesis se plantean de la manera siguiente: H0 H1 Los datos se ajustan a la distribucin terica. Los datos no se ajustan a la distribucin terica.

El problema de estos contrastes de hiptesis es que si no se rechaza la hiptesis nula 1, no puede considerarse demostrado que los datos se ajusten a la distribucin terica; sin embargo, si se rechaza la hiptesis nula s puede considerarse que los datos no se ajustan a la distribucin propuesta. Es frecuente que en artculos publicados en revistas e incluso en libros considerar demostrada la hiptesis nula si no se ha rechazado, y se consideran los datos como si se ajustaran
1

En el Captulo 11 se analizan las caractersticas de los contrastes de hiptesis.

ESTADSTICA NO PARAMTRICA

771

a la distribucin terica propuesta, esto es un error importante y muchas veces trascendente.

22.2.3. Pruebas de Kolmogorov-Smirnov; Kolmogorov-Smirnov-Lilliefors y Shapiro Wilks


Esta prueba, desarrollada por Kolmogorov para una muestra y junto con Smirnov para dos muestras, se conoce en ambos casos como prueba de Kolmogorov-Smirnov, y originalmente se desarroll para comprobar si la distribucin emprica de una variable cuantitativa, es decir, la distribucin observada de una variable, se ajusta a una distribucin terica conocida; por ejemplo, distribucin normal, distribucin exponencial, etc. Despus se comenz a aplicar a distribuciones discretas. La prueba de Kolmogorov-Smirnov se basa en comparar los valores absolutos de las diferencias entre las frecuencias relativas acumulativas experimentales u observadas, F0(x), y las frecuencias relativas acumulativas tericas o esperadas, Fe(x). Las hiptesis son: H0 H1 F0(x) F0(x) Fe(x) Fe(x)

El estadstico de contraste es el siguiente: Mx (D


F0(x)

Fe(x))

[22.4]

Entre las frecuencias observadas y esperadas se permiten pequeas diferencias explicables por el azar. El punto crtico, PC, del contraste se obtiene de una tabla si n 35; si n 35 el punto crtico para 0,05, se obtiene mediante la siguiente expresin: PC 1,36 n Si n es mayor de 35 y guiente expresin: 0,01 el punto crtico, PC, se obtiene mediante la si[22.5]

PC

1,63 n

[22.6]

Si la mxima diferencia observada es mayor que el punto crtico se rechaza la hiptesis nula, en caso contrario no se rechaza.

772

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

El principal problema de esta prueba es que se considera que los datos se ajustan a la distribucin terica si no se rechaza la hiptesis nula. Ya se ha comentado en mltiples ocasiones en este libro que las hiptesis nulas no se pueden demostrar estadsticamente; pero si se rechaza la hiptesis nula se considera demostrada la alternativa, es decir, se considera demostrado que no se ajusta a la distribucin terica propuesta, aunque indicando la significacin estadstica. La prueba de Kolmogorov-Smirnov ha sido muy utilizada para evaluar el ajuste de variables continuas a una distribucin normal, en este caso las hiptesis son las siguientes: H0 H1 La variable se distribuye normalmente. La variable no se distribuye normalmente.

Es relativamente frecuente encontrar artculos cientficos, incluso libros de estadstica, que digan que se ha demostrado que los datos se distribuyen normalmente o que se ajustan a una normal en la poblacin muestreada; esto es claramente errneo, se podra decir que no se ha rechazado la hiptesis de normalidad, pero nunca que se ha demostrado la normalidad de los datos. Otra cosa es que si no se rechaza la hiptesis de normalidad y el tamao de la muestra no es muy pequeo se apliquen pruebas que exigen la normalidad, teniendo en cuenta que no se ha rechazado dicha hiptesis. La prueba de Kolmogorov-Smirnov se considera muy conservadora, es decir, es difcil rechazar la hiptesis nula, sobre todo si la variable es discreta y, aunque sea continua, si hay que estimar los parmetros de la distribucin, como la media y la desviacin tpica en el caso de la distribucin normal. EJEMPLO 22.3
Un determinado tumor pulmonar se clasifica en cinco tipos distintos, en cuanto a la diferenciacin celular, se cree que las cinco se presentan en la misma proporcin, es decir, un veinte por ciento, un quinto. Se selecciona una muestra al azar de veinte tumores, obtenindose las siguientes frecuencias absolutas. Tipo celular: Frecuencia: 1 4 2 8 3 2 4 2 5 4

Resolver el contraste con H0 H1

0,05.

Los cinco tipos celulares tienen la misma proporcin. Al menos una proporcin es distinta de las dems.

La tabla de frecuencias relativas acumuladas es la siguiente:

ESTADSTICA NO PARAMTRICA

773

Tipo celular 1 2 3 4 5

F0(x) 1/5 2/5 3/5 4/5 5/5 0,2 0,4 0,6 0,8 1

Fe(x) 4/20 12/20 14/20 16/20 20/20 0,2 0,6 0,7 0,8 1

F0(x)

Fe(x)

0 0,2 0,1 0 0

La mxima diferencia entre las frecuencias relativas acumuladas es 0,2, consultando en la tabla XI de los Anexos correspondiente a la prueba de Kolmogorov, el punto crtico para n 20 y 0,05, es 0,294, como el valor experimental es menor, no se puede rechazar la hiptesis de que las proporciones de los tipos celulares sean iguales.

La prueba de Kolmogorov-Smirnov con SPSS Seleccione en el men anlisis pruebas no paramtricas y en el listado de pruebas disponible: K-S de 1 muestra. Aparece la pantalla siguiente:

FIGURA 22.3

En la parte inferior a la izquierda en Distribucin de contraste se puede realizar el ajuste mediante la prueba de Kolmogorov-Smirnov para las distribuciones normal, uniforme, Poisson y exponencial.

774

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

Se va a realizar un ajuste a la distribucin normal con los 31 datos siguientes que son tensiones arteriales sistlicas, TAS, medidas en milmetros de Hg: TAS: 115 120 125 125 130 132 132 136 139 139 141 142 142 142 142 144 145 146 146 151 152 152 154 155 160 161 162 162 164 165 171 Una vez introducidos los datos, pase la variable TAS a la ventana encabezada por contrastar variables y pulse Aceptar, se obtienen los siguientes resultados:

Pruebas no paramtricas
Prueba de Kolmogorov-Smirnov para una muestra Tensin arterial N Media Parmetros normales
a, b

31,111 144,9011 14,032 0,085 0,082 0,085 0,472 0,979 Desviacin tpica Absoluta Positiva Negativa

Diferencias ms extremas

Z de Kolmogorov-Smirnov Sig. asintt. (bilateral)


a b

La distribucin de contraste es la Normal. Se han calculado a partir de los datos.

En la tabla de resultados en la primera fila se muestra el tamao de la muestra, que es 31; en la segunda y tercera filas la media y la desviacin tpica de los datos, que son los parmetros que se utilizan para la distribucin normal a la que se ajustan los datos; en las tres filas siguientes se muestran las mximas diferencias entre las frecuencias relativas acumuladas en valor absoluto, la mayor positiva y la mayor negativa; la que se usa para realizar el contraste es la mxima en valor absoluto, es decir 0,85; en la fila siguiente se muestra la Z de Kolmogorov-Smirnov y la significacin, que como es mayor que 0,05 no permite rechazar la hiptesis nula que es la de normalidad. Las teclas virtuales: Exactas y Opciones, ofrecen las mismas posibilidades que se han comentado en la prueba binomial en el apartado 22.2.1.

ESTADSTICA NO PARAMTRICA

775

Ajustes de normalidad: las pruebas de Kolmogorov-Smirnov Lilliefors y de Shapiro Wilks En la actualidad las pruebas ms aplicadas para el ajuste de los datos a una distribucin normal son la de Kolmogorov-Smirnov, con la modificacin de Lilliefors si el tamao de la muestra es mayor que 30 y la de Shapiro Wilks si el tamao de la muestra es menor o igual que 30. Lilliefors realiz una modificacin en la prueba de Kolmogorov-Smirnov para el ajuste de datos de una variable cuantitativa a una distribucin normal, mejorando su potencia estadstica. Observe que la prueba de Kolmogorov-Smirnov se desarroll para ajustar los datos a cualquier distribucin de variables continuas, tambin se utiliz para el ajuste a distribuciones de variables discretas, mientras que la modificacin de Lilliefors es vlida nicamente para el ajuste a distribuciones normales. Las hiptesis que contrastar son: H0 H1 La variable se distribuye normalmente. La variable no se distribuye normalmente.

El estadstico de contraste es el mismo que en la prueba de KolmogorovSmirnov: Mx (D Fe(x)). Cambia la tabla de puntos crticos. La F0(x) estimacin de los parmetros de la curva normal: media y desviacin tpica, se realiza a partir de los parmetros muestrales. Es la prueba ms adecuada si n 30. La prueba de Shapiro-Wilks es la ms utilizada si n 30. Su fundamento es comparar cuantil 1 a cuantil, el valor esperado bajo la hiptesis de que los datos se distribuyen segn una normal con la media y la desviacin tpica de los datos, con el cuantil observado: E xi ci, n [22.7]

Despejando en la ecuacin anterior y teniendo en cuenta que el valor esperado de una constante es ella misma: E(xi) ci,n [22.8]

La expresin anterior es la ecuacin de una recta en la que la variable dependiente es el valor esperado bajo la hiptesis de normalidad y la variable independiente el cuantil observado. El estadstico de contraste se basa en el cuadrado del coeficiente de correlacin entre la variable dependiente y la independiente de la ecuacin anterior.

Cuantil a cuantil quiere decir dato a dato.

776

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

Con SPSS se va a estudiar el ajuste a la normal mediante las dos pruebas anteriores con los datos ajustados en la prueba de Kolmogorov-Smirnov con SPSS. Las pruebas de Shapiro-Wilks y de Kolmogorov-Smirnov Lilliefors con SPSS se obtienen seleccionando en analizar estadsticos descriptivos y dentro de las opciones Explorar pulsando se obtiene la pantalla siguiente.

FIGURA 22.5

En la ventana Dependientes debe estar la variable que se quiere ajustar. Pulsando la tecla Grficos se obtiene la pantalla siguiente:

FIGURA 22.6

ESTADSTICA NO PARAMTRICA

777

Si se quiere realizar el ajuste a la normal hay que marcar Graficos con pruebas de normalidad. Se obtienen tablas de estadsticos descriptivos y un histograma. Adems, que es lo que se va a comentar en este apartado, una tabla con las pruebas que se quieren realizar y dos grficos de normalidad:
Pruebas de normalidad Kolmogorov-Smirnov a Estadstico Tensin arterial sistlica 0,085 gl 31 Sig. 0,200 * Shapiro-Wilk Estadstico 0,979 gl 31 Sig. 0,781

* Este es un lmite inferior de la significacin verdadera. a Correccin de la significacin de Lilliefors.

Como hay 31 casos, la prueba aplicable es la de Kolmogorov-Smirnov Lilliefors. La mxima diferencia observada entre las frecuencias relativas acumuladas observada y esperada bajo la hiptesis de normalidad es 0,085, que, segn la tabla de Lilliefors, corresponde a una significacin estadstica de 0,2; como es mayor que 0,05 no se rechaza la hiptesis nula, que es la de normalidad. El estadstico de Shapiro-Wilks es 0,979, que se corresponde con una significacin de 0,781, que es mayor que 0,05, consecuentemente, no se puede rechazar la hiptesis de normalidad. No siempre coinciden las dos pruebas en el rechazo o no de la hiptesis nula, se debe utilizar la que corresponda al tamao de la muestra.
Grfico Q-Q normal de tensin arterial sistlica 2

2 110 120 130 140 150 160 170 180

Valor observado

778

ESTADSTICA APLICADA A LAS CIENCIAS DE LA SALUD

En el caso de un ajuste perfecto a una distribucin normal los puntos estaran en la recta.

Grfico Q-Q normal sin tendencias de tensin arterial sistlica

0,3

0,2

Desv. de normal

0,1

0,0

0,1

0,2

0,3 110 120 130 140 150 160 170 180

Valor observado

En una normal perfecta los datos deben distribuirse por encima y debajo de la lnea cero al azar.

22.2.4. Pruebas de aleatoriedad: prueba de las rachas


Las tres pruebas analizadas anteriormente analizan la bondad del ajuste de un conjunto de datos a distribuciones tericas; tienen en cuenta si las frecuencias observadas difieren significativamente de las frecuencias esperadas en el supuesto de que la variable siga una determinada distribucin estadstica. La prueba de las rachas analiza si el orden del muestreo es compatible con la aleatoriedad, tiene en cuenta las frecuencias y el orden de los valores en el muestreo. Podra ocurrir que de 20 observaciones 10 tuvieran un valor y 10 otro, pero su orden de observacin no fuera el adecuado para considerar la aleatoriedad del muestreo. Para poder realizar esta prueba, es necesario conocer el orden de observacin de los datos. Si se ha alterado este orden por haber clasificado los datos