You are on page 1of 409

Estadística multivariante

y no paramétrica con SPSS


Aplicación a las ciencias de la salud

ERRNVPHGLFRVRUJ
Rafael Álvarez Cáceres

Estadística multivariante
y no paramétrica con SPSS
Aplicación a las ciencias de la salud

ERRNVPHGLFRVRUJ
Motivo de cubierta: Concha de Spirula
(Cortesía del Dr. Arturo Valledor de Lozoya.)

© Rafael Álvarez Cáceres, 1995

Reservados todos los derechos.

«No está permitida la reproducción total o parcial de este libro,


ni su tratamiento informático, ni la transmisión de ninguna
forma o por cualquier medio, ya sea electrónico, mecánico,
por fotocopia, por registro u otros métodos, sin el permiso
previo y por escrito de los titulares del Copyright.»

Ediciones Díaz de Santos, S.A.


Juan Bravo, 3A. 28006 Madrid
España

ISBN: 978-84-7978-180-4
Depósito legal: M. 30.116-1994

Fotocomposición: Ángel Gallardo (Madrid)


Impresión: Lavel, S.A.
Encuademación: Novimar, S.L.
PRESENTACIÓN

El contenido de este libro es fruto de más de 10 años de expe-


riencia docente en el campo de la estadística y de la metodología
de la investigación científica en ciencias de la salud Durante los
últimos años he dirigido e impartido múltiples cursos de estadística,
estadística multivariante y metodología de la investigación en nu-
merosos centros sanitarios, entre los que son destacables la Escuela
Nacional de Sanidad y la Consejería de Salud de la Comunidad de
Madrid. Dada la falta de bibliografía sobre estos temas y en parte
animado por mis alumnos, me he decidido a escribir este libro, que
pretende cubrir un hueco en la bibliografía estadística.
En los últimos 15 años, la aplicación del método científico a las
ciencias de la salud, ha aumentado considerablemente, lo cual ha
llevado aparejado, una gran difusión de las técnicas estadísticas. En
la mayoría de los trabajos son analizadas de forma simultánea varias
variables y resulta necesario para ello emplear técnicas de análisis
multivariante; también, en los últimos años hemos asistido a un
aumento de la aplicación de la estadística no paramétrica.
Este libro analiza los métodos estadísticos multivariantes y no
paramétricos más utilizados. Los temas se abordan conceptualmente,
pero también con el rigor matemático necesario para interpretar y
aplicar estos métodos cada vez más difundidos. La resolución de
los ejemplos debe realizarse mediante ordenador y como paquete
estadístico he elegido SPSS1, puesto que en nuestro país es el más
difundido entre los profesionales de las ciencias de la salud.
En muchas ocasiones no se cumplen los supuestos paramétricos

1
SPSS es marca registrada de SPSS Inc CHICAGO U.S.A.
VIII ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

de los métodos estadísticos que se pretende utilizar, lo cual impide


aplicarlos si queremos ser rigurosos. En éstos y otros casos debemos
aplicar métodos estadísticos no paramétricos, cuya utilización aumen-
ta día a día.
A los docentes que quieran utilizar como texto este libro, basán-
dome en mi larga experiencia como docente, les recomiendo dividir
su contenido en dos cursos. En el primero se han de incluir las
siguientes técnicas estadísticas:

ANÁLISIS DE LA VARIANZA
ANÁLISIS DE LA COVARIANZA
CORRELACIÓN
REGRESIÓN
REGRESIÓN LOGÍSTICA

A los alumnos deben exigírseles conocimientos de estadística


básica, con entendimiento claro de la teoría del contraste de hipótesis
y de informática a nivel de usuario, teniendo en cuenta que los
ejemplos deben resolverse mediante ordenador.
El segundo curso debería incluir las materias siguientes:

ANÁLISIS DE COMPONENTES PRINCIPALES


ANÁLISIS FACTORIAL
ANÁLISIS DE CLUSTERS
ANÁLISIS DISCRIMINANTE

Los asistentes a este curso deben conocer las técnicas estadísticas


del primer curso y poseer los conocimientos previos exigidos en el
mismo. El segundo curso debe comenzar con una introducción con-
ceptual sobre matrices y vectores.
Con objeto de mejorar futuras ediciones, ruego me ayudéis a
descubrir erratas. También agradecería sugerencias sobre los temas
aquí tratados, para lo cual podéis escribirme a la siguiente dirección:

RAFAEL ÁLVAREZ CÁCERES


C/ Nieremberg, 23, 5° B
28002 MADRID
ÍNDICE

Presentación.................................................................................... VII
Instrucciones para el manejo de este libro ................................ XVII

Capítulo 1. ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL


PROCEDIMIENTO ONEWAY ................................................... 1
Comparación simultánea de varias medias .......................... 1
Tipos de análisis de la varianza .............................................. 3
Fundamentos del análisis de la varianza ............................... 3
La varianza dentro de grupos............................................ 5
La varianza entre grupos .................................................... 6
Detección de diferencias significativas ............................ 8
Modelo matemático............................................................. 9
Suma de cuadrados............................................................. 10
Cuadrados medios ................ ............................................. 12
Hipótesis de Anova............................................................. 13
Disposición de los resultados. Tabla de Anova ............... 15
Comparaciones múltiples................................................... 16
Modelos de Anova de una vía .......................................... 17
Asunciones de Anova......................................................... 19
El subcomando Variables. El procedimiento Oneway ......... 20
El subcomando Statistics.......................................................... 22
Comparaciones múltiples. Los subcomandos Contrast y
Ranges .................................................................................. 26
X ÍNDICE

El subcomando Contrast .................................................... 26


El subcomando Ranges ...................................................... 32
Modelos polinómicos: el Subcomando Polynomial............... 36
El subcomando Options ........................................................... 37
Tratamiento de valores ausentes (Missing) .................... 37
Opciones de formato .......................................................... 38
Resultados en fichero matricial.......................................... 38
Lectura de datos matriciales.............................................. 40
Otras opciones ..................................................................... 42

Capítulo 2. ANÁLISIS MULTIFACTORIAL DE LA VARIAN-


ZA. ANÁLISIS DE LA COVARIANZA. EL PROCEDIMIENTO
ANOVA ...................................................................................... 43
Análisis multifactorial de la varianza ...................................... 43
Estructura de los datos ...................................................... 45
Modelo matemático............................................................. 45
Interacción............................................................................ 47
Suma de cuadrados............................................................. 47
Cuadrados medios .............................................................. 49
Hipótesis de Anova ............................................................ 50
Tabla de Anova dos vías ................................................... 51
Asunciones en Anova de dos vías.................................... 52
Anova con más de dos factores ........................................ 53
Análisis de la covarianza ......................................................... 53
El modelo matemático de Ancova.................................... 55
Suma de cuadrados. Cuadrados medios .......................... 55
Hipótesis y asunciones de Ancova ................................... 56
El procedimiento Anova .......................................................... 57
El subcomando variables ................................................... 57
Ancova con SPSS................................................................. 61
El subcomando Statistics .................................................... 63
El subcomando Options...................................................... 68

Capítulo 3. MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCE-


DIMIENTO CORRELACIÓN...................................................... 71
Coeficiente de correlación lineal de Pearson ....................... 71
El procedimiento Correlation .................................................. 74
ÍNDICE XI

El subcomando Statistics ......................................................... 77


El subcomando Options........................................................... 78
Capítulo 4. REGRESIÓN SIMPLE Y MÚLTIPLE; EL PROCEDI-
MIENTO REGRESSIÓN ............................................................. 81
Introducción .............................................................................. 81
Tipos de análisis de Regresión............................................... 82
Regresión lineal simple ........................................................... 83
Suma de cuadrados ............................................................ 84
Consistencia de la asociación lineal ................................. 86
Estimaciones en Regresión lineal simple......................... 88
Hipótesis en Regresión lineal simple ............................... 89
Asunciones del análisis de Regresión.............................. 90
Regresión lineal múltiple ......................................................... 91
Variabilidad cuadrática. Suma de cuadrados ................. 91
Consistencia de la Asociación lineal ................................ 93
Hipótesis en regresión lineal múltiple.............................. 94
Asunciones del análisis de Regresión.............................. 96
Interacción ........................................................................... 96
Multicolinealidad................................................................. 97
Correlación parcial ............................................................. 100
Análisis de residuos............................................................ 100
Análisis de Regresión con SPSS ............................................. 102
El subcomando Method ..................................................... 110
El subcomando Criteria...................................................... 115
El subcomando Statistics .................................................... 117
El subcomando Origin ........................................................ 123
El subcomando Select ........................................................ 123
El subcomando Missing ..................................................... 126
El subcomando Width ........................................................ 126
El subcomando Descriptives ............................................. 126
Análisis de residuos con SPSS .......................................... 129
El subcomando Residuals............................................. 132
El subcomando Casewise ............................................. 142
El subcomando Scatterplot .......................................... 146
El subcomando Partialplot............................................ 147
El subcomando Regwgt...................................................... 151
El subcomando Save .......................................................... 151
XII ÍNDICE

El subcomando Read .......................................................... 152


El subcomando Write ......................................................... 153
Capítulo 5. REGRESIÓN LOGÍSTICA .......................................... 155
Introducción............................................................................... 155
Tipos de Regresión Logística .................................................. 156
Modelo matemático................................................................... 156
Estimación y significado de los coeficientes......................... 157
Hipótesis en regresión logística simple ................................. 158
Evaluación estadística de b 1 ............................................. 159
Evaluación estadística de Wald......................................... 161
Evaluación del incremento del estadístico de —2LL0 ...... 162
Evaluación de —2LL0 ........................................................... 163
Evaluación del estadístico Z2 ............................................. 164
El modelo múltiple .................................................................... 165
Hipótesis en el modelo múltiple ............................................. 165
Evaluación del incremento del estadístico de —2LL0 ...... 166
Evaluación de —2LL0 .......................................................... 167
Evaluación del estadístico Z2 ............................................. 168
Interacción ................................................................................. 169
Coeficiente de correlación parcial.......................................... 170
Variables Dummy .................................................................... 171
Magnitud del efecto: riesgo relativo y Odds Ratio ............... 171
Riesgo relativo ..................................................................... 172
Razón de predominio (Odds Ratio) .................................. 173
Análisis del riesgo en regresión logística.............................. 175
Regresión logística con SPSS................................................... 176
El subcomando Variables .................................................. 177
El subcomando Categorical ............................................... 183
El subcomando Contrast..................................................... 185
El subcomando Method ...................................................... 187
El subcomando Criteria ...................................................... 188
El subcomando Select ........................................................ 189
El subcomando origin ......................................................... 193
El subcomando Print .......................................................... 193
El subcomando Missing ...................................................... 194
El subcomando External ..................................................... 194
El subcomando Classplot .................................................. 194
ÍNDICE XIII

Análisis de residuos ........................................................... 197


Variables temporales .................................................... 197
El subcomando Casewise............................................. 199
El subcomando Save .......................................................... 202
El subcomando Id ............................................................... 202

Capítulo 6. ANÁLISIS DE GRUPOS LOS PROCEDIMIENTOS


CLUSTER Y QUICK CLUSTER.................................................. 203
Análisis de Cluster: Clasificación............................................ 203
Proximidades. Distancias y similaridades ............................. 204
Similaridades ...................................................................... 204
Distancias ............................................................................ 205
Métodos de análisis de Cluster.............................................. 207
Métodos jerárquicos ........................................................... 207
Análisis de Clusters con SPSS .............................................. 209
El subcomando Measure .................................................. 209
El subcomando Method .................................................... 210
El subcomando Print ......................................................... 210
El subcomando Plot ............................................................ 211
El subcomando Id .............................................................. 212
El subcomando Save ......................................................... 212
El subcomando Write ......................................................... 212
El subcomando Read ......................................................... 213
El subcomando Missing ..................................................... 213
Ejemplos ................................................................................... 214
Ejemplo 2. Cluster de variables ....................................... 218
Métodos no jerárquicos .......................................................... 221
Métodos en Clusters no jerárquicos ................................ 221
Clusters no jerárquicos con SPSS ..................................... 221
El subcomando Criteria ................................................ 222
El subcomando Initial ................................................... 222
El subcomando Print ..................................................... 223
El subcomando Missing ............................................... 223
El subcomando Save .................................................... 224
El subcomando Write .................................................. 224
Ejemplo de Cluster no jerárquico .............................. 224
XIV ÍNDICE

Capítulo 7. COMPONENTES PRINCIPALES. ANÁLISIS FAC-


TORIAL; EL PROCEDIMIENTO FACTOR ............................... 231
Componentes principales y análisis factorial ....................... 231
Componentes principales ........................................................ 232
Modelo matemático ........................................................... 233
Fases de un análisis de componentes principales ......... 234
Elección de los componentes principales .................. 234
Rotación de los ejes ..................................................... 236
Rotaciones ortogonales .......................................... 237
Rotaciones oblicuas ................................................ 238
Representación gráfica ........................................... 238
Puntuaciones factoriales ......................................... 238
Análisis factorial ........................................................................ 239
Modelo matemático del análisis factorial ........................ 240
Fases en un modelo factorial............................................. 241
Examen de la matriz de correlaciones ...................... 241
Prueba de Barlett...................................................... 242
Índice KMO ............................................................. 243
Correlación Antiimagen .......................................... 244
Medida de adecuación de la muestra ................... 244
Correlación múltiple ............................................... 245
Extracción de los factores comunes............................ 245
Rotación de factores ...................................................... 247
Puntuaciones factoriales ............................................... 247
Bondad del ajuste. Residuos .............................................. 248
Análisis factorial con SPSS ...................................................... 249
El subcomando Extraction ................................................ 250
El subcomando Criteria ..................................................... 250
El subcomando Rotation ..................................................... 251
El subcomando Print .......................................................... 251
El subcomando Plot ........................................................... 252
El subcomando Save .......................................................... 253
El subcomando Diagonal ................................................... 253
El subcomando Write ........................................................ 253
El subcomando Read ......................................................... 254
Ejemplos .............................................................................. 254
ÍNDICE XV

Ejemplo sobre componentes principales .................. 254


Ejemplo sobre análisis factorial exploratorio ............. 259
Ejemplo sobre análisis factorial confirmativo ............ 263

Capítulo 8. ANÁLISIS DISCRIMINANTE..................................... 267


Introducción............................................................................... 267
Métodos de análisis discriminante ......................................... 268
Función discriminante. Puntuaciones discriminantes ........... 269
Fundamentos matemáticos ..................................................... 270
Análisis discriminante con SPSS. El comando Dscriminant .. 272
Los subcomandos Groups y Variables ............................. 272
El subcomando Analysis .................................................... 277
El subcomando Method ...................................................... 278
El subcomando Maxsteps................................................... 286
Subcomandos de Criterio................................................... 286
El subcomando Functions................................................... 288
El subcomando Select......................................................... 288
El subcomando Options ..................................................... 289
El subcomando Statistics ................................................... 291
El subcomando Priors ......................................................... 302
El subcomando Save........................................................... 302

Capítulo 9. ESTADÍSTICA NO PARAMÉTRICA; EL PROCEDI-


MIENTO NPAR ......................................................................... 305
Estadística paramétrica y no paramétrica ............................. 305
El procedimiento Npar ............................................................ 306
El subcomando Option ....................................................... 307
El subcomando Statistics .................................................... 308
Pruebas para una sola muestra ............................................... 309
Prueba binomial. El subcomando binomial ...................... 309
Prueba Chi Cuadrado. El subcomando Chi-Square ........ 314
Prueba de Kolmogorov Smirnov. El subcomando K-S ..... 316
Prueba de las Rachas ......................................................... 322
Pruebas para dos variables relacionadas .............................. 327
Prueba de McNemar........................................................... 328
Prueba de los signos para dos variables relacionadas ... 334
Prueba de Wilcoxon para dos variables relacionadas .... 337
XVI ÍNDICE

Pruebas para K variables relacionadas .................................. 342


Prueba de Friedman ......................................................... 343
Coeficiente de concordancia de Kendall ......................... 346
La prueba de la Q de Cochran ......................................... 354
Pruebas para dos muestras independientes ................................. 358
Prueba de la mediana ............................................................ 359
La prueba de Mann-Whitney................................................. 361
La prueba de Kolmogorov-Smimov para dos variables
independientes ................................................................. 366
Prueba de las Rachas para dos variables .............................. 368
La prueba de los valores extremos de Moses ....................... 372
Pruebas no paramétricas para K variables .................................. 375
La prueba de Kruskal-Wallis ................................................ 376
La prueba de la mediana para K variables ............................ 380

Apéndice. DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO .... 383


Al Ejemplo Coromar .................................................................. 383
A2 Ejemplo vascular .................................................................. 386
A3 Ejemplo peces ...................................................................... 389

Bibliografía recomendada ................................................................ 391


INSTRUCCIONES PARA
EL MANEJO DE ESTE LIBRO

Este libro va dirigido a personas con conocimientos estadísticos


y de SPSS a nivel básico2, puede ser utilizado, como de aprendizaje
o como de consulta, es recomendable para resolver los ejemplos
disponer de un ordenador que tenga instalado el paquete SPSS,
aunque ello no es imprescindible. Recomendamos al lector estudiar
con detenimiento los fundamentos y aplicaciones de las técnicas
estadísticas descritas y después trabajar los ejemplos.
Este libro incluye la realización de múltiples ejemplos, la mayoría
basados en el fichero de datos CORONAR, puesto que este es el
fichero básico del curso en el disquete adjunto se incluyen el fichero
de sistema CORONAR.SYS el fichero de datos CORONAR.DAT y el
fichero de instrucciones CORONAR.SPS, también se incluyen los
ficheros VASCULAR.SYS y PECES.SYS. Recomendamos, al lector crear
un subdirectorio llamado DATOS, del directorio donde estén los
programas de SPSS, las órdenes de los ejemplos suponen que los
ficheros de trabajo están en dicho subdirectorio, si están instalados
en otro el lector deberá tenerlo en cuenta.
Los listados de instrucciones comienzan con el PROMPT de SPSS:
SPSS/PC: EL CUAL NO DEBE SER TECLEADO POR EL LECTOR, al
resaltarlo en negritas queremos indicar que esto es lo que usted
debe ver en la pantalla de su ordenador, si introduce las órdenes
desde el prompt, tampoco debe teclear los dos puntos resaltados en
negrita, que indican una orden que continúa desde la orden anterior.

2
El libro Estadística básica y procesamiento de datos con SPSS aplicado a las
ciencias de la salud. C.S.C.M., Madrid, 1994, cuyo autor es Rafael Álvarez Cáceres, va
dirigido a personas sin conocimientos previos de estadística ni de SPSS.
XVIII ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Supongamos que va a desarrollar una sesión de trabajo con


SPSS y quiere teclear las siguientes instrucciones:

SPSS/PC: GET FILE 'DATOS/CORONAR.SYS'.


SPSS/PC: ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3.
SPSS/PC: FINISH.

Si trabaja desde el prompt, no debe de teclear lo resaltado en


negrita.
Si usted desea trabajar desde el editor de textos incluido en
SPSS REVIEW, las instrucciones anteriores debe teclearlas en review
de la manera siguiente:

GET FILE 'DATOS/CORONAR.SYS'.


ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3.
FINISH.
Capítulo 1
ANÁLISIS DE LA VARIANZA DE
UNA VÍA. EL PROCEDIMIENTO
ONEWAY

En este capítulo vamos a estudiar el análisis de la varianza, que


es una técnica estadística que nos permite, entre otras cosas, com-
parar dos o más medias de forma simultánea.
Los métodos de comparación de dos medias, que SPSS ejecuta
mediante el procedimiento TTEST, sólo eran válidos para comparar
de forma simultánea dos medias. El análisis de la varianza plantea
el problema como un modelo matemático, en el cual la variable
dependiente es la variable cuantitativa, y la variable independiente
la variable cualitativa, también llamada factor. En el modelo de una
vía sólo hay una variable independiente; si hubiese dos en el modelo,
se aplicaría el análisis de la varianza de dos vías, etc.
Una posibilidad muy interesante que nos proporciona el proce-
dimiento ONEWAY es el cálculo de intervalos de confianza para la
media.

COMPARACIÓN SIMULTÁNEA DE VARIAS MEDIAS

Supongamos que en un estudio queremos comparar de forma


simultánea varias medias. Por ejemplo, en un estudio queremos
conocer el comportamiento de la tensión arterial sistólica (TAS) en
las distintas clases sociales. Para ello deberíamos hacer una compa-
ración simultánea de TAS entre las clases sociales alta, media y
baja y podríamos pensar (de forma equivocada) en realizar las
siguientes comparaciones de medias dos a dos mediante TTEST:
2 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Podríamos plantear, en este caso, tres contrastes de dos medias,


TAS en clase alta (TAS-A) con TAS en clase media (TAS-M), etc.
Cada contraste lo hemos planteado con una probabilidad de cometer
error tipo I (α) de 0.05; ésta es la probabilidad de error que admitimos
en caso de rechazar la hipótesis nula. Pero esa probabilidad, que es
la de encontrar diferencias significativas simplemente por azar, actúa
en cada comparación y por lo tanto, al realizar los tres contrastes
admitiendo en cada uno de ellos un error del 5%, la probabilidad
de que un contraste sea significativo simplemente por azar es mucho
mayor que 0.05. Un símil que puede ayudar a comprender esto es
el siguiente: si tiramos un dado perfecto, una sola vez, la probabilidad
de sacar un número par es 0.5 (50%), pero si tiramos el dado tres
veces seguidas, la probabilidad de que al menos en una tirada
salga un número par es mayor que 0.5. En un contraste de hipótesis
ocurre una cosa parecida; si fijamos un nivel de significación α =
0.05, ésta es la probabilidad que aceptamos de estar equivocados
en caso de rechazar la hipótesis nula, que sería cuando encontrá-
ramos diferencias significativas. Pero esta es la probabilidad para
un solo contraste; ocurre como con el dado, la probabilidad de que
sacar par es 0.5, lo que resulta válido para una sola tirada, pero si
realizamos varios contrastes la probabilidad de considerar diferen-
cias significativas por azar es mayor. Algunos autores, como Bonfe-
rroni, proponen dividir el nivel de significación global para la prueba
por el número de comparaciones que realizan. En el ejemplo que
estamos analizando, si queremos trabajar con α = 0.05 y dado que
hay tres comparaciones, dividiríamos 0.05 entre 3, cuyo resultado
es 0.0167. Según esto deberíamos calcular los puntos críticos de la t
de Student como si realizáramos un contraste con α = 0.0167, pero
consideraríamos el contraste global α = 0.05. Esta técnica tiene el
inconveniente de que es muy conservadora; ello quiere decir que
para rechazar la hipótesis nula tiene que haber diferencias grandes,
y aunque controlamos la probabilidad de cometer error tipo I (α),
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 3

aumentamos la probabilidad de cometer error tipo II (β), que sería


la probabilidad de no considerar las diferencias como significativas,
cuando realmente lo son. El análisis de la varianza tiene en cuenta
estos inconvenientes y nos permite realizar una comparación si-
multánea de varias medias, de forma bastante eficiente y teniendo
en cuenta los problemas analizados en este apartado.

TIPOS DE ANÁLISIS DE LA VARIANZA


Hemos dicho en la introducción al capítulo que el análisis de la
varianza plantea los problemas anteriores según un modelo mate-
mático, en el que la variable dependiente sería la variable cuantita-
tiva, y la independiente la variable cualitativa. Algunos autores llaman
factor a la variable independiente y niveles del factor a las categorías
(en el caso de la clase social, sería un factor con tres niveles).
Siguiendo con el ejemplo de TAS (variable cuantitativa) y clase
social (variable cualitativa), al comparar medias lo que estamos
analizando es si la TAS depende de la categoría de la variable; si la
TAS varía significativamente de una clase social a otra, es que el
valor de la TAS depende, en parte, de la categoría de la variable a
que pertenezca el individuo. En este caso, tenemos una variable
independiente y una sola dependiente, y éste es el modelo básico
del análisis de la varianza de una vía, también denominado de un
factor, que es la variable independiente. Podríamos plantear un
estudio en el que la variable dependiente fuera la TAS y hubiese
dos variables independientes, la clase social y el sexo. En este
caso, tendríamos un análisis de la varianza de dos factores, con dos
variables independientes cualitativas (factores). Si tuviéramos una
variable dependiente (cuantitativa) y tres independientes cualitativas
(tres factores), podríamos plantear un modelo de análisis de la va-
rianza de tres factores (tres variables independientes), etc.
En este capítulo sólo estudiaremos el análisis de la varianza de
una vía.

FUNDAMENTOS DEL ANÁLISIS DE LA VARIANZA


Supongamos que en una población extraemos K muestras re-
presentativas (homogéneas y aleatorias) de n elementos cada una.
4 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Las muestras pueden tener tamaños diferentes pero, con objeto de


facilitar la comprensión de los conceptos, vamos a plantear inicial-
mente el problema considerando las K muestras iguales. En ca-
da elemento de la muestra anotamos el valor de una variable cuan-
titativa X. Tendremos por lo tanto K grupos con n elementos cada
uno, con valores de X, que podemos disponer de la siguiente ma-
nera:

En la tabla anterior, el primer subíndice indica el grupo (nivel


del factor) y el segundo el orden del elemento en el muestreo,
dentro del grupo indicado por el primer subíndice. La notación
empleada es la más comente; obsérvese que es distinta a la notación
matricial, en la que el primer subíndice indica la fila y el segundo la
columna. El elemento X2n es el valor de la variable dependiente
(cuantitativa) del enésimo elemento del segundo grupo (segundo
nivel). X j indica la media muestral del jésimo grupo, Sj2 indica la
varianza muestral del jésimo grupo y a la varianza de cada grupo la
llamaremos varianza dentro de grupos, porque mide la variabilidad
dentro de cada grupo. La media de todos los datos X viene dada
por la siguiente expresión:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 5

El número total de datos es N = k n.


Los K grupos anteriores son muestras representativas de la misma
población. Por lo tanto, las K medias muéstrales serán estimadores
de la media poblacional µ, y las diferencias entre ellas serán única-
mente debidas al azar. Las K varianzas muéstrales (varianzas dentro
de grupos) serán estimadores de la varianza poblacional σ2 y las
diferencias entre ellas serán únicamente debidas al azar.

La varianza dentro de grupos


La varianza dentro de grupos mide la variabilidad dentro de
cada grupo y cada una de las k varianzas intragrupo es un estimador
de la varianza poblacional σ2. La varianza intragrupos viene dada
por la siguiente expresión:

Si cada varianza intragrupo es un estimador de la varianza po-


blacional, también lo será la media ponderada de las k varianzas
intragrupo. La ponderación se realiza según el tamaño de cada
muestra, como hemos partido del supuesto de que las K muestras
tienen el mismo tamaño, la ponderación es la misma para cada
muestra y el resultado es la media aritmética de las K varianzas
intragrupos, según la siguiente expresión:
6 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Sustituyendo en (1-3) Sj2 por su valor según la expresión (1.2)


queda la siguiente expresión:

La expresión (1-4) es la media de las varianzas intragrupos, y es


un estimador de la varianza poblacional. A 5d2 la denominaremos
varianza dentro de grupos.

La varianza entre grupos


Otra estimación de la varianza poblacional podemos realizarla a
partir del error estándar de la media (E.E.M.) recuérdese que el
error estándar de la media es la desviación típica de la distribución
de medias muéstrales. Una estimación del error estándar de la media
viene dado por:

El E.E.M. también viene dado por:


ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 7

Elevando la expresión anterior al cuadrado:

Sustituyendo en (1-7) el valor del E.E.M. dado por (1-5), sustitu-


yendo la varianza poblacional por su estimador S2 y despejando,
tendremos otro estimador de la varianza poblacional, según la si-
guiente expresión:

En la expresión anterior hemos sustituido la varianza poblacional


por un estimador, al ser todos los términos de la expresión (1-8)
parámetros muéstrales, al que llamaremos varianza entre grupos.
La varianza entre grupos es un estimador de la varianza poblacional,
bajo el supuesto de que las K medias muéstrales son estimadores
de la misma media poblacional µ. Téngase en cuenta que, al ser las
K muestras representativas de la misma población, no debe haber
diferencias, más allá de las aleatorias, entre la varianza dentro de
grupos y la varianza entre grupos; por tanto, si las comparamos
según la prueba de la F de Snedecor, no debe haber diferencias
significativas entre ellas salvo por efecto del azar, ya que las dos
son estimadores del mismo parámetro, la varianza poblacional σ2. El
lector debe intentar comprender bien estos conceptos, porque el
análisis de la varianza se basa en ellos.
Supongamos ahora que en una población tomamos K muestras
representativas para estudiar una determinada variable cuantitativa,
pero cada muestra difiere de las otras en que corresponde a una
categoría distinta de una variable cualitativa que tiene K categorías
distintas. Supongamos que en una población tomamos 3 muestras
8 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

representativas para estudiar la TAS, pero cada una de una clase


social distinta; en este caso, la variable cualitativa es la clase social
y tiene 3 categorías. Si las medias muéstrales tienen valores signifi-
cativamente distintos, debido a pertenecer a distintas categorías de
la variable (distintos grupos), la varianza dentro de grupos no se
modificará significativamente y seguirá siendo un estimador de la
varianza poblacional global (que incluye todas las categorías de la
variable; en el ejemplo de la TAS y la clase social nos estaríamos
refiriendo a la varianza de la TAS de toda la población). Pero la
varianza dentro de grupos, que era un estimador de la varianza
poblacional, bajo el supuesto de que entre las medias muéstrales
no había diferencias significativas, se verá incrementada en un factor
proporcional al efecto debido a pertenecer a distintos grupos.

Detección de diferencias significativas


El análisis de la varianza se basa en que, si existen diferencias
significativas entre las medias de cada grupo, la varianza entre
grupos se verá incrementada y por lo tanto será significativamente
distinta y mayor que la varianza dentro de grupos; esta diferencia
será detectada por la prueba de la F de Snedecor.
La varianza entre grupos no puede ser menor que la varianza
dentro de grupos (salvo una pequeña probabilidad, debida al azar);
por lo tanto, el contraste de hipótesis lo plantearemos de una sola
cola, puesto que únicamente contrastaremos la posibilidad de que
la varianza entre grupos sea mayor que la varianza dentro de grupos,
ya que no tendría sentido contrastar que sea menor.
Si la prueba de la F de Snedecor detecta diferencias significativas
entre la varianza dentro de grupos y la varianza entre grupos, ello
indica que al menos una de las medias es significativamente distinta
de las demás (puede ser una o más de una). De ahí el nombre de
análisis de la varianza, pues detecta diferencias entre medias anali-
zando diferencias entre varianzas.
Al análisis de la varianza se le conoce casi umversalmente por
las siglas ANOVA, que corresponden a su nombre en inglés (ANA-
LISYS OF VARIANCE); por lo tanto en el resto del capítulo nos
referiremos en ocasiones al análisis de la varianza como ANOVA.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 9

Modelo matemático
El modelo matemático de ANOVA se basa en descomponer la
diferencia observada entre un elemento y la media global en dos
partes: entre grupos, debida al efecto de grupo (si es que lo hay),
esta fracción de la variabilidad es la explicada por la variable inde-
pendiente, y dentro de grupos debida a todas las demás causas,
que pueden ser efectos de otras variables no controladas por el
modelo. Esto se puede expresar matemáticamente de la siguiente
manera:

Xji es el valor de la variable cuantitativa en el iésimo elemento


del jésimo grupo, y la diferencia de dicho valor respecto a la media
poblacional global será debida al efecto del grupo (µj — µ), más a
las diferencias no controladas por el modelo, efecto de otras varia-
bles, (Xji — µj).
Siguiendo con el ejemplo de la TAS y la clase social, si el perte-
necer a una determinada clase social tiene incidencia sobre la TAS
(por supuesto nos referimos a efectos medios), la TAS media será
significativamente distinta en los grupos seleccionados para el es-
tudio, y la TAS de un individuo cualquiera (iésimo) de una clase
social cualquiera (jésima), tendrá una diferencia con la TAS pobla-
cional media µ (la TAS media poblacional sería la de todos los
individuos de la población muestreada, sin distinguir clases sociales),
a causa de dos factores: uno es la diferencia con respecto a µ
debida a pertenecer a una determinada clase social (µj — µ), y otra
debida al resto de variables del individuo que no están controladas
por el modelo. El que una clase social determinada tenga una TAS
media mayor que otra, no implica que muchos individuos de la
clase social donde la media es más alta no tengan TAS normales o
bajas.
10 ESTADÍSTICA MULTIVARIANTE V NO PARAMÉTRICA CON SPSS

Suma de cuadrados
A partir del modelo anterior podemos estudiar la variabilidad
cuadrática. Vamos a distinguir tres tipos de variabilidad cuadrática
del valor de la variable en la muestra, respecto de la media pobla-
cional. A estos parámetros que miden la variabilidad cuadrática les
vamos a llamar suma de cuadrados, SUM SQUARE (SS), según la
terminología anglosajona.

La variabilidad cuadrática total es la debida a todas las causas.


La descomponemos en dos partes: la variabilidad cuadrática entre
grupos SSentre, que es la parte de la variabilidad cuadrática que
explica la variable independiente, como consecuencia de que los
valores pertenezcan a distintos grupos (ENTRE GRUPOS), y la va-
riabilidad cuadrática consecuencia de las diferencias observadas
dentro de cada grupo (SSdentro), debidas al resto de las causas. Las
variabilidades cuadráticas se calculan según las siguientes expre-
siones matemáticas:

La expresión anterior es la suma de las desviaciones cuadráticas


de cada valor de la variable, respecto a la media global, que es la
media de todos los datos implicados en el análisis. Es un estimador
de la suma de las desviaciones cuadráticas, respecto a la media
poblacional µ, por todas las causas.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 11

La expresión anterior es la suma de las desviaciones cuadráticas


de la media de cada grupo, respecto a la media global de todos los
datos. Es un estimador de la suma de las desviaciones cuadráticas
de la media de cada grupo, respecto a la media poblacional µ.
Representa la variabilidad cuadrática entre grupos.

La expresión anterior es la suma de las desviaciones cuadráti-


cas de cada elemento respecto a la media de su grupo. Es un es-
timador de la suma de las desviaciones cuadráticas de cada valor
de la variable, respecto de la media poblacional de su correspon-
diente grupo µi. Representa la variabilidad cuadrática dentro de
grupos.
La suma de cuadrados total la hemos descompuesto en la suma
de cuadrados entre y dentro de grupos, y la suma algebraica de
los componentes es igual a la total:

Las expresiones anteriores no tienen denominador; por lo tanto,


cuanto más grande sea la muestra, más sumandos habrá y más
grandes serán sus valores. Para que sean parámetros comparables,
necesitamos el valor de la suma de cuadrados medios.
12 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Cuadrados medios
La suma de cuadrados representa la suma de las variabilidades
cuadráticas, pero para poder ser utilizados en comparaciones, ne-
cesitamos tener parámetros que estimen la variabilidad cuadrática
media. Para conseguir esto, dividiremos las sumas de cuadrados
entre sus correspondientes grados de libertad. Los grados de libertad
totales son N — 1, y estos grados de libertad son iguales a la suma
de los grados de libertad ENTRE GRUPOS más los grados de libertad
DENTRO de GRUPOS. A las desviaciones cuadráticas medias les
llamaremos cuadrados medios, MEANS SQUARES (el uso de las
siglas anglosajonas es obligado, porque las salidas de la mayoría
de los paquetes estadísticos se refieren a los parámetros estadísticos
según esta terminología y sus correspondientes siglas); en abrevia-
tura, los cuadrados medios se denominan a menudo por sus siglas
en inglés MS. En el análisis de la varianza solamente vamos a utilizar
los cuadrados medios entre grupos y dentro de grupos.
El cuadrado medio entre grupos, MSENTRE, es igual a la suma de
cuadrados entre grupos, dividida por K — 1, que son los grados de
libertad, ya que el número de elementos que han intervenido es k,
que es el número de grupos. Puesto que la suma de cuadrados
entre grupos es la suma de las diferencias cuadráticas de la media
de cada grupo respecto a la media global, hay k medias, y los
grados de libertad son iguales a K — 1. MSENTRE viene dado por la
siguiente expresión:

MSENTRE es un estimador de la varianza entre grupos. La varianza


entre grupos es un estimador de la varianza poblacional σ2, si no
hay diferencias significativas entre las medias de cada grupo, si
hay diferencias significativas entre las medias de los grupos, esta
varianza es igual a la varianza poblacional más un sumando propor-
cional al efecto grupos.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 13

El cuadrado medio dentro de grupos, MSDENTRO, es igual a la suma


de cuadrados dentro de grupos dividida por N — K, que son los gra-
dos de libertad correspondientes. Los grados de libertad totales son
N — 1. Dada la aditividad de los grados de libertad, los grados de li-
bertad entre grupos, más los grados de libertad dentro de grupos, de-
ben ser igual a los grados de libertad totales N — 1, por lo tanto:

El cuadrado medio dentro de grupos viene dado por la siguiente


expresión:

MSDENTR0 es un estimador de la varianza poblacional de la varia-


ble σ2, haya o no haya diferencias significativas entre los valores
por el hecho de pertenecer a distintos grupos.

Hipótesis de Anova
Al realizar un análisis de la varianza de una vía, contrastamos las
siguientes hipótesis:

La hipótesis nula postula que las medias de todos los grupos en


la población son iguales. La hipótesis alternativa postula que al
14 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

menos hay una media µr distinta de otra µs. Si hay una sola media
que es significativamente distinta de otra, rechazaremos la hipótesis
nula; por supuesto si las diferencias entre medias son muchas, con
mayor motivo se rechazará la hipótesis nula.
MSENTRE y MSDENTRO son estimadores de la varianza poblacional,
si no hay diferencias significativas entre las medias. Si las hay
MSDENTRO sigue siendo un estimador de la varianza poblacional,
pero MSENTRE detecta esta diferencia significativa entre las medias;
será por tanto significativamente mayor que MSDENTRO y, al someter
al cociente MSENTRE/MSDENTRO a la prueba de la F de Snedecor,
quedará claro que existen diferencias significativas entre los dos
cuadrados medios.
El contraste de hipótesis que plantear en este caso es de una
sola cola, puesto que sólo existe la posibilidad de que el cuadrado
medio entre grupos sea mayor o igual que el cuadrado medio
dentro de grupos (salvo una pequeña posibilidad debida al azar);
por lo tanto, sólo contrastaremos la posibilidad de que el cuadrado
medio entre grupos sea mayor que el cuadrado medio dentro de
grupos, y plantearemos el contraste de la siguiente manera:

El que en la hipótesis nula figure el signo menor igual no quiere


decir que contrastemos la posibilidad de que sea menor; recuérdese
que las hipótesis nulas no se demuestran, sino que se rechazan o
no. Sin embargo el no poder rechazarla en este caso significaría
que no hemos podido demostrar que MSENTRE sea mayor que
MSDENTRO.
El análisis de la varianza resuelve el problema de la comparación
de medias; compara dos varianzas, de ahí su nombre. Si la diferencia
entre las dos varianzas (cuadrados medios) es significativa, indica
que existen diferencias significativas entre las medias, por lo que
se rechazará la hipótesis nula.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 15

Disposición de los resultados. Tabla de Anova


Los resultados de un análisis de la varianza se disponen en una
tabla especial, en la que se muestran los parámetros fundamentales
en ANOVA. Estas tablas, según los distintos autores, pueden variar
en algunos elementos, aunque no en los esenciales. La tabla utilizada
por SPSS es la siguiente:

La tabla anterior, que vamos a analizar es la que utiliza SPSS en


el análisis de la varianza de una vía.
En primer lugar, nos indica el nombre de la variable dependiente
y su etiqueta, si la tiene. Debajo nos indica el nombre de la variable
independiente y su etiqueta, si la tiene.
El cuerpo de la tabla tiene 6 columnas con los siguientes ele-
mentos:

SOURCE. En esta columna se indica cuál es la fuente de varia-


ción de los parámetros que se muestran. BETWEEN GROUPS significa
entre grupos; los parámetros de esta fila son los correspondientes a
las variaciones entre los grupos. WITHIN GROUPS significa dentro
de grupos; los parámetros de esta fila son los correspondientes a la
variación dentro de grupos. TOTAL: en esta fila, los parámetros son
los correspondientes a las variaciones por todas las causas.
D.F. Son los grados de libertad, en esta columna figurarán los
grados de libertad de cada fuente de variación. Observe que la
16 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

suma de los grados de libertad entre más dentro son igual a los
totales.
SUM OF SQUARES. En esta columna se mostrará el valor de las
sumas cuadráticas correspondientes a cada variación.
MEANS SQUARES. En esta columna se mostrarán los cuadrados
medios correspondientes a cada fuente de variación.
F. RATIO. En esta columna se muestra el valor del cociente
entre los cuadrados medios entre y dentro de grupos. Este cociente
es la F de Snedecor experimental. Recuérdese que este cociente
se distribuye según una F de Snedecor si no hay diferencias signi-
ficativas entre las medias.
F. PROB. En esta columna se indica cuál es la probabilidad de
encontrar una F como la observada si no hubiera diferencias sig-
nificativas. Si esta probabilidad es menor del nivel de significa-
ción (α), establecido para resolver el contraste, concluiremos que
la probabilidad es demasiado pequeña para considerarla debida al
azar y que el cuadrado medio entre grupos es mayor que el cua-
drado medio dentro de grupos debido a que entre las medias
existen diferencias significativas. Si el nivel de significación lo hemos
fijado en 0.05, que es lo habitual, aceptaremos que existen diferencias
significativas entre las medias cuando F.PROB sea menor que 0.05.
Si el análisis de la varianza no es significativo, no podemos
rechazar la hipótesis nula y, por lo tanto, no tenemos evidencia de
que existan diferencias entre las medias, con lo cual habremos
concluido el estudio.
El análisis de la varianza únicamente nos informa de si existen o
no diferencias significativas entre las medias, pero no nos dice
cuáles son. Si el análisis de la varianza es significativo, debemos
proceder a la realización de pruebas de comparación múltiple, a fin
de dilucidar entre qué medias existen diferencias significativas.

Comparaciones múltiples
Estas pruebas sólo tiene sentido realizarlas si el análisis de la
varianza ha sido significativo. El análisis de la varianza lo único que
nos dice es si existen diferencias significativas entre las medias,
pero no nos dice entre cuáles. Para dilucidar esta cuestión debemos
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 17

proceder a realizar alguna de las muchas pruebas de comparación


múltiple existentes SPSS nos permite realizar hasta 7 de estas prue-
bas, además de las comparaciones a priori. Un planteamiento co-
rrecto es realizar una sola prueba de comparación múltiple; es ma-
nifiestamente incorrecto realizar varias y escoger los resultados
que más nos interesen.
En este libro no vamos a entrar en detalles matemáticos respecto
a estas pruebas, puesto que es un tema complejo e incluso entre
los especialistas existen discrepancias en este punto. Remitimos al
lector a la literatura especializada.
Las pruebas de comparación múltiple pueden ser de dos tipos.

A PRIORI
A POSTERIORI.

Las pruebas a priori se plantean antes (a priori) de ver los resul-


tados y deben cumplir una serie de requisitos; uno de éstos es que
los grados de libertad de las comparaciones planteadas no pueden
superar los grados de libertad ENTRE GRUPOS, es decir K — I.
Insistimos en que estas pruebas deben planificarse sin ver los re-
sultados y efectuarse una sola vez siguiendo la planificación prevista.
Si no se cumplen estas normas, podemos cometer importantes erro-
res estadísticos.
Las pruebas a posteriori permiten realizar todas las comparacio-
nes posibles entre las medias. Pero debe elegirse una sola prueba
y asumir los resultados obtenidos.

Modelos de análisis de la varianza de una vía

En el análisis de la varianza de una vía debemos distinguir


dos tipos fundamentales:
18 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En el modelo de efectos fijos, el investigador fija los niveles del


factor (categorías de la variable cualitativa), que quiere comparar.
Supongamos que queremos comparar el número de días de hospi-
talización de los pacientes sometidos a una determinada intervención
quirúrgica, en tres hospitales determinados, A, B, C. En este caso
queremos realizar esta comparación entre los hospitales A, B, C. La
variable dependiente, en este caso es el número de días de hospi-
talización y la variable independiente (FACTOR) el tipo de hospital;
en este caso, el factor tiene tres niveles A, B, C. Es un modelo de
ANOVA de una vía (una sola variable independiente), de efectos
fijos, porque los niveles del factor son fijados por el investigador.
En el modelo de efectos aleatorios no se evalúan todos los niveles
del factor, sino solamente algunos escogidos al azar entre todos los
posibles. Supongamos que en un país pensamos que existen dife-
rencias significativas entre el número de días de hospitalización
tras una determinada enfermedad según el hospital donde se realice
la intervención. Si el número de hospitales es muy grande, en una
primera aproximación podemos realizar un estudio escogiendo un
grupo pequeño de hospitales, al azar.
Hemos planteado el mismo experimento de dos maneras distintas;
en un caso, con efectos fijos, porque nosotros queremos estudiar
las diferencias entre tres hospitales concretos (no importa que el
número de hospitales hubiera sido mayor); en el segundo caso,
nuestro interés no es comparar un grupo de hospitales determinado,
sino averiguar si el factor hospital influye en la duración de la
hospitalización, pero sin importarnos en principio una comparación
entre hospitales concretos. Si encontramos diferencias significativas,
deberíamos planteamos un estudio más completo del problema.
El tipo de modelo no influye en los planteamientos. En el modelo
aleatorio, si el análisis de la varianza es significativo, no tiene sentido
en principio realizar pruebas de comparación múltiple, ya que si
hemos planteado un modelo aleatorio es para ver si el factor cuyos
niveles han sido muestreados influye en la variable dependiente. Si
ANOVA es significativo, la conclusión es que los niveles del factor
influyen en la variable dependiente, y lo habitual será plantearse
otro experimento más completo. Una comparación entre grupos
elegidos al azar puede realizarse, pero quizá no tenga sentido. En
el modelo de efectos fijos los niveles han sido fijados por el investí-
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 19

gador, debido a que tiene un interés especial en estudiar las posibles


diferencias existentes entre esos niveles.

Asunciones del análisis de la varianza


El análisis de la varianza es una prueba paramétrica y, para que
pueda ser aplicada, deben cumplirse unas condiciones que básica-
mente son las tres siguientes:

REPRESENTATIVIDAD. Las K muestras, que forman los K grupos,


que van a intervenir en el análisis, deben ser estadísticamente re-
presentativas de la población de referencia.
NORMALIDAD. La media muestral de cada grupo, correspon-
diente a la variable dependiente debe distribuirse normalmente.
Esto ocurre siempre si n, el tamaño de la muestra de cada grupo, es
mayor que 30 y también si la variable se distribuye normalmente
en la población de referencia, aunque n sea menor que 30. Única-
mente no podremos garantizar que la media muestral se distribuya
normalmente cuando las muestras sean menores que 30 y la variable
dependiente no se distribuya normalmente en algún nivel del factor.
Si el número de elementos de algún grupo es menor que 30, antes
de proceder al análisis de la varianza debemos realizar alguna
prueba de normalidad, en este caso la más indicada es la de Shapiro-
Wilks (ver procedimiento EXAMINE).
HOMOCEDASTICIDAD. Esta complicada palabra es lo mismo
que decir que las varianzas de todos los grupos son homogéneas o
que no se detectan diferencias significativas entre las varianzas de
los grupos. Recuérdese que la prueba de la F de Snedecor es útil
para la comparación de dos varianzas, pero no para comparar varias
varianzas simultáneamente. SPSS, en el procedimiento ONEWAY,
permite realizar las pruebas de la F de Barltlett-Box la C de Cochran
y la F máxima de Hartley; todas ellas nos indicarán si las varianzas
de todos los grupos son homogéneas o no.

Si no se cumple la primera de las asunciones, la representatividad,


no podemos realizar el análisis de la varianza ni ninguna otra prueba
paramétrica o no paramétrica, ya que la primera condición que
20 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

debe cumplirse para sacar conclusiones sobre una población es


que la muestra sea representativa.
Si no se cumplen la segunda y/o la tercera asunción, podemos
realizar una transformación de datos (mediante el procedimiento
EXAMINE) y, si con la transformación de datos no solucionamos el
problema, podemos aplicar la prueba de Kruskall-Wallis; que es
una prueba no paramétrica para comparar K medias que sólo exige
el cumplimiento de la primera de las condiciones.

EL PROCEDIMIENTO ONEWAY.
EL SUBCOMANDO VARIABLES
El paquete estadístico SPSS permite realizar análisis de la varianza
de una vía con dos procedimientos distintos, ONEWAY y ANOVA.
En este capítulo sólo vamos a estudiar ONEWAY. El procedimiento
ANOVA permite realizar análisis de la varianza de una y de varías
vías, así como el análisis de la covarianza, pero en cuanto al análisis
de la varianza de una vía ONEWAY tiene más posibilidades que
ANOVA. ONEWAY, sin embargo sólo puede realizar análisis de la
varianza de una vía.
El subcomando VARIABLES, que puede ser omitido, asociado a
ONEWAY, indica qué variables van a ser analizadas. En primer
lugar debe ir la variable dependiente, antes de la palabra clave BY,
y tras BY la variable independiente. ONEWAY sólo realiza análisis
de la varianza de una vía; si antes de la palabra clave BY incluimos
más de una variable independiente, (pueden incluirse hasta 100),
realizará un análisis de la varianza de una vía para cada variable
independiente. Supongamos que en un listado de órdenes incluimos
la siguiente:

En la instrucción anterior hay una variable independiente, VAR4


y tres variables dependientes VAR1 VAR2 y VAR3, en este caso
SPSS realizara 3 análisis de la varianza, siendo en todos ellos la
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 21

variable independiente VAR4, los análisis a realizar son: VARI con


VAR4, VAR2 con VAR4 y VAR3 con VAR4.
A continuación vamos a ver un ejemplo práctico. Inicie una
sesión con SPSS y siga las siguientes instrucciones:

La segunda de las anteriores instrucciones, mediante el procedi-


miento ONEWAY, indica a SPSS que debe proceder a realizar un
análisis de la varianza de una vía. El subcomando VARIABLES indica
que la variable dependiente es TAS y la independiente CLSO; con
este estudio pretendemos saber si el valor medio de la TAS es
diferente según la clase social, (niveles del factor). En este caso el
factor CLSO tiene tres niveles ALTA, MEDIA y BAJA. Es un modelo
de efectos fijos. Obsérvese que junto a la variable dependiente,
figuran entre paréntesis los valores 1 y 3. Esto quiere decir que los
valores de CLSO que deben entrar en el estudio son del 1 al 3,
ambos inclusive (en ese caso son todos, puesto que sólo hay tres
niveles). Veamos los resultados:
22 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior se nos muestran los resultados del análisis


entre TAS y CLSO. En este caso hay tres grupos o, lo que es lo mismo,
el factor tiene tres niveles, correspondientes a las tres categorías de
la variable independiente CLSO. Como hay tres grupos los grados
de libertad ENTRE GRUPOS son K — 1 y K= 3; por lo tanto, hay dos
grados de libertad. Los grados de libertad totales son N — 1, los casos
válidos analizados son N= 70; por lo tanto, N — 1 = 69. La diferencia
entre los grados de libertad totales y entre grupos es 69 — 2 = 67,
que son los grados de libertad dentro de grupos, etc.
En el subapartado (Disposición de los resultados, página 15) se
analizan de forma genérica todos los parámetros de la tabla anterior.
Si el lector quiere ampliar su conocimiento sobre alguno de ellos,
le remitimos a dicho subapartado.
En el análisis de la tabla anterior, vemos que el cociente entre los
cuadrados medios entre y dentro de grupos es 0.1676, que es la F
experimental, y la probabilidad de encontrar un valor de F mayor
que Fes 0.861, que es mayor de 0.05. No podemos rechazar la hipótesis
nula, y por lo tanto no tenemos evidencia suficiente para afirmar que
la TAS es significativamente distinta en alguna de las clases sociales.
Recuérdese que la hipótesis nula es la igualdad de todas las medias.
(En este caso las tensiones sistólicas medias de las clases sociales);
esto no quiere decir que hayamos demostrado la hipótesis nula, pues
las hipótesis nulas no se demuestran nunca. Significa que no hemos
podido demostrar que sean distintas. Recuerde que la prueba de la
F, en este caso, es de una cola; sólo contrastamos que el cuadrado
medio ENTRE sea mayor que el cuadrado medio DENTRO, puesto
que teóricamente nunca puede ser significativamente menor, salvo
una pequeña probabilidad, por azar.

EL SUBCOMANDO STATISTICS

Este subcomando permite la ampliación de los datos estadísticos


sobre las variables implicadas en el análisis. Las opciones que pue-
den asociarse a este subcomando son las siguientes:

1. Esta opción asociada al subcomando STATISTICS, muestra


una tabla con el número de casos, la media aritmética, la desviación
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 23

típica, el error estándar de la media, el mínimo, el máximo e inter-


valos de confianza del 95% para cada grupo y para el total de los
datos. Destacamos especialmente los intervalos de confianza, que
SPSS debería incluir también en el procedimiento MEANS.
2. Esta opción, asociada al subcomando STATISTICS, muestra
parámetros que son de interés, algunos para el modelo de efectos
fijos FIXED EFFECTS MODEL, y otros para el modelo de efectos
aleatorios RANDOM EFFECTS MODEL. Al solicitar esta opción aso-
ciada al subcomando STATISTICS se muestran todos los parámetros
denominando los correspondientes a cada tipo de modelo. El lector
es quien tiene que elegir los adecuados al estudio que está reali-
zando. Los parámetros mostrados y que son útiles en el modelo de
efectos fijos son la desviación típica, el error estándar de la media e
intervalos de confianza del 95%. Los parámetros mostrados y útiles
en el modelo de efectos aleatorios, son una estimación del compo-
nente añadido de la varianza entre grupos con un intervalo del 95%.
3. Esta opción, asociada al subcomando STATISTICS, permite
que se realice una prueba de homogeneidad de varianzas. Ésta es
una de las condiciones de aplicabilidad del análisis de la varianza
y recomendamos hacerlo, en todos los casos, ya que si las varianzas
de todos los grupos no son homogéneas, podríamos cometer errores
al aplicar el análisis de la varianza. Las pruebas de homogeneidad
de varianzas que se realizan al solicitar esta opción son:
La prueba C de Cochran.
La prueba F de Barlett-Box.
La prueba F máxima de Hartley.
Actualmente una de las pruebas de comparación de varianzas
más utilizadas, es la de Barlett-Box.
ALL. Esta opción, asociada al subcomando STATISTICS, muestra
todos los estadísticos correspondientes a las tres opciones anteriores.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
24 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La segunda de las instrucciones anteriores indica que debe rea-


lizarse un análisis de la varianza de una vía, considerando como
variable dependiente TAD y como variable independiente CLSO.
En el análisis deben entrar los niveles del 1 al 3, ambos inclusive,
del factor CLSO; en este caso solo hay tres niveles, por lo tanto se
incluyen todos los niveles en el análisis, y se solicitan las opciones
1 y 3 del subcomando STATISTICS. Obsérvese que no hemos in-
cluido el subcomando VARIABLES; como ya indicamos en el apar-
tado anterior, este subcomando es opcional.
Los resultados obtenidos, como consecuencia de las instrucciones
anteriores, son los siguientes:

La tabla anterior es la correspondiente al análisis de la varianza


de una vía entre las variables TAD y CLSO. La F experimental
obtenida es 1.0654 y la probabilidad de obtener un valor como éste
o más extremo es 0.3503. Como esta probabilidad es mayor que
0.05, no podemos rechazar la hipótesis nula y concluimos que no
tenemos evidencia de que existan diferencias significativas entre
las clases sociales respecto a la tensión arterial diastólica.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 25

La tabla anterior muestra los parámetros estadísticos correspon-


dientes a la opción 1 del subcomando STATISTICS. Los parámetros
estadísticos se muestran para cada grupo y para el total de los
datos. Han sido incluidos en el análisis trece casos del gru-
po 1 (clase social alta), la tensión arterial diastólica media para este
grupo es 84.7692 y la desviación típica es 11.2484. El error estándar
de la media es 3.1197, el intervalo del 95% de confianza para la
media es 77.9719 — 91.5665. Esto quiere decir que hay un 95% de
probabilidad de que la tensión arterial diastólica media de la clase
social alta, en la población muestreada, esté comprendida entre
77.9719 y 91.5665. Sería un gravísimo error interpretar el intervalo
de confianza considerando que el 95% de los individuos de clase
social alta tienen una tensión arterial diastólica con valores entre
77.9719 y 91.565. El valor mínimo observado de la TAD en la clase
social alta (CLSO = 1) es 65 y el máximo valor observado en esta
misma clase social es 100. Obsérvese que los valores mínimos y
máximos están en la parte inferior de la tabla.
La interpretación del intervalo de confianza al 95%, para el total
de los datos, es que hay un 95% de probabilidad de que la TAD
media de la población muestreada (sin distinción de clases sociales)
esté comprendida entre 79.0179 y 84.3821.
Dejamos para el lector la interpretación de los parámetros co-
rrespondientes al resto de los grupos.
26 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La tabla anterior nos muestra los resultados correspondientes a


las pruebas de comparación de varianzas. Tanto los parámetros
correspondientes a la prueba de Cochrans como a la de Barlett-Box
tienen una probabilidad de 0.244 y 0.248. Como dichos valores son
mayores de 0.05, no podemos rechazar la hipótesis nula, y por lo
tanto aceptamos que las varianzas son homogéneas; esto es lo mismo
que decir que los grupos son homocedásticos y por lo tanto se
cumple, una de las condiciones necesarias para aplicar el análisis
de la varianza. La hipótesis nula en las pruebas anteriores es que
las varianzas de todos los grupos son iguales. La hipótesis alternativa
es que al menos una es distinta de las demás.

COMPARACIONES MÚLTIPLES. LOS SUBCOMANDOS


CONTRAST Y RANGES

Como ya hemos comentado en otros apartados, la primera parte


del análisis de la varianza, en caso de que la F experimental sea
significativa, sólo nos indica si existe alguna media significativamente
distinta de las demás, pero sin saber donde se encuentran las dife-
rencias. Para resolver la cuestión, debemos realizar alguna de las
pruebas de comparación múltiple, de las muchas existentes. Las
pruebas de comparación múltiple pueden ser a priori o a posteriori.
SPSS dispone de dos subcomandos asociados a ONEWAY para
realizar comparaciones múltiples.

El subcomando CONTRAST

Este subcomando permite realizar comparaciones de medias


entre dos grupos de datos. Los grupos sobre los que se efectúa el
contraste pueden ser definidos de múltiples formas, a partir de los
datos implicados en el análisis definido por el comando ONEWAY.
Los datos correspondientes a cada valor del factor pueden ser
agrupados de distintos maneras, marcando cada grupo con un nú-
mero. Dicho número puede ser positivo o negativo y lo denomina-
remos marcador. La media correspondiente a cada grupo se multi-
plicará por el número con que fue marcada.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 27

Las medias de todos los grupos marcadas con un número positivo


se multiplicarán por su marcador y se sumarán, con lo que se
obtendrá un resultado al que denominaremos media positiva. Las
medias de todos los grupos marcadas por un número negativo se
multiplicarán por su marcador y se sumarán, con lo que se obtendrá
un resultado al que denominaremos media negativa. El contraste
de medias, se realizará sobre la diferencia entre la media positiva y
la media negativa, mediante la prueba de la T de Student, se evaluará
si las diferencias obtenidas son estadísticamente significativas.
Si todos los marcadores de todos los grupos son del mismo
signo, la media de cada grupo se multiplicará por su marcador, y la
media final obtenida será contrastada con respecto a cero, en este
caso, pues nuestro interés se centra en ver si la media de los datos
marcados es significativamente distinta de cero.
En resumen, cuando hay marcadores positivos y negativos, el
contraste se realiza entre ellos; si solamente hay marcadores de un
signo, el contraste se realiza sobre cero.
Al agrupar datos mediante el subcomando CONTRAST, debe
tenerse en cuenta que ni la media positiva ni la negativa son medias
ponderadas. La media de cada grupo se multiplica por su marcador,
independientemente del número de datos que tenga. Esta circuns-
tancia debe tenerse especialmente en cuenta cuando el número de
datos de cada grupo sea distinto.
Se puede definir un solo contraste por cada subcomando CON-
TRAST, pero pueden usarse varios subcomandos CONTRAST por
cada comando ONEWAY.
La sintaxis de este subcomando es compleja, por lo que reco-
mendamos al lector que estudie el próximo ejemplo con la máxima
atención.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
28 ESTADÍSTICA MULTiVARIANTE Y NO PARAMÉTRICA CON SPSS

En el listado anterior, hay tres instrucciones; la primera carga la


información del fichero de sistema CORONAR.SYS para el análisis.
La segunda instrucción, que consta de 7 líneas, encabezada por
el comando ONEWAY, indica a SPSS que realice un análisis de la
varianzá de una vía de la variable TAS, en relación con los tres
valores del factor CLSO. Asociados al comando ONEWAY, utilizamos
los subcomandos STATISTICS y 6 veces el subcomando CONTRAST,
lo que nos va a permitir realizar 6 contrastes de medias distintos.
En el primer contraste, tenemos la secuencia de marcadores 1 0
—1. Cada número se refiere a un valor de la clase social: el 1 es el
marcador para CLSO = 1, clase social alta, el 0 es el marcador para
CLSO = 2, clase social media, y el —1 es el marcador para CLSO = 3,
clase social baja. La media de cada grupo será multiplicada por su
marcador (al ser 0 el marcador de la clase social media, los datos
correspondientes a la clase social media CLSO = 2 no participarán
en el contraste) y se comparará la media positiva, con la media
negativa. El resultado de este contraste, es una comparación de la
tensión arterial sistólica entre los individuos de clase social alta y
los de clase social baja.
En el segundo contraste, los marcadores son: 1 0 1, aquí quedan
eliminados del contraste los casos con CLSO = 2, clase social media,
por ser 0 su marcador, los marcadores de la clase social alta y baja
son 1 en ambos casos y, al ser los dos positivos, se sumarán las
medias de los dos, y la media resultante, será contrastada con cero,
El propósito de este contraste es comprobar que la TAS media de
las clases ALTA y BAJA, consideradas conjuntamente, son significa-
tivamente distintas de cero. En este caso no se comparan entre sí,
sino que se consideran los datos de las dos clases sociales de
forma conjunta. Desde el punto de vista clínico, este contraste no
tiene ningún sentido y se comenta con fines didácticos.
En el tercer contraste, los marcadores son: 0.5 0 y —0.5. En este
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 29

caso, al igual que en los dos anteriores, los datos correspondientes


a CLSO = 2 quedan excluidos del contraste, al ser 0 su marcador. El
marcador de la clase social alta, CLSO = 1, es 0.5 y el de la clase
social baja, CLSO = 3, —0.5. La media de la TAS para la clase social
alta será multiplicada por 0.5 y la media de la TAS para la clase
social baja será multiplicada por 0.5. A continuación se restarán las
medias obtenidas, después de multiplicarlas por sus marcadores, y
su resultado se contrastará con respecto a cero. Conceptualmente,
el contraste anterior realiza una comparación de la TAS media de la
clase social alta, dividida por dos, con la TAS media de la clase
social baja, dividida por dos.
En el cuarto contraste, los marcadores son: 2 0 2. En este caso,
los datos correspondientes a la clase social media, CLSO = 2, se
excluyen del contraste al ser 0 su marcador. La TAS media de la
clase social alta CLSO = 1, se multiplica por dos y se suma a la TAS
media de la clase social baja, CLSO = 3, también multiplicada por
dos. El resultado de la suma' anterior se contrasta con respecto a
cero. Conceptualmente, el contraste anterior compara la suma del
doble de las medias de las clases sociales alta y baja con cero. Es
evidente que un contraste de este tipo no tiene sentido clínico; se
incluye por motivos didácticos.
En el quinto contraste, los marcadores son: 1 1 —2 En este caso,
los datos correspondientes a todos los valores del factor se incluyen
en el contraste. Los marcadores de CLSO = 1 y CLSO = 2 son 1; por
lo tanto, las medias de la TAS de estas dos clases sociales se sumarán
y este resultado se contrastará con el doble de la TAS media de la
clase social baja, CLSO = 3. Recuérdese que la media correspon-
diente a cada valor del factor se multiplica por su marcador y se
suman, de forma independiente, las positivas por un lado y las
negativas por otro.
En el sexto contraste, los marcadores son: 1 1 2. Todos son po-
sitivos, por lo que se sumarán las medias de cada factor, multi-
plicadas por su marcador, y el resultado se contrastará con 0.
En este caso, la TAS media de la clase social alta se multiplicará
por 1, la TAS media de la clase social media, se multiplicará por 1
y la TAS media de la clase social baja se multiplicará por 2. A
continuación se sumarán y se contrastará el resultado con respec-
to a 0.
30 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En los resultados aparecen varías tablas que comentaremos de


forma separada.
Los resultados obtenidos son los siguientes:

En la tabla anterior, se muestran los resultados de un análisis de


la varianza de una vía. TAS es la variable dependiente y CLSO el
factor. Después de la tabla de ANOVA, que en este caso no detecta
diferencias significativas entre las medias de la TAS en las clases
sociales, aparece una tabla con parámetros estadísticos referentes
a la TAS, para cada grupo y para el total de los datos. Esta tabla es
consecuencia de la opción 1 del subcomando STATISTICS.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 31

* Above indicates sum of Coefficients is not zero.

La tabla anterior indica, en primer lugar, los contrastes solicitados


y a continuación lista dos tablas con los resultados de cada contraste
32 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

realizados según la prueba de la t de Student, tanto para el caso de


varianzas homogéneas como no homogéneas.
En la columna VALUE se lista el resultado correspondiente a las
operaciones realizadas con las medias, según los marcadores defi-
nidos en cada caso. El resultado (VALUE), en el primer contraste,
es 5.3407. Este valor es el resultado de multiplicar la TAS media de
la clase social alta, que es 141.7692, por 1 y restar la TAS media de la
clase social baja, que es 136.4286. En este caso los marcadores son
1 y —1; por lo tanto, al multiplicar no varían los resultados y la
diferencia entre las dos medias es 5.3407, que es el valor por con-
trastar (VALUE).
En el segundo contraste, ambos marcadores son positivos; por
lo tanto, ambas medias se suman (al multiplicar por 1, no se modifican
los resultados). Observe que el resultado (VALUE) es la suma de
las TAS medias de CLSO = 1 y CLSO = 3, 141.7692 y 136.4286, res-
pectivamente.
En el tercer contraste, los marcadores son 0.5 0 y —0.5. En este
caso, al multiplicar por 0.5, dividimos las medias por 2.
El resultado, (VALUE) es 2.6703 que como el lector puede com-
probar, corresponde a la TAS media de CLSO = 1 dividida por dos,
menos la TAS de CLSO = 3 dividida por 2.
En el cuarto contraste, los dos marcadores son positivos e iguales
a 2. El resultado (VALUE) 556.3956 es la TAS media para CLSO = 1 mul-
tiplicada por 2 más la TAS media para CLSO = 3 multiplicada por 2.
En el quinto contraste se suman las TAS medias correspondientes
a CLSO = 1 y CLSO = 2 y se resta el resultado del doble de la TAS
media para CLSO = 3, cuyo marcador es —2. Compruebe que el
resultado (VALUE), 9.1121, se obtiene según lo indicado.
En el sexto contraste, al ser todos los marcadores positivos,
el resultado (VALUE) se obtiene sumando las TAS medias para
CLSO = 1 y CLSO = 2 más el doble de la TAS para CLSO = 3;
obsérvese que el marcador para CLSO = 3 es 2.

El subcomando RANGES

Si utilizamos este subcomando, se realizarán todas las compara-


ciones posibles entre los grupos (sin agrupamientos). Para ello,
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 33

SPSS dispone de 7 pruebas. Recomendamos al lector que, antes de


aplicar estas pruebas, estudie, en la literatura especializada, sus
propiedades y condiciones óptimas de aplicabilidad.
Las pruebas de comparación múltiple disponibles en SPSS son
las siguientes:
LSD (p). Mínima diferencia significativa, En el lugar del parámetro
(p), especificamos el nivel de significación que queremos aplicar
en el contraste. Podemos especificar cualquier valor entre 0 y 1,
aunque los más habituales son 0.05 y 0.01.
DUNCAN (p). Prueba de rango múltiple de Duncan. En lugar
de (p), debemos indicar el nivel de significación con el que quere-
mos que se realicen las comparaciones, pero sólo podemos elegir
entre 3 valores, 0.05, 0.01 y 0.1.
SNK. Prueba de Student-Newman-Keuls. Esta prueba es una de
las más utilizadas en la actualidad. No podemos escoger nivel de
significación; SPSS realiza esta prueba con una significación de 0.05.
BTUKEY. Prueba alternativa de Tukey. Sólo realiza compara-
ciones con una significación de 0.05.
TUKEY. Prueba de Tukey, es otra de las pruebas propuestas
por Tukey para la comparación múltiple. Sólo se realiza a un nivel
de significación de 0.05.
MODLSD (P). LSD modificado. Puede fijarse cualquier nivel de
significación entre 0 y 1.
SCHEFFE(p). Prueba de Scheffe. Puede fijarse cualquier nivel
de significación entre 0 y 1.
A continuación veamos un ejemplo. Inicie una sesión con SPSS y
siga las siguientes instrucciones:
34 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En el ejemplo anterior, en la segunda instrucción, hemos recodi-


ficado los valores de la variable CB mediante el comando RECODE
y la hemos convertido en una variable con sólo tres valores; CB = 1
para los casos con colesterol basal menor de 200, CB = 2 para los
casos con colesterol basal entre 201 y 250, ambos inclusive, y CB = 3
para los casos con colesterol basal mayor de 250 (esta modificación
de la variable CB afecta al fichero activo, pero no al fichero de
sistema CORONAR.SYS, a no ser que mediante la orden SAVE gra-
báramos el nuevo fichero activo en su lugar; por lo tanto en futuros
ejemplos los valores de la variable CB serán los originales). La
tercera instrucción encabezada por ONEWAY realiza un análisis de
la varianza de una vía, siendo la variable dependiente TAD y la
variable independiente CB (que ahora sólo tiene tres valores). Que-
remos estudiar si la TAD sufre modificaciones significativas según
los niveles de colesterol. Mediante el subcomando STATISTICS in-
dicamos que debe estudiarse la homogeneidad de varianzas. Me-
diante el subcomando RANGES, realizaremos las pruebas de com-
paración múltiple utilizando la prueba de Student-Newman-Keuls.
Los resultados obtenidos son los siguientes:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 35

La primera de las tablas anteriores corresponde a la primera


parte del análisis de la varianza; la F experimental es 30.2539 y la
probabilidad de obtener una F como ésa o mayor es muy pequeña,
menor de 0.0001. Como la probabilidad es menor de 0.05, que es el
nivel de significación habitual, rechazamos la hipótesis nula y con-
cluimos que la TAD, en alguno de los grupos es significativamente
distinta de las otras. Dónde se encuentran las diferencias lo averi-
guaremos mediante la prueba de SNK. La segunda tabla nos muestra
los resultados de las pruebas de comparación de varianzas, tanto
en la de Cochran como la de Barlett, la probabilidad es mayor de
0.05, no podemos rechazar la hipótesis nula, que considera las va-
rianzas iguales, y por lo tanto se cumple la homocedasticidad, que
es una de las condiciones de aplicabilidad de ANOVA.
36 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La tabla anterior nos da información acerca de la prueba de


SNK, y los puntos críticos que aplicar. La segunda parte, sobre estas
líneas, nos muestra en forma de matriz las diferencias significativas
encontradas, señalizadas con un asterisco *. La tensión arterial dias-
tólica media del grupo 3 es significativamente distinta de las de los
grupos 1 y 2. Obsérvese que los dos asteriscos se encuentran en la
fila correspondiente al tercer grupo y corresponden a las columnas
de los grupos 2 y 1, lo que indica que entre estos grupos las
diferencias son significativas. Puesto que la media de TAD mayor
es la del grupo 3, concluimos que la tensión arterial diastólica es
significativamente mayor, en los casos con CB = 3, es decir, con
colesterol basal mayor de 250, que en los casos con valores de CB
igual a 1 o 2, es decir, con niveles de colesterol basal menores de
250. Las diferencias entre los grupos 1 y 2 no son significativas y,
por lo tanto no tenemos evidencia para afirmar que los niveles de
colesterol menores de 250 influyan en la TAD.

MODELOS POLINÓMICOS.
EL SUBCOMANDO POLYNOMIAL

SPSS permite realizar contrastes polinómicos, que son un tipo


particular de los contrastes ortogonales.
Los contrastes polinómicos solo son factibles si los valores del
factor expresan datos cuantitativos, debidamente escalonados.
Supongamos que tenemos tres grupos de pacientes, en los que
queremos estudiar el colesterol basal. A los pacientes del primer
grupo no se les administra ningún fármaco, a los del segundo grupo
se les administran 50 mg de un fármaco y a los del tercer grupo se
les administran 100 mg del mismo fármaco. En este ejemplo sí
podríamos plantear un análisis polinómico de la varianza, porque el
factor refleja datos cuantitativos escalonados, 0 50 y 100.
En los contrastes polinómicos, el grado del polinomio debe ser,
como máximo, el número de niveles del factor menos 1.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 37

EL SUBCOMANDO OPTIONS
El procedimiento ONEWAY admite varias opciones que afectan
al formato, tratamiento de los valores ausentes, lectura de datos en
forma matricial, escritura de resultados en forma matricial, etc.

Tratamiento de valores ausentes (MISSING)


Los casos con valores ausentes en la variable dependiente o en
la variable independiente se excluyen del análisis por defecto. El
subcomando OPTIONS permite modificar el tratamiento de los va-
lores ausentes, según las siguientes opciones:

1. Esta opción incluye en el análisis los casos con valores ausen-


tes de usuario.
2. Los casos con valores ausentes en alguna de las variables
incluidas en la instrucción encabezada por ONEWAY son excluidos
del análisis.

Supongamos que en un conjunto de instrucciones incluimos la


siguiente:

La instrucción anterior realizará dos análisis de la varianza de


una vía, primero con las variables CB y CLSO, y posteriormente
con CB y NES; si no especificamos ninguna opción, no se incluirán
en ninguno de los dos análisis los casos con valores ausentes en la
variable CB. En el análisis correspondiente a las variables CB y
CLSO no se incluirán los casos con valores ausentes en la variable
CLSO, pero sí los casos con valores ausentes en la variable NES. En
el análisis correspondiente a las variables CB y NES, no se incluirán
los casos con valores ausentes en la variable NES, pero sí los casos
con valores ausentes en la variable CLSO.
Si, en lugar de la instrucción anterior, incluimos la siguiente:
38 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la instrucción anterior hemos utilizado la opción 2 del sub-


comando OPTIONS, la cual excluye de todos los análisis los casos
con valores ausentes en cualquiera de las variables CB, CLSO o
NES.

Opciones de formato
En los formatos de salida de resultados, el procedimiento ONE-
WAY muestra las etiquetas de las variables, pero no las etiquetas
de los valores de los grupos. Esto puede ser modificado mediante
las siguientes opciones:

3. Esta opción suprime las etiquetas de las variables en las


salidas de resultados.
6. Esta opción incluye, en las salidas de resultados, las etiquetas
de los valores correspondientes a los grupos.

Resultados en fichero matricial


En muchas circunstancias es útil tener ciertos parámetros esta-
dísticos en un fichero matricial. Hay procedimientos como el análisis
factorial, análisis de la varianza, MANOVA, etc., que admiten un
fichero matricial para realizar los correspondientes análisis estadís-
ticos. De esta manera, un fichero muy voluminoso puede ser resu-
mido en una matriz. La siguiente opción nos permite realizar esta
operación:

4. Esta opción generará, para cada variable dependiente incluida


en la instrucción, un fichero matricial con los siguientes vectores:
un vector con el número de datos de cada grupo, un vector con las
medias de cada grupo y un vector con las desviaciones típicas de
cada grupo. El fichero matricial se graba en el directorio en curso,
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 39

en el fichero SPSS.PRC. Podemos elegir el directorio y el nombre


del fichero donde queremos grabarlo mediante el comando SET.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda instrucción indica que el resultado matricial debe


grabarse en el fichero MATRIZ.PRC. Dicho fichero estará en el di-
rectorio en curso, en este caso en el directorio C:\SPSS. Si no hubié-
ramos usado el comando SET, la matriz se habría grabado en el
fichero SPSS.PRC, también en el directorio C:\SPSS.
La tercera instrucción indica que se realice un análisis de la
varianza de una vía con las variables TAS y CLSO. El subcomando
OPTIONS con la opción 4, indica que debe grabarse una matriz con
el número de casos las medias y las desviaciones típicas para cada
grupo.
En la salida de resultados, se genera la tabla de resultados espe-
cífica del análisis de la varianza, que omitimos mostrar en este caso
porque este ejemplo, sin la opción 4, ya se ha estudiado en este
mismo capítulo. A continuación mostramos la matriz generada por
la opción 4.

13.00 50.00 7.00


141.769 140.2000 136.428
18.8598 20.7502 11.8019

La tabla anterior es la matriz generada en el ejemplo anterior.


Los ficheros de salida matricial, al igual que los ficheros de resultados,
están en código ASCII; por lo tanto, pueden ser leídos en cualquier
procesador de textos.
La primera columna incluye el número de casos, la media y la
desviación típica del primer grupo CLSO = 1, es decir hay 13 casos
con clase social alta, cuya tensión arterial sistólica media es 142.7692
40 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

y con desviación típica 18.8598. La segunda columna incluye los


parámetros correspondientes a CLSO = 2, etc.
La matriz anterior incluye una columna (vector columna para
cada grupo), con los parámetros correspondientes a cada grupo en
el siguiente orden: número de casos, media y desviación típica. La
primera fila (vector primera fila) incluye el número de casos de
cada grupo, la media aritmética para cada grupo y la desviación
típica para cada grupo.

Lectura de datos matriciales

El procedimiento ONEWAY permite leer los datos necesarios


para un análisis de la varianza a partir de datos matriciales, lo cual
tiene la ventaja de analizar datos con SPSS sin disponer del fichero
de datos original y también poder reducir la información a pequeños
ficheros matriciales de fácil manejo. El procedimiento ONEWAY
dispone de dos opciones que permiten leer ficheros matriciales de
dos tipos.

7. Esta opción lee matrices, con el mismo formato que vimos


en el apartado anterior: El vector correspondiente a la primera fi-
la con el número de casos de cada grupo, el vector correspon-
diente a la segunda fila con la media de cada grupo y el vector
correspondiente a la tercera fila con la desviación típica de cada
grupo.
8. Esta opción permite la lectura de datos en forma matri-
cial con los siguientes parámetros: un vector de primera fila con
el número de casos para cada grupo, un vector de segunda fila,
con la media de cada grupo, seguidos del cuadrado medio dentro
de grupos y los grados de libertad del cuadrado medio dentro de
grupos.
Veamos un ejemplo en el que vamos a estudiar si el nivel de
GPT es distinto según el tipo de hepatitis (HEPAT). Los tipos de
hepatitis son A para HEPAT=1, B para HEPAT=2, y C para HE-
PAT=3.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY 41

La primera instrucción indica que se va a proceder a la intro-


ducción de datos en formato libre, correspondientes a las variables
GPT y HEPAT, y que los datos son componentes de una matriz. La
segunda instrucción, mediante BEGIN DATA, indica que se procede
a la introducción de los datos. La tercera instrucción, mediante END
DATA, indica que se ha finalizado la introducción de datos. La cuarta
instrucción indica que se realice un análisis de la varianza con las
variables GPT y HEPAT, con la opción 7. Los resultados obtenidos
son los siguientes:

En la tabla anterior observamos que la probabilidad de la F


experimental es muy pequeña, menor de 0.0001, y por lo tanto
rechazamos la hipótesis nula (igualdad de todas las GPT medias) y
aceptamos que los niveles medios de GPT son significativamente
42 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

distintos según el tipo de hepatitis. El estudio podríamos completarlo


con una prueba de comparación múltiple, la realización de la cual
dejamos al lector.

Otras opciones
Las opciones 5 y 9 no existen. Hay otra opción, la 10, que es la
única que falta y que explicamos a continuación:

10. En las pruebas de comparación múltiple, por defecto, es


decir, si no se utiliza esta opción, se usa la media armónica en base
a los dos grupos que se estén comparando. Si se usa esta opción, la
media armónica se calculará en base a todos los grupos.
Capítulo 2
ANÁLISIS MULTIFACTORIAL
DE LA VARIANZA. ANÁLISIS
DE LA COVARIANZA.
EL PROCEDIMIENTO ANOVA

En este capítulo estudiaremos la resolución de problemas de


análisis de la varianza (ANOVA) con más de un factor, a los que
denominaremos análisis multifactorial de la varianza. También ana-
lizaremos los métodos, para eliminar la influencia de una variable
cuantitativa extraña, en ANOVA, mediante el análisis de la covarianza
(ANCOVA).
Los problemas anteriores pueden resolverse con SPSS, mediante
el procedimiento ANOVA.

ANÁLISIS MULTIFACTORIAL DE LA VARIANZA.


CONCEPTOS FUNDAMENTALES

En el capítulo anterior, vimos el análisis de la varianza de una


vía, el cual era aplicable cuando teníamos una variable dependiente
cuantitativa y una sola variable independiente cualitativa. Por ejem-
plo, si queremos estudiar si la clase social (variable independiente)
influye en la tensión arterial sistólica (variable dependiente). Su-
pongamos que queremos estudiar simultáneamente la influencia en
la tensión arterial sistólica de la clase social y del sexo; en este
caso, tenemos una variable dependiente, la tensión arterial, y dos
variables independientes (dos factores), la clase social y el sexo.
Este es un caso de análisis de la varianza de dos vías.
El análisis de la varianza de dos vías es una técnica de análisis
multivariante, en la que analizamos la influencia de dos variables
44 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

independientes (cualitativas) sobre una variable dependiente (cuan-


titativa).
En algunos casos, podemos estar interesados en analizar la in-
fluencia de tres o más variables independientes (factores) sobre
una variable dependiente, si los factores son tres, hablaremos de
análisis de la varianza de tres vías, etc.
Los análisis de la varianza con más de un factor los denominare-
mos análisis multifactoriales de la varianza.
En el análisis de la varianza de una vía, descomponíamos la
variabilidad en dos partes: la debida a estar en grupos distintos,
cuadrado medio entre grupos MSE, y la debida a todas las demás
causas (variables no controladas en el modelo), cuadrado medio
dentro de grupos MSD.
En el análisis de la varianza de dos vías, al analizar de forma
simultánea el efecto de dos variables, la variabilidad recogida en
MSD es menor que si estudiamos la influencia de cada variable
independiente sobre la variable dependiente por separado. Siguien-
do con el ejemplo de la influencia de la clase social y el sexo sobre
la tensión arterial, podríamos plantear dos análisis de la varianza de
una vía:
En uno, la variable independiente es la clase social. El MSE de
este modelo recoge la variabilidad debida a la clase social sobre la
tensión arterial, y el MSD de este modelo recogerá la variabilidad
debida a todas las demás causas, incluida la influencia del sexo.
En el otro modelo, la variable independiente es el sexo. El MSE
de este modelo recoge la variabilidad debida al sexo sobre la
tensión arterial, y el MSD de este modelo recogerá la variabilidad
debida a todas las demás causas, incluida la clase social.
En los modelos anteriores, el MSD de cada uno de ellos recoge
la influencia de todas las variables no incluidas en cada modelo. Si
planteamos un modelo de dos vías, con las variables clase social y
sexo, el MSD de dicho modelo recogerá la variabilidad debida a
todas las causas, menos la de las variables incluidas en el modelo.
De esta manera podremos estudiar la variabilidad debida a cada
una de las dos variables, pero con la ventaja de que contrastaremos
el MSE de cada una de ellas frente a un MSD en el que se han
eliminado las influencias de las dos variables, con lo que aumentará
la eficiencia de la prueba.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 45

Si disminuimos la variabilidad no controlada por el modelo MSD,


dado que la prueba se resuelve calculando la F experimental, divi-
diendo cada MSE por MSD, y si disminuimos el denominador, aumen-
taremos la eficiencia de la prueba, puesto que será más fácil rechazar
la hipótesis nula.
En el análisis de la varianza, algunos autores llaman factores a
las variables independientes y niveles del factor a cada una de las
categorías de dichas variables. Si una de las variables indepen-
dientes es la clase social y esta variable tiene tres categorías, diría-
mos que la clase social es un factor con tres niveles.

Estructura de los datos


En un análisis de la varianza de una vía tenemos tantos grupos
como el producto del número de categorías de las variables inde-
pendientes. Si una variable independiente tiene K categorías y otra
r categorías, el número de grupos es el producto Kr. Por ejemplo,
si las variables independientes son la clase social, con tres categorí-
as, y el sexo, con dos categorías, el número de grupos es seis.
Los grupos pueden tener el mismo número de datos o no. Las
técnicas de análisis difieren un poco, en función de que sean iguales
o diferentes en cuanto al número de datos.

Modelo matemático
El modelo matemático de ANOVA de dos vías se basa en des-
componer la diferencia observada entre un elemento y la media
global en cuatro partes. La debida a pertenecer a un nivel determi-
nado del factor A, la debida a pertenecer a un nivel determinado
del factor B, la debida a la interacción (este importante concepto lo
desarrollaremos en un próximo apartado) entre el factor A y el
factor B y la debida a otras causas no controladas por el modelo. El
modelo es:
46 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El modelo matemático (2-1) descompone la diferencia del valor


de cada elemento con respecto a la media poblacional, en cuatro
sumandos.
En el modelo anterior, el subíndice j se refiere a los niveles del
factor A, el subíndice i se refiere a los niveles del factor B y el
subíndice w se refiere al orden en el muestreo dentro de cada
grupo. Por ejemplo, X123 es el tercer elemento del grupo correspon-
diente al primer nivel del primer factor y al segundo nivel del
factor B. El significado de cada elemento es el siguiente:

(Xjiw — µ) expresa matemáticamente la diferencia de un elemento


con respecto a la media por todas las causas. A partir de este
elemento deduciremos la variabilidad total.
(µj — µ) expresa la diferencia de la media del jésimo nivel del
factor A respecto a la media poblacional. A partir de este elemento,
deduciremos la variabilidad debida al factor A.
(µi — µ) expresa la diferencia de la media del jésimo nivel del
factor B respecto a la media poblacional. A partir de este elemento,
deduciremos la variabilidad debida al factor B.
(µji — µj — µi + µ) expresa matemáticamente la influencia que
en el valor de un elemento. Tiene la interacción entre los dos facto-
res. A partir de este, elemento deduciremos la variabilidad debida
a la interacción.
(Xijw — µji) expresa matemáticamente la influencia en el valor de
un elemento de la variabilidad debida a todas las causas no contro-
ladas por el modelo. A partir de este elemento, deduciremos la
variabilidad dentro de grupos.

A partir de (2-1), despejamos Xijw y obtenemos un modelo mate-


mático, en el que expresamos los términos que contribuyen al valor
de un elemento.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 47

Interacción
Este es un concepto fundamental en análisis multivariante. Que
exista interacción significa que se da una relación especial entre
algún nivel del factor A con algún nivel del factor B.
Es sabido que el hábito de fumar y el sedentarismo aumentan la
probabilidad de padecer hipertensión arterial HTA. Cuando estos
dos factores se presentan conjuntamente, la probabilidad de padecer
HTA aumenta más de lo esperado por la simple suma de sus efectos.
En este caso hablamos de interacción positiva.
La interacción es positiva si el resultado de la acción conjunta
de un nivel del factor A con un nivel del factor B es mayor de lo
esperado. Por ejemplo, fumar y sedentarismo sobre la tensión ar-
terial.
La interacción es negativa si el resultado de la acción conjunta
de un nivel del factor A con un nivel del factor B es menor de lo
esperado. Por ejemplo, el efecto combinado de la penicilina y tetra-
ciclina en el tratamiento de una enfermedad infecciosa; es conocido
que estos dos antibióticos, aplicados simultáneamente, tienen un
efecto menor que administrados individualmente.

Suma de cuadrados
A partir del modelo anterior, podemos estudiar la variabilidad
cuadrática (suma de cuadrados). Vamos a descomponer la variabi-
lidad cuadrática total, en cuatro variabilidades cuadráticas; por lo
tanto las variabilidades cuadráticas que vamos a manejar en un
análisis de la varianza de dos vías son las siguientes:
48 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La variabilidad cuadrática total es la debida a todas las causas y


la descomponemos en cuatro partes: la variabilidad cuadrática debida
al factor A SSA, la variabilidad cuadrática debida al factor B SSB, la
variabilidad cuadrática debida a la interacción SSAB y la variabilidad
cuadrática debida a causas no controladas por el modelo SSENTRO.

La expresión anterior es la suma de las desviaciones cuadráticas


de cada valor de la variable respecto a la media global, que es la
media de todos los datos implicados en el análisis. Representa la
variabilidad cuadrática total. .

La expresión anterior representa la variabilidad cuadrática debida


al factor A.

La expresión anterior representa la variabilidad cuadrática debida


al factor B.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 49

La expresión anterior representa la variabilidad cuadrática debida


a la interacción.

La expresión anterior es la suma de las desviaciones cuadráticas


de cada elemento respecto a la media de su grupo. Es un estimador
de la suma de las variaciones cuadráticas debidas a causas distintas
a los factores A y B. Representa la variabilidad cuadrática dentro
de grupos,
La suma de cuadrados total la hemos descompuesto en la suma
de cuadrados entre niveles del factor A, del factor B, interacción y
dentro de grupos o residual. La suma algebraica de los componentes
es igual a la total.

Cuadrados medios

La suma de cuadrados representa la suma de las variabilidades


cuadráticas, pero para poder utilizarlas en comparaciones, necesi-
tamos tener parámetros que estimen la variabilidad cuadrática media.
Para conseguir esto dividiremos las sumas de cuadrados por sus
correspondientes grados de libertad. Tendremos, por tanto, un cua-
drado medio por cada suma de cuadrados. Los cuadrados medios
que utilizar en ANOVA de dos vías son los siguientes:
50 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Hipótesis de ANOVA

Al realizar un análisis de la varianza de dos vías, contrastamos


las siguientes hipótesis:

En el contraste anterior, estudiamos si alguno de los niveles del


factor A influye de forma significativa en la media de la variable
dependiente.

En el contraste anterior, estudiamos si alguno de los niveles del


factor B influye de forma significativamente distinta a los otros
sobre la variable dependiente.

En el contraste anterior, analizamos si existe interacción entre


alguno de los niveles del factor A, con algún nivel del factor B.
En el análisis de la varianza de dos vías, realizamos 3 contrastes
de hipótesis. El correspondiente a las diferencias entre las medias
de los niveles del factor A, lo resolveremos dividiendo MSA entre
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 51

MSDENTRO, que es la primera F experimental; si esta F es mayor que


el punto crítico, rechazaremos la hipótesis nula correspondiente al
factor A y concluiremos que la media correspondiente a algún
nivel del factor A es distinta de las demás.
El correspondiente a las diferencias entre las medias de los
niveles del factor B, lo resolveremos dividiendo MSB entre MSDENTR0,
que es la segunda F experimental; si esta F es mayor que el punto
crítico, rechazaremos la hipótesis nula correspondiente al factor B y
concluiremos que la media correspondiente a algún nivel del factor
B es distinta de las demás.
El correspondiente a la interacción lo resolveremos dividiendo
MSAB entre MSDENTRO, que es la tercera F experimental; si esta F es
mayor que el punto crítico, rechazaremos la hipótesis nula y con-
cluiremos que existe interacción.
Si no existe interacción, pero sí existen diferencias significativas
entre los niveles de un factor o de los dos, aplicaremos alguna de
las pruebas de comparación múltiple, para dilucidar en qué niveles
están las diferencias. Las pruebas de comparación múltiple que
aplicar son las mismas que las vistas en el análisis de la varianza de
una vía.
Si existe interacción trataremos con mucha precaución los resul-
tados. No siendo correcto realizar pruebas de comparación múltiple
entre los niveles del factor o factores significativos, ya que el com-
portamiento de los factores está mutuamente distorsionado por el
otro.

Disposición de los resultados. Tabla de ANOVA


dos vías

Los resultados de un análisis de la varianza, se disponen en una


tabla especial, en la que se muestran los parámetros fundamentales
en ANOVA. Estas tablas, según los distintos autores, pueden variar
en algunos elementos, aunque no en los esenciales.
52 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, se muestran los parámetros fundamentales


en el análisis de la varianza de dos vías. Cualquier tabla de ANOVA
de dos vías debe recoger los elementos anteriores.
La tabla de resultados, mostrada por SPSS, incluye los parámetros
anteriores y dos filas adicionales, en las que se analizan los efectos
principales (MAIN EFFECTS) y efectos explicados (EXPLAINED).
En la fila que SPSS denomina MAIN EFFECTS, se recoge el efecto
de los factores, sin tener en cuenta la interacción.
En la fila que SPSS denomina EXPLAINED, se recoge el efecto
de todos los factores y de las interacciones. Esta fila recoge el
efecto de los factores por todas las causas.
La suma total de cuadrados debe ser igual a la suma de cuadra-
dos explicada por los factores, incluida la interacción (EXPLAINED)
más la suma de cuadrados no explicada por el modelo (RESIDUAL);
estos efectos sólo hay que tenerlos en cuenta en caso de interacción,
y nos informan de si alguna de las medias de los grupos, es signifi-
cativamente distinta de las demás.

Asunciones en ANOVA dos vías

Para la correcta aplicación del análisis de la varianza de dos


vías, deben cumplirse las siguientes condiciones:

1. Las k r muestras son aleatorias e independientes.


2. La variable dependiente se distribuye normalmente, en cada
una de las k r poblaciones.
3. Las K r poblaciones tienen la misma varianza.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 53

ANOVA con más de dos factores


Los conceptos anteriores pueden generalizarse a más de dos fac-
tores. En el caso de tres factores, ANOVA de tres vías, tendremos
una variable dependiente y tres factores, A, B, C. La variabilidad
total la descompondremos teniendo en cuenta los efectos de cada
factor por separado, la interacción triple entre los tres factores, si
existe, las interacciones dobles entre los factores y la variabilidad
residual.

En los casos de ANOVA con más de tres vías, tendremos una


fuente de variabilidad total, una fuente de variabilidad por cada
factor, las fuentes de variabilidad debidas a todas las posibles in-
teracciones entre los factores y la variabilidad dentro de grupos,
también llamada residual por otros autores.
En el procedimiento ANOVA, SPSS denomina a la variabilidad,
cuadrática dentro de grupos RESIDUAL.

ANÁLISIS DE LA COVARIANZA

El análisis de la covarianza, (ANCOVA) es una técnica de análisis


estadístico multivariante, que permite controlar la influencia de va-
54 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

riables cuantitativas extrañas. La influencia de variables extrañas


debe controlarse mediante adecuadas técnicas de muestreo, pero
esto no siempre es posible. A las variables extrañas controladas
mediante ANCOVA las llamaremos covariables. ANCOVA nos
permite aumentar la eficacia en los planteamientos del análisis de
la varianza.
El análisis de la covarianza es una técnica que nos permite
comprobar las mismas hipótesis que en él análisis de la varianza,
mejorando la interpretación de los resultados y eliminando algunas
posibles fuentes de error.
En el análisis de la covarianza, tenemos una variable cuantitativa
dependiente, cuyos valores queremos comprobar si están relacio-
nados con una o más variables dependientes (factores). Los ele-
mentos anteriores son los mismos de ANOVA, pero en ANCOVA,
además, controlamos el posible efecto de una variable cuantitativa
(covariable) sobre la variable dependiente, que de no ser incluida
podría alterar los resultados de ANOVA.
Al ser ANCOVA una mejora de ANOVA, con los mismos plan-
teamientos, existe un modelo de ANCOVA por cada modelo de
ANOVA. Podemos plantear ANCOVA de una vía o multifactoriales.
Supongamos que queremos comparar tres métodos educati-
vos distintos, para lo cual seleccionamos al azar tres centros distin-
tos, aplicando en cada uno de ellos uno de los tres métodos. La
variable dependiente es la puntuación de los alumnos a final de
curso. En este caso, queremos analizar si la puntuación de los alum-
nos depende del tipo de método educativo. Según hemos planteado
el problema, estamos ante un ANOVA de una vía. Pero podría
ocurrir que el coeficiente intelectual (CI) de los alumnos fuera sig-
nificativamente distinto en los centros seleccionados, lo que podría
distorsionar los resultados, por la falta de control de esta variable.
Podemos plantear el problema anterior, controlando el CI de los
alumnos, esta es la variable extraña, (covariable) que podemos
controlar mediante un análisis de la covarianza. El planteamiento no
varía, nuestro interés se centra sobre la influencia de tres métodos
educativos distintos, y sobre la puntuación de los alumnos, pero
controlamos el posible efecto de una covariable CI sobre los resul-
tados.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 55

El modelo matemático de ANCOVA


En el apartado anterior vimos que por cada modelo de ANOVA,
se puede plantear un modelo de ANCOVA. Por lo tanto, hay un
modelo matemático de ANCOVA por cada modelo matemático de
ANOVA. En este apartado estudiaremos el modelo de ANCOVA de
una vía; los conceptos fundamentales de este modelo son extrapo-
lables a los multifactoriales.
A la variable dependiente se la suele representar por Y, y a la
covariable por X.

En el modelo anterior, está recogida una asociación lineal entre


la variable dependiente y la covariable. También se pueden plantear
modelos en los que la relación entre la variable dependiente y la
covariable sea no lineal.
En el modelo anterior, Y]¡ representa el valor de la variable
dependiente en el iésimo individuo del jésimo grupo.
El valor de la variable dependiente en el iésimo individuo, del
jésimo grupo, Yji lo descomponemos en cuatro partes:
µ es la media poblacional de la variable dependiente.
αj es el efecto debido a estar en el jésimo grupo.
β es el coeficiente de regresión lineal, entre la variable depen-
diente Y y la covariable X. β (Xji — X) es el efecto debido a la cova-
riable.
Eji representa la parte del valor de la variable dependiente, no
explicada por el modelo.
El modelo de ANCOVA se diferencia del modelo de ANOVA
en que en aquél recogemos la influencia de una covariable.

Suma de cuadrados. Cuadrados medios


A partir del modelo anterior (2-8), deduciríamos las sumas de
cuadrados, SS, que en este caso serían las siguientes:
56 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

En ANCOVA, la suma de cuadrados se calcula teniendo en cuen-


ta la influencia de la covariable. A la suma de cuadrados calculada
de esta manera, algunos autores la denominan suma de cuadrados
corregida.
En los modelos multifactoriales de ANCOVA, se incluyen las
mismas fuentes de variación que en el correspondiente modelo de
ANOVA, más la debida a la covariable.
Los cuadrados medios, en análisis de la covarianza, se calculan
igual que en ANOVA, dividiendo el correspondiente SS por sus
grados de libertad.

Hipótesis y asunciones de ANCOVA


Las hipótesis que contrastar en ANCOVA son las mismas que
en ANOVA, según el tipo de modelo.
Para que el planteamiento de un análisis de la covarianza sea
correcto, deben cumplirse las mismas asunciones que en ANOVA
y las siguientes condiciones:

El valor de la covariable no debe afectarse por los grupos.


Las k pendientes, una por cada grupo, deben de ser homogéneas
β1 = β2 ..... = βK.

Según el modelo de ANOVA sea de una vía o multifactorial, las


hipótesis y las asunciones difieren para cada modelo; en ANCOVA
ocurre lo mismo, pero teniendo en cuenta que las hipótesis que
resolver son las mismas en ambos casos.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 57

EL PROCEDIMIENTO ANOVA

El procedimiento ANOVA de SPSS permite el análisis de la va-


rianza y de la covarianza de varias vías. Con este procedimien-
to pueden plantearse problemas de una vía, pero las posibilidades
de análisis para una sola vía son mayores con el procedimiento
ONEWAY.
El procedimiento ANOVA de SPSS permite plantear problemas
de análisis de la varianza hasta con 10 factores, aunque el máximo
nivel de interacción que puede analizar es 5. También permite
realizar un análisis de covarianza hasta un máximo de 10 variables
covariantes.

El subcomando variables. ANOVA de dos


y tres vías con SPSS

El subcomando VARIABLES permite especificar las variables y


su significado en el análisis de los datos. Este subcomando puede
ser omitido. Las variables anteriores a la palabra clave BY serán
consideradas como variables dependientes, y las posteriores a BY
como variables independientes o factores. Al subcomando VA-
RIABLES podemos asociarle la palabra clave WITH. Para incluir
covariable, las variables posteriores a WITH serán consideradas
covariables.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

En el ejemplo anterior se realizaría un análisis de la varianza de


dos vías siendo la variable dependiente TAS la tensión arterial
sistólica, y los factores la clase social (CLSO) y el tabaco (FUMA).
En los factores, debe especificarse entre qué valores ha de realizarse
el estudio. La clase social tiene tres valores; al especificar (1,3)
58 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

indicamos que en el análisis deben entrar los casos con un valor de


CLSO entre 1 y 3, ambos inclusive. Si la clase social tuviera 5 valores
y especificáramos (1,3) serían excluidos del estudio los casos con
valores de CLSO con valores mayores de 3. Recuérdese que siempre
deben especificarse, los valores de los factores que intervienen en
el análisis.
Los resultados emitidos por SPSS son los siguientes:

70 Cases were processed.


0 Cases (.0 PCT) were missing.

En la tabla anterior, hay 5 columnas en las que se nos muestran


la suma de cuadrados (SUM OF SQUARES), grados de libertad DF,
cuadrados medios (MEAN SQUARE), valor de la F de Snedecor (F),
que es el resultado de dividir el cuadrado medio de la correspon-
diente fila por el cuadrado medio residual, y la significación de la F.
También hay 8 fuentes de variación, cuyo significado es el siguiente:
MAIN EFFECTS. Esta fila recoge, de forma conjunta, la influencia
de todos los factores sobre la variable dependiente, sin tener en
cuenta la interacción.
SEXO. Esta fila recoge la influencia del factor SEXO sobre la
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 59

TAS. Dado que el valor de la F es significativo, debemos concluir


que los valores de la TAS son significativamente distintos entre
hombres y mujeres.
CLSO. En esta fila se recoge la influencia del factor CLSO, sobre
la TAS. Dado que la F no es significativa, concluimos que no tenemos
evidencia de que los valores de la TAS sean significativamente
distintos.
2-WAY INTERACTIONS. En esta fila se recoge, de forma con-
junta, la influencia de todas las interacciones de orden 2; en este
caso sólo hay una. Al haber una sola interacción doble, los valores
de esta fila son iguales que los de la siguiente, en la que se recogen
los efectos de la interacción entre los dos factores que intervienen
en este modelo.
SEXO CLSO. En esta fila se recoge la interacción entre estas
dos variables. Dado que el valor de la F no es significativo, debe-
mos concluir que no tenemos evidencia de que exista interacción
entre estas dos variables.
EXPLAINED. En esta fila se recoge la influencia de todos los
factores que intervienen en el modelo, incluidas las interacciones.
Esta fuente de variación recoge la variabilidad de la variable de-
pendiente, explicada por los factores.
RESIDUAL. En esta fila se recoge la variabilidad de la variable
dependiente, no explicada por el modelo.
TOTAL. En esta fila se recoge la variabilidad observada en la
variable dependiente por todas las causas.
El subcomando VARIABLES permite solicitar varios análisis de
la varianza hasta 5, con una sola instrucción, si incluyéramos la
siguiente instrucción en una sesión con SPSS:

ANO VA VARIABLES = TAS TAD BY CLSO (1,3) FUMA (1,2).

Estaríamos solicitando dos análisis de la varianza de dos vías cada


uno de ellos. En el primero, la variable dependiente es TAS y los
factores CLSO y FUMA; en el segundo, la variable dependiente es
TAD y los factores CLSO y FUMA. Obsérvese que cada variable,
antes de la palabra clave BY, se considera como variable dependiente
para un análisis de la varianza de tantas vías como variables haya
entre BY y otra palabra clave, delimitador o punto fin de instrucción.
60 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

A continuación veremos un ejemplo de análisis de la varianza


de tres vías. Inicie una sesión con SPSS y siga las siguientes ins-
trucciones:

70 Cases were processed. 0 Cases (.0 PCT) were missing.

En la tabla anterior, se nos muestran los resultados correspon-


dientes al último grupo de instrucciones, en el que se plantea un
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 61

análisis de la varianza de tres vías. No hay interacciones significativas


de segundo orden, ni tampoco triple, Los niveles de TAS son signi-
ficativamente distintos entre fumadores y no fumadores, con signifi-
cación de la f menor que 0.05.
En el análisis de la varianza de dos vías, examinado en este
mismo apartado, en el que la variable dependiente era la TAS y los
factores el SEXO y la clase social CLSO, habíamos concluido que
entre hombres y mujeres existían diferencias significativas en los
valores de la TAS. En el ejemplo de ANO VA de tres vías, en el que
la variable dependiente es la TAS y los factores el SEXO, la clase
social CLSO y el TABACO, se encuentran diferencias significativas
de los valores de la TAS entre fumadores y no fumadores, pero no
hemos encontrado diferencias significativas entre hombres y mujeres.
Una explicación para esto sería que el factor que influye en la TAS
es el tabaco y que entre el tabaco y el sexo existe una asociación
que es lo que detectó el ANOVA de dos vías; el tabaco actúa como
factor de confusión.

La palabra clave WITH. ANCOVA con SPSS

Si queremos incluir alguna covariable, con lo cual estaríamos


planteando un análisis de la covarianza, debemos hacerlo mediante
la palabra clave WITH asociada al subcomando VARIABLES. La
variable que vaya tras WITH será considerada como covariable. La
estructura de las instrucciones, es igual que en los casos de análisis
de la varianza, pero incluyen la palabra clave WITH, seguida de la
covariable.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda de las instrucciones anteriores solicita un análisis de


la covarianza de dos vías, en el que la variable dependiente es
62 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

TAS, los factores son el SEXO y la clase social CLSO, y la covariable


es la EDAD. Desde el punto de vista conceptual, estamos interesados
en estudiar las variaciones de la TAS, en función de los dos factores
SEXO y CLSO, al igual que en el ANOVA que planteamos en el
apartado anterior, pero en los cálculos vamos a controlar la influencia
de la variable EDAD, que es la covariable.
Los resultados obtenidos son los siguientes:

70 Cases were processed.


0 Cases (.0 PCT) were missing.

En la tabla anterior, que corresponde al análisis de la covarianza


planteado anteriormente, hay dos fuentes de variación nuevas, CO-
VARIATES, que recogen la influencia de todas las covariables de
forma conjunta. En este caso, sólo hay una covariable (la EDAD) y
por eso los resultados de esta fila y la siguiente, son los mismos. En
la fila EDAD se recoge la asociación lineal entre TAS, que es la
variable dependiente, y EDAD, que es la covariable. En este caso
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 63

observamos que la F es significativa; por lo tanto, existe una aso-


ciación lineal significativa entre TAS y EDAD.
La fila EXPLAINED recoge, en este caso, la variabilidad de la
TAS, debida los factores y a la covariable.
Aquí no encontramos diferencias significativas en los valores de
la TAS entre hombres y mujeres, pero cuando planteamos el pro-
blema sin incluir la covariable EDAD sí aparecen. Esto podría ocurrir
porque la influencia detectada en el factor SEXO se debiera a la
EDAD, al estar asociada esta variable con el SEXO.
Las sumas de cuadrados se calculan teniendo en cuenta la in-
fluencia de la covariable; por esto, los resultados son distintos a los
obtenidos con ANOVA.

El subcomando STATISTICS

Este subcomando permite tres especificaciones posibles en cuan-


to a salida de datos estadísticos. Estas especificaciones son las si-
guientes:

1. Esta especificación nos permite obtener la tabla correspon-


diente al análisis de clasificación múltiple, que incluye la media de
la variable dependiente correspondiente a todos los datos, a la que
llamaremos media general, y la desviación, con respecto a la media
general de la media de la variable dependiente correspondiente a
cada categoría de los factores implicados en el modelo. También
incluye los coeficientes ETA, BETA, coeficiente de correlación y de
determinación.
2. Esta especificación muestra los coeficientes de regresión entre
la variable dependiente y las covariables.
3. Esta especificación muestra una tabla con las medias de la
variable dependiente y el número de casos, correspondiente a cada
celda implicada en el modelo.
ALL. Si asociamos esta especificación al subcomando STATIS-
TICS, obtendremos todos los estadísticos correspondientes a las
tres opciones anteriores.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
64 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La segunda de las anteriores instrucciones permite un análisis


de la varianza de dos vías, siendo la variable dependiente CB y los
factores SEXO y CLSO. La especificación 3, asociada al subcomando
STATISTICS, permite una salida en tabla, con el colesterol basal
medio y el número de casos correspondientes a cada celda impli-
cada en el análisis. Los resultados obtenidos son los siguientes:

En la tabla anterior tenemos los datos del colesterol medio y el


número de casos. Para el total de los datos, por cada fila, que en
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 65

este caso corresponde al sexo, el colesterol medio de los hombres


es 246.66 y hay 35, hay 35 mujeres y su colesterol medio es 226.89.
El colesterol medio de las columnas, que en este caso corresponden
a las clases sociales: hay 13 individuos de clase social alta, CLSO =
1, y el colesterol medio de esta clase social es de 238.38; hay 50
individuos de clase social media cuyo colesterol medio es 239.5 y
hay 7 individuos de clase social baja cuyo colesterol medio es de
214.29. Por último se indican los valores para las celdas; la primera
celda corresponde a individuos con SEXO = 1 y CLSO = 1, hombres
de clase social alta; de estos hay 8 y su colesterol medio es 251.5.

70 Cases were processed.


0 Cases (.0 PCT) were missing.

Veamos a continuación un ejemplo en el que obtendremos to-


dos los estadísticos.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
66 ESTADÍSTICA MULTIVARIANTE Y NO PARAMETRICA CON SPSS

La segunda de las instrucciones anteriores solicita un análisis de


la covarianza, siendo la variable dependiente TAS y los factores
CLSO y FUMA; la covariable es la variable EDAD. La especificación
ALL, asociada al subcomando STATISTICS, permite el listado de
todas los estadísticos.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 67

70 Cases were processed.


0 Cases (.0 PCT) were missing.
68 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El subcomando OPTIONS
El subcomando OPTIONS nos permite modificar los formatos de
salida de los resultados y modificar el tratamiento de los casos
ausentes. Este subcomando debe separarse de otros subcomandos
mediante el separador (/). Nos referiremos a las distintas opciones
posibles citándolas por su correspondiente número. Las opciones
disponibles son las siguientes:
OPTION 1. Esta opción incluye en el análisis los casos con
valores ausentes de usuario. Los casos con valores ausentes de
sistema, en alguna de las variables relacionadas con el subcomando
VARIABLES, son excluidos del análisis. Por defecto, en caso de no
utilizar esta opción, todos los casos con valores ausentes, de usuario
o de sistema, en alguna de las variables relacionadas con el sub-
comando VARIABLES, se excluyen del análisis.
OPTION 2. Esta opción suprime de los resultados las etiquetas
de los valores y de las variables.
OPTION 3. Suprime en la tabla de resultados todos los términos
de interacción.
OPTION 4. Suprime en la tabla de resultados el término de
interacción triple e interacciones de orden superior.
OPTION 5. Suprime en la tabla de resultados los términos de
interacción de orden cuarto e interacciones de orden superior.
OPTION 6. Suprime en la tabla de resultados el término de
interacción quíntuple e interacciones de orden superior.
OPTION Z. El cálculo de los parámetros correspondientes a
los efectos principales MAIN EFFECTS, se realiza teniendo en cuenta
a las covariables.
OPTION 8. El cálculo de los parámetros correspondientes a
los efectos principales se realiza sin tener en cuenta a las covariables;
para el resto de las fuentes de variación, se tiene en cuenta a las
covariables.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. 69

OPTION 9. Todos los cálculos se realizan teniendo en cuenta,


simultáneamente, los efectos de todos los elementos implicados en
el modelo. Si la opción 9 se incluye en las instrucciones, dejan de
tener efecto las opciones 7 y 8, aunque estén incluidas en las ins-
trucciones. Las especificaciones 1 y 3 del subcomando STATISTICS
no se muestran con esta opción.
OPTION 10. Aproximación jerárquica. Los efectos principales
y el efecto de covariables se calculan de forma jerárquica. En el
cálculo de los efectos principales, se tienen en cuenta, únicamente,
los factores cuyos efectos se han calculado previamente y, en el
cálculo de los efectos de las covariables, se tiene en cuenta el
efecto de las covariables evaluadas previamente. Supongamos un
ANOVA de tres vías, con los factores FUMA, CLSO y SEXO. En el
cálculo de los efectos del primer factor, FUMA, no se tendrán en
cuenta los otros factores, en el cálculo de los efectos del segundo
factor, CLSO, se tendrá en cuenta el primer factor y, en el cálculo de
los efectos del tercer factor, SEXO, se tendrán en cuenta los otros
dos. De la misma forma jerárquica se actúa en el cálculo de las
fuentes de variación. Para el cálculo de los parámetros estadísticos
de una de las fuentes de variación, se tienen en cuenta las fuentes
de variación previas según el orden de la tabla.
OPTION 11. Estrecha la salida correspondiente a la opción 3
del subcomando STATISTICS.
Capítulo 3
MEDIDAS DE ASOCIACIÓN
LINEAL. EL PROCEDIMIENTO
CORRELATION

Es frecuente que nos interese saber si dos variables cuantitativas


están asociadas y, en caso de estarlo, cuál es la función matemática
que rige su dependencia. De todas las dependencias funcionales
posibles, la más estudiada es la lineal. Existe dependencia lineal
entre dos variables cuando las medidas de asociación lineal son
significativas.
Hasta hace pocos años, en la mayoría de los trabajos publicados
en los que se describía una relación funcional entre dos variables,
ésta era lineal. Ello se debía a la dificultad de estudiar asociaciones
no lineales. Actualmente, el uso cotidiano de paquetes estadísticos
que permiten realizar complejos cálculos ha permitido que rutina-
riamente se describan asociaciones no lineales. No obstante, la
relación lineal entre dos o más variables sigue teniendo una gran
importancia y su uso es muy frecuente.

COERCIENTE DE CORRELACIÓN
LINEAL DE PEARSQM
Uno de los problemas prácticos que se nos plantean es decidir
cuándo podemos considerar que entre dos variables hay una aso-
ciación lineal y, en caso de que la asociación lineal exista, cuál es
su fuerza. En las observaciones experimentales, es difícil que dos
variables tengan una asociación lineal perfecta. En este caso, si
representáramos los datos correspondientes a las variables en un
72 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

diagrama de puntos, dibujarían una recta perfecta. Pero esto es


excepcional: lo habitual es que esta asociación, aunque exista no
sea tan perfecta.
El coeficiente de correlación lineal de Pearson permite estudiar
la fuerza de la asociación lineal entre dos variables, Este coeficiente,
cuando se calcula a partir de datos muéstrales, suele representarse
por r, que es un estimador del coeficiente de correlación poblacio-
nal ρ.
Se considera que no existe asociación lineal entre dos variables
si no encontramos evidencia de que ρ es distinto de 0, y aceptare-
mos que entre dos variables existe asociación lineal si ρ es distinto
de cero. El coeficiente de correlación de Pearson muestral (r), es
un parámetro que se calcula a partir de datos muéstrales, pero
nuestro interés es el parámetro poblacional (como ocurre siempre
en estadística analítica). Si en una población el coeficiente de co-
rrelación poblacional es cero, por efecto del muestreo, r en la ma-
yoría de las ocasiones será distinto de cero, pero si el valor de r es
muy distinto de cero y la probabilidad de obtenerlo por efecto del
azar en el muestreo es menor que α, nivel de significación aceptado
en el contraste de hipótesis, rechazaremos la hipótesis nula y con-
cluiremos que existe asociación lineal entre las variables. El contraste
de hipótesis planteado en este caso es:

En el párrafo anterior, hemos dicho que consideraremos que


existe asociación lineal entre dos variables si ρ # 0, pero si existe
asociación lineal, ésta puede ser fuerte o débil. Si α es igual a uno o
a menos uno, esto indica que la fuerza de la asociación lineal es
máxima, el signo no tiene importancia en cuanto a la fuerza de la
asociación lineal (indica si las dos variables aumentan simultánea-
mente, signo positivo, o si al aumentar una disminuye la otra, signo
negativo), pues tan fuerte es la asociación lineal entre dos variables
si r = 0.7 que si r = —0.7.
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION 73

El contraste de hipótesis anterior lo resolvemos evaluando el


siguiente estadístico:

El estadístico anterior, si ρ = 0, se distribuye como una t de


STUDENT con n — 2 grados de libertad; si, al resolverlo para un
caso concreto, obtenemos como resultado una t de STUDENT muy
poco probable de obtener, con la probabilidad menor que a, recha-
zaremos la hipótesis nula y aceptaremos que existe asociación lineal
entre las variables.
El coeficiente de correlación lineal de Pearson, mide la fuerza
de la asociación lineal. Dicha fuerza será nula (asociación lineal
inexistente) si ρ = 0; la fuerza de la asociación lineal aumenta según
el valor del coeficiente se aproxima a uno o a menos uno, y la
asociación lineal es máxima si ρ = 1 o = — 1. A algún lector puede
haberle extrañado que nos refiramos más a ρ que a r, pero esto se
debe a que nuestro interés es saber lo que ocurre en la población,
aunque nos ayudaremos de los parámetros muéstrales para ello.
El coeficiente de correlación muestral de Pearson se calcula
según la siguiente expresión:

En la ecuación anterior, Sx es la desviación típica de la variable


X y Sy es la desviación típica de la variable Y; n es el número de
puntos, tamaño de que consta la muestra.
Si el coeficiente de correlación lineal de Pearson es 0, ello indica
74 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

únicamente que no existe asociación lineal entre las variables sobre


las que se han calculado, pero no indica que entre las variables no
pueda existir otra forma de asociación no lineal. Dos variables pue-
den tener una fuerte relación de dependencia o asociación no lineal,
y tener una nula asociación lineal.

EL PROCEDIMIENTO CORRELATION

El cálculo de coeficientes de correlación entre dos variables


con SPSS lo haremos mediante el procedimiento CORRELATION, al
cual podremos asociarle varios subcomandos que nos permitan
adecuar los resultados a nuestras necesidades. El subcomando VA-
RIABLES nos permite indicar en cuál o cuales variables queremos
calcular la fuerza de la asociación lineal.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda de las instrucciones anteriores, calcula el coeficiente


de correlación lineal de Pearson entre las variables TAS y CB. El
subcomando VARIABLES, aunque se, ha incluido, puede omitirse.
Veamos los resultados obtenidos:

La tabla anterior nos muestra en forma de matriz los coeficientes


de correlación entre las variables incluidas en la instrucción. El
coeficiente de correlación entre TAS y CB es 0,6719 y los dos aste-
riscos junto a él indican que este valor es significativo con p < 0.001;
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION 75

por lo tanto, podemos afirmar, con una pequeña probabilidad de


error, que existe una moderada asociación lineal entre las variables
TAS y CB. Además, como r es positivo, ello indica que valores
elevados de una variable se asocian con valores elevados de la
otra y valores bajos de una variable se asocian con valores bajos
de la otra.
En la diagonal principal de la matriz, figuran los coeficientes de
correlación de cada variable consigo misma, que evidentemente
es 1.
Al final del listado de resultados, SPSS indica que imprimirá un
punto en caso de no poder calcular el coeficiente de correlación.
Esto significa que, si el lugar en que usted espera que aparezca un
coeficiente de correlación aparece un punto, ello se debe a que el
cálculo no ha podido realizarse.
Veamos otro ejemplo. Inicie una sesión con SPSS y siga las
siguientes instrucciones:

En la segunda de las instrucciones anteriores, solicitamos un


estudio de correlación entre las variables, TAD, CB y TB. En este
caso, hemos omitido el subcomando VARIABLES. Si tras CORRELA-
TION, con o sin el subcomando VARIABLES, ponemos una lista de
variables, se mostrarán en forma de matriz los coeficientes de co-
rrelación lineal de Pearson. Entre todas las variables de la lista
tomadas dos a dos, veamos los resultados:
76 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la matriz de correlaciones podemos observar que, entre las


variables TAD y CB r = 0.6884 y este coeficiente es significativo
con p < 0.001 entre las variables CB y TB r = —0.1184 pero no es
significativo, por lo tanto no tenemos evidencia de que exista aso-
ciación lineal entre estas dos variables. Lo mismo ocurre con las
variables TAD y TB.
En el ejemplo anterior, hemos obtenido todos los coeficientes
de correlación lineal, combinando dos a dos todas las variables de
la lista, pero en ocasiones podemos estar interesados en obtener
solamente los coeficientes de correlación lineal entre una variable
y una lista de variables, lo cual podemos conseguir utilizando la
palabra clave WITH.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda de las anteriores instrucciones indica que deben


calcularse los coeficientes de correlación entre la variable TAS y
las variables TAD CB y PESO. Obsérvese que la palabra clave
WITH indica que en este caso no queremos obtener todos los co-
eficientes de correlación posibles, como fue el caso del ejemplo
anterior.

En la tabla anterior podemos observar que sólo se han calculado


los coeficientes de correlación entre la variable TAS y las otras tres
variables. Los tres coeficientes de correlación son significativos y
la asociación lineal más fuerte se encuentra entre las variables TAS
y TAD.
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION 77

El subcomando STATISTICS

El procedimiento CORRELATION permite la asociación del sub-


comando STATISTICS, el cual nos va a permitir obtener algunos
parámetros estadísticos adicionales a los ya estudiados. Las opciones
de este subcomando son las siguientes:

1. Esta opción muestra una tabla que incluye el número de


casos válidos, la media y la desviación típica para cada una de las
variables incluidas en la instrucción.
2. Esta opción muestra en los resultados los productos cruzados
y la covarianza para todas las combinaciones binarias posibles entre
las variables listadas.
ALL. Esta opción muestra en la tabla de resultados los estadís-
ticos correspondientes a las opciones 1 y 2.
Veamos un ejemplo. Inicie una sesión con SPSS y siga las si-
guientes instrucciones:

La segunda de las instrucciones anteriores pide los coeficientes


de correlación entre las variables CB TAS TAD y PESO. La inclusión
ALL del subcomando STATISTICS incluirá en el listado de resultados
los estadísticos correspondientes a la opción 1 y a la 2. Los resultados
obtenidos son los siguientes.
78 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Como consecuencia de la inclusión del subcomando STATISTICS,


con la opción ALL, es decir todos los parámetros disponibles, en
primer lugar hemos obtenido una tabla con el número de casos
válidos, media y desviación típica de cada variable implicada en la
instrucción. A continuación de la tabla anterior se muestra otra tabla
con los productos cruzados, número de casos válidos y covarianzas
para cada combinación posible entre las variables de la lista tomadas
dos a dos. Por ultimo se lista las correlaciones entre todas las varia-
bles incluidas en la lista.

El subcomando OPTIONS

El procedimiento CORRELATION, mediante el subcomando OP-


TIONS permite realizar algunas especificaciones sobre la salida de
los resultados y el tratamiento de los casos con casos ausentes. Las
opciones disponibles para este subcomando son las siguientes:

1. Si no especificamos ninguna opción, los casos con valores


ausentes en alguna de las variables incluidas en la instrucción no
se analizan. Si utilizamos esta opción se incluirán en el análisis los
casos con valores ausentes de usuario.
2. Esta opción incluye en el cálculo de cada coeficiente de
correlación los casos con valores válidos para las variables que
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION 79

intervengan en el cálculo, aunque tengan valores ausentes en otras


variables incluidas en la lista.
3. En los listados de resultados estudiados anteriormente, los
contrastes y las probabilidades mostradas correspondían a contrastes
de hipótesis de una cola (l.taile signif); si utilizamos esta opción en
la matriz de coeficientes de correlación, nos indicará la significación
de los coeficientes de correlación, pero sobre un contraste de hipó-
tesis de dos colas también llamado bilateral.
4. Esta opción permite grabar un fichero con los resultados
correspondientes a la matriz de correlación y el número de casos
empleados para el cálculo de cada coeficiente. Esta opción no se
aplicará si hemos usado la palabra clave WITH.
5. Esta opción incluye en los resultados el número de casos
utilizados en el calculo de cada coeficiente de correlación y la
probabilidad para cada coeficiente.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

En la matriz de coeficientes de correlación anterior, al haber


utilizado el subcomando OPTIONS con la opción 5 junto a cada
coeficiente, se nos muestra el número de casos empleado en su
80 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

cálculo y la probabilidad para un contraste bilateral. En este caso,


r = 0.4425 entre las variables PESO y TALLA y la probabilidad es
menor de 0.001; como es menor que el nivel de significación, re-
chazamos la hipótesis nula y aceptamos que existe una moderada
relación lineal entre las variables PESO y TALLA.
Capítulo 4
REGRESIÓN SIMPLE Y MÚLTIPLE.
EL PROCEDIMIENTO REGRESSION

En este capítulo estudiaremos el análisis de regresión lineal sim-


ple y múltiple. La regresión lineal es una técnica estadística que
analiza si los valores de una variable dependiente pueden predecirse
mediante un modelo lineal, en el que hay una o más variables
independientes. Las variables implicadas en el modelo deben ser
cuantitativas continuas.
Como en capítulos anteriores, haremos una introducción teórica
y a continuación resolveremos ejemplos utilizando SPSS.
Recomendamos al lector estudiar detenidamente el enfoque de
la regresión simple, puesto que, conceptualmente, la regresión múl-
tiple es una extensión de la simple, aunque con la inclusión de
algunos conceptos nuevos.

INTRODUCCIÓN
El análisis de regresión es una técnica estadística de análisis
multivariante, que estudia las variaciones de una variable cuantitativa
continua, en función de una o más variables cuantitativas continuas.
La variable cuya variabilidad queremos estudiar es la variable de-
pendiente o respuesta, y las variables en función de las cuales
varía son las variables independientes, también llamadas variables
predictoras.
El objetivo del análisis de regresión es predecir los valores de
la variable respuesta, en función de los valores de las variables
independientes.
82 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

TIPOS DE ANÁLISIS DE REGRESIÓN


Los análisis de regresión pueden ser de varios tipos, según el
número de variables independientes y de la función.
Si el número de variables independientes es una, la regresión
es simple y si el número de variables independientes es mayor
que una la regresión es múltiple. Por ejemplo, si queremos estudiar
la dependencia de los valores de la tensión arterial sistólica (variable
dependiente), en función de los valores del colesterol (variable
independiente), al haber una sola variable independiente, la regre-
sión es simple. Si quisiéramos estudiar la variabilidad de la tensión
arterial sistólica, en función de los niveles de colesterol, edad y
nivel de ácido úrico, tendríamos una regresión múltiple con tres
variables independientes.
Atendiendo al número de variables independientes, la regresión
puede ser simple o múltiple.
Otra característica que debe tenerse en cuenta en la clasificación
de la regresión es la función. Si la dependencia funcional de la
variable respuesta respecto a las variables independientes es lineal,
la regresión es lineal y si la función es no lineal, la regresión es no
lineal.
Una función lineal está compuesta por una constante más un
número de sumandos igual al número de variables independientes;
cada sumando está compuesto por la correspondiente variable in-
dependiente elevada a la potencia uno multiplicada por un factor
constante, que es el coeficiente de regresión correspondiente a esa
variable. Todas las relaciones funcionales distintas a la lineal son
funciones no lineales.
Atendiendo a las dos características utilizadas en la clasificación
de la regresión, número de variables y forma funcional la regresión
puede ser:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 83

REGRESIÓN LINEAL SIMPLE

En este tipo de análisis de regresión hay una sola variable inde-


pendiente y la dependencia de la variable respuesta respecto a la
predictora sigue una función lineal como la siguiente:

En la expresión anterior, Y es la variable dependiente y X es la


variable independiente; el término independiente B0 es el valor de
la variable dependiente cuando X = 0. También se le suele deno-
minar "ordenada en el origen". B1 es el coeficiente de regresión
lineal y es el incremento de la variable dependiente por cada unidad
de aumento en la variable independiente. B0 y B1 son parámetros
poblacionales, que estimaremos a partir de datos muéstrales.
Si existe regresión lineal entre Y y X, el valor de la variable
dependiente en un elemento cualquiera de la población viene dado
por la siguiente expresión:

El parámetro Ei recoge las diferencias encontradas entre la rela-


ción lineal y el valor de la variable, indica la variabilidad de la
variable dependiente debida a causas no controladas por el modelo.
A Ei también se le denomina residuo; como veremos en un apartado
posterior, el análisis de los residuos es una parte muy importante
del análisis de regresión.
La estimación de los parámetros de regresión lineal simple puede
hacerse por varios métodos. El más utilizado es el de mínimos
cuadrados, que consiste en calcular una recta tal que la suma de
todas las diferencias entre los valores observados y la recta sean
los mínimos posibles.
El cálculo del estimador del coeficiente de regresión, a partir de
los datos muéstrales, viene dado por la siguiente expresión:
84 ESTADÍSTICA MULTWARIANTE Y NO PARAMÉTRICA CON SPSS

El estimador del término independiente (ordenada en el origen),


puede calcularse mediante la siguiente expresión:

Mediante las expresiones (3) y (4) calcularemos, a partir de los


datos muéstrales, los estimadores de los parámetros de la recta de
regresión.

Variabilidad cuadrática. Suma de cuadrados


Aunque exista relación lineal significativa entre dos variables, lo
habitual es que la variable independiente explique solamente una
parte de las variaciones observadas de la variable dependiente. El
resto de la variabilidad, se debe a causas no controladas por el
modelo.
La suma de todas las diferencias de los valores de la variable
dependiente respecto a la media, que es la variabilidad por todas
las causas, podemos descomponerla en dos partes: la explicada
por el modelo de regresión y la debida a otras causas.
En las expresiones siguientes, Yi es el valor de la variable de-
pendiente, correspondiente al iésimo elemento. Xi es el valor de la
variable independiente, correspondiente al iésimo elemento. B0 re-
presenta el factor constante poblacional del modelo lineal. B1 re-
presenta el coeficiente de regresión lineal poblacional, correspon-
diente a la variable independiente. B0 representa el factor constante
muestral, del modelo lineal, es un estimador de B0. b1 representa el
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 85

coeficiente de regresión lineal muestral, correspondiente a la variable


independiente.
En los modelos matemáticos, representamos los parámetros po-
blacionales, pero los resultados experimentales sólo permiten el
cálculo de los estimadores de dichos parámetros.
Esto podemos expresarlo matemáticamente de la siguiente ma-
nera:

A partir del modelo anterior, vamos a calcular las variabilidades


cuadráticas.
La variabilidad cuadrática total SSTOTAL la calcularemos a partir
de la siguiente expresión:

El término anterior, representa la variabilidad cuadráticas de la


variable dependiente, debida a todas las causa, las explicadas por
la variable independiente y las no explicadas por el modelo.
La variabilidad cuadrática debida a la regresión la calcularemos
a partir de la siguiente expresión:

La expresión anterior representa la variabilidad cuadrática de


la variable dependiente, explicada por la variable independiente.
86 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La variabilidad cuadrática debida a causas no controladas por el


modelo la calcularemos a partir de la siguiente expresión:

La suma de cuadrados cumple la siguiente relación:

La variabilidad total la hemos descompuesto en la explicada por


la regresión y la debida a otras causas.
Los cuadrados medios MS los calcularemos dividiendo las sumas
de cuadrados entre sus correspondientes grados de libertad. Los
grados de libertad correspondientes a la regresión son iguales al
número de variables independientes incluidas en el modelo (en el
caso de la regresión simple, solamente uno). Los grados de libertad
totales son- iguales al número de observaciones menos uno. Los
grados de libertad correspondientes al SSE son iguales al número
de observaciones menos dos.
A la suma de cuadrados que hemos denominado como error
otros autores la denominan RESIDUAL; SPSS también la denomina
RESIDUAL. Por lo tanto, SSERROR es sinónimo de SSRESIDUAL y MSERROR
es sinónimo de MSRESIDUAL.

Consistencia de la asociación lineal

La asociación lineal entre dos variables, aun siendo significati-


va, puede ser fuerte o débil. Necesitamos un parámetro que mida
la fuerza de la asociación lineal entre dos variables. El más utili-
zado es el coeficiente de determinación.
El coeficiente de determinación R2 nos indica la fuerza de la
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 87

asociación lineal entre dos variables. Este estadístico, puede tomar


valores entre 0 y 1. Un valor 0 indica ausencia de relación lineal
entre las dos variables y un valor 1 indica una relación lineal perfec-
ta. Este estadístico, multiplicado por cien, indica el porcentaje de
las variaciones de la variable dependiente que explica el modelo.
El coeficiente de determinación viene dado por la siguiente ex-
presión:

Supongamos que, en un modelo lineal simple, en el que la varia-


ble dependiente es el PESO de una persona y la variable indepen-
diente la TALLA, un coeficiente de determinación de 0.76, significa
que el 76% de las variaciones observadas en el peso son explicables
por las variaciones de la talla.
El coeficiente de determinación expresa la variabilidad, explicada
por el modelo de regresión. A partir de él podemos calcular el
coeficiente de alienación. Este coeficiente expresa la proporción
de la variabilidad de la variable dependiente no explicada por el
modelo y viene dado por la siguiente expresión:

En el ejemplo anterior, en el que el coeficiente de determinación


es 0.76, el coeficiente de alienación es 0.24; esto indica que el 24%
de las variaciones observadas del peso no son explicables por el
modelo (en este caso por las variaciones de la talla).
88 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Estimaciones en regresión lineal simple


Uno de los fundamentos del análisis de regresión es estimar
valores de la variable dependiente. Supongamos que, en un expe-
rimento hemos encontrado una asociación lineal entre la variable
dependiente 7 (tensión arterial sistólica) y la variable independiente
X (colesterol basal), según la siguiente expresión:

Basándonos en la expresión anterior, queremos estimar el valor


de la tensión arterial sistólica en individuos que tienen un colesterol
basal de 300 mg/100 mi.

La estimación indica que tendrán una tensión arterial sistólica


de 160 mm Hg.
El error estándar de y Sy viene dado por la siguiente expresión:

A partir de la expresión anterior, podemos calcular un intervalo


de confianza para el valor estimado.
El intervalo de confianza para una estimación viene dado por la
siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 89

En la expresión anterior, tα/2, y es el valor de la abscisa, para una


distribución t de Student tal que el área bajo la curva para valores
mayores sea α/2, y indica los grados de libertad, que son n — 2, y
n es el número de observaciones, Ŷ es el valor de la estimación
según los datos muéstrales y Sx la variabilidad cuadrática de la
variable independiente, que viene dada por la siguiente expresión:

S viene dada por la siguiente expresión:

Hipótesis en regresión lineal simple


La hipótesis que queremos contrastar en un modelo de regresión
simple es que existe asociación lineal entre la variable dependiente
y la variable independiente. Si existe asociación lineal, el coeficiente
de regresión lineal debe ser significativamente distinto de cero.
Las hipótesis en este caso son las siguientes:

Habitualmente a es igual a 0.05.


90 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El contraste de hipótesis anterior lo podemos resolver de dos


maneras: calculando la F de Snedecor experimental correspondiente
al cociente entre MSREG y MSRES, si es significativa rechazaremos la
hipótesis nula y concluiremos que existe regresión lineal entre las
variables analizadas.
Otra manera de resolver el contraste de hipótesis anterior, es
teniendo en cuenta que si B1 es igual a cero, el cociente de b1
(estimador de B1) por Sb1 (error estándar de b1) sigue una distribu-
ción t de STUDENT con n — 2 grados de libertad.
SPSS proporciona los datos necesarios, para resolver el contraste
de hipótesis por los dos métodos.
Los resultados los dispondremos en una tabla similar a la utilizada
en el análisis de la varianza.

Si existe regresión estadísticamente significativa, el valor de la


F experimental será mayor que el punto crítico del contraste, y la
probabilidad de encontrar dicha F, bajo los supuestos de la hipó-
tesis nula, es menor que 0.05. Si la probabilidad es mayor que
0.05, no podremos rechazar la hipótesis nula y concluiremos que
no tenemos evidencia de que exista relación lineal entre las va-
riables.

Asunciones del análisis de regresión


La aplicabilidad de un modelo de regresión es estadísticamente
válida si se cumplen las siguientes condiciones:
I) La variable dependiente es aleatoria. Para cada posible
valor de x, hay una subpoblación de valores de la variable de-
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 91

pendiente. Con distribución normal, la media de dicha distribu-


ción se encuentra en la recta de regresión.
II) Las varianzas de todas las subpoblaciones de valores de la
variable dependiente, asociadas a cada valor, de la variable inde-
pendiente (x) tienen la misma varianza.
III) Las subpoblaciones de valores de la variable dependiente,
asociadas a los valores de x, son independientes entre sí.

REGRESIÓN LINEAL MÚLTIPLE

Conceptualmente, la única diferencia entre la regresión simple


y la múltiple es que el número de variables independientes es
mayor que 1, El modelo matemático, en este caso, es el siguiente:

En el modelo anterior, Bi es el coeficiente de regresión corres-


pondiente a la iésima variable; indica el incremento de la variable
dependiente, por aumento unitario de la iésima variable indepen-
diente, suponiendo fijas el resto de las variables.

Variabilidad cuadrática. Suma de cuadrados


Aunque exista relación lineal significativa entre la variable de-
pendiente y las variables independientes, lo habitual es que las va-
riables independientes expliquen solamente una parte de las varia-
ciones observadas de la variable dependiente. El resto de la variabi-
lidad, se debe a causas no controladas por el modelo.
La suma de todas las diferencias de los valores de la variable
dependiente, respecto a la media, que es la variabilidad por todas
las causas, podemos descomponerla en dos partes, la explicada
por el modelo de regresión y la debida a otras causas.
En las expresiones siguientes, Yi es el valor de la variable de-
pendiente, correspondiente al iésimo elemento. Xi es el valor de la
92 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

variable independiente, correspondiente al iésimo elemento. B0 re-


presenta el factor constante poblacional del modelo lineal. B1 re-
presenta el coeficiente de regresión lineal poblacional, correspon-
diente a la variable independiente. B0 representa el factor constante
muestral del modelo lineal; es un estimador de B0 b1 representa el
coeficiente de regresión lineal muestral, correspondiente a la variable
independiente.
En los modelos matemáticos, representamos los parámetros po-
blacionales, pero los resultados experimentales sólo permiten el
cálculo de los estimadores de dichos parámetros.
Esto podemos expresarlo matemáticamente de la siguiente ma-
nera:

A partir del modelo anterior, vamos a calcular las variabilidades


cuadráticas.
La variabilidad cuadrática total SSTOTAL la calcularemos a partir
de la siguiente expresión:

El término anterior representa la variabilidad cuadrática de la


variable dependiente debida a todas las causas, las explicadas por
las variables independientes y las no explicadas por el modelo.
La variabilidad cuadrática debida a la regresión la calcularemos
a partir de la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 93

La expresión anterior representa la variabilidad cuadrática de la


variable dependiente, explicada por la variable independiente.
La variabilidad cuadrática debida a causas no controladas por el
modelo la calcularemos a partir de la siguiente expresión:

La suma de cuadrados, cumple la siguiente relación:

La variabilidad total la hemos descompuesto en la explicada por


la regresión y la debida a otras causas.
Los cuadrados medios MS los calcularemos dividiendo las sumas
de cuadrados entre sus correspondientes grados de libertad, Los
grados de libertad correspondientes a la regresión son iguales al
número de variables independientes incluidas en el modelo. Los
grados de libertad totales son iguales al número de observaciones
menos uno. Los grados de libertad correspondientes al SSE son
iguales al número de observaciones menos el número de variables
independientes menos uno (n — k — 1).
A la suma de cuadrados que hemos denominado como error
otros autores la denominan RESIDUAL; SPSS también la denomina
RESIDUAL. Por lo tanto SSERROR es sinónimo de SSRESIDUAL y MSERROR
es sinónimo de MSRESIDUAL.

Consistencia de la asociación lineal

La asociación lineal entre una variable dependiente y K variables


independientes, aun siendo significativa, puede ser fuerte o débil.
94 ESTADÍSTICA MULT1VARIANTE Y NO PARAMÉTRICA CON SPSS

Necesitamos un parámetro que mida la fuerza de la asociación


lineal. Los más utilizados son el coeficiente de correlación de Pearson
r (ver capítulo de correlación) y el coeficiente de determinación.
El coeficiente de determinación R2 nos indica la fuerza de la
asociación lineal en un modelo experimental de regresión múltiple.
Este estadístico puede tomar valores entre 0 y 1. Un valor 0 indica
ausencia de relación lineal y un valor 1 indica una relación lineal
perfecta. Este estadístico, multiplicado por cien, indica el porcentaje
de las variaciones de la variable dependiente, que explica el modelo.
El coeficiente de determinación viene dado por la siguiente ex-
presión:

El coeficiente de determinación expresa la variabilidad, explicada


por el modelo de regresión. A partir de él, podemos calcular el
coeficiente de alienación. Este coeficiente expresa la proporción
de la variabilidad de la variable dependiente no explicada por el
modelo y viene dado por la siguiente expresión:

Hipótesis en regresión lineal múltiple


La hipótesis que queremos contrastar en un modelo de regresión
múltiple es que existe asociación lineal entre la variable dependiente
y las variables independientes. Si existe asociación lineal, los coefi-
cientes de regresión lineal deben ser significativamente distintos
de cero.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 95

Las hipótesis, en este caso, son las siguientes:

Habitualmente, α es igual a 0.05.

La hipótesis nula, en regresión múltiple, es que todos los coefi-


cientes de regresión son cero, lo cual significa que no existe relación
lineal entre la variable dependiente y alguna de las variables inde-
pendientes. Póngase mucha atención a esta circunstancia, puesto
que si rechazamos la hipótesis nula, lo único que significa es que al
menos un coeficiente de regresión es significativo.
El contraste de hipótesis anterior lo vamos a resolver calculando
la F de Snedecor experimental correspondiente al cociente entre
MSREG y MSRES. Si es significativa, rechazaremos la hipótesis nula y
concluiremos que existe regresión lineal entre la variable depen-
diente y alguna de las variables independientes.
Un modelo de regresión múltiple tiene valor científico si es
significativa la F, correspondiente al modelo global, y son significa-
tivos todos los coeficientes de regresión de las variables incluidas
en el modelo. No es válido un modelo en el que los coeficientes de
regresión de una o más variables no son significativos, indepen-
dientemente de que lo sea la F correspondiente al modelo global.
Los resultados los dispondremos en una tabla similar a la utilizada
en el análisis de la varianza.
96 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Si existe regresión estadísticamente significativa, el valor de la F


experimental será mayor que el punto crítico del contraste, y la
probabilidad de encontrar dicha F bajo los supuestos de la hipótesis
nula, es menor que 0.05. Si la probabilidad es mayor que 0.05, no
podremos rechazar la hipótesis nula, y concluiremos, que no tenemos
evidencia de que exista relación lineal entre la variable dependiente
y ninguna de las variables independientes.

Asunciones del análisis de regresión


La aplicabilidad de un modelo de regresión es estadísticamente
válida si se cumplen las siguientes condiciones:
I) La variable dependiente es aleatoria. Para cada punto, des-
crito por una combinación de valores de las variables independien-
tes, hay una subpoblación de valores de la variable dependiente.
Con distribución normal, la media de dicha distribución se encuen-
tra en la recta de regresión.
II) Las varianzas de todas las subpoblaciones de valores dé la
variable dependiente, asociadas a cada punto descrito por las va-
riables independientes, son iguales.
III) Las subpoblaciones de valores de la variable dependiente,
asociadas a los valores de la variables independientes, son inde-
pendientes entre sí,

Interacción
En los modelos de análisis estadístico en los que intervienen
simultáneamente más de dos variables, puede haber interacción.
La interacción es una relación no lineal de las variables, además de
la lineal. Supongamos que tenemos una variable dependiente (y) y
dos variables independientes (X1 X2) cuyos coeficientes de regresión
múltiple son b1 y b2 respectivamente. Un modelo de regresión múl-
tiple con interacción sería el siguiente:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 97

En el modelo anterior, además de los dos términos aditivos pro-


pios de los modelos lineales, hay un término adicional multiplicativo.
Para que exista interacción en el caso anterior, los tres coeficientes
de regresión deben ser significativos.
En el caso anterior, hay una interacción binaria porque afecta a
dos variables. Cuando que en el modelo haya más de dos variables,
puede haber interacciones terciarias, cuaternarias, etc. Para una in-
terpretación completa del modelo, deben investigarse las interac-
ciones posibles.

Multicolinealidad
Un fenómeno que debe tenerse en cuenta en los modelos múltiples
es la multicolinealidad. Esto ocurre cuando las variables indepen-
dientes implicadas en el modelo llevan una información redundante
y la información de una o más variables también la aportan otras.
Supongamos que tenemos un modelo con K variables indepen-
dientes. Si una de las variables independientes, es combinación
lineal exacta de las demás, la matriz de datos (X) tendrá rango
menor que K. El rango, en este caso, es K — 1, la matriz del producto
cruzado (XX’) es singular y el sistema de ecuaciones que determi-
na no tiene solución única.
Sin llegar a la situación anterior, en la que la colinealidad es
completa, pueden darse situaciones en las cuales un porcentaje
importante de la información de una o más variables es aportado
también por otras variables. Tendremos entonces multicolinealidad
parcial.
Cuando existe multicolinealidad, las varianzas de los coeficientes
de regresión son grandes y podemos encontrarnos con un efecto
paradójico. En un modelo en el que existe multicolinealidad, pode-
mos encontrar una ecuación con un elevado coeficiente de deter-
minación. El nivel de significación del modelo es muy alto (valor
de la F de la tabla de ANOVA para la evaluación conjunta del
modelo elevada), pero los coeficientes de regresión de las variables,
analizados individualmente, pueden no ser significativos.
La varianza de los coeficientes de regresión viene dada por la
siguiente expresión:
98 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la expresión anterior, S viene dada por (4-14), Ri.. es el coefi-


ciente de correlación múltiple entre Xi y el resto de las variables
independientes teniendo en cuenta que la varianza del coeficiente
de regresión simple entre la variable dependiente y Xi es:

La ecuación anterior indica cuál es el valor de la varianza del


coeficiente de regresión entre la iésima variable independiente y
la variable dependiente.
Combinando las expresiones (4.24) y (4.25) obtenemos:

La expresión anterior nos explica, analíticamente, los efectos pa-


radójicos de la multicolinealidad: un efecto global (múltiple) muy
significativo, un coeficiente de determinación próximo a 1 y un
efecto simple pequeño.
Un parámetro cada vez más utilizado es el factor de incremento
de la varianza de la iésima variable, FIVi cuyo valor es:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 99

Conceptualmente, el FIVi es la proporción de variabilidad de la


iésima variable, que explican el resto de las variables indepen-
dientes.
La tolerancia de una variable es la proporción de variabilidad
de la variable, que no se explica por el resto de las variables
independientes.
La tolerancia y el FIV son muy útiles en la construcción de
modelos de regresión. Si construimos un modelo paso a paso entran-
do las variables de una en una, es útil conocer la tolerancia o el
FIV de las variables que no han entrado aun en la ecuación, respecto
a las variables independientes ya entradas en la ecuación. De esta
manera, las variables con mayor tolerancia son las que mayor infor-
mación aportarán al modelo.
Además de la tolerancia y el FIV, debemos estudiar la matriz de
correlaciones. Altas correlaciones entre las variables implicadas en
el modelo deben considerarse como indicios de colinealidad.
Puede ocurrir que, aun siendo pequeñas las correlaciones entre
las variables exista colinealidad. Supongamos que tenemos K varia-
bles independientes y construimos otra que sea la media de los
valores de las otras k variables; en este caso, la colinealidad será
completa, pero si K es grande, los coeficientes de correlación serán
pequeños. Por lo tanto, el estudio de la matriz de correlaciones no
es suficiente.
Una técnica que cada vez se utiliza más, aunque resulta algo
sofisticada, es el análisis de los autovalores de la matriz de correla-
ciones o de la matriz del producto cruzado. A partir de los autovalo-
res, podemos calcular el ÍNDICE DE CONDICIONAMIENTO (IC)
tanto global del modelo como de cada variable. El índice de condi-
cionamiento viene dado por la siguiente expresión:

El índice de condicionamiento, según (4-28), es la raíz cuadrada


del cociente entre el máximo y el mínimo autovalores. Si el IC es
100 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRIC A CON SPSS

mayor que 30, existe colinealidad elevada; si el IC es mayor que 10


y menor que 30, la colinealidad es moderada; si el IC es menor que
10, no existe colinealidad.
También es interesante el índice de condicionamiento para cada
variable ICi, que es la raíz cuadrada del cociente del máximo auto-
valor y el iésimo autovalor. La varianza de cada coeficiente de
regresión, incluida la constante, puede ser descompuesta como la
suma de componentes asociadas a cada uno de los autovalores. Si
el porcentaje de la varianza de algunos coeficientes de correlación
se asocia con el mismo autovalor, hay evidencia de colinealidad.

Correlación parcial
Se llama correlación parcial entre dos variables a aquella que
elimina la influencia de otra u otras variables.
La situación más utilizada es el estudio de la correlación parcial
entre la variable dependiente y una de las variables independientes,
que elimina la influencia de las demás variables independientes.
En la construcción de modelos, SPSS, en los modos FORWARD y
STEPWISE, utiliza la correlación parcial entre las variables indepen-
dientes no incluidas en la ecuación y la variable dependiente, eli-
minando la influencia de las variables independientes incluidas en
la ecuación como criterio de orden en la entrada de variables. La
variable con mayor correlación parcial es la primera en entrar.

Análisis de residuos
Un residuo es la diferencia entre el valor observado y el valor
estimado en un modelo de regresión.
Supongamos que tenemos el siguiente modelo:

El modelo anterior predice que la variable dependiente tomará


el valor 9 si la variable X1 toma el valor 1 y la variable X2 toma el
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 101

valor 2. El valor estimado o predicho, también llamado valor espe-


rado, es 9 en este caso. Si disponemos de una observación en la
que la variable X1 es igual a 1, la variable X2 es igual a 2 y la
variable dependiente Y vale 10, a este valor le denominaremos
valor observado. En este caso, la diferencia entre el valor observado
y el esperado es 10 — 9 = 1; diremos que el residuo correspondiente
a este punto es igual a 1. A los residuos los representaremos por la
letra E. Ei representa al iésimo residuo.
El valor estimado o predicho lo representaremos con el símbolo
Ŷ, y el valor observado mediante Y. En el ejemplo del párrafo
anterior, el valor observado es Y= 10, y el valor esperado es 7=9.
El residuo, por tanto, es: E = Y — Ŷ.
En los estudios comparativos de residuos, suelen utilizarse los
residuos estandarizados Es, Los residuos estandarizados vienen da-
dos por la siguiente expresión:

En la expresión anterior, Esi es el iésimo residuo estandarizado,


Ei es el iésimo residuo, Sr es el error estándar residual, y dii es la
distancia entre el iésimo punto y el punto medio. En la expresión
anterior, el numerador y el denominador no son independientes,
puesto que en el cálculo del error estándar residual intervienen
todos los residuos. El error estándar residual viene dado por la
siguiente expresión:
102 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

A fin de evitar los problemas derivados de la interdependencia


entre numerador y denominador de los residuos estandarizados, al-
gunos autores proponen estudiar los residuos estudentizados (Et,).
La diferencia entre los residuos estandarizados y estudentizados
estriba en que en los estudentizados, al calcular el error estándar
residual, no se incluye el iésimo residuo, con lo cual se consigue
que el numerador y el denominador sean independientes. Los resi-
duos estudentizados vienen dados por la siguiente expresión:

En la expresión anterior, todos los términos tienen el mismo


significado que en los residuos estandarizados con la salvedad ya
comentada en el cálculo del error estándar residual.
Los tres tipos de residuos aportan valiosa información sobre el
modelo de regresión pero en caso de anomalías aportan más infor-
mación los residuos estandarizados y los estudentizados.
El análisis gráfico de los residuos es muy importante para detectar
anomalías en los modelos. Los gráficos más utilizados son:
Diagrama gráfico de los residuos estandarizados y estudentizados.
Diagrama gráfico de los residuos (Ei) junto a las variables inde-
pendientes.
Diagrama gráfico de los residuos junto a las predicciones.
En los comentarios sobre las salidas gráficas de SPSS, ampliare-
mos la información sobre diagramas gráficos de residuos.

Análisis de regresión con SPSS. El procedimiento


REGRESSION. Los subcomandos variables
y DEPENDENT
El procedimiento REGRESSION de SPSS permite realizar análisis
de regresión simple y múltiple. El procedimiento de regresión admite
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 103

varios subcomandos que permiten adecuar los resultados a nuestras


necesidades.
El procedimiento REGRESSION, en su sintaxis mínima, incluye al
menos los subcomandos VARIABLES, DEPENDENT y METHOD.
El subcomando VARIABLES va seguido de la lista de variables
que intervienen en el modelo.
El subcomando DEPENDENT especifica cuál de las variables
listadas, tras el subcomando VARIABLES, debe ser considerada como
variable dependiente. Una vez elegida la variable dependiente,
automáticamente el resto de las variables se consideradan como
variables independientes.
El subcomando METHOD indica a SPSS los criterios que seguir
para elaborar el modelo. Las opciones asociadas a este subcomando
se estudiarán detenidamente en el subapartado siguiente.
En primer lugar, estudiaremos si entre el peso y la talla existe
una dependencia lineal simple, mediante un modelo de regresión
lineal simple.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda de las instrucciones anteriores indica a SPSS que se


realice un estudio de regresión. El subcomando VARIABLES, indica
que las variables implicadas en el análisis son la TALLA y el PESO.
El subcomando DEPENDENT indica que la variable dependiente es
el PESO y el subcomando METHOD que el método de entrada de
variables debe ser ENTER. El subcomando METHOD se analizará
con detalle en el próximo apartado.
Los resultados obtenidos tienen tres partes: datos concernientes
al coeficiente de determinación, tabla de ANOVA para resolver la
hipótesis de linealidad (ver subapartado HIPÓTESIS EN REGRESIÓN
LINEAL SIMPLE) y tabla con los coeficientes con sus errores estándar
y valores asociados de la t de Student.
104 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Aunque el encabezamiento de los resultados ponga en todos


los casos MÚLTIPLE REGRESSION, también realiza estudios de re-
gresión simple como en este caso.

El coeficiente de correlación lineal de Pearson es 0.44 y su cua-


drado es el coeficiente de determinación (R square), calculado según
la expresión (4-10), algunos autores indican que el valor del coe-
ficiente de determinación debe ajustarse según la siguiente ex-
presión:

En la expresión anterior, Ra2 es el coeficiente de determinación


ajustado (Adjusted R Square), K es el número de variables inde-
pendientes (en la regresión lineal simple, K es igual a 1 y n el
número de observaciones). En nuestro caso, el coeficiente de de-
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 105

terminación vale 0.19584 y el coeficiente de determinación ajustado


0.18365, lo cual indica que el 18.365 % de las variaciones observadas
en la variable dependiente pueden ser explicadas linealmente por
la variable TALLA. El error estándar (Standar error), listado anterior-
mente, es el resultado de aplicar la expresión (4-14).

La tabla anterior nos muestra los resultados obtenidos en el


análisis de regresión, expresados según la tabla de ANOVA, En
este caso, la F observada es 16.07 y la probabilidad de obtener
dicha F, si en la población B1 fuera cero, es 0.0002; como dicha
probabilidad es menor que 0.05, que es el nivel de significación
fijado habitualmente, rechazamos la hipótesis nula y concluimos
que B1es significativamente distinto de cero y, consiguientemente,
existe regresión lineal entre el PESO y la TALLA. En regresión
múltiple, el significado es un poco distinto, puesto que la hipótesis
que se contrasta mediante la prueba de la F de Snedecor es que
al menos un coeficiente es distinto de cero (ver subapartado Hipó-
tesis en regresión lineal múltiple).
106 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, en la columna B, se muestran los coeficientes


b1 cuyo valor es 64.604435 y b0, cuyo valor es —37.014839. La ecua-
ción de regresión lineal simple estimada es:

La ecuación anterior es equivalente a la siguiente:

En la columna SE B se muestran los errores estándar de los


coeficientes, 16.114476 es el error estándar de b1 y 26.806304 es el
error estándar de b0; el error estándar de b1 ha sido calculado
según la siguiente expresión:

El error estándar de b0 viene dado por la siguiente expresión:

En las ecuaciones anteriores, Sx viene dado por la expresión


(4-13) y S por la (4-14) (ver subapartado Estimaciones en regresión
lineal simple).
En la columna Beta, se muestra el coeficiente de regresión es-
tandarizado, que viene dado por la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 107

En la expresión anterior, Sx viene dado por la expresión (4-13) y


Sy por la (4-12A).
A continuación veremos un ejemplo de regresión múltiple. Inicie
una sesión con SPSS y siga las siguientes instrucciones:

En la columna T se listan los valores observados de la TStudent


correspondiente a cada coeficiente. Obsérvese que este valor es el
correspondiente al cociente entre el correspondiente coeficiente y
su error estándar; la t correspondiente a b1 es 4.009, la cual tiene
una significatividad de 0.0002 lo que indica que B1 es significativa-
mente distinta de cero y su correspondiente variable en este caso,
la TALLA, contribuye significativamente a la regresión. La T corres-
pondiente a b0 es —1.381 y no es significativa, el hecho de que la T
correspondiente al término independiente no sea significativamente
distinta de cero, indica que la recta puede pasar por el origen de
coordenadas, lo cual, por otra parte, no tiene mayor trascendencia.
Si alguno de los coeficientes de regresión no fuera significativo,
ello indica que la variable correspondiente no contribuye significa-
tivamente a la regresión y no debe incluirse en la ecuación. Consi-
deraremos significativa la T si la probabilidad es menor que 0.05.

La segunda instrucción indica a SPSS que se realice un análisis


de regresión con las variables CB EDAD y PESO. La variable de-
pendiente en el modelo debe ser CB, lo cual se indica mediante el
subcomando DEPENDENT; por lo tanto, el modelo que se quiere
108 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

evaluar es si el colesterol basal CB tiene una relación lineal con las


variables PESO y EDAD.
El método de elaboración del modelo debe ser ENTER, lo cual
se indica mediante el subcomando METHOD con la opción ENTER.
Esta opción incluye en el modelo todas las variables listadas, aunque
sus coeficientes no sean significativos.
Los resultados obtenidos son los siguientes:

En la tabla anterior, en primer lugar se listan el coeficiente de


correlación múltiple, el coeficiente de determinación (R Square; en
este caso, su valor es 0.38049) y el coeficiente de determinación
ajustado, cuyo valor es 0.36143. Esto significa que aproximadamente
el 36% de las variaciones observadas en el colesterol se explican
por las variables EDAD y PESO.
El error estándar (Standard Error) en regresión múltiple se calcula
según la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 109

La tabla de ANO VA indica que la F observada es 19.96100. Es


muy significativa y por lo tanto al menos uno de los coeficientes de
regresión múltiple es significativamente distinto de cero. Para ver
cuál o cuáles son significativos, tenemos que consultar la tabla si-
guiente, en la que se listan los coeficientes de regresión, con sus
errores estándar y valores de la T de Student asociadas.

El coeficiente de regresión múltiple b1 es el correspondiente a


la variable PESO. Su valor es 1.518404; el coeficiente de regresión
múltiple b2 correspondiente a la variable EDAD tiene un valor igual
a 0.991858, el valor del término independiente B0 es 74.565954. Los
dos coeficientes de regresión múltiple son significativamente dis-
tintos de cero y por lo tanto, contribuyen significativamente a la
ecuación de regresión, puesto que las correspondientes T de Student
son significativamente distintas de cero, con una significación de
0.000 en el caso de b1 y de 0.0403 en el caso de b2. La ecuación
estimada de regresión múltiple es:
110 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La ecuación anterior es equivalente a:

El subcomando METHOD

El procedimiento REGRESSION precisa, en su sintaxis mínima,


tres subcomandos. El subcomando VARIABLES indica tras de sí las
variables que van a intervenir en el modelo. El subcomando DE-
PENDENT, es aquel mediante el que indicamos cuál de las variables
listadas tras el subcomando VARIABLES debe ser considerada como
variable dependiente. El subcomando METHOD indica cómo deben
ser introducidas las variables en la ecuación. Es importante destacar
que METHOD no se refiere a distintos métodos de cálculo, sino a
distintos métodos de construir la ecuación de regresión.
El subcomando METHOD admite las siguientes especificaciones:

ENTER
FORWARD
BACKWARD
STEPWISE
REMOVE
TEST

ENTER. Esta especificación nos lista los parámetros corres-


pondientes a todas las variables, aunque sus coeficientes de regre-
sión no sean significativos.
FORWARD. Esta especificación construye en varios pasos la
ecuación de regresión. La primera variable que incluye en la ecua-
ción es la que tiene el mayor coeficiente de correlación, en valor
absoluto, con la variable dependiente y cuyo coeficiente de regre-
sión múltiple bi es significativamente distinto de cero, a un nivel de
significación menor que 0.05 (PIN = 0.05); éste es el nivel que SPSS
aplica por defecto. Si lo deseamos, podemos asignar el nivel de
significación que queramos, mediante el subcomando CRITERIA.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 111

En los pasos siguientes, la variable que va a ser introducida es


aquella cuyo coeficiente de correlación parcial es mayor. La corre-
lación parcial se calcula entre la variable dependiente y cada una
de las independientes aún no incluidas en la ecuación, ajustando la
influencia de las variables independientes incluidas en la ecuación.
También se tiene en cuenta la TOLERANCIA, parámetro que se
analizará en un apartado próximo. El proceso se repite hasta que no
haya variables cuyos coeficientes de regresión sean significativos
al incluirlos en la ecuación.
El modo FORWARD permite realizar un número determinado de
pasos, al final de los cuales el proceso se detiene, aunque queden
variables cuyos coeficientes de regresión múltiple sean significativos
al ser incluidos en la ecuación.
Una vez que una variable entre en la ecuación, el método FOR-
WARD no la elimina, aunque su coeficiente de regresión múltiple
deje de ser significativo al introducir otras variables.
BACKWARD. En este caso, en el primer paso se incluyen todas
las variables en la ecuación; a continuación se elimina la variable
con una significación mayor, siempre que el nivel de significación
sea mayor que el indicado POUT = 0.1, este valor puede ser modi-
ficado. Si alguna variable cumple los requisitos de eliminación, se
recalcula la ecuación sin dicha variable. A continuación, en el se-
gundo paso y siguientes, se estudia la variable cuya correlación
parcial es menor y se elimina si el nivel de significación es menor
que 0.1, o el que se hubiera indicado en caso de haberse modificado.
El proceso se detiene en cuanto todas las variables tengan un nivel
de significación menor que el estipulado.
STEPWISE. Este es el método más utilizado. Se trata de una
combinación de FORWARD y BACKWARD. El proceso comienza
incluyendo como primera variable independiente aquella cuyo coe-
ficiente de correlación en valor absoluto con la variable dependiente
sea mayor, siempre y cuando el coeficiente de regresión corres-
pondiente a dicha variable tenga un nivel de significación menor
que el indicado, que por defecto es 0.05 (PIN = 0.05). En el segundo
paso, se introduce en la ecuación la variable con mayor correla-
ción parcial con la variable dependiente; también se tiene en cuenta
la TOLERANCIA, siempre y cuando cumpla el criterio de inclu-
sión, PIN < 0.05.
112 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Si en alguno de los pasos el coeficiente de regresión de algu-


na de las variables ya introducidas en la ecuación tiene un nivel
de significación mayor que 0.1, que suele ser el nivel de exclu-
sión POUT — 0.1, la variable se elimina. Esta es la diferencia con
FORWARD.
REMO VE. Esta opción debe ir acompañada de una lista de
variables, las cuales se eliminarán en un solo paso, permitiendo la
elaboración de modelos con el resto de las variables.
TEST. Esta opción permite elaborar modelos a partir de la lista
de variables asociada, según el criterio del cambio de R2 y otros
criterios. Esta opción debe acompañarse de la lista de variables
implicadas.
Veamos un ejemplo con el método STEPWISE. Inicie una se-
sión con SPSS y siga las siguientes instrucciones:

La segunda de las instrucciones anteriores indica a SPSS que se


realice un estudio de REGRESIÓN múltiple, en el que la variable depen-
diente es TAD y el resto de las variables se consideraran inde-
pendientes. El método de construcción de la ecuación es STEPWISE.
Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 113
114 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En el primer paso, se incluye en la ecuación la variable TAS, por


ser la de mayor coeficiente de correlación con la variable depen-
diente. Una vez incluida TAS en la ecuación, la variable con mayor
correlación parcial es CB, la cual se incluye al cumplir el criterio de
inclusión con significación menor que 0.05. Una vez incluida CB, la
mayor correlación parcial corresponde a la variable EDAD, con
0.181119, pero al no ser la significación de la T menor que 0.05 no
puede incluirse y termina el proceso.
La ecuación definitiva del modelo anterior, aproximando los co-
eficientes de regresión a dos decimales, es la siguiente:

La interpretación es que la TAD está relacionada linealmente


con la TAS y el CB; por cada mm de Hg de aumento en la TAS, la
TAD aumenta en 0.37 mm de Hg, y por cada mg por 100 mi de
aumento del CB la TAD aumenta en 0.09 mm de Hg. El coeficiente
de determinación ajustado es 0.68717, lo cual indica que el 68.717%
de la variabilidad observada de la TAD se explica por la TAS y
el CB.
Recomendamos al lector que examine detenidamente la cons-
trucción de las ecuaciones, puesto que puede haber fenómenos
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 115

como la colinealidad (ver subapartado Multicolinealidad), que la


construcción automática de ecuaciones mediante STEPWISE, FOR-
WARD o BACKWARD no controla bien y se puede perder valiosa
información.

El subcomando CRITERIA

Este subcomando es muy interesante para el usuario que desee


controlar las probabilidades u otros parámetros que determinen la
inclusión o exclusión de las variables independientes en la cons-
trucción de los modelos de regresión.
Las modificaciones realizadas mediante este subcomando, afectan
fundamentalmente a los criterios de inclusión y de exclusión rela-
cionados con el subcomando METHOD y sus especificaciones.
La no utilización de este subcomando es equivalente a especificar
PIN (0.05), POUT (0.1) y TOLERANCE (0.0001).
PIN es la probabilidad de entrada en el modelo. El número entre
paréntesis indica la probabilidad de significación, por debajo de la
cual debe incluirse la variable en el modelo; no deben incluirse
valores superiores. Una variable cuya significación sea 0.07 no se
incluirá en el modelo, mientras que una variable con una significación
de 0.04 sí se incluirá.
POUT es la probabilidad de salida de una variable de un modelo
de regresión, al introducir nuevas variables. Una variable puede
ser incluida en un modelo de regresión con una significación menor
que 0.05 pero, al incluir otras variables en el modelo, la significación
puede modificarse; el número asociado a POUT indica la significación
por encima de la cual la variable debe ser eliminada del modelo.
POUT (0.10) indica que si la significación de una variable se ha
situado durante la construcción de un modelo de regresión por
encima de 0.10, dicha variable debe ser eliminada del modelo.
TOLERANCE (0.0001). La tolerancia es la proporción de la varia-
bilidad de una variable, que no explica un conjunto de variables
independientes. En este caso, se refiere a la proporción de la varia-
bilidad de la variable que va a ser introducida en el modelo, y que
no se explica por las variables independientes ya incluidas en él.
TOLERANCE (0.0001) indica que, si la proporción de la variabilidad
116 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

no explicada por las variables independientes ya incluidas en el


modelo de la variable que va a ser incluida en el modelo es menor
de 0.0001, ésta no debe incluirse.
Las especificaciones que pueden asociarse al subcomando CRI-
TERIA son las siguientes:

PIN (pi). Probabilidad del estadístico F, asociado a la ultima va-


riable incluida en el modelo. Si dicha probabilidad es mayor que
(pi), la variable no debe incluirse en el modelo (para METHOD =
FORWARD o STEPWISE).
POUT (po). Probabilidad del estadístico F, asociado a cualquiera
de las variables incluidas en el modelo. Si, al construir un modelo
de regresión, dicha probabilidad aumenta por encima de (po), la
variable debe excluirse del modelo (para METHOD = BACKWARD
o STEPWISE).
FIN (fi). En lugar de la probabilidad, SPSS nos permite indicar el
valor de la F, asociada a la variable que se pretende incluir en el
modelo. Las variables con valores de F inferiores a (fi), no se incluirán
en el modelo (para METHOD = FORWARD o STEPWISE). No se
pueden utilizar de forma simultánea PIN (pi) y FIN (fi).
FOUT (fo). Al especificar los criterios de salida, SPSS nos permite
especificar la probabilidad máximo o la F mínimo para permanecer
en un modelo de regresión lineal, (fo) indica la F mínimo Valores
de la F, asociada a una variable incluida en el modelo, menores de
(fo), determinan que dicha variable debe ser excluida (para ME-
THOD = BACKWARD o STEPWISE).
TOLERANCE (to). Tolerancia mínimo, para que una variable pue-
da ser incluida en el modelo, variables con una tolerancia inferior a
(to) no se incluirán.
MAXSTEPS (ma). Máximo número de pasos en la construcción
del modelo. Para el método STEPWISE, la opción por defecto es
dos veces el número de variables independientes.
CIN (c). Porcentaje para los intervalos de confianza. Sólo afec-
ta
a las variables temporales MCIN (estimación media) y ICIN (ESTI-
MACIOzáN).
EL SUBCOMANDO CRITERIA DEBE ANTECEDER AL
SUBCOMANDO DEPENDENT.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 117

El subcomando STATISTICS

Este subcomando nos permite obtener diversos estadísticos aso-


ciados al estudio de regresión. Por defecto, en caso de no utilizar este
subcomando, SPSS lista los estadísticos R, COEFF, ANOVA y OUTS.
En caso de usar el subcomando STATISTICS, hay que especificar
todos los estadísticos deseados, puesto que al utilizarlo, los estadís-
ticos por defecto no se listan, a no ser que sean específicamente
solicitados.
Los estadísticos disponibles son los siguientes:

R. Coeficiente de correlación múltiple, de determinación, de


determinación ajustado y error típico de la estimación.
ANOVA. Tabla de análisis de la varianza, para evaluar el modelo
de regresión.
CHA. Esta opción especifica el cambio en el coeficiente de
determinación obtenido en cada paso en la construcción de un
modelo.
BCOV. Matriz de varianzas y covarianzas para las variables
que intervienen en el modelo.
XTX. Matriz de distancias.
COLLIN. Esta opción permite realizar estudios de colinealidad
entre las variables. Incluye VIF (factor de inflación de la varianza),
los valores propios (eigenvalues) de la matriz del producto cruzado,
índice de condicionamiento y descomposición proporcional de la
varianza. (Ver subapartado multicolinealidad de este apartado).
SELECTION. Criterios de selección de las variables. Criterio de
información de Akaike (AIK). Criterio de predicción de Amemiya
(PC). Criterio condicional del cuadrado medio del error de Mallow
(CP). Criterio Bayesiano de Schwarz (SBC).
COEFF. Muestra para las variables incluidas en la ecuación los
siguientes estadísticos: el coeficiente de regresión β, error estándar
de β, coeficiente estandarizado de β, el valor de la t de Student para
β y la probabilidad asociada a la t para una prueba de dos colas.
OUTS. Muestra para las variables no incluidas en la ecuación,
pero si nominadas junto al subcomando VARIABLES, los siguientes
estadísticos: el valor que tendría β, si la variable fuera incluida en la
ecuación, el valor de la t de Student asociada a β y su correspon-
118 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

diente nivel de significación, coeficiente de correlación parcial con


la variable dependiente que elimina el efecto de las variables in-
cluidas en la ecuación y la tolerancia mínima.
ZPP. Coeficientes de correlación, correlación parcial y semi-
parcial, para las variables no incluidas en la ecuación.
CI. Lista los intervalos de confianza del 95%, para los coeficien-
tes de regresión no estandarizados (β).
SES. Error estándar de los coeficientes de regresión estandari-
zados.
TOL. Muestra la tolerancia y el factor de inflación de la varianza
(VIF), para las variables dentro y fuera de la ecuación.
F. Muestra el valor de F y su significación, para cada coeficiente
de regresión, en lugar de la t de Student, en las opciones COEFF y
OUTS.
LINE, Muestra un resumen de los resultados para cada paso, en
la construcción del modelo.
END. Muestra una línea por paso para BACKWARD, FOR-
WARD o STEPWISE y una línea resumen por bloque para ENTER,
REMOVE o TEST si cambia la ecuación.
HISTORY. Muestra un resumen para cada METHOD (ENTER,
REMOVE o TEST si la ecuación cambia) o para cada paso en (FOR-
WARD, BACBCWARD o STEPWISE). Si HISTORY es el único
estadístico requerido, COEFF se muestra al final de la ecuación.
ALL. Muestra todos los estadísticos disponibles, excepto F, LINE
y END.
EN CASO DE UTILIZAR EL SUBCOMANDO STATISTICS,
ESTE DEBE IR ANTES DEL SUBCOMANDO DEPENDENT.
Comience una sesión con SPSS y siga las siguientes instrucciones:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 119

La primera de las anteriores instrucciones carga para su análisis


el fichero de sistema CORONAR.SYS. La segunda instrucción permite
realizar un análisis de regresión, con las variables CB TB TAS TAD
TALLA y PESO. El subcomando STAT1STICS solicita los estadísti-
cos correspondientes a las opciones COEFF OUTS R COLLIN y CI.
Obsérvese que el subcomando STATISTICS antecede al subco-
mando DEPENDENT. Este indica que la variable dependiente del
modelo es CB y el método de construcción del modelo debe ser
BACKWARD.
Los resultados obtenidos son los siguientes:
120 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 121
122 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En primer lugar, se forma un modelo con todas las variables, a


continuación se elimina la variable menos significativa (mayor pro-
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 123

habilidad). Para que una variable sea eliminada, la probabilidad de


significación debe ser mayor que POUT, que por defecto es 0.10. En
nuestro caso, la variable TALLA tiene el valor mayor, con 0.4311, y
como este valor es mayor que el valor POUT 0.1, esta variable sale
de la ecuación. En el siguiente paso, la variable con mayor probabi-
lidad es TAS, con 0.2152, que también es mayor que 0.10, por lo que
la variable TAS se elimina. Una vez eliminadas las variables TALLA
y TAS, las probabilidades de significación del resto de las varia-
bles son inferiores a 0.10 y lo tanto, quedan en el modelo. El modelo
se encuentra definitivamente formado por las variables indepen-
dientes TAD TB y PESO y, como variable dependiente, el coleste-
rol CB.
La opción CI del subcomando STATISTICS permite visualizar los
intervalos de confianza para los coeficientes de regresión 0 y la
opción COLLIN muestra los valores propios de la matriz producto.

El subcomando ORIGIN

Este subcomando indica que debe realizarse un cambio de ejes


de referencia, de tal manera que la recta de regresión calculada
pase por el ORIGEN de coordenadas, y por tanto carece de término
independiente. En caso de no especificar nada la recta se calcula
de la forma habitual, pudiendo o no pasar por el origen.
EN CASO DE SER UTILIZADO EL SUBCOMANDO ORI-
GIN DEBE ANTECEDER AL SUBCOMANDO DEPENDENT.

El subcomando SELECT

Esta es una interesante opción, que permite seleccionar un grupo


de casos del fichero. Supongamos que queremos estudiar la de-
pendencia de la tensión arterial sistólica TAS, en función del coles-
terol CB y de la tensión arterial diastólica TAD, pero queremos
realizar dicho modelo en HOMBRES. El subcomando SELECT nos
permite seleccionar los sujetos que van a intervenir en el modelo,
que serán los que cumplan la proposición indicada por SELECT.
Los operadores relaciónales que pueden utilizarse son:
124 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La sintaxis de select es:

SELECT VARIABLE OPERADOR VALOR

Realizaremos el ejemplo indicado en el párrafo anterior. Inicie


una sesión con SPSS y siga las siguientes instrucciones:

EL SUBCOMANDO SELECT DEBE IR ANTES DEL SUB-


COMANDO DEPENDENT.

Los resultados obtenidos son los siguientes:


REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 125

El modelo anterior se ha construido sólo para los HOMBRES


SEXO EO 1 del fichero CORONAR.
126 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El subcomando MISSING

Este subcomando permite controlar los casos con valores ausen-


tes. Este subcomando permite las siguientes especificaciones:

LISTWISE. Los casos con algún valor ausente, en cualquiera


de las variables listadas en el subcomando VARIABLES, se excluirán
de los cálculos.
PAIRWISE. En los cálculos se excluirán, los casos con valores
ausentes en alguna variable implicada.
MEANSUBSTITUTION. Los valores ausentes se sustituirán, para
los cálculos, por la media de la correspondiente variable.
INCLUDE. Los valores ausentes del usuario se considerarán
como valores válidos. Los casos con valores ausentes de sistema
se excluirán.

El subcomando WIDTH

Este subcomando permite especificar el ancho de salida de los


resultados. En caso de no utilizar este subcomando prevalece lo
indicado en el comando SET. El ancho debe estar comprendido
entre 72 y 132.

El subcomando DESCRIPTIVES

Este subcomando nos permite el cálculo de algunos parámetros


relacionados con las variables implicadas en el modelo. Las opciones
disponibles son las siguientes:

DEFAULTS. Si utilizamos el subcomando DESCRIPTIVES, sin


ninguna opción, se listan las medias aritméticas, las desviaciones
típicas y la matriz de correlaciones.
MEAN. Muestra las medias aritméticas.
STDDEV. Muestra las desviaciones típicas.
VARIANCE. Muestra las varianzas.
CORR. Muestra la matriz de correlaciones.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 127

SIG. Muestra el nivel de significación de los coeficientes de


correlación.
N. Muestra el número de casos utilizados en el cálculo de
cada coeficiente de correlación.
XPROD. Productos cruzados de desviaciones de la media.
BADCORR. Matriz de correlaciones (en el caso de que alguno
de los coeficientes no pueda ser utilizado).
COV. Matriz de covarianzas.
ALL. Proporciona todos los estadísticos disponibles.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

En el ejemplo anterior, mediante el subcomando SELECT EQ


2, indicamos que el estudio debe realizarse sólo en mujeres, El
modelo pretende estudiar la dependencia de la TAS respecto de
las variables TAD y CB y el subcomando DESCRIPTIVES solici-
ta las medias, matriz de correlaciones, nivel de significación de las
correlaciones y los productos cruzados.
Los resultados obtenidos son los siguientes:
128 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 129

En la salida de resultados anteriores, obsérvese que los estadís-


ticos solicitados mediante el subcomando DESCRIPTIVES se listan
en primer lugar.

Análisis de residuos con SPSS. Variables temporales

SPSS permite un completo abanico de posibilidades en el análisis


de residuos, a fin de detectar posibles violaciones de las asunciones
de la regresión. Hay cuatro subcomandos (RESIDUALS, CASEWISE,
PARTIALPLOT y SCATTERPLOT), que pueden utilizarse en el análisis
de residuos. Cualquiera de estos subcomandos puede utilizarse. En
caso de emplear algún subcomando para análisis de residuos, éste
debe ir inmediatamente después del subcomando METHOD.
Los subcomandos implicados en el análisis de residuos realizan
siempre un análisis de las variables temporales (PRED, ZPRED, RESID
y ZRESID). Todas las variables se estandarizan antes de listarse. Si
se requiere una variable no estandarizada, también se lista su forma
estandarizada.
Además de las variables implicadas en el modelo, SPSS permite
la utilización de las siguientes variables temporales:

PRED. Valores esperados o predichos no estandarizados. Lo


simbolizaremos por % el iésimo valor esperado es Ŷi (Ver suba-
partado Análisis de residuos).
ZPRED. Valores esperados estandarizados.
SEPRED. Error estándar de los valores esperados.
RESID. Residuos no estandarizados. Diferencia entre valores ob-
servados y estimados (Ver subapartado Análisis de residuos).
ZRESID. Residuos estandarizados (Ver subapartado Análisis
de residuos).
130 ESTADÍSTICA MULTIV ARLANTE Y NO PARAMÉTRICA CON SPSS

SRESID. Residuos estudentizados (Ver subapartado Análisis


de residuos).
MAHAL. Distancia de Mahalanobis. Esta distancia es útil para
detectar, ciertos valores atípicos.

La distancia de Mahalanobis para una sola variable independiente,


viene dada por la siguiente expresión:

En la expresión anterior, Sx es el error estándar de la variable X.


En caso de que haya más de una variable independiente, la ecuación
anterior se sustituirá por la correspondiente ecuación matricial.

ADJPRED. El valor estimado ajustado es la diferencia entre el


iésimo valor estimado y el iésimo valor estimado excluyendo del
modelo el iésimo caso. El iésimo valor estimado, excluido el iésimo
punto, lo simbolizaremos por Ŷi(i); la i entre paréntesis indica que en
los cálculos, se ha excluido el iésimo caso (punto). Este parámetro
es muy útil a fin de evaluar la influencia de un punto, puesto que
comparamos el valor estimado calculado con la intervención de
todos los puntos y excluyendo un punto, lo que determinará el
peso específico de dicho punto.
DRESID. El residuo calculado, utilizando el valor estimado ajus-
tado Ŷi(i), es el borrado residual DRESID simbolizado por E(i),

El borrado residual es la diferencia entre el valor observado y


el valor estimado ajustado.
El borrado residual es muy útil en el estudio de la influencia de
un punto en el modelo global.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 131

SDRESID. Borrado residual estudentizado. Es el borrado residual


dividido por su error estándar.
COOK. Distancia de Cook. Esta distancia es muy útil a fin de
determinar la influencia de ciertos puntos sobre el modelo global.
La distancia de Cook, viene dada por la siguiente expresión:

En la expresión anterior K es el número de variables inde-


pendientes del modelo y S el error estándar de la estimación, Ŷi
es el iésimo valor estimado y Ŷi(i) es el iésimo valor estimado ajus-
tado.
LEVER. La regresión produce un cómputo medio de la in-
fluencia de todos los datos. El rango de influencia puede ir de
— (l/n) a (n — 1)/n, donde n es el número de observaciones. El
valor medio de las influencias es K/n, donde K es el número de
variables independientes del modelo. Un punto con una influencia
de — (l/n) indica una influencia mínima, mientras que un valor de
(n — l)/n indica que un solo grado de libertad tiene una gran
influencia en el conjunto de datos. Es aconsejable estudiar los puntos
con una influencia mayor de 2K/n, el doble del valor medio.
DFBETA. Indica el cambio en el coeficiente de regresión, como
consecuencia de haber eliminado de los cálculos el iésimo punto.
Se computa un DFBETA valor para cada caso.
SDBETA. DFBETA estandarizado. Se genera un SDBETA para
cada caso y para cada coeficiente de regresión del modelo.
DFFIT. Indica el cambio en el valor estimado, como conse-
cuencia de haber eliminado el iésimo caso. Es la diferencia entre el
iésimo valor estimado y el iésimo valor estimado ajustado.
132 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

SDFIT. Indica el valor estandarizado de SDFIT.


COVRATIO. Indica la razón entre el determinante de la matriz
de covarianzas con el iésimo caso excluido y el determinante de la
matriz de covarianzas con todos los casos,
MCIN. Nivel inferior y superior de un intervalo de confian-
za del 95% para la estimación media. El nivel de confianza del in-
tervalo puede modificarse mediante la opción CIN del subcomando
CRITERIA.
ICIN. Niveles superior e inferior de un intervalo de confianza
del 95% para las estimaciones singulares. El nivel de confianza puede
modificarse mediante la opción CIN del subcomando CRITERIA.

El subcomando RESIDUALS

El subcomando RESIDUALS es uno de los 4 subcomandos que


pueden utilizarse con SPSS en el análisis de residuos. Permite obte-
ner algunos gráficos y estadísticos para el análisis de residuos. Con
este subcomando pueden utilizarse las variables temporales descri-
tas en el apartado anterior. En la descripción de las posibilidades de
este subcomando L.V.T significa LISTA DE VARIABLES TEM-
PORALES.
Este subcomando dispone de las siguientes opciones:

DEFAULTS. Si utilizamos el subcomando RESIDUALS, sin


ninguna especificación, SPSS lista los siguientes elementos:

HISTOGRAM(ZRESID).
NORPROB(ZRESID).
OUTLIERS(ZRESID).
DURBIN.
SIZE(SMALL).

HISTOGRAM (L.V.T). Esta opción proporciona un histograma


de las variables estandarizadas citadas en la lista. Si no citamos
ninguna, los cálculos se realizan para la variable ZRESID. Otras va-
riables temporales que pueden utilizarse son: PRED ZPRED, ADJ-
PRED, RESID, SRESID, DRESID y SDRESID.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 133

NORMPROB (L.V.T). Gráfico de probabilidad normal, de va-


lores estandarizados, para las variables temporales incluidas en la
lista. Si no citamos ninguna variable, el gráfico se realiza por defecto
para la variable ZRESID. Otras variables temporales que pueden
listarse son: PRED, RESID, ZPRED y DRESID.
SIZE (OPCION). Como opción puede especificarse SMALL o
LARGE. La opción por defecto es LARGE si la salida tiene un ancho
de 120 y un largo de 55.
OUTLIERS (L.V.T). Esta opción lista los 10 valores más extre-
mos para las variables temporales incluidas en la lista. Las variables
temporales que pueden utilizarse en esta opción son: RESID, DRESID,
SRESID, SDRESID, MAHAL y COOK. En caso de no especificar nin-
guna, se listan los 10 valores más extremos para la variable ZRESID.
DURBIN. Prueba estadística de Durbin-Watson. Esta prueba
sirve para detectar autocorrelación. La autocorrelación es una per-
turbación, que consiste en que los valores de la variable dependiente
están relacionados con el valor anterior de la variable dependiente
(Yn está relacionado con Yn - l). Este fenómeno es frecuente obser-
varlo en series temporales.
Valores grandes del estadístico de Durbin implican autocorrela-
ción negativa y valores pequeños autocorrelación positiva. El esta-
dístico de Durbin-Watson viene dado por la siguiente expresión:

Los valores de Durbin-Watson están tabulados.


ID (VARNAME). Los casos se etiquetan, con los valores de la
variable nombrada tras ID. Afecta al subcomando CASEWISE, en
caso de ser utilizado.
POOLED. En caso de haber empleado el subcomando SELECT,
si utilizamos esta opción, los informes y gráficos indicados por las
134 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

opciones del subcomando RESIDUALS, se realizaran con todos


los casos del fichero activo. Cuando no se utilice esta opción, los
cálculos se realizarán con los casos seleccionados y no selecciona-
dos por separado.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

En las instrucciones anteriores, se procede a realizar un estudio


de regresión con las variables CB, TB, TAD y PESO del ejemplo
CORONAR pero sólo con los hombres, debido al subcomando SE-
LECT, que selecciona sólo aquellos en los que el valor del SEXO
es 1, lo que en nuestro caso corresponde a los hombres. La variable
dependiente es CB; por lo tanto queremos estudiar la dependen-
cia del colesterol basal CB en función de las otras variables. El
modelo debe construirse según el método STEPWISE y se ha soli-
citado un estudio de residuos para las variables ZRESID (residuos
estandarizados) y PRED (predicciones, valores estimados). El estu-
dio de residuos incluye histogramas de las variables temporales ci-
tadas y diagramas de probabilidad normal de dichas variables.
Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE EL PROCEDIMIENTO REGRESSION 135
136 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 137
138 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 139

6 .64 2.00 :XXXX


3 1.17 1.67 :XX
4 1.92 1.33 X:XX
3 2.82 1.00 XX:
3 3.72 .67 XXX.
2 4.38 .33 XX
1 4.63 .00 X
1 4.38 -.33 X
4 3.72 -.67 XXX:
1 2.82 -1.00 X
1 1.92 X.
2 1.17 -1.67 :X
0 .64 -2.00
2 .31 -2.33 XX
0 .14 —2.67
0 .05 -3.00
0 .03 Out

Normal Probability (P-P) Plot - Selected Cases


Predicted Value
140 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Normal Probability (P-P) Plot - Unselected Cases


Predicted Value

Normal Probability (P-P) Plot - Selected Cases


Standardized Residual
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 141

Normal Probability (P-P) Plot - Unselected Cases


Standardized Residual

Los resultados anteriores, además de los estadísticos y tablas


habituales en todo estudio de regresión, ya comentados en diversas
ocasiones, se nos muestran en dos histogramas para cada variable
solicitada: uno para los casos seleccionados mediante SELECT y
otro para los casos no seleccionados. Estos histogramas nos permiten
visualizar si existen desviaciones respecto a la distribución normal
y descubrir los valores atípicos. Los histogramas se listan debido a
la opción HISTOGRAM. También se muestran dos diagramas por
variable: uno para los casos seleccionados con SELECT y otro para
los casos no seleccionados. En estos diagramas, si las variables se
comportan normalmente, los casos observados formarán una línea
recta en la diagonal principal. En nuestro caso, los valores estimados,
PRED y los residuos estandarizados ZRESID se asemejan a valores
normales mucho más en los casos seleccionados que en los no
seleccionados.
Si hubiéramos utilizado la opción POOLED, en los análisis de
142 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

residuos se habría ignorado la selección realizada por SELECT y se


habrían realizado los cálculos con todos los casos.
Una vez visualizados los histogramas y gráficos de normalidad,
en caso de duda se realizará un estudio de normalidad mediante la
prueba de KOLMOGOROV o SHAPIRO (Ver PROCEDIMIENTO EXA-
MINE DE SPSS). En general, en datos de distribución normal se
consideran datos atípicos aquellos cuya distancia a la media es
mayor que 1.96 desviaciones típicas, pero debe tenerse en cuenta
el número de datos. Si disponemos de 100 datos, esperamos que
aproximadamente 5 datos (el 5%) se distancien de la media más
que 1.96 desviaciones típicas; si nuestro fichero dispone de 1.000
datos, esperamos tener 50 datos atípicos. Por tanto, en cada caso
hay que tener en cuenta el número de datos total, antes de consi-
derar que tenemos un número excesivo de valores atípicos. Si algún
dato se aleja excesivamente de la media, habrá que estudiarlo de
forma individualizada.

El subcomando CASEWISE

Este subcomando muestra un gráfico de una de las variables


temporales, acompañado de un listado de los valores de la variable
dependiente y las variables temporales. El gráfico puede realizarse
para todos los casos o limitarse a los valores atípicos. Si especifica-
mos el subcomando CASEWISE sin opciones, se listarán los ele-
mentos citados en DEFAULTS.

DEFAULTS. En caso de no utilizar ninguna opción, se muestran


los valores atípicos cuyo valor absoluto estandarizado es mayor
que 3 OUTLIERS(3), un gráfico para la variable ZRESID, los valores
de la variable dependiente DEPENDENT, los valores estimados PRED
y los residuos RESID.
OUTLIERS(n). Limita el gráfico a los valores atípicos, que se
distancian de la media más de n veces la desviación típica, n puede
ser un número decimal por defecto se considera n = 3.
ALL. Incluye todos los casos en el gráfico. Produce un gráfico
con todos los casos, incluyendo valores atípicos OUTLIERS. La opción
OUTLIERS se ignora cuando ALL se incluye en la instrucción.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 143

PLOT(V.T). Esta opción muestra un gráfico de la variable es-


tandarizada (V.T), citada junto a la opción PLOT. La variable por
defecto es ZRESID y pueden utilizarse también las siguientes:
RESID, DRESID, SRESID y SDRESID.
VARLIST. Una lista de valores para cada caso de la variable
dependiente y cualquier variable temporal incluida LEVER que se
cite en la lista.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

Las instrucciones anteriores indican que se construya un mode-


lo de regresión con las variables CB TAS TAD y PESO. Siendo la
variable dependiente CB, el método de construcción del modelo
debe ser FORWARD. El subcomando CASEWISE indica que se
muestre un gráfico para los casos con valores que se alejen de la
media más de una desviación típica, para las variables, ZRESID,
RESID, DEPENDENT y PRED.
Los resultados obtenidos son los siguientes:
144 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 145
146 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

En los resultados anteriores, además de los resultados habituales


de regresión, se muestra un gráfico en el cual se pueden visualizar
los residuos estandarizados, que se alejan de la media más de una
desviación típica, y los valores de la variable dependiente, valores
estimados, residuos y valores estimados estandarizados, para cada
caso en el que los residuos estandarizados se alejan de la media
más de una desviación típica.

El subcomando SCATTERPLOT
Este subcomando permite realizar diagramas de dispersión de
variables implicadas en el modelo o de alguna de las variables
temporales. Las variables deben citarse por parejas, puesto que
para construir el modelo son necesarias dos variables. Las opciones
son las siguientes.

(VARNAME.VARNAME). Después de SCATTERPLOT, debe-


mos citar una pareja de variables. Las variables que pueden inter-
venir son cualquiera de las variables citadas junto al subcomando
VARIABLES, así como las siguientes variables temporales: PRED,
RESID, ZPRED, ZRESID, DRESID, ADJPRED, SRESID, SDRESID, las va-
riables temporales, deben ir precedidas de un asterisco.
SIZE(PLOTSIZE). El valor puede ser SMALL o LARGE. Por de-
fecto, es SMALL.
La primera variable nombrada dentro del paréntesis se muestra
en el eje Y y la segunda en el eje X.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 147

En el próximo subapartado incluiremos un ejemplo de SCAT-


TERPLOT.

El subcomando PARTIALPLOT

Este subcomando permite la construcción de un diagrama de


dispersión parcial de los residuos de la variable dependiente y una
variable independiente, incluida en la ecuación de regresión. En
caso de no citar ninguna variable, por defecto se construye un
diagrama para cada variable incluida en la ecuación. Las opciones
que pueden utilizarse son las siguientes:

VARLIST. Se construye un diagrama para cada variable in-


cluida
en la lista.
ALL. Se construye un diagrama para cada variable incluida en
la ecuación. Esta opción es la misma que por defecto.
SIZE (PLOTSIZE). Puede especificarse como SMALL o
LARGE.
Por defecto la opción es SMALL.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

Las instrucciones anteriores indican a SPSS que construya un


modelo de regresión, mediante el método STEPWISE, en el que la
variable dependiente sea TAS. Se pide un diagrama de dispersión
(SCATTERPLOT) entre las variables PRED y RESID. Obsérvese
cómo dichas variables van precedidas de un * y recuérdese que, cuan-
do se citan diagramas de dispersión, las variables temporales deben ir
precedidas de un asterisco. Por ultimo, también se solicita un dia-
148 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

grama parcial de dispersión entre la variable dependiente TAS y


TAD; recuérdese que estos diagramas se construyen para las varia-
bles incluidas en la ecuación.
Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 149
150 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 151

En los resultados anteriores, además de los habituales en regre-


sión, podemos ver los dos diagramas el de dispersión y el de
dispersión parcial, consecuencia de los subcomandos SCATTER-
PLOT y PARTIALPLOT, respectivamente.

El subcomando REGWGT
Este subcomando permite especificar la variable en base a la
cual se deben realizar las ponderaciones, en la estimación de la
ecuación por mínimos cuadrados ponderados.

El subcomando SAVE
Este subcomando permite incorporar al fichero activo todas o
parte de las variables temporales. Una vez incluidas en el fichero
activo, pueden ser definitivamente grabadas en forma de fichero
de sistema mediante el comando SAVE. No confundir el comando
SAVE, que permite grabar el fichero activo en forma de fichero
de sistema, con el subcomando de REGRESSION SAVE, que
permite incorporar al fichero activo variables temporales.
El siguiente ejemplo incorporaría al fichero activo las variables
temporales PRED y RESID.

El conjunto de instrucciones anterior determina la creación de


un modelo de regresión, mediante el método STEPWISE. La variable
dependiente es TAS. El subcomando SAVE indica que las variables
temporales PRED y RESID deben incluirse como variables del fichero
152 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

activo, con los nombres de VEST y VRES, respectivamente. Obsér-


vese que mientras no grabemos el fichero activo en fichero de
sistema, al acabar la sesión las modificaciones realizadas en el fichero
activo no serán permanentes.
Recomendamos al lector llevar a cabo el ejemplo indicado ante-
riormente. Una vez realizado, mediante el comando LIST podrá com-
probar que las variables temporales se habrán incorporado al fichero
activo.

El subcomando READ

Este subcomando permite leer matrices y realizar estudios de


regresión a partir de matrices grabadas previamente, como resultado
de alguno de los procedimientos parciales que lo permiten (corre-
lación, ANOVA, etc), Este subcomando admite las siguientes espe-
cificaciones:

DEFAULT. En caso de no indicar nada, especificando el sub-


comando READ sin ninguna opción se entiende que el fichero ma-
tricial contiene en primer lugar un vector de medias, seguido de un
vector de desviaciones típicas, seguido de la matriz de correlaciones
y del número de casos.
CORR. Debe utilizarse esta opción cuando el fichero matricial
contenga únicamente la matriz de correlación.
COV. Esta opción debe utilizarse cuando el fichero matricial
contenga únicamente la matriz de covarianzas. Esta opción es in-
compatible con la opción PAIRWISE del subcomando MISSING.
MEAN. Debe utilizarse esta opción cuando la matriz de corre-
laciones o de covarianzas, vaya precedida de un vector de medias.
STDDEV. Esta opción debe ser utilizada, cuando la matriz de
correlaciones o de covarianzas, vaya precedida de un vector de
desviaciones típicas.
VARIANCE. Debe utilizarse esta opción cuando la matriz de
correlaciones o de covarianzas, vaya precedida de un vector de
varianzas.
N. Esta opción debe utilizarse cuando la matriz de correlaciones
o de covarianzas preceda a un único número de casos.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION 153

El subcomando WRITE

Este subcomando permite grabar en forma matricial algunos


resultados. En caso de no especificar otra cosa, los resultados se
graban en el fichero SPSS.PRC. Por defecto (DEFAULT), en caso de
especificar el comando de forma aislada, se graba en el fichero de
resultado un vector de medias, seguido de un vector de desviacio-
nes típicas, seguido de la matriz de correlaciones y del número de
casos. Otras opciones son las siguientes:

MEAN. Esta opción permite grabar en el fichero de resultados


el vector de medias.
STDDEV. Esta opción permite grabar en el fichero de resultados
el vector de desviaciones típicas.
CORR. Esta opción graba en el fichero de resultados la matriz
de correlaciones.
N. Esta opción graba en el fichero de resultados el número de
casos utilizados en el cálculo de la matriz de correlaciones.
VARIANCE. Esta opción graba en el fichero de resultados el
vector de varianzas.
COV. Esta opción graba en el fichero de resultados la matriz
de covarianzas.
Capítulo 5
REGRESIÓN LOGÍSTICA

INTRODUCCIÓN
La regresión logística es una técnica de análisis multivariante,
en la que la variable dependiente o variable respuesta es una
variable dicotómica y la variable o variables independientes pueden
ser cualitativas o cuantitativas. Si en el modelo la variable indepen-
diente es cualitativa con H categorías, habrá que generar H — 1
variables DUMMY, a fin de que todas las posibilidades de la variable
queden debidamente representadas en el modelo.
Una variable dicotómica sólo puede tener dos valores, a los
cuales habitualmente nos referimos nominalmente. Por ejemplo, ser
o no hipertenso: en este caso, la variable original es cuantitativa,
pero hemos decidido reducir esta variable a dicotómica, conside-
rando hipertensos a los que tengan un valor de la tensión arterial
sistólica o diastólica mayor que un valor determinado (por ejemplo
tensión arterial sistólica mayor que 150 o tensión arterial diastólica
mayor que 95) y normotensos a los demás pacientes. Este tipo de
modelo en el que queremos estudiar si padecer una determinada
enfermedad está influido por uno o más factores (variables inde-
pendientes). Es uno de los más utilizados en ciencias de la salud,
en cualquier caso, con modelos de regresión logística podemos
investigar factores causales de una determinada característica de
la población y también estudiar qué factores modifican la probabili-
dad de un suceso determinado.
156 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

TIPOS DE REGRESIÓN LOGÍSTICA


Vamos a clasificar la regresión logística en dos tipos, fundamen-
talmente. Regresión logística simple, si en el modelo hay una sola
variable independiente, y regresión logística múltiple, si en el modelo
hay varias variables independientes.

Modelo matemático
En la regresión logística, la variable dependiente es dicotómica
y sus valores habitualmente nominales (enfermo no enfermo, sí-no,
hombre-mujer, etc). Para poder construir un modelo matemático,
necesitamos valores numéricos, los cuales podemos obtener si con-
sideramos la probabilidad de que se dé un determinado valor de la
variable dependiente. Por ejemplo, podemos plantear un modelo
matemático que nos permita calcular la probabilidad de que un
individuo que presente unas determinadas características padezca
una determinada enfermedad.
En el primer miembro de la ecuación, consideraremos la proba-
bilidad de que ocurra un suceso determinado P(Y); en el segundo
miembro, expresaremos la dependencia de dicha probabilidad en
función de una o más variables independientes según un modelo
logístico.
Simbolizaremos por P(Y), abreviadamente P, la probabilidad de
que ocurra un determinado suceso y 1 — P(Y), abreviadamente
1 — P, a l a probabilidad de que no ocurra.
El modelo de nuestro interés pretende conocer los factores que
aumentan o disminuyen la probabilidad de que ocurra un suceso
determinado. En ciencias de la salud, uno de los puntos de máximo
interés es conocer los factores que influyen en el desarrollo de una
determinada enfermedad, por ejemplo, hipertenso. Por lo tanto, (P)
sería en este caso la probabilidad de ser hipertenso (téngase en
cuenta que podríamos haber planteado el modelo para conocer los
factores que aumentan o disminuyen la probabilidad de no ser
hipertenso, en cuyo caso (P) sería la probabilidad de no ser hiper-
tenso).
En el primer miembro de la ecuación nos interesa tener a P, y
REGRESIÓN LOGÍSTICA 157

en el segundo miembro una relación funcional en la que intervengan


las variables independientes, que son los factores de interés en la
cuestión. La probabilidad es un número que puede oscilar entre 0
y 1; por lo tanto la relación funcional del segundo miembro, para
que el modelo sea congruente, sólo podrá tomar valores entre 0 y
1, Entre los muchos modelos que cumplen las condiciones anteriores,
está el modelo logístico, cuya expresión es la siguiente:

La expresión anterior representa un modelo de regresión logística


simple, donde X es la variable independiente y P la probabilidad
de que la variable dependiente tome un determinado valor, e re-
presenta a la base de los logaritmos neperianos, que es una de las
constantes más utilizadas. Su valor es e = 2.71828... (los puntos indican
que sigue la secuencia de decimales hasta el infinito).
En un modelo de regresión logística, la variable dependiente es
la probabilidad de que ocurra un determinado suceso, P(Y) abre-
viadamente P.
B0 y B1 son los coeficientes del modelo; B0, es el término
independiente, y puede ser igual a cero; B1 es el coeficiente de
regresión
logística y debe ser significativamente distinto de cero. En un modelo
de regresión logística simple, si el coeficiente B1 no es significativo,
ello indica que no tenemos evidencia de que la variable
independiente esté relacionada con la variable dependiente según el
modelo
logístico, y por lo tanto el modelo no tendría sentido. Si el coeficiente
de regresión logística es significativo, ello indica que existe relación
según el modelo logístico entre la variable dependiente y la variable
independiente.

ESTIMACIÓN Y SIGNIFICADO DE LOS COEFICIENTES


Los estimadores de los coeficientes se calculan mediante el mé-
todo de la función de máxima verosimilitud. Ésta es una compleja
158 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

técnica de cálculo diferencial, en la que se emplean métodos de


cálculo iterativos, hasta que la diferencia con el valor de la función
es menor que un valor predeterminado, habitualmente 0.01. El nú-
mero de iteraciones es fijo, y también ajustable por el experimenta-
dor, si la función no converge en el número de iteraciones prede-
terminado, diremos que no tiene solución. Afortunadamente dispo-
nemos de ordenadores que nos resuelven este problema.
El signo de los coeficientes tiene un significado importante. Si
los coeficientes de las variables son positivos, eso significa que la
variable aumenta la probabilidad del suceso que estamos estudiando.
Si éste fuera una enfermedad, el factor cuyo coeficiente es positivo
aumentaría la probabilidad de padecer la enfermedad y, por lo
tanto, dicho factor sería un factor de riesgo. Si el coeficiente es
negativo, el factor cuyo coeficiente es negativo disminuye la pro-
babilidad del suceso que estamos estudiando; en caso de que dicho
suceso fuera una enfermedad, estaríamos ante un factor de pro-
tección.

HIPÓTESIS EN REGRESIÓN LOGÍSTICA SIMPLE

En regresión logística simple, la hipótesis conceptual que que-


remos contrastar es si la variable independiente influye significati-
vamente en la probabilidad del suceso en estudio. Las hipótesis
conceptuales serían las siguientes:

H0. La variable independiente no influye significativamente so-


bre la variable dependiente P.
H1. La variable independiente influye significativamente sobre
la variable dependiente P.

Las hipótesis anteriores están planteadas conceptualmente, Para


poder resolver el contraste, necesitamos plantear las hipótesis ope-
rativamente. Esto significa que debemos encontrar parámetros es-
tadísticos que puedan ser evaluados para que, según los valores
obtenidos, podamos rechazar o no la hipótesis nula.
El modelo de regresión logística simple es válido si b1 es signi-
ficativamente distinto de cero. b1 es el coeficiente de regresión
REGRESIÓN LOGÍSTICA 159

logística muestral y es un estimador de B1 que es el coeficiente de


regresión logística poblacional. El que b1 sea significativamente
distinto de cero indica que es muy poco probable que B1 sea cero.
Las hipótesis operativas son las siguientes:

En este texto vamos a describir cinco procedimientos distintos


que nos van a permitir contrastar, de forma operativa, las hipótesis
anteriores. Estos procedimientos son los siguientes:
Evaluación estadística del coeficiente de regresión logística, b1.
Evaluación estadística del coeficiente de regresión logística al
cuadrado, dividido por el error estándar de dicho coeficiente al
cuadrado. A este estadístico los anglosajones lo denominan WALD.
Evaluación estadística de la razón de verosimilitud L0.
Evaluación estadística del cambio del estadístico —2LL0. El esta-
dístico anterior es menos dos veces el logaritmo neperiano (L) de
la razón de verosimilitud (L0).
Evaluación del estadístico Z2.

Evaluación estadística de b1
El coeficiente de regresión logística b1 debe ser
estadísticamente distinto de cero para que exista influencia
significativa de la variable dependiente. Basándonos en esto
podemos plantear las hipótesis operativas de la siguiente manera:

B1 es el coeficiente de regresión logística poblacional, mientras


que b1 es el coeficiente de regresión logística muestral. Aunque el
160 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

coeficiente poblacional sea 0, el coeficiente muestral puede oscilar


aleatoriamente alrededor de cero. Para poder rechazar la hipótesis
nula, b1 debe ser lo suficientemente distinto de cero como para
que la probabilidad de obtener por azar un valor como el observado
sea menor que el nivel de significación fijado en el contraste (a). Lo
más frecuente es fijar el nivel de significación en 0.05. En este caso,
b1 debe tener un valor tal que la probabilidad de obtenerlo por
azar sea menor que 0.05.
El coeficiente de regresión logística muestral b1 se distribuye
normalmente en el muestreo con media B1 y por lo tanto:

En la expresión anterior, el signo de igualdad indica una igualdad


estadística y no algebraica. El significado es que el segundo miembro
de la ecuación (5-2) se distribuye en el muestreo según una t de
Student con γ grados de libertad. Los grados de libertad son iguales
al número de elementos de la muestra menos ámenos uno, siendo
K el número de variables independientes. Como K = 1 en el caso
de la regresión logística simple, los grados de libertad son n — 2:

En (5-2) E.E b1 es el error estándar del coeficiente de regresión


logística muestral.
En nuestro caso, el contraste se realiza sobre un valor de B1
igual a cero; por lo tanto, la expresión 2 queda:
REGRESIÓN LOGÍSTICA 161

La t experimental la calcularemos según (5-3) y, si la probabilidad


de obtener una t como la observada es menor que el nivel de
significación fijado, rechazaremos la hipótesis nula, pero no podremos
rechazarla en caso contrario.
Rechazar la hipótesis nula operativa es equivalente a rechazar la
hipótesis nula conceptual. Si b1 es significativamente distinta de
cero, la variable independiente influye significativamente en la pro-
babilidad de la característica de la variable dependiente. Si el signo
de b1 es positivo, la probabilidad de dicha característica aumentará
según aumente el valor de la variable independiente, y disminuirá
en caso de que el signo sea negativo.

Evaluación estadística de «WALD»

Otro estadístico muy utilizado para evaluar la significación


estadística del modelo de regresión logística simple es el cociente
que resulta de dividir el cuadrado de b1 por el cuadrado del error
estándar de b1. A este estadístico los anglosajones lo denominan
«WALD», y viene dado por la siguiente expresión:

Las hipótesis operativas que contrastar en este caso son las


mismas que en el caso anterior:

Las anteriores hipótesis las resolveremos, en este caso, evaluando


el estadístico WALD. Este estadístico se distribuye según una χ2
con un grado de libertad. Si la variable independiente es numérica,
162 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

en caso de que la variable independiente sea cualitativa, los grados


de libertad son iguales al número de categorías menos uno; si la
variable independiente es la clase social, con tres categorías alta,
media y baja, los grados de libertad de WALD son 2.
Si el valor experimental de WALD aplicando (5-4) es tal que la
probabilidad de obtenerlo por azar, bajo los supuestos de la hipótesis
nula, es menor que el nivel de significación fijado en el contraste,
rechazaremos la hipótesis nula y concluiremos que la variable in-
dependiente influye en la probabilidad de las características de la
variable dependiente.

Evaluación del incremento del estadístico —2LL0


El estadístico —2 LL0 es muy importante en regresión logística.
L indica logaritmo neperiano y L0 verosimilitud; el valor de la vero-
similitud puede oscilar entre 0 y 1, por lo tanto —2 LL0 es el logaritmo
neperiano de la verosimilitud. Las hipótesis que contrastar son las
mismas que en los casos anteriores. La evaluación comienza cono-
ciendo el valor de este estadístico, que se distribuye como una CHI
CUADRADO. Para el modelo que contiene sólo la constante los
grados de libertad son iguales al número de casos menos 1; a
continuación, calculamos el valor cuando hemos incluido en el mo-
delo la variable independiente, los grados de libertad son iguales
al número de casos menos el número de variables independientes,
menos 1. En el caso de la regresión logística simple, como sólo hay
una variable independiente, los grados de libertad son el número
de casos menos 2. Calculamos la diferencia entre los dos valores
del estadístico, la diferencia es un estadístico que se distribuye
como una CHI CUADRADO con grados de libertad igual a la dife-
rencia de grados de libertad entre las dos situaciones, que es igual
al número de variables independientes del modelo, uno en el caso
simple, el valor de la diferencia es un estadístico que se distribuye
como una CHI CUADRADO con un grado de libertad.
Supongamos que tenemos un modelo de regresión logística sim-
ple, construido a partir de 45 casos n = 45. El valor de —2LL0 para
el modelo que incluye solamente la constante es 84. Este estadístico
se distribuye como una CHI CUADRADO con 44 grados de libertad
REGRESIÓN LOGÍSTICA 163

n — 1; al incluir la variable independiente, el valor de —2LL0 es 75


y los grados de libertad 43, que corresponden a n = 45 menos el
número de variables, 1 en este caso y 1, n — 2 = 43, la diferencia
entre los dos valores del estadístico D = 84 — 75 = 9. La diferencia,
a su vez, es un estadístico, que se distribuye como una CHI CUA-
DRADO con grados de libertad igual a la diferencia de los grados
de libertad de —2LL0 en las dos situaciones 44 — 43 = 1. Obsérvese
que los grados de libertad del estadístico diferencia son igual al
número de variables que tiene el modelo 1 en este caso; consultando
las tablas de la CHI CUADRADO, para una significación de 0.05 y un
grado de libertad, el punto crítico es 3.84. Como 9 es mucho mayor,
rechazaremos la hipótesis nula y concluiremos que el factor influye
en la probabilidad del suceso que estemos estudiando.

Evaluación de —2LL0

La verosimilitud L0 es un número menor que 1. En un modelo


perfecto, sería igual a 1. Como el logaritmo de 1 es cero, el valor de
—2LL0 es cero en un modelo perfecto.
Una forma posible de evaluar un modelo es considerar a priori
que es perfecto, o lo que es lo mismo, que el valor de la verosimilitud
L0 no difiere significativamente de 1. Las hipótesis que contrastar
son las siguientes:

—2LL0 es un parámetro estadístico, que nos va a permitir evaluar


el modelo de regresión logística simple. Este parámetro se calcula
mediante técnicas de cálculo diferencial y se distribuye en el mues-
treo según una χ2 con n — K— 1 grados de libertad (en el caso de
la regresión logística simple, este estadístico tiene n — 2 grados
de libertad, en regresión logística múltiple, la razón de verosimilitud
tiene n — k — 1 grados de libertad).
En este caso, no poder rechazar la hipótesis nula es equivalente
164 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

a decir que el modelo es significativo y, por tanto, que el coeficiente


de regresión logística es significativamente distinto de cero. Rechazar
la hipótesis nula equivale a decir que el coeficiente de regresión
logística no es significativamente distinto de cero y, por tanto, el
modelo no es significativo.
ANALICE DETENIDAMENTE EL PRESENTE CONTRASTE DE HI-
PÓTESIS Y COMPÁRELO CON LOS ANTERIORES. OBSERVE QUE
RECHAZAR LA HIPÓTESIS NULA EN ESTE CASO SIGNIFICA LO
CONTRARIO QUE EN LOS CASOS ANTERIORES.

Evaluación del estadístico Z2


Las hipótesis que contrastar son las mismas que en el caso ante-
rior. El estadístico Z2 denominado por SPSS (GOODNESS OF FIT) en
regresión logística simple se distribuye como una CHI CUADRADO
con n — 2 grados de libertad; n es el número de casos y K el
número de variables independientes, en el modelo simple K= 1.
Este estadístico viene dado por la siguiente expresión.

En la expresión anterior Ei es el iésimo residuo, esto, es la dife-


rencia entre la probabilidad observada y la probabilidad estimada
en el iésimo caso. Pi es la probabilidad estimada para el iésimo
caso.
En este caso, no poder rechazar la hipótesis nula es equivalente
a decir que el modelo es significativo y, por tanto, que el coeficiente
de regresión logística es significativamente distinto de cero. Rechazar
la hipótesis nula equivale a decir que el coeficiente de regresión
logística no es significativamente distinto de cero y por tanto el
modelo no es significativo.
REGRESIÓN LOGÍSTICA 165

EL MODELO MÚLTIPLE

El modelo de regresión logística múltiple relaciona la probabili-


dad de que ocurra un determinado suceso en función de varias
variables. La expresión matemática del modelo logístico múltiple
es la siguiente:

Las variables independientes en el modelo múltiple pueden ser


cualitativas o cuantitativas.
Al igual que en el modelo simple, hay que convertir las variables
cualitativas en variables DUMMY. Si una variable cualitativa tiene K
categorías, habrá que generar K — 1 variables DUMMY, a fin de
que todas las posibilidades queden debidamente representadas.
En un modelo múltiple, el efecto de cada variable sobre P puede
ser distinto cuantitativa y cualitativamente. Si el coeficiente de re-
gresión logística de una variable es positivo, dicha variable aumen-
tará la probabilidad del suceso que estemos evaluando; por el con-
trario, si el coeficiente es negativo, la variable actuará disminuyendo
la probabilidad del suceso en cuestión.

HIPÓTESIS EN EL MODELO MÚLTIPLE

En el modelo múltiple, las hipótesis operativas son las siguientes:

En el modelo múltiple, los autores usan diversos estadísticos


para contrastar las hipótesis anteriores.
166 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Evaluación del incremento del estadístico —2LL0


Las hipótesis que contrastar son las anteriores. La evaluación
comienza conociendo el valor de este estadístico, que se distribuye
como una CHI CUADRADO, para el modelo que contiene sólo la
constante. En este caso, los grados de libertad son iguales al número
de casos n menos 1. A continuación calculamos el valor y, cuando
hemos incluido en el modelo todas las variables independientes,
los grados de libertad son iguales al número de casos n menos el
número de variables independientes ámenos 1, n — K— 1. Calcu-
lamos la diferencia entre los dos valores del estadístico: la diferencia
es un estadístico que se distribuye como una CHI CUADRADO con
grados de libertad igual a la diferencia de grados de libertad entre
las dos situaciones, que es igual al número de variables indepen-
dientes del modelo K.
Supongamos que tenemos un modelo de regresión logística múl-
tiple con 5 variables independientes, construido a partir de 75 casos
n = 75. El valor de —2LL0 para el modelo que incluye solamente la
constante es 88. Este estadístico se distribuye como una CHI CUA-
DRADO con 74 grados de libertad n — 1. Al incluir las 5 variables
independientes, el valor de —2LL0 es 58 y los grados de libertad
69, que corresponden a n = 75 menos el número de variables, 5 en
este caso, menos 1, 69 y n — K— 1 = 69. La diferencia entre los dos
valores del estadístico, D = 88 — 58 = 30, es, a su vez, un estadístico,
que se distribuye como una CHI CUADRADO con grados de libertad
igual a la diferencia de los grados de libertad de —2LL0 en las dos
situaciones 74 — 69 — 5.
Obsérvese que los grados de libertad del estadístico diferencia
es igual al número de variables que tiene el modelo, 5 en este caso.
Consultando las tablas de la CHI CUADRADO, para una significación
de 0.05 y cinco grados de libertad, el punto crítico es 11.1. Como 30
es mucho mayor, rechazaremos la hipótesis nula y concluiremos
que al menos uno de los coeficientes es significativamente distinto
de 0, y la correspondiente variable influye en la probabilidad del
suceso que estemos estudiando.
Una vez rechazada la hipótesis nula en el caso anterior, evalua-
remos mediante el estadístico WALD o mediante la prueba de la t
de Student, todos los coeficientes de regresión logística y construí-
REGRESIÓN LOGÍSTICA 167

remos un modelo, mediante alguna de las técnicas habituales en


análisis multivariante, en el que todos los coeficientes sean estadís-
ticamente significativos.
No rechazar la hipótesis nula, significa que no tenemos evidencia
de que algún coeficiente sea significativamente distinto de cero. Si
no hay ningún coeficiente significativamente distinto de cero, no
hay modelo logístico.
SPSS dispone de métodos que permiten la construcción automá-
tica de modelos multivariantes, atendiendo a los criterios que espe-
cifiquemos.

Evaluación de —2LL 0

La verosimilitud L0 es un número menor que 1; en un modelo


perfecto, sería igual a 1 y, como el logaritmo de 1 es cero, el valor
de —2LL0 es cero en un modelo perfecto.
Una forma posible de evaluar un modelo es considerar a priori
que es perfecto, o lo que es lo mismo, que el valor de la verosimilitud
Lo no difiere significativamente de 1. Las hipótesis que contrastar
son las siguientes:

—2LL0 es un parámetro estadístico que nos va a permitir evaluar


el modelo de regresión logística múltiple. Este parámetro se calcula
mediante técnicas de calculo diferencial y se distribuye en el mues-
treo según una χ2 con n — K — 1 grados de libertad. K es el
número de variables independientes que tiene el modelo
En este caso, no poder rechazar la hipótesis nula es equivalente
a decir que el modelo es significativo y, por tanto, que el coeficiente
de regresión logística es significativamente distinto de cero. Rechazar
la hipótesis nula equivale a decir que el coeficiente de regresión
logística no es significativamente distinto de cero y, por tanto, el
modelo no es significativo.
168 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

ANALICE DETENIDAMENTE EL PRESENTE CONTRASTE DE HI-


PÓTESIS Y COMPÁRELO CON LOS ANTERIORES. OBSERVE QUE
RECHAZAR LA HIPÓTESIS NULA EN ESTE CASO SIGNIFICA QUE
NO TENEMOS EVIDENCIA DE QUE LAS VARIABLES INDEPENDIEN-
TES INFLUYAN SIGNIFICATIVAMENTE EN LA PROBABILIDAD DE
LA VARIABLE DEPENDIENTE.
En caso de no poder rechazar la hipótesis nula, habrá que com-
probar mediante WALD, o la t de Student, la significatividad de los
coeficientes de regresión logística, a fin de determinar cuál o cuáles
deben entrar en el modelo. Recuérdese que en el modelo final
todos los coeficientes deben ser significativos.

Evaluación del estadístico Z2


Las hipótesis que contrastar son las mismas que en el caso anterior.
El estadístico Z2, denominado por SPSS (GOODNESS OF FIT), se
distribuye como una CHI CUADRADO con n — K— 1 grados de
libertad, siendo n el número de casos y K el número de variables
independientes. Este estadístico viene dado por la siguiente expresión:

En la expresión anterior, Ei es el iésimo residuo, esto es, la dife-


rencia entre la probabilidad observada y la probabilidad estimada
en el iésimo caso. Pi es la probabilidad estimada para el iésimo
caso.
En este caso, no poder rechazar la hipótesis nula es equivalente
a decir que el modelo es significativo y, por tanto, que el coeficiente
de regresión logística es significativamente distinto de cero. Rechazar
la hipótesis nula equivale a decir que el coeficiente de regresión
logística no es significativamente distinto de cero y, por tanto, el
modelo no es significativo.
En caso de no poder rechazar la hipótesis nula, habrá que com-
REGRESIÓN LOGÍSTICA 169

probar mediante WALD, o la t de Student, la significatividad de los


coeficientes de regresión logística, a fin de determinar cuál o cuáles
deben entrar en el modelo. Recuérdese que en el modelo final
todos los coeficientes deben ser significativos.

INTERACCIÓN

En los modelos múltiples, es preciso comprobar la existencia de


interacción, la cual es un fenómeno que implica un efecto no lineal
entre dos o más de las variables incluidas en el modelo. El modelo
logístico múltiple viene expresado por:

En la expresión anterior, Zes una función lineal. En cada


sumando hay una sola variable. Supongamos un modelo LINEAL
con dos variables independientes.

El modelo anterior es un modelo lineal sin interacción. Veamos


a continuación un modelo con dos variables independientes con
interacción:

Obsérvese que, en el modelo anterior, hay un término no lineal


en el que las dos variables independientes están relacionadas de
170 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

forma distinta a la simple suma; en este caso, se dice que existe


interacción.
Veamos a continuación un modelo con tres variables indepen-
dientes sin interacción:

El modelo siguiente es un modelo con una interacción binaria y


otra terciaria:

En el modelo anterior, hay dos términos no lineales: uno binario,


en el que están implicados la variable 1 y 3, y otro término en el
que están implicadas las tres variables. En el modelo anterior hay
interacción triple o doble.
Si sustituimos alguna de las funciones anteriores (Z), en las que
hay interacción, por la (Z) de la ecuación (8), tendremos un modelo
de regresión logística con interacción.

COEFICIENTE DE CORRELACIÓN PARCIAL


La contribución particular de cada variable es difícil de calcular,
puesto que su influencia depende del resto de las variables. Un
estadístico que puede utilizarse, para conocer aproximadamente la
contribución parcial de cada variable es R, el cual viene dado por
la siguiente expresión:
REGRESIÓN LOGÍSTICA 171

En la expresión anterior, —2LL0 es un estadístico calculado en


cada ocasión con la variable que está siendo evaluada. En valor
absoluto R puede oscilar entre 0 y 1. Si el valor es próximo a 0,
ello indica que la contribución al modelo es pequeña.

VARIABLES DUMMY

En el modelo pueden incluirse variables cualitativas, siempre y


cuando dichas variables estén codificadas de forma numérica. Por
cada variable hay que generar tantas variables DUMMY como ca-
tegorías tenga la variable menos una. Si una variable tiene tres
categorías, para que todas sus características queden perfectamente
determinadas, serán necesarias 3 — 1= 2 variables DUMMY. Las
variables dicotómicas sólo precisan una variable por cada una.
Si tenemos una variable, clase social (CLSO), con tres
categorías, tendremos que generar dos variables DUMMY, X1 y X2,
para codificar correctamente sus categorías. Los individuos con
clase social alta les codificaremos dando el valor 1 a las dos
variables; a los de clase media les codificaremos con un 1 X1 y con
un 0 X2, a los individuos de clase baja les codificaremos con un 0
en la variable X1 y con un 1 la variable X2.

MAGNITUD DEL EFECTO. RIESGO RELATIVO


Y ODDS RATIO
En el capítulo anterior, hemos visto los procedimientos necesarios
para analizar si un determinado modelo de regresión logística simple
es significativo, pero la significación estadística es solamente el
172 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

primer paso de un análisis estadístico. Si hay significación estadística,


en un segundo paso hay que estudiar la fuerza de la asociación
estadística.
Para estudiar la fuerza de la asociación estadística existen muchos
parámetros que pueden ser utilizados, pero en ciencias de la salud
los que más se emplean son el riesgo relativo (RR) y el ODDS
RATIO, también llamado razón de predominio (OR). Los dos pueden
calcularse mediante derivaciones del modelo de regresión logística,
aunque el más utilizado en regresión logística es el OR por su
facilidad de cálculo.
No siempre es correcto utilizar indistintamente RR y OR; esto
depende de los diseños experimentales.
En los estudios prospectivos, en los que la muestra se ha extraído
aleatoriamente de la población, pueden utilizarse los dos.
En los estudios de casos y controles, y en otros caso en los que
la muestra no es un reflejo estadísticamente representativo de la
población, sólo es correcto el uso del OR.
Recuérdese que, desde el punto de vista estadístico, es posible
el cálculo tanto de RR como de OR, pero el que esto sea o no
correcto depende del diseño experimental.

Riesgo relativo (RR)


En ciencias de la salud se considera factor de riesgo a una carac-
terística que aumenta la probabilidad de padecer una determinada
enfermedad. Factor de protección es una característica que disminuye
la probabilidad de padecer una determinada enfermedad.
El concepto de factor de riesgo podemos generalizarlo a otros
casos en los que la variable dependiente no sea una variable cuyas
categorías sean padecer o no una determinada enfermedad. Los
factores que aumenten la probabilidad de que ocurra un determi-
nado suceso, sean éstos de la naturaleza que sean, podemos deno-
minarlos factores favorecedores y, a los que disminuyan la proba-
bilidad, factores entorpecedores.
Las medidas de riesgo más utilizadas en ciencias de la salud
son el riesgo relativo (RR), el predominio (ODDS) y la razón de
predominio (OR). Sus significados son distintos.
REGRESIÓN LOGÍSTICA 173

El RR es la razón entre la probabilidad de padecer la enfermedad


en presencia del factor y la probabilidad de padecer la enferme-
dad en ausencia del factor. La expresión matemática del RR es la
siguiente:

_En la expresión anterior, E significa enfermedad, F factor presente


y F factor ausente.
El RR nos indica cuántas veces es más probable contraer la
enfermedad en presencia del factor que en ausencia del factor. Si
no existe ninguna relación entre la enfermedad y el factor, el valor
de RR es 1, un número significativamente mayor que 1; indica que
el factor que estamos evaluando es un factor de riesgo y un número
menor que 1 indica que el factor es de protección.
No es correcto el cálculo del RR en todos los tipos de diseño;
debe utilizarse cuando tengamos una muestra estadísticamente re-
presentativa de una población y la seguridad de que el factor que
queremos evaluar es anterior a la enfermedad en estudio. Estas
condiciones se cumplen en estudios de cohortes y en algunos es-
tudios transversales; sin embargo, no se cumplen en estudios de
casos y controles.

Razón de predominio (OR)

El predominio (PR), es una relación entre dos probabilidades.


Hay un predominio en presencia del factor (PRF) y un predominio
en ausencia del factor (PRN). El predominio en presencia del factor
(PRF) es la razón entre la probabilidad de padecer la enfermedad
en presencia del factor y la probabilidad de no padecer la enfer-
medad en presencia del factor. PRF viene dado por la siguiente
expresión:
174 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la expresión anterior, (E) indica padecer la enfermedad, (F)


presencia del factor y E ausencia de la enfermedad.
Conceptualmente, (PRF) indica cuántas veces es más probable
padecer la enfermedad que no padecerla cuando se está expuesto
al factor.
El (PRN) es la razón entre la probabilidad de padecer la enfer-
medad en ausencia del factor y la probabilidad de no padecer la
enfermedad en presencia del factor, {PRN) viene dado por la si-
guiente expresión:

En la expresión anterior E, indica enfermedad, £"no enfermedad,


F presencia del factor y F ausencia del factor.
Conceptualmente, (PRN) indica cuántas veces es más probable
padecer la enfermedad en ausencia del factor que no padecerla en
ausencia del factor.
La razón entre los dos predominios, más conocida por ODDS
RATIO (OR), es una medida de riesgo muy utilizada.
Matemáticamente, el (OR) viene dado por la siguiente expresión:
REGRESIÓN LOGÍSTICA 175

En la expresión anterior, los elementos que la conforman tienen


el mismo significado que los descritos anteriormente en el caso de
los predominios (PRE) y (PRN). Si no existe relación entre el factor
y la enfermedad, el valor del OR es estadísticamente igual a 1; si el
factor es de riesgo, el OR es mayor que 1 y, si el factor es de
protección, el OR es significativamente menor que 1.
En estudios de casos y controles, el OR, es la medida de riesgo
más utilizada.
Obsérvese que el significado conceptual del RR y del OR es
distinto.
En regresión logística la medida de asociación más empleada
es el OR, debido a que el número e (base de los logaritmos nepe-
rianos), elevado al coeficiente de regresión logística del factor, es
el OR que supone el aumento unitario del factor; si el OR es signifi-
cativamente mayor que 1, ello indica que el factor es de riesgo o
favorecedor.

ANÁLISIS DEL RIESGO EN REGRESIÓN LOGÍSTICA

En regresión logística, la medida de asociación más utilizada es


el OR por su sencillez de cálculo.
Si tenemos un modelo de regresión logística significativo, en el
que una de las variables independientes es dicotómica, con valores
0 o 1, el número e elevado al coeficiente de regresión logística es
el OR, correspondiente al riesgo o protección que implica un aumen-
to unitario de la variable independiente:

Supongamos que queremos evaluar si fumar es un factor de


riesgo y cuantificarlo en el caso de la bronquitis crónica. En este
caso, no fumar lo codificamos con 0 y fumar con 1; de esta manera,
el incremento unitario en la variable indica la diferencia entre fumar
y no fumar. El OR particularizado para esta variable se calculará
según (5-14).
176 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En el caso de una variable cuantitativa, cuando queramos estudiar


si la probabilidad de padecer una cardiopatia aumenta al aumentar
el nivel de colesterol (NC), e elevado a bx es el número de veces
que aumenta la probabilidad de padecer una cardiopatia por cada
mg de aumento del colesterol. Evidentemente, esta probabilidad
debe de ser pequeña. En el caso de variables cuantitativas, suele
estudiarse el OR correspondiente al aumento de un determinado
número de unidades. Siguiendo con el ejemplo del colesterol, po-
demos estudiar el OR que supone el aumento de 100 mg de coles-
terol o, dicho de otra manera, cuántas veces es más probable que
padezca una cardiopatia una persona que tiene un nivel de colesterol
100 mg mayor que otra, en este caso:

El subíndice 100 del OR indica que es el OR correspondiente al


aumento de la variable independiente en 100 unidades.
En regresión logística, el RR puede obtenerse, calculando primero
la probabilidad de padecer la enfermedad en presencia del factor
P(Y)F y la probabilidad de padecer la enfermedad en ausencia del
factor P(Y)NF. A continuación se calcula la razón entre ambas. Esto
es relativamente sencillo y consiste en dar el valor 1 a la variable
en presencia del factor y el valor 0 en ausencia del factor, calculando
las probabilidades en ambos casos.

REGRESIÓN LOGÍSTICA CON SPSS

El modulo de estadística avanzada de SPSS incluye el procedi-


miento LOGISTIC REGRESSION, que permite realizar modelos de
regresión logística.
Al procedimiento LOGISTIC REGRESSION pueden asociársele
varios subcomandos, que iremos analizando en los próximos sub-
apartados.
REGRESIÓN LOGÍSTICA 177

El subcomando VARIABLES

El subcomando VARIABLES permite definir las variables que


van a intervenir en el modelo, el cálculo para la variable dependiente
se realiza sobre la variable nominada antes de la palabra clave
WITH. Puede realizarse un estudio de interacción con las variables
que se citen en un renglón aparte después de VARIABLES y estén
relacionadas mediante la palabra clave BY.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La primera de las instrucciones anteriores carga para su análisis


el FICHERO VASCULAR.SYS. Este es un fichero que contiene una
serie de factores en relación con la enfermedad coronaria EC y la
hipertensión arterial HTA. Recomendamos al lector que examine
las variables y características de este fichero mediante el comando
DISPLAY ALL. La segunda instrucción, mediante el comando LO-
GISTIC REGRESSION y el subcomando VARIABLES, indica a SPSS
que realice un estudio sobre la influencia que puede tener fumar
sobre padecer o no una enfermedad coronaria EC. Recuérdese que
la variable antes de WITH es la variable que se toma de base para
el cálculo de la variable dependiente y la o las variables des-
pués de WITH son las variables independientes, en regresión logís-
tica la variable dependiente es la probabilidad de que ocurra un
suceso, en este caso la probabilidad de padecer enfermedad coro-
naria.
Los resultados obtenidos son los siguientes:
178 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Los resultados anteriores nos indican el número de iteraciones,


4 en este caso, como ya indicamos anteriormente (Ver apartado
Estimación y significado de los coeficientes); en segundo lugar se
REGRESIÓN LOGÍSTICA 179

nos muestran varios estadísticos para validar el modelo (Ver apar-


tados El modelo múltiple e hipótesis en el modelo múltiple). Los
estadísticos que se muestran son:
—2LL0 (menos dos veces el logaritmo de la verosimilitud).
Model chi square (evaluación de la razón de verosimilitud).
Improvement, evaluación de la razón de verosimilitud en cada
paso de la construcción del modelo. En este caso, la construcción
del modelo sólo requiere un paso; por eso el valor de improvement
es igual al del «model chi square».
GOODNESS OF FIT. evaluación del estadístico Z2.
En este caso, observamos que todos los estadísticos expresan
que el modelo es significativo, recordamos al lector que el estadístico
—2LL0 y GOODNESS OF FIT contrastan, como hipótesis nula, que el
modelo es perfecto y, como hipótesis alternativa, que el modelo no
es significativo. Por lo tanto, diremos que el modelo no es significa-
tivo cuando la significación sea menor que 0.05: como en este caso
es mayor que 0.05, aceptamos que el modelo no difiere de forma
significativa de un modelo perfecto, o lo que es lo mismo, el modelo
logístico es significativo. Por el contrario, MODEL CHI SQUARE y
GOODNESS OF FIT contrastan, como hipótesis nula, que el modelo
no es significativo y, como hipótesis alternativa, que el modelo es
significativo; por lo tanto, diremos que el modelo es significativo
cuando la significación sea menor que 0.05. No rechazar la hipótesis
nula en los contrastes con —2LL0 y GOODNESS OF FIT es lo mismo
que rechazarla con los estadísticos MODEL CHI SQUARE e IMPRO-
VEMENT. Observe que los 4 estadísticos evalúan lo mismo, pero
con métodos distintos. Si tiene alguna duda, repase los apartados
Hipótesis en regresión logística simple y múltiple de este capítulo,
donde se describen estos estadísticos.
A continuación de los estadísticos de contraste, se nos muestra
una tabla 2 X2. En dicha tabla se muestran los casos observados de
enfermedad coronaria frente a los casos estimados de enfermedad
coronaria. Se considera un caso observado de enfermedad cuando
la variable EC tiene el valor 1, que es el equivalente a EC = si, y
valor estimado de enfermedad «SI» cuando la probabilidad, calculada
mediante el modelo, es mayor o igual que 0.5. Si la probabilidad
180 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

es menor que 0.5, el valor estimado de enfermedad se considera


como «NO». En la tabla se enfrentan los valores estimados y obser-
vados de enfermedad, calculando el porcentaje de coincidencias.
En el presente ejemplo hay un 72.31% de coincidencias.
Por último en una tabla se nos muestran los parámetros del modelo,
b0 = —22336, bi = 1.9972, los errores estándar de ambos coeficientes,
el estadístico WALD y la significación de los coeficientes, En el modelo
simple, si el coeficiente de la única variable independiente, es signi-
ficativo; los estadísticos de contraste son significativos. En el modelo
múltiple, veremos que los estadísticos del modelo pueden ser signi-
ficativos y algún coeficiente puede no serlo; por último, se muestran
los valores correspondientes al coeficiente de correlación parcial y
el valor de e19972 que es el OR, riesgo entre fumadores respecto no
fumadores (recuérdese que las medidas de riesgo son entre dos
situaciones concretas). En este caso, el valor del OR es 7.3683, lo cual
indica que fumar ofrece un riesgo 7.36... veces mayor que no fumar
respecto a la enfermedad coronaria.
El modelo logístico calculado para evaluar la relación entre la
enfermedad coronaria EC y la variable independiente FUMA, es el
siguiente:

En el modelo anterior, la variable X tomará el valor 0, en el caso


de los no fumadores, y el valor 1, en el caso de los fumadores.
A continuación, veamos un ejemplo de regresión logística múltiple,
con un estudio de interacción. Inicie una sesión de trabajo con SPSS
y teclee las siguientes instrucciones:
REGRESIÓN LOGÍSTICA 181

Las instrucciones anteriores indican que se proceda a la cons-


trucción de un modelo de regresión logística en el que la variable
dependiente sea la probabilidad de padecer enfermedad coronaria
y las variables independientes BEBE y CB (colesterol basal). Se
solicita un estudio de posible interacción con las variables CB y
BEBE. Obsérvese que, con el subcomando VARIABLES, se listan las
variables que intervienen en el modelo y aparte aquellas cuya
posible interacción se quiere estudiar. Los estudios de interacción
pueden realizarse con todas o parte de las variables que intervienen
en el modelo.
Los resultados obtenidos son los siguientes:
182 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La construcción del modelo ha precisado 13 iteraciones. El valor


del estadístico —2LL0, con sólo la constante, es 76.703087. Los esta-
dísticos de contraste son significativos. Recuérdese que, en un mo-
delo múltiple, el que los estadísticos de contraste sean significativos
implica que al menos uno de los coeficientes de regresión logística
es significativo (salvo en casos de colinealidad); por tanto esto no
es más que un primer paso. El siguiente es ver cuál o cuáles de los
coeficientes son significativos. Aquí es significativa la variable CB,
cuyo OR es 1.08; esto quiere decir que el riesgo, entre una persona
que tenga 1 mg de colesterol más que otra, es de 1.08. Es lógico
que el OR sea pequeño, puesto que el riesgo por un mg de diferen-
cia es pequeño. Podemos calcular el OR para 50 o 100 mg de
diferencia, el cual, evidentemente, será mucho mayor.
En la tabla de predicciones hay un 98.46 de predicciones co-
rrectas.
La construcción del modelo no debe terminar aquí, puesto que
ha de procederse a la construcción de uno nuevo que, incluya sólo
la variable o variables cuyos sus coeficientes sean significativos. En
REGRESIÓN LOGÍSTICA 183

el modelo final, los coeficientes de todas las variables incluidas


deben ser significativos. En un próximo subapartado, evaluaremos
el subcomando METHOD, mediante el cual podremos construir
modelos finales en base a las especificaciones indicadas.

El subcomando CATEGORICAL
Este subcomando permite evaluar variables cualitativas con
más de dos categorías. Para que todos los valores de una variable
cualitativa queden debidamente representados, es necesario
generar tantas variables como el número de categorías menos 1. A
estas variables se las conoce con el nombre de variables
'DUMMY' ficticias. Este subcomando genera automáticamente el
número de variables 'DUMMY' necesarias y el valor que debe
tomar cada una de ellas para codificar cada categoría.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

Las instrucciones anteriores indican que debe precederse a la


construcción de un modelo de regresión logística, cuya variable
dependiente sea la probabilidad de padecer enfermedad coronaria
y las variables independientes CB y CLSO; esta última es una
variable cualitativa con tres valores, y por esto pedimos a SPSS,
mediante el subcomando CATEGORICAL, que construya las
correspondientes variables 'DUMMY'. Como CLSO tiene tres
categorías, serán necesarias 2 variables 'DUMMY'. Los resultados
obtenidos son los siguientes:
184 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN LOGÍSTICA 185

SPSS genera dos variables, CLSO1 y CLSO2, a fin de codificar los


valores de la clase social; para el valor clase ALTA, la variable
CLSO1 toma el valor 1 y la variable CLSO2 el valor 0. Para el valor
clase MEDIA, la variable CLSO1 toma el valor 0 y CLSO2 el valor 1,
y para el valor clase BAJA, CLSO1 toma el valor —1 y CLSO2 el
valor —1. En la tabla de predicciones hay un 93% de predicciones
correctas. Los estadísticos de contraste del modelo son significativos,
lo que implica que al menos un coeficiente es significativo. En la
tabla de parámetros del modelo, podemos observar que el único
coeficiente significativo es el correspondiente a TAS. Además de la
constante, recordamos que para un modelo final deberíamos ahora
plantear un modelo simple sólo con la variable TAS.

El subcomando CONTRAST
Al utilizar el subcomando CATEGORICAL, relacionado con una
variable con n categorías, SPSS genera n — 1 variables, (variables
DUMMY). Este subcomando muestra una tabla, en la que se reflejan
los valores asignados a las variables DUMMY, para cada categoría
de la variable original. El cálculo de los valores puede hacerse de
distintas maneras, según los distintos contrastes de los parámetros.
El tipo de contraste no afecta a la variable, tomada de forma global,
pero sí a los coeficientes y a su nivel de significación, considerados
individualmente.
En las opciones siguientes, las variables categóricas se refieren
a las nominadas junto al subcomando CATEGORICAL.
O procedimiento LOGISTIC REGRESSION usa por defecto el con-
traste DEVIATION. En caso de preferir otro tipo de contraste, utilizar
186 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

el subcomando COÑTRAST, con alguna de las siguientes especifi-


caciones:
DEVIATION (categoría). El efecto para categoría de la variable
independiente, excepto una, es comparado con el efecto global. La
variable referencia, puede ser especificada después de DEVIATION,
en lugar de (categoría), indicando el número secuencial de categoría.
En caso de no especificar ninguna, será considerada como variable
referencia la última.
INDICADOR (categoría). La última variable se codificará con
ceros en todos los valores de las variables de nueva generación. El
resto de las categorías tendrán un valor 1 en una de las nuevas
variables y cero en las restantes. La variable codificada con ceros
puede ser distinta de la última, e indicará, en lugar de (categoría),
el número secuencial de la categoría que queremos que sirva de
referencia.
SIMPLE (categoría). Cada categoría de la variable se compara
con la última categoría, excepto la última. Puede utilizarse otra cate-
goría de referencia, especificando el número secuencial en lugar
de (categoría).
DIFFERENCE. El efecto de cada categoría, excepto la primera,
se comparará con el efecto medio de las categorías precedentes.
HELMERT. El efecto de cada categoría, excepto la última, se
compara con el efecto medio de las categorías siguientes.
POLINOMIAL (METRIC). Si una variable tiene K categorías,
el primer grado de libertad contiene el efecto lineal, el segundo el
efecto cuadrático y así hasta el késimo. Puede modificarse la métrica
sustituyendo en lugar de (metric), una secuencia de números enteros
que indiquen la relación entre las categorías por ejemplo, en la
variable CLSO (clase social) del ejemplo VASCULAR, poner en
lugar de (metric) (1, 2, 4) indica que la primera categoría, ALTA,
debe considerarse como 1, MEDIA como 2 y BAJA como 4. La
métrica habitual es suponer que todas las categorías están igual-
mente espaciadas según la métrica (1, 2, ... K).
REPEATED. Cada categoría, excepto la primera, se compara
con el efecto de la categoría anterior.
SPECIAL (MATRIX). Contraste definido por el usuario. Si la
variable tiene £" categorías, la matriz debe tener K— 1 filas y K co-
lumnas.
REGRESIÓN LOGÍSTICA 187

El subcomando METHOD
El subcomando METHOD indica el método que utilizar en la
construcción del modelo. Por defecto, en caso de no utilizar este
subcomando, es lo mismo que utilizarlo con la opción ENTER, la
cual incluye en el modelo todas las variables nominadas con el
subcomando VARIABLES, sean o no sean significativas. Obsérvese
cómo, en los ejemplos anteriores, no hemos utilizado el subcomando
METHOD, y todas las variables nominadas junto a VARIABLES, se
incluyen en la lista de parámetros.
Este subcomando admite las siguientes especificaciones:

ENTER. Esta opción se ha citado anteriormente. Incluye en el


modelo final a todas las variables, independientemente de que sean
o no significativas. Utilizar el subcomando METHOD con esta opción
tiene el mismo efecto que no utilizar el subcomando METHOD.
FSTEP. Esta especificación construye en varios pasos la ecua-
ción de regresión logística. Las variables independientes se incluyen
en la ecuación una a una y solamente permanecen aquellas que, al
entrar, su correspondiente coeficiente tenga una significación menor
que la indicada por PIN (probabilidad de entrada, cuyo valor por
defecto es 0.05, valor que puede ser modificado por el usuario). La
primera variable que se incluye en la ecuación es la que tiene la
menor probabilidad del estadístico WALD, es decir, la más signifi-
cativa. De manera sucesiva, van siendo incluidas las variables en la
ecuación, sobre la base de la significación del estadístico WALD. Si
el usuario desea utilizar el criterio de la razón de verosimilitud,
puede hacerlo añadiendo LR a la opción FSTEP. El criterio de salida
viene especificado por POUT; si una variable una vez introducida
en la ecuación, tiene un coeficiente cuya significación es mayor
que el nivel asignado a POUT, dicha variable se excluye de la
ecuación. Por defecto, el valor de POUT es 0.1. El subcomando
CRITERIA permite modificar los criterios de inclusión y de ex-
clusión.
BSTEP. Este método incluye todas las variables en el modelo
y elimina a continuación las variables cuyo nivel de significación
sea menor que el indicado por POUT. En caso de preferir el criterio
de la razón de verosimilitud, incluir LR tras la opción BSTEP. El
188 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

siguiente subcomando, CRITERIA, permite modificar los criterios


de inclusión y de exclusión de variables.

El subcomando CRITERIA

Este subcomando permite modificar los criterios de inclusión y


de exclusión de variables. También permite decidir el número má-
ximo de iteraciones en la construcción de la ecuación. Las opciones
de este subcomando son las siguientes:

BCON (VALUE). El proceso de iteración terminará cuando la


diferencia entre dos estimaciones consecutivas sea menor que el
valor indicado en lugar de (VALUÉ) o del indicado en LCON. Por
defecto, el valor es 0.001.
ITERATE (VALUE). En lugar de (VALUÉ), puede indicarse el
número máximo que iteraciones a realizar en la construcción del
modelo. En caso de no indicar nada, el número máximo de iteracio-
nes a realizar es de 20.
LCON (VALUE). En el lugar de (VALUÉ), puede indicarse el
porcentaje de cambio en el logaritmo de la razón de verosimilitud,
tomado como criterio para detener el proceso de iteración. Los
criterios de finalización de las iteraciones son 3 BCON, ITÉRATE y
LCON. El valor por defecto es 0.00001.
PIN (VALUE). Nivel de significación (VALUÉ) de entrada en
el modelo. Una variable se incluirá en el modelo si el nivel de
significación es menor que (VALUÉ) mediante la opción FSTEP de
METHOD. El valor por defecto es 0.05.
POUT (VALUE). Indica el nivel de significación de WALD o de
la razón de verosimilitud, que sirva como criterio para eliminar una
variable de un modelo. Una vez que se ha incluido en el mismo. Por
defecto es 0.1. Esto indica que, si después de haber incluido una
variable en un modelo, su nivel de significación se modifica y supera
0.1, dicha variable se eliminará del modelo.
EPS (VALUE). Valor de épsilon para chequeo de redundancias,
Este valor debe estar comprendido entre 0.05 y 10-12. Si, en un
paso del proceso de selección de las variables, el valor de la medida
de redundancia es menor que (VALUÉ) para todas las variables
REGRESIÓN LOGÍSTICA 189

seleccionadas, en el siguiente paso no se eliminará ninguna. El


valor por defecto es 0.00000001.

El subcomando SELECT
Ésta es una interesante opción que permite seleccionar un grupo
de casos del fichero. Supongamos que queremos estudiar la de-
pendencia de la enfermedad coronaria EC, en función de la tensión
arterial sistólica TAS, en función del colesterol CB y de la tensión
arterial diastolica TAD, pero dicho modelo queremos realizarlo en
HOMBRES. El subcomando SELECT nos permite seleccionar los su-
jetos que van a intervenir en el modelo, que serán los que cumplan
la proposición indicada por SELECT. Los operadores relaciónales
que pueden utilizarse son:

La sintaxis de select es:


SELECT VARIABLE OPERADOR VALOR
Inicie una sesión con SPSS y siga las siguientes instrucciones:
190 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La segunda de las instrucciones anteriores indica a SPSS que


construya un modelo logístico EN HOMBRES SELECT EQ 1, siendo
EC la variable dependiente y FUMA, BEBE y TAS las variables
independientes. Analizando la interacción entre las variables BEBE
y FUMA, el método de construcción debe SER FSTEP.
Los resultados obtenidos son los siguientes:
REGRESIÓN LOGÍSTICA 191
192 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN LOGÍSTICA 193

El modelo anterior se ha construido sólo para los casos seleccio-


nados SEXO EO 1, hombres. El método de construcción se ha reali-
zado según el método FSTEP, paso a paso, incluyendo en la ecuación
únicamente las variables que cumplen los criterios de inclusión
(ver subcomando METHOD). Al final, la única variable con efecto
significativo es TAS.

El subcomando ORIGIN

El modelo logístico contiene un término constante b0. La inclusión


del subcomando ORIGIN determina que el valor de la constante
sea 0.
ORIGIN no tiene especificaciones.

El subcomando PRINT

Este subcomando permite aumentar o reducir los listados de


resultados. Las especificaciones disponibles son las siguientes:

DEFAULT. En caso de no utilizar el subcomando PRINT, se


muestran tablas de resultados e información, sobre las variables
incluidas y excluidas de la ecuación en cada paso de la construcción
del modelo.
SUMMARY. Esta opción permite reducir la salida de resultados,
y muestra tablas y estadísticos para las variables incluidas y exclui-
das de la ecuación, pero sólo para el modelo final.
194 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

CORR. Esta opción permite incluir la matriz de correlación


para los parámetros incorporados al modelo.
ITER(n). Esta opción permite incorporar a los resultados in-
formación sobre las estimaciones y sobre los estadísticos en cada
iteración. Si en lugar de (n) indicamos un número, las estimaciones
se mostrarán cada n iteraciones.
ALL. Esta opción permite incluir todas las salidas de resultados
disponibles.

El subcomando MISSING

Este subcomando permite controlar la utilización de casos con


valores ausentes. Las especificaciones disponibles son las siguientes:

EXCLUDE. Excluye casos con valores ausentes de sistema o


de usuario en cualquiera de las variables implicadas en el análisis.
Ésta es la opción por defecto.
INCLUDE. Esta opción incluye en el análisis casos con valores
ausentes de usuario. Los casos con valores ausentes de sistema se
excluyen del análisis.

El subcomando EXTERNAL

Este subcomando permite que, durante el período de cálculo,


los resultados se graben en un fichero temporal, para almacenar
reservas de memoria. El tiempo de procesamiento se alargará, pero
aun así es recomendable cuando se trabaje con ficheros voluminosos
o se requieran cálculos complejos.
El subcomando EXTERNAL carece de subcomandos adicionales.

El subcomando CLASSPLOT

Este subcomando genera un gráfico en el que pueden observarse


los casos con probabilidad observada y estimada 0 o 1. Los casos
en los que la probabilidad estimada sea mayor que 0.5 se conside-
REGRESIÓN LOGÍSTICA 195

rarán como sucesos estimados (1); los casos con probabilidad


menor que 0.5 se considerarán como sucesos no observados (o);
los casos con probabilidad observada mayor que 0.5 se
considerarán (1) y los casos con probabilidad menor que 0.5 se
considerarán (0). De esta manera, en la gráfica podrán compararse
las diferencias entre sucesos observados y estimados.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda de las instrucciones anteriores indica a SPSS que


proceda a la construcción de un modelo de regresión logística, en
el que la variable dependiente sea HTA y las variables indepen-
dientes sean FUMA y CB. Se debe construir un gráfico para comparar
sucesos observados y estimados (CLASSPLOT), y en las salidas de
resultados debe incluirse la matriz de correlaciones.
Los resultados obtenidos son los siguientes:
196 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN LOGÍSTICA 197

En los resultados anteriores, se han incluido todas las variables


en el modelo final, al no haberse indicado ningún método de cons-
trucción con criterios de significación predeterminados (Ver Sub-
comando METHOD). En la gráfica podemos observar las diferencias
entre sucesos estimados y observados.

Análisis de residuos. El subcomando CASEWISE

En regresión logística, llamamos residuo a la diferencia entre la


probabilidad observada (PO) y la probabilidad estimada (PE), tam-
bién llamada probabilidad predicha.

Variables temporales

SPSS genera variables temporales, que nos van a ser muy útiles
para analizar residuos y así estudiar si el modelo se ajusta bien a
nuestros datos. Las variables temporales que genera SPSS son las
siguientes:
198 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

PRED. Probabilidad estimada (PE). Esta variable contiene el


valor de la probabilidad estimada, según el modelo de regresión
logística construido.
PGROUP. Probabilidad estimada de grupo.
RESID. Diferencia entre probabilidad observada y probabilidad
estimada.
DEV. Valores del estadístico lejanía, llamado DEVIANCE por
SPSS.
LRESID. Logit residual. Es el residuo para el modelo, si la pre-
dicción se hace sobre la escala residual.
SRESID. Residuos estudentizados. Residuo estudentizado para
un caso es el cambio en el estadístico LEJANÍA, si el caso se excluye.
ZRESID. Residuos estandarizados. El iésimo residuo estandari-
zado es igual al iésimo residuo, dividido por el error estándar resi-
dual. Los residuos estandarizados vienen dados por la siguiente
expresión:

En la expresión anterior, Ri es el iésimo residuo y (PEi) es la


iésima probabilidad estimada.
LEVER. Valor de las influencias. Este estadístico permite evaluar
aproximadamente la influencia de cada punto en la construcción
del modelo. El valor de este estadístico puede oscilar entre 0 y 1.
Su valor medio es K/n, siendo K el número de parámetros del
modelo, incluidos la constante y n, el tamaño de la muestra.
COOK. Valor del estadístico distancia de Cook. Este estadístico
sirve para estudiar la influencia de un caso en el modelo. La distancia
de Cook para el iésimo viene dada por la siguiente expresión:
REGRESIÓN LOGÍSTICA 199

En la expresión anterior, Zi2 es el iésimo residuo estandarizado


elevado al cuadrado y hi es el valor del estadístico LEVER para el
iésimo caso.
DFBETA. Un estadístico muy útil en el análisis de casos espe-
cíficos es el cambio observado en los coeficientes de regresión
logística, cuando eliminamos un caso. Un valor para DFBETA, se
produce para cada coeficiente del modelo, incluida la constante.
El valor de DFBETA, para el primer coeficiente, cuando el iésimo
caso se ha excluido es:

En la expresión anterior, B1 es el valor del primer coeficiente,


con todos los casos incluidos, B1(i) es el valor del primer coeficiente
cuando el iésimo caso se ha sido excluido.

El subcomando CASEWISE

Este subcomando permite obtener resultados de las variables


temporales referidas en el subapartado anterior.
El subcomando CASEWISE genera, para cada caso, el valor de
las variables temporales listadas detrás de él. Este subcomando
permite la especificación OUTLIER(VALOR), la cual limita los casos
mostrados sólo a aquellos cuyos residuos estudentizados son ma-
yores que el número indicado en el lugar de (VALOR).
Inicie una sesión con SPSS y siga las siguientes instrucciones:
200 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

La segunda de las instrucciones anteriores indica a SPSS que


proceda a la construcción de un modelo de regresión logística,
tomando como variable dependiente HTA y como variables inde-
pendientes ACF (antecedentes cardíacos familiares), SEXO y CB
(colesterol basal). El método de construcción del modelo debe ser
FSTEP, y el subcomando PRINT=SUMMARY indica que en lugar de
mostrar los estadísticos en cada paso de la construcción del modelo,
lo haga al final de la construcción. El subcomando CASEWISE indica
que se muestren los valores correspondientes a las variables tem-
porales PRED y RESID, pero sólo para los casos en los que su
residuo estudentizado sea mayor que 1.5. En caso de no haber
incluido la especificación OUTLIER(1.5), se habrían listado los valores
de PRED y RESID para todos los casos.
Los resultados obtenidos son los siguientes:
REGRESIÓN LOGÍSTICA 201
202 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

En el caso anterior, sólo la variable CB ha entrado en el modelo,


pues las otras no son significativas. Se han listado los valores de las
probabilidades estimadas de tres casos, 22, 33 y 61, que son los
únicos cuyo residuos estudentizados son mayores que 1.5.

El subcomando SAVE

Este subcomando permite incluir en el fichero activo una o más


variables temporales. El nombre con el que se incluirán será el que
pongamos, entre paréntesis, detrás de la variable temporal. Para la
variable DFBETA, se generará una variable para cada coeficiente
existente.

La línea anterior, incluida en una instrucción del procedimiento


LOGISTIC REGRESSION, incluirá en el fichero activo la probabilidad
estimada y la probabilidad residual, con los nombres de ESTIMADA
y RESIDUO respectivamente.

El subcomando ID

Este subcomando permite que los casos listados con el comando


CASEWISE se identifiquen por una variable distinta del número de
casos. La variable por la que se identificarán, será aquella que siga
al subcomando ID. Si dicha variable tiene etiqueta, se mostrarán los
8 primeros caracteres de la misma.
Capítulo 6
ANÁLISIS DE GRUPOS.
LOS PROCEDIMIENTOS CLUSTER
Y QUICK CLUSTER

ANÁLISIS DE CLUSTER. CLASIFICACIÓN

Los métodos de análisis de grupos clasifican grupos de casos o


elementos, en base a criterios cualitativos o cuantitativos (distancias
o similaridades). A veces, en lugar de los casos, se forman grupos
con las variables. En la sección de ejemplos veremos uno de agru-
pamiento de variables.
Entre los métodos estadísticos, que tratan de analizar la perte-
nencia de casos a diversos grupos, podemos distinguir fundamen-
talmente tres: ANÁLISIS DE CLUSTER, ANÁLISIS DE SEGMENTA-
CIONES y ANÁLISIS DISCRIMINANTE.
En el análisis de grupos (cluster), no tenemos grupos predefini-
dos; éstos se definen mediante el cálculo de distancias o similarida-
des, a partir de los valores de algunas variables que se consideran
adecuadas para ello. Por ejemplo, podemos formar grupos de usua-
rios de servicios de salud, teniendo en cuenta la edad, la tensión
arterial sistólica, nivel de colesterol, etc. En el análisis de grupos,
todas las variables incluidas en el análisis, contribuyen a la formación
de los mismos en igualdad de condiciones.
El análisis de segmentaciones también pretende definir grupos
a partir de varias variables. La diferencia con respecto al análisis de
cluster es que, en el análisis de segmentaciones, una de las variables
indica el criterio, y el resto definen los grupos. En ciencias de la
salud, la aplicación de estos métodos es de suma utilidad en multitud
de problemas. Por ejemplo, en la gestión hospitalaria es muy im-
204 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

portante la estancia de los pacientes, independientemente de su


diagnóstico. De esta manera, podemos formar grupos de pacientes
atendiendo a este criterio.
En el análisis discriminante, los grupos son conocidos a príorí, y
esta técnica explica la pertenencia de un elemento a uno u otro
grupo, en base a los valores de un grupo de casos. Por ejemplo, en
trasplante de órganos, podemos definir dos grupos: éxito y fracaso.
El interés del análisis es explicar la pertenencia a uno u otro grupo,
en base a un grupo de variables. En un segundo paso, el análisis
discriminante pretende predecir si un individuo, en caso de ser
trasplantado, pertenecerá a uno u otro grupo.

PROXIMIDADES: DISTANCIAS Y SIMILARIDADES


Se conoce con el nombre genérico de proximidades a un con-
junto de medidas que nos indican si dos o más elementos son
cercanos o lejanos según una o más variables.
Las similaridades y las distancias se calculan según el valor de
una o más variables. Dos casos pueden ser muy cercanos según
algunas variables y lejanos según otras. Por ejemplo, dos individuos
hipertensos, serán cercanos en cuanto a los valores de la tensión
arterial y pueden ser muy lejanos en cuanto a su nivel económico.

Similaridades
Las similaridades miden la proximidad entre casos respecto a
algún parámetro predeterminado. Tienen el máximo valor, si los
elementos son cercanos, y disminuyen si son lejanos. Las principales
medidas de similaridad utilizadas en estadística son:
1. Coseno de dos vectores. Si le Y son dos vectores de valores,
cuyas componentes denotaremos por x¡ e yit respectivamente.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 205

COSx, y es mayor si los valores de las pendientes de los vectores


son similares que si son distintos.
2. Coeficiente de correlación de Pearson. Este coeficiente es 1
para variables muy correlacionadas y 0 entre variables incorrela-
cionadas.

Distancias
La distancia mide la proximidad entre casos o grupos de casos.
Sus valores crecen en función de la distancia, alcanzan valores
mínimos para casos cercanos y valores grandes para casos lejanos.
Desde el punto de vista matemático, una distancia debe de veri-
ficar las siguientes condiciones:

Las distancias más utilizadas en estadística son las siguientes:


1. Distancia euclidea. Es una de las más utilizadas. Sus valores
se calculan según la siguiente expresión:

En la expresión anterior, x¡ e yx representan las coordenadas de


los vectores x e y.
2. Distancia euclidea al cuadrado. Es el cuadrado de la distancia
euclidea. Sus valores se calculan según la siguiente expresión:
206 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

3. Distancia métrica de Chebychev. Su valor es la máxima dife-


rencia, en valor absoluto, entre las componentes de los vectores de
valores. Sus valores se calculan según la siguiente expresión:

4. Distancia de Manhattan. Esta distancia es la suma de todas las


diferencias, en valor absoluto, entre las componentes de los vectores
de valores. Esta distancia viene dada por la siguiente expresión:

5. Distancia en un poder métrico absoluto. Esta distancia viene


dada por la siguiente expresión:

6. Distancia CHI-CUADRADO. Esta distancia es muy utilizada


cuando los datos disponibles son frecuencias, lo que permite calcular
distancias entre variables cualitativas. Es la distancia básica del
análisis de correspondencias. Sus valores se calculan según la si-
guiente expresión:
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y OUICK CLUSTER 207

En la expresión anterior, A y B son dos variables cualitativas. Ai


representa las frecuencias observadas de la iésima categoría de la
variable A y E (Ai) representa el valor esperado de las frecuen-
cias de la iésima categoría de la variable A. Lo mismo es aplicable
para B.

MÉTODOS DE ANÁLISIS DE CLUSTER

Hay dos grandes grupos de análisis de grupo, los JERÁRQUICOS


y los NO JERÁRQUICOS.
Los métodos jerárquicos forman los grupos en pasos sucesivos
y pueden analizar en cada paso las distancias entre los grupos
formados.
Los métodos no jerárquicos realizan una sola partición de los
casos iniciales, en M grupos. Este número M de grupos se determina
a priori. Los métodos no jerárquicos los analizaremos en el apartado
Métodos no jerárquicos, referente a QUICK CLUSTER.

Métodos jerárquicos

Dentro de los métodos jerárquicos, podemos distinguir entre


métodos AGLOMERATIVOS y MÉTODOS DISOCIATIVOS.

1. LOS MÉTODOS AGLOMERATIVOS. Estos métodos comien-


zan el análisis con tantos grupos como casos y van formando grupos
en pasos sucesivos. En el primer paso, se agrupan los dos casos
más cercanos; en el paso siguiente, los casos agrupados en el primer
paso se consideran como un grupo más; se vuelven a calcular las
distancias o similaridades entre los grupos, agrupando los dos más
próximos, y así sucesivamente, hasta conformar un solo grupo.
Los criterios más utilizados en la formación de grupos son los
siguientes:

— MÉTODO DEL PROMEDIO ENTRE GRUPOS (UPGMA). Este


método calcula el promedio de distancias entre todos los casos de
los dos grupos. La distancia que utilizar es elegida por el usuario.
208 ESTADÍSTICA MULTIV ARLANTE Y NO PARAMÉTRICA CON SPSS

Las más utilizadas se han definido en el apartado Proximidades de


este capítulo. Una vez definida la distancia que utilizar, se calcula la
distancia de cada caso de un grupo con todos los casos del otro
grupo y se calcula el promedio entre todas ellas, esta operación se
realiza con todos los grupos, asociando en el paso siguiente a los
dos grupos con un valor promedio menor.
— MÉTODO DEL PROMEDIO DENTRO DE GRUPOS. En este
caso, se agrupan de dos en dos los grupos previos, calculando a
continuación (según la distancia predefinida) el promedio de las
distancias de todos los miembros del grupo. Así se agrupan en ese
paso, de forma definitiva, los dos grupos cuya unión tenga el pro-
medio menor.
— MÉTODO DE LAS DISTANCIAS MÍNIMAS. Este método, tam-
bién conocido como el vecino más próximo, considera la distancia
entre dos grupos la de los miembros más próximos.
— MÉTODO DE LAS DISTANCIAS MÁXIMAS. Este método tam-
bién es conocido como el vecino más lejano; considera la distancia
entre dos grupos como la distancia entre los dos casos más lejanos.
— MÉTODO CENTROIDE. Considera la distancia entre dos gru-
pos como la distancia entre los centroides.
— MÉTODO DE LA MEDIANA. Este método considera la dis-
tancia entre dos grupos la existente entre las medianas de los dos
grupos, considerando todas las variables de forma conjunta.
— MÉTODO DE WARD. Al unir dos grupos, la varianza aumenta.
El método de Ward calcula cuál sería la varianza de dos grupos, en
caso de unirlos, uniendo en el paso siguiente aquellos grupos cuya
varianza sea mínima. En caso de tener en cuenta más de una variable
en lugar de la varianza, se unen los grupos cuya inercia (suma de
la diagonal principal de la matriz de varianzas y covarianzas) sea
mínima.
2. MÉTODOS DISOCIATIVOS. Estos métodos comienzan el aná-
lisis con un solo grupo, formado por todos los casos. En pasos
sucesivos, se van formando grupos hasta terminar en tantos grupos
como casos.
Los siete métodos descritos son los métodos aglomerativos. Pue-
den aplicarse a los métodos disociativos, teniendo en cuenta que,
en estos últimos, en el paso siguiente se genera un grupo nuevo
formado con los casos en los que las distancias son mayores.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 209

ANÁLISIS DE GRUPOS CON SPSS.


EL PROCEDIMIENTO CLUSTER
El procedimiento CLUSTER permite realizar análisis de grupos
jerárquicos. Los grupos no jerárquicos los analizaremos en el capítulo
siguiente, con el procedimiento QUICK CLUSTER. Las variables que
deben intervenir en un análisis de grupos se citan en lista tras el
procedimiento CLUSTER. Este procedimiento no tiene un subco-
mando VARIABLES. Los subcomandos que pueden utilizarse con
CLUSTER son los siguientes:

MEASURE.
METHOD.
PRINT.
PLOT.
ID.
SAVE.
WRITE.
READ.
MISSING.

El subcomando MEASURE
Este subcomando permite elegir la medida de proximidad que
debe ser utilizada. En el apartado PROXIMIDADES de este capítulo,
se describen las medidas de proximidad. Las proximidades dispo-
nibles son las siguientes:
SEUCLID. Distancia euclidea al cuadrado. Esta distancia es la
medida de proximidad más utilizada. Es también la opción por de-
fecto. En caso de no utilizar el subcomando MEASURE, SPSS calcula
los grupos utilizando como medida de proximidad esta distancia.
EUCLID. Esta palabra clave, unida al subcomando MEASURE,
indica que la medida de proximidad que debe ser utilizada en el
cálculo de grupos es la distancia euclidea.
COSINE. La medida de proximidad que utilizar para el cálculo
de los grupos, es el coseno de los vectores de datos. Es una medida
de similaridad.
210 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

BLOCK. La medida de proximidad que utilizar es la distancia


de Manhattan.
CHEBYCHEV. La medida de proximidad que utilizar es la dis-
tancia de Chebychev.
POWER(p.r). La medida de proximidad que utilizar es la dis-
tancia en un espacio métrico absoluto.

El subcomando METHOD
Este subcomando indica a SPSS el método que utilizar en el
análisis de grupos. En caso de no utilizar este subcomando por
defecto, se usa como método el promedio entre grupos. En el apar-
tado Métodos de análisis de clusters de este capítulo se describen
los principales métodos utilizados en el análisis de grupos. Las
opciones disponibles son las siguientes:

BAVERAGE. Promedio entre grupos (UPGMA). Esta es la opción


por defecto.
WAVERAGE. Promedio dentro de grupos.
SINGLE. Método de la mínima distancia.
COMPLETE. Método de la máxima distancia.
CENTROID. Distancia entre centroides. Con este método sólo
es posible utilizar la distancia euclidea al cuadrado.
MEDIAN. Distancia entre las medianas. Con esta opción sólo es
posible utilizar la distancia euclidea al cuadrado.

El subcomando PRINT
Este subcomando permite controlar la salida de resultados, ex-
cepto los gráficos. En caso de no utilizar este subcomando, muestra
una tabla en la que se contempla un sumario de los pasos utilizados
en la construcción de los grupos, indicando los que están unidos en
cada paso. Las opciones disponibles son las siguientes:

SCHEDULE. Esta es la opción por defecto. Muestra una tabla


con el sumario de los pasos empleados en la construcción de los
grupos.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 211

CLUSTER (min, max). Esta opción muestra una tabla, en la que


se indica el grupo al que pertenece cada caso, según los grupos
formados. CLUSTER (3 6) indica que la tabla debe ser para cuando
existen entre 3 y 6 grupos formados.
DISTANCE. Esta opción muestra la matriz de distancias o simi-
laridades entre casos, en base al tipo de medida de proximidad
seleccionada con el subcomando MEASURE.
NONE. Esta opción indica que no debe mostrarse ninguna de
las salidas asociadas al subcomando PRINT.

El subcomando PLOT

Este subcomando controla las salidas gráficas del procedimiento


CLUSTER. En caso de no utilizar esta opción, se muestra un gráfico
de «CARÁMBANOS» vertical. Las opciones disponibles son las si-
guientes:

VICICLE (min, max, inc). Esta es la opción por defecto. Muestra


un gráfico de «CARÁMBANOS» vertical. Este gráfico muestra gráfi-
camente el proceso de formación de los grupos. En caso de utilizar
min y max, en su lugar debe ir un número entero. Min indica en
qué grupo debe comenzar el análisis y max en cuál debe terminar;
inc indica cada cuántos pasos debe indicarse en el gráfico. Por
ejemplo, VICICLE (2,8,2) indica que el gráfico debe comenzar en 2
(min); el último grupo a considerar debe ser el 8 (max) y los grupos
deben mostrarse de dos en dos (inc).
HICICLE (min, max, inc). Esta opción indica que el gráfico de «CA-
RÁMBANOS» debe ser horizontal. Todas las especificaciones co-
mentadas para VICICLE tienen el mismo significado.
DENDROGRAM. Esta opción muestra un gráfico llamado Den-
drograma. Este gráfico muestra el proceso de formación de los
grupos, indicando la distancia a la que se han producido las uniones
y los casos implicados en cada paso.
NONE. Esta opción indica que no deben producirse salidas
gráficas.
212 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El subcomando ID
Este subcomando permite indicar una variable alfanumérica
(STRING), la cual se utilizará para identificar en tablas y gráficos a
los casos implicados. De no utilizar este subcomando, la identificación
se produce por el número de caso.

El subcomando SAVE
Este subcomando permite incluir como nuevas variables en el
fichero activo los grupos a los que pertenecen los casos en cada
paso. Cuando se emplee el subcomando SAVE, es obligatorio utilizar
el subcomando METHOD, indicando una raíz para las variables donde
se indicará la pertenencia a los grupos formados en cada paso. Por
ejemplo:

Las instrucciones anteriores indican que se realice un análisis


de grupo con las variables VARI a VAR9. El método que utilizar
debe ser el de promedio entre grupos. La raíz entre paréntesis
GRUP indica que las variables incorporadas al fichero activo deben
ser GRUP1, GRUP2, GRUP3, GRUP4, GRUP5 y GRUP6. En la variable
GRUP1 se indica a qué grupo pertenece cada caso. Cuando sólo
hay un grupo, y por lo tanto todos los casos pertenecen al mismo
grupo. La variable GRUP5 indica el grupo a que pertenece cada
grupo cuando hay 5 grupos, etc.

El subcomando WRITE
Esta opción permite grabar en un fichero la matriz de distancias
o similaridades, según la medida de proximidad elegida. En caso
de no indicar nada, dicha matriz se grabará en el fichero SPSS.PRC.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 213

Podemos indicar que se grabe en otro fichero utilizando el comando


SET con el subcomando RESULTS.
La sintaxis de este subcomando es /WRITE =DISTANCE.

El subcomando READ

Este subcomando permite realizar un análisis de grupos a partir


de información procedente de una matriz. Por defecto SPSS, consi-
dera que es una matriz de proximidades, aunque también puede
utilizar otros tipos de matrices, como matrices de correlaciones. Las
opciones disponibles son las siguientes:

SIMILAR. Esta opción indica que la matriz es de proximidades.


TRIANGLE. Esta opción incorpora para el análisis la diagonal
principal y los elementos subdiagonales de la matriz. Se asume que
la matriz es cuadrada.
LOWER. Esta opción permite leer los elementos subdiagonales
de una matriz, la cual se asume como cuadrada. Esta opción se
diferencia de la anterior en que no se leen los elementos de la
diagonal principal.

El subcomando MISSING

Este subcomando permite adaptar a las necesidades del usuario


la utilización de los casos con valores desaparecidos. Las opciones
disponibles son las siguientes:

LISTWISE. Esta es la opción por defecto. Incluye para el análisis


a todos los casos sin valores ausentes en las variables listadas con
el procedimiento CLUSTER.
INCLUDE. Esta opción indica a SPSS que los casos con valores
ausentes de usuario deben ser incluidos en el análisis. Solamente
quedan excluidos del análisis los casos, con valores ausentes de
sistema.
214 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

EJEMPLOS
El primer ejemplo que vamos a analizar se refiere a 10 hospitales,
sobre los que tenemos datos de las actividades asistenciales, reali-
zadas en el año 1992. Los datos son los siguientes:

En la tabla anterior las abreviaturas tienen el siguiente signifi-


cado:

Respecto a las variables anteriores, interesa realizar un análisis


de grupo, a fin de conocer la proximidad entre los hospitales ante-
riores. Los datos correspondientes al ejemplo anterior están en el
fichero de sistema HOSPITAL.SYS.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 215

La primera de las instrucciones anteriores, encabezada por DATA


LIST, indica a SPSS que se va a proceder a la introducción de datos
de forma directa. La instrucción encabezada por CLUSTER indica
que se realice un análisis de Grupos con las variables listadas. El
subcomando PLOT indica que se construya un gráfico de «carám-
banos» vertical (VICICLE) y un Dendrograma. El subcomando ID
indica que la identificación de cada caso se realice mediante el
HOSPITAL. En caso de no utilizar este subcomando, la identificación
se realizaría mediante el número de caso.
Los resultados obtenidos son los siguientes:

La salida de resultados consta de tres partes: una tabla sumario


de los pasos dados en la construcción de los grupos, un gráfico
vertical y el gráfico dendrograma. A continuación comentaremos
estos tres elementos por separado.
216 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La tabla anterior recoge un sumario de los pasos realizados en


la construcción de los grupos. Esta tabla llamada SCHEDULE por
SPSS. El número de pasos es igual al número de casos menos 1. La
primera columna indica el número de paso, la segunda y la tercera
los casos implicados en la unión. La columna encabezada por CO-
EFFICIENT indica el valor de la medida de proximidad empleada;
en este caso, el valor indicado corresponde a la distancia euclidea
al cuadrado. La quinta y sexta columnas indican en qué pasos pre-
vios se vieron involucrados los casos implicados en cada paso. La
séptima y última columna indica el paso en el que volverán a
participar los grupos que han participado en cada paso.
En la primera fila se recogen los datos correspondientes al primer
paso. Los casos implicados son el 4 y el 10, que son los más próxi-
mos. En las columnas 5.a y 6.a se nos indican los pasos previos en
que han participado estos casos; puesto que no hay pasos previos
se indica con 0, lo cual quiere decir que es la primera vez que
estos casos participan en la formación de un grupo. La séptima
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 217

columna indica que en el segundo paso volverá a participar el


grupo formado por la unión de los casos 4 y 10, que a partir de este
momento será considerado como un solo grupo; el grupo será no-
minado con el número menor de los casos que lo forman (en este
caso el 4). En la segunda fila se indica que los grupos implicados
son el 1 y el 4 (formado por el caso 4 más el 10). En la 5.a columna,
el 0 indica que el caso 4 es la primera vez que participa en la
formación de grupos. En la sexta se indica que el grupo 4 participó
en el primer paso, en la séptima columna se informa de que este
grupo, formado por los casos 1, 4 y 10 volverá a participar en la
formación de un grupo en el paso 3; a partir del segundo paso el
grupo formado por los casos 1, 4 y 10 será nominado con el número
1, por ser éste el caso menor del grupo. El resto de las filas informa
de los pasos hasta que al final, se forma un solo grupo con todos los
casos.

El gráfico anterior es el que hemos denominado de «carámbanos».


Informa de manera gráfica del proceso de formación de los grupos.
La parte de abajo comienza con la primera unión entre los casos 10
218 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

y 4, los números a la izquierda indican el número de grupos que


existen; el 9 indica que al unir el caso 4 con el 10, quedan 9 grupos.
Según ascendemos, el número de grupos disminuye hasta llegar a
1. La parte inferior del gráfico indica el comienzo, inmediatamente
después de la formación del primer grupo, la parte superior del
gráfico representa el final del proceso de formación de los grupos.

El gráfico anterior se denomina dendrograma y representa, en


forma de árbol lógico, el proceso de formación de los grupos.
El dendrograma también indica la distancia a la que se ha pro-
ducido la unión; la distancia está dimensionada según la distancia
máxima. En este caso, la distancia máxima es 237091200. El 25 de la
escala corresponde a 250 millones, el 5 a 50 millones la distancia
mínima entre el caso 4 y el 10 es de algo más de 7 millones.

Ejemplo 2. Cluster de variables


En esta ocasión, en lugar de agrupar casos, vamos a proceder a
agrupar variables. En el ejemplo CORONAR vamos a realizar un
estudio de agrupamiento de variables, con las variables CB, TB,
TAS, TAD, TALLA, PESO y EDAD. El análisis parte de la matriz de
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 219

correlaciones de estas variables, la cual puede generarse a partir


de varios procedimientos como REGRESSION, CORRELATION, etc.
Dicha matriz está en el fichero COMATPRC en el subdirectorio de
SPSS datos. En la matriz deben figurar las correlaciones entre las
variables únicamente; los coeficientes de correlación serán consi-
derados como medidas de proximidad. Inicie una sesión con SPSS
y siga las siguientes instrucciones:

Las instrucciones anteriores indican que debe procederse a un


análisis de CLUSTER con las variables listadas a partir de la matriz
de correlaciones, que se encuentra en el fichero COMATPRC en el
subdirectorio de SPSS DATOS. El subcomando READ con la opción
SIMILAR indica que la matriz es de proximidades. En este caso,
consideramos como medida de proximidad el coeficiente de corre-
lación. El subcomando Plot indica que los gráficos deben ser el
Dendrograma y el gráfico de «CARÁMBANOS» vertical.
Los resultados obtenidos son los siguientes:
220 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla y gráficos anteriores observamos que las variables


más cercanas son TAS y TAD, y con ellas se forma el primer grupo;
a continuación, el grupo formado por estas dos variables se une a
la variable CB, y así sucesivamente.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 221

MÉTODOS NO JERÁRQUICOS

En los apartados anteriores, vimos la formación de grupos por


métodos jerárquicos. Partíamos de tantos grupos como casos o va-
riables y, paso a paso, los agrupábamos hasta formar un solo grupo.
La principal diferencia de los métodos no jerárquicos es que el
usuario indica, a priori, el número de grupos que deben formarse.
El número de grupos indicado se forma en un solo paso.
Los métodos no jerárquicos forman el número de grupos indicado
por el usuario, de tal manera que la varianza dentro de cada grupo
sea mínima. Hay dos métodos fundamentales, el de las K medias y
el de los centroides iniciales.

Métodos en Clusters no jerárquicos


El método de las K medias busca los casos más alejados entre
sí, tantos como número de grupos deban formarse. Considera las
coordenadas de los centroides iniciales; el resto de los casos se
consideran pertenecientes al grupo de cuyo centroide están más
cercanos. Posteriormente, se calcula el centroide de los grupos
formados, volviendo a reconsiderar la pertenencia de cada caso a
cada grupo. El procedimiento continúa hasta que la varianza dentro
de los grupos es la mínima posible.
En el método de los centroides iniciales, el usuario determina
las coordenadas de los centroides iniciales; partiendo de ellos, se
sigue un procedimiento similar al anterior y finaliza el proceso cuan-
do la varianza dentro de los grupos formados es la mínima posible.
La distancia que suele utilizarse en la formación de CLUSTER no
jerárquicos es la euclidea. En caso de que las unidades de las
variables sean distintas, suelen utilizarse los valores tipificados, a
fin de que puedan compararse.

Clusters no jerárquicos con SPSS.


El procedimiento Quick Clusters
El procedimiento QUICK CLUSTERS de SPSS permite la formación
de grupos no jerárquicos. Las variables que deben participar en el
222 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

proceso se listan tras QUICK CLUSTER. Este procedimiento admite


los siguientes subcomandos:

CRITERIA.
INITIAL.
PRINT.
MISSING.
SAVE.
WRITE.

El subcomando CRITERIA

Este subcomando permite especificar el número de grupos que


deben formarse y el método que utilizar en su formación. Este
subcomando admite las siguientes especificaciones:

CLUSTERS (K). El número indicado en lugar de K denota el nú-


mero de grupos que deben formarse; en caso de no utilizar el
subcomando CRITERIA, el número de grupos que se formaran serán
dos.
NOUPDATE. Esta especificación debe utilizarse cuando los cen-
troides iniciales, fijados por el usuario, deben permanecer fijos sin
actualizar. Esta especificación se utiliza en caso de emplear el sub-
comando INITIAL con las coordenadas de los centroides.

El subcomando INITIAL

Este subcomando permite fijar las coordenadas de los centroides


iniciales y admite las siguientes especificaciones:

SELECT. Esta especificación indica que los centroides iniciales


sean calculados a partir de las coordenadas de los casos más aleja-
dos.
FIRST. Los primeros K casos del fichero se utilizan como refe-
rencia para el cálculo de los centroides.
(var lista). En lugar de la lista, se indican las coordenadas de
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y OUICK CLUSTER 223

los centroides. Si utilizamos la opción NOUPDATE del subcomando


CRITERIA, los centroides serán fijos y se calcularán los grupos en
base a estos centroides. Si no se emplea NOUPDATE, los centroides
descritos se utilizarán como punto de partida y podrán modificarse
durante el proceso.

El subcomando PRINT

El procedimiento QUICK CLUSTERS, sin utilizar el subcomando


PRINT, muestra los valores iniciales de los centroides, los centros
utilizados para la clasificación y, cuando la formación de los centros
se ha completado, también muestra las medias de las variables en
cada cluster y el número de casos perteneciente a cada grupo. El
subcomando PRINT permite obtener información adicional. Las es-
pecificaciones que admite PRINT son las siguientes:

CLUSTER. Esta opción muestra para cada caso un número iden-


tificativo, el número del grupo a que ha sido asignado, y la distancia
euclidea al centro del grupo.
ID (var nombre). Esta opción permite que los casos se identifi-
quen, según la variable indicada, en lugar de (var nombre). En caso
de no utilizar esta opción, cada caso se identificará según el número
de orden en el fichero de datos.
DISTANCE. Esta opción muestra la distancia euclidea entre cada
centroide con los otros, al final del proceso.
ANOVA. Esta opción muestra la tabla de ANOVA, correspon-
diente a una comparación realizada entre las medias de todas las
variables, entre los grupos incluidos en el proceso. Este ANOVA
nos indicará entre qué variables hay diferencias significativas. Dichas
variables son las que indican las diferencias entre los grupos for-
mados.

El subcomando MISSING

Este subcomando permite regular la inclusión de los casos con


valores ausentes. Por defecto, SPSS elimina del análisis los casos
224 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

con valores ausentes de usuario o de sistema en alguna de las


variables implicadas en el proceso. Este subcomando admite las
siguientes especificaciones:
LISTWISE. Esta es la opción por defecto; elimina del análisis los
casos con valores ausentes de usuario o de sistema en alguna de
las variables implicadas en el proceso.
PAIRWISE. Excluye del análisis los casos con valores ausentes
en todas las variables implicadas en el análisis.
INCLUDE. Esta opción incluye en el análisis los casos con valo-
res ausentes de usuario.

El subcomando SAVE
Este subcomando permite incluir en el fichero de datos como
nuevas variables, para cada caso, el grupo en que ha sido clasificado
y la distancia euclidea al centroide de su grupo, según las siguientes
especificaciones:
CLUSTER(variable). Esta opción crea una nueva variable con
el nombre especificado en lugar de (variable) y la incorpora al
fichero activo. Dicha variable contiene, para cada caso, el número
del grupo en que ha sido clasificado.
DISTANCE(variable). Esta opción crea una nueva variable con
el nombre especificado en lugar de (variable) y la incorpora al
fichero activo. Dicha variable contiene, para cada caso, la distancia
euclidea al centroide del grupo en que ha sido clasificado.

El subcomando WRITE
Esta opción permite que se cree un fichero con las coordenadas
de los centroides finales. El fichero en el que se grabará dicha
información será SPSS.PRC Se puede especificar otro nombre para
este fichero utilizando el comando SET.

Ejemplo de Cluster no jerárquico


Volviendo a considerar el ejemplo con datos sobre la actividad
de centros hospitalarios, utilizado en el apartado Ejemplo jerárquico
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 225

de este mismo capítulo, vamos a realizar una clasificación en tres


grupos. Repetimos el proceso de introducción de datos completo.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
226 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El comando DESCRIPTIVES nos proporcionará la media aritmética,


desviación típica, mínimo, máximo, etiqueta y número de casos,
para cada una de las variables implicadas en el proceso. OPTION 3
incorporará al fichero activo una nueva variable por cada una de
las variables listadas. Esta nueva variable se denominará igual que
las variables originales, anteponiendo la letra Z al nombre original.
Los valores de estas variables son los valores tipificados; el resultado
se obtiene restando el valor de la correspondiente variable del
valor medio de la misma, y dividiendo el resultado por la desviación
típica correspondiente. Este paso previo es conveniente realizarlo
cuando los valores de las variables utilizadas están dados en unida-
des distintas.
El conjunto de instrucciones anterior indica que se realice un
proceso de clasificación no jerárquico en grupos con las variables
ZPEX, ZPEN, ZURG, ZINTQ, ZEXAT y ZEM. El subcomando CRITERIA,
con la opción CLUSTER (3), indica que el número de grupos que
deben formarse son 3. El subcomando PRINT indica que deben
mostrarse las coordenadas de los centroides iniciales (INITIAL),
grupo de asignación y distancia al centroide del grupo asignado
en cada caso (CLUSTER), La variable identificativa de cada caso
debe ser hospital (ID), distancia de cada centroide a los demás
(DISTANCE) y ANOVA, a fin de determinar las variables que inter-
vienen de forma significativa en la formación de los grupos. El
subcomando SAVE indica que se incorporen al fichero activo dos
nuevas variables, GRUPO y DISTAN; la variable GRUPO contendrá
para cada caso el número del grupo en que se ha clasificado, y la
variable DISTAN la distancia de cada caso al centroide del grupo
en el que se ha clasificado. El comando LIST permitirá un listado de
los casos en los que estarán incluidos los valores de las nuevas
variables.
Al no utilizar el subcomando INITIAL, el método que emplear
será el de las K medias más alejadas, procediendo de forma iterativa
hasta determinar los 3 grupos cuyas varianzas intragrupos sean
mínimas.
Los resultados obtenidos son los siguientes:
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 227

Los resultados anteriores son consecuencia del comando DESCRIP-


TIVES. Para cada variable se muestra una lista con parámetros esta-
dísticos; a continuación de esa lista, se muestra una tabla con el nom-
bre de las nuevas variables que contendrán los valores tipificados.
228 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En las tablas anteriores, se muestran las coordenadas de los


centroides iniciales, de un paso intermedio y los centroides finales,
en función de las coordenadas de las variables. También se nos
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER 229

muestra una tabla en la que se contempla la clasificación de cada


hospital. El grupo 1 lo forma un solo'hospital, el 7; observe que, al
figurar un solo caso en el grupo, la distancia al centroide es cero. El
grupo dos lo forman los hospitales 5, 9 y 10; el grupo 3 está formado
por los hospitales 1, 2, 3, 4, 6 y 8.

En las tablas anteriores se muestran las distancias entre los cen-


troides ANOVA y una tabla con el número de casos de cada grupo.
La tabla de ANOVA indica que la única variable que muestra
diferencias significativas es ZPEN (valores tipificados) del número
de pacientes encamados atendidos en cada hospital. Las variables
ZPEX y ZEM, aunque no muestran diferencias significativas, se apro-
ximan bastante P < 0.08. Teniendo en cuenta que el número de
casos es pequeño, podemos considerar que, de todas las variables
230 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

implicadas, las que contribuyen más a marcar diferencias entre los


grupos son el número de pacientes encamados atendidos ZPEN, el
número de pacientes atendidos en consultas externas ZPEX y la
estancia media ZEM. Recordamos que la Z, delante del nombre,
indica que los valores de cada variable son los tipificados.
La tabla siguiente muestra, para cada caso, el nombre del hospital,
el grupo en el que se ha clasificado (GRUPO) y la distancia de cada
hospital al centroide de su grupo (DISTAN). La tabla es consecuencia
de la ejecución del comando LIST seguido de las variables HOSPI-
TAL, GRUPO y DISTAN.
Capítulo 7
COMPONENTES PRINCIPALES.
ANÁLISIS FACTORIAL.
EL PROCEDIMIENTO FACTOR

COMPONENTES PRINCIPALES.
ANÁLISIS FACTORIAL
En muchas ocasiones, el investigador dispone de una matriz de
información en la que podríamos prescindir de algunas variables,
sin que la información global disminuya de forma significativa. El
método de los componentes principales (CP) y el análisis factorial
AF son métodos que permiten explicar, con un número reducido
de nuevas variables a las que llamaremos factores, la información
recogida en un determinado experimento. Son por tanto técnicas
estadísticas, que intentan explicar la información recogida en una
matriz de datos con n individuos y K variables, a partir de W factores,
siendo W< K.
El análisis de componentes principales y el análisis factorial son
dos técnicas conceptualmente distintas, aunque el procedimiento
matemático es similar en ambas.
Los grandes paquetes estadísticos, como SPSS y BMDP, incluyen
en el mismo procedimiento (FACTOR, en el caso de SPSS) las téc-
nicas necesarias para realizar ambos análisis.
Actualmente, la utilización de estas técnicas estadísticas ha sufri-
do un fuerte impulso gracias a los ordenadores. Anteriormente a la
difusión de la informática, estas técnicas eran poco utilizadas, debi-
do a la gran complejidad de los cálculos necesarios para su reso-
lución.
232 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

COMPONENTES PRINCIPALES

Esta técnica es uno de los primeros métodos multivariantes que


se utilizó. Consiste en condensar la información aportada por un
conjunto de K variables en un conjunto W de componentes, también
llamados factores, siendo W < K. Cada uno de los W factores es
combinación lineal de las K variables.
En el análisis de CP no tenemos ninguna hipótesis previa, pero
sabemos que el 100% de la variabilidad de las K variables se explica
por K factores, cada uno de los cuales es combinación lineal de las
variables originales. Evidentemente, no pretendemos sustituir las K
variables por K factores, a veces de difícil interpretación, pero los
factores recogen la variabilidad de las variables originales de forma
desigual. En muchas ocasiones, pocos factores recogen un porcenta-
je de variabilidad alto; por lo tanto, podríamos explicar la mayor
parte de la variabilidad original a partir de ellos.
A partir de la matriz de varianzas covarianzas o de la matriz de
correlaciones, (es preferible el cálculo a partir de la matriz de co-
rrelaciones, debido a que sus elementos son coeficientes estandari-
zados), calculamos los autovalores de la matriz. A partir de estos
autovalores, calculamos los correspondientes autovectores. Si tene-
mos K variables iniciales, la matriz de varianzas covarianzas y la
matriz de correlaciones tienen dimensión K X K, y a partir de ellas
extraeremos K autovalores, los cuales darán origen a K autovectores.
Cada autovector define un eje correspondiente a un factor. Los K
ejes definidos corresponden a K factores ortogonales.
La variabilidad total de la información original, está recogida en
estos K factores.
El porcentaje de variabilidad que recoge cada factor suele ser
muy distinto, de tal forma que unos pocos factores (COMPONENTES
PRINCIPALES) explican gran parte de la variabilidad total. El objetivo
del análisis de componentes principales es a partir de unos pocos
factores, explicar la variabilidad total observada en la matriz de
información. Las características de los factores vienen condicionadas
por la matriz de correlaciones, si hay muchas correlaciones altas
entre las variables, es indicativo de información redundante y pocos
factores explicarán gran parte de la variabilidad total. Por el contrario,
correlaciones pequeñas entre las variables son indicativas de poca
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 233

información redundante y, por lo tanto, necesitaremos muchos fac-


tores para explicar una parte sustancial de la variabilidad.
En el ejemplo CORONAR, las variables TAS, TAD, CB, TB, PESO,
TALLA, EDAD, tienen altas correlaciones entre sí. Este parece un
caso en el que unos pocos componentes nos permitirán explicar la
información total.

Modelo matemático

En CP no tenemos a priori ninguna hipótesis acerca de la cualidad


de los factores. El valor que toma una variable en un determinado
caso se explica en un 100% por los £ factores. El modelo matemático
es el siguiente:

El modelo anterior parte de la base de que tenemos invariables


inicialmente y, a partir de ellas, hemos calculado K factores lineal-
mente independientes y ortogonales. Xij es el valor de la jésima
variable que tiene el iésimo caso; este valor viene determinado por
el producto de los coeficientes factoriales de la jésima variable con
cada uno de los factores; el valor que tiene cada caso en cada uno
de las factores, por ejemplo a2j, es el coeficiente factorial de la
jésima variable con el segundo factor y Fi2 es el valor del segundo
factor correspondiente al iésimo caso.
Conceptualmente, el modelo anterior indica que el 100% de la
información de la variable se explica por los K factores. Llamaremos
COMUNALIDAD a la proporción de la variabilidad de cada variable
explicada por los factores; ésta es la razón (como veremos más
adelante) de que en CP la comunalidad inicial de todas las variables
sea 1.
La comunalidad final de cada variable indica la proporción de
variabilidad correspondiente a cada variable que explican los com-
ponentes principales seleccionados.
234 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Tanto el modelo matemático anterior como las COMUNALIDADES


iniciales constituyen la diferencia fundamental con el análisis factorial,
como veremos en el apartado referente a éste.

Fases de un análisis de componentes principales

Un análisis de componentes principales consta de las


siguientes fases:

ELECCIÓN DE LOS COMPONENTES PRINCIPALES.


ROTACIÓN DE LOS EJES.
REPRESENTACIONES GRÁFICAS.
CÁLCULO DE LAS PUNTUACIONES FACTORIALES.

Elección de los componentes principales

La elección de los ejes factoriales se realiza de tal manera que


el primer factor recoja la máxima proporción posible de la variabi-
lidad de la nube de puntos original. La variabilidad de la proyección
de la nube de puntos sobre el eje definido por el factor debe ser la
máxima posible. El segundo factor debe recoger la máxima variabi-
lidad posible no recogida por el primer factor y así sucesivamente,
hasta la selección de los K factores. De los K factores posibles,
elegiremos aquellos que recojan el porcentaje de variabilidad que
estimemos suficiente. A los factores elegidos les llamaremos COM-
PONENTES PRINCIPALES.
EJEMPLO Supongamos que tenemos datos sobre el peso y la
talla de 10 individuos:

En el siguiente gráfico, podemos ver la nube de puntos y dos


ejes sobre los que podemos proyectar la nube de puntos. El eje A
recoge la mayor parte de la variabilidad total y el eje B recoge la
variabilidad no recogida por el eje A.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 235

En este caso hay dos variables y solamente dos factores. Si tuvié-


ramos tres variables, la nube de puntos sería tridimensional, configu-
raría un elipsoide y tendríamos tres ejes; y así sucesivamente.
Como hemos visto en apartados anteriores, hay tantos factores
como variables; al investigador corresponde elegir el n.° de com-
ponentes suficiente para contener el mínimo indispensable de la
información original. Los criterios de selección pueden ser diversos,
los más importantes son los siguientes:

La técnica de extracción de componentes más utilizada consiste


en seleccionar, en primer lugar, el que explica más variabilidad; a
continuación, el que explica más variabilidad de la no explicada
por el primer factor, y así sucesivamente hasta cubrir el porcentaje
de variabilidad que se había previsto. Por ejemplo, si tenemos una
matriz de datos con 12 variables, nos podemos plantear extraer el
número de componentes necesarios para explicar el 90% de la
variabilidad que aporta la matriz de datos, En este caso, extraeremos
factores hasta cubrir el porcentaje de información predeterminado.
Otro método consiste en extraer un número determinado de
componentes, independientemente del porcentaje de variabilidad
236 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

que contengan. Por ejemplo, en el caso anterior, donde teníamos 12


variables, podemos extraer los 4 componentes que expliquen una
mayor variabilidad.
Otra técnica de selección de factores consiste en extraer todos
los componentes que expliquen, cada uno de ellos, al menos un
porcentaje determinado de la información. Por ejemplo, podemos
seleccionar todos los factores que expliquen, cada uno de ellos, un
5% o más de la variabilidad recogida en la matriz de datos.
Otra técnica de selección consiste en extraer los factores mayores
que 1. Esta es la técnica que utiliza el paquete estadístico SPSS: en
caso de que no le indiquemos otra cosa, extrae los factores cuyo
valor propio sea mayor que uno.
El 100% de la información que se obtiene a partir de componentes
sólo podría conseguirse extrayendo tantos componentes como va-
riables hay en el fichero original.

MATRIZ FACTORIAL. Una vez seleccionados los componentes


principales, se representan en forma de matriz los CP y las variables.
Habitualmente, en las columnas se suelen representar los factores y
en las filas las variables. Cada elemento de la matriz representa los
coeficientes factoriales de las variables, los cuales nos permiten
calcular las puntuaciones de los individuos y de las variables según
los casos. La matriz factorial tiene tantas columnas como compo-
nentes principales y tantas filas como variables.
Los coeficientes de la matriz aij son las correlaciones entre las
variables y los componentes principales. La suma de todos los
coeficientes, al cuadrado, de cada componente, es igual al valor
propio de la matriz de correlaciones (o de la matriz de varianzas
covarianzas) correspondiente a dicho componente.

Rotación de los ejes

Las características ideales que deben tener los factores, para


que sean fácilmente interpretables, son las siguientes:

1) Las cargas factoriales de un factor con las variables deben


ser próximas a 1 o próximas a cero. Las variables con cargas Proxy-
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 237

mas a 1 se explican en gran parte por el factor; las que tengan


cargas próximas a cero no se explican por el factor. Recordamos
que, si los factores son ortogonales, las cargas factoriales son los
coeficientes de correlación entre la variable y los factores.
2) Una variable debe tener cargas factoriales elevadas con un
solo factor. Ha de intentarse que la mayor parte de la variabilidad
de una variable sea explicada por un solo factor.
3) No deben existir factores con cargas factoriales similares.
Si dos o más factores tienen cargas factoriales altas o bajas con las
mismas variables, en realidad explican lo mismo y serían redun-
dantes, lo cual sería un contrasentido puesto que el análisis
factorial intenta eliminar la redundancia.

Las tres características anteriores son difíciles de cumplir por


los factores originales, pero podemos conseguirlo rotando los fac-
tores.
Las rotaciones pueden ser ortogonales u oblicuas.

Rotaciones ortogonales

Particularmente importantes son las rotaciones ortogonales, entre


otras razones porque las comunalidades de cada variable se con-
servan, aunque cambian las cargas factoriales, puesto que los ejes
son distintos al ser rotados, pero la variabilidad explicada de cada
variable permanece inalterada.
Las rotaciones ortogonales más importantes son la rotación VA-
RIMAX y la rotación CUARTIMAX.

ROTACIÓN VARIMAX. Este método maximiza la varianza de


los factores. Cada columna de la matriz factorial rotada tendrá cargas
factoriales altas con algunas variables y bajas con otras, lo cual
facilitará la interpretación.
La rotación VARIMAX es la que realiza SPSS por defecto,
aunque puede realizar otras rotaciones si se le indica.
ROTACIÓN CUARTIMAX. Trata de simplificar las filas de la
matriz factorial, de esta manera, cada variable tendrá una correlación
238 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

alta con pocos factores y baja con los demás, lo cual facilitará la
interpretación.

Rotaciones oblicuas

Las rotaciones oblicuas pretenden los mismos objetivos que las


ortogonales. En general, sólo se realizan cuando las rotaciones orto-
gonales no logran su objetivo.
En una rotación oblicua, las comunalidades no se mantienen y la
interpretación es bastante más compleja que en las rotaciones orto-
gonales.

Representación gráfica

El fin de un análisis de componentes principales es conseguir


reducir las variables explicativas, obtener un número de compo-
nentes menor que el de variables y dar una interpretación práctica
de los mismos.
A fin de conseguir una buena interpretación de los factores, una
de las fases fundamentales del análisis factorial es la representación
gráfica. La representación se hace tomando factores dos a dos y pro-
yectando las variables sobre los planos determinados por cada par
de ejes factoriales. Las coordenadas de las variables, en el espacio
definido por los componentes principales, son los coeficientes facto-
riales de la matriz rotada, en caso de que los ejes hayan sido rotados.
En algunos casos, en lugar de las variables nos interesa proyectar
los individuos sobre los planos. Entonces las coordenadas de cada
individuo las conforman las puntuaciones factoriales individuales,
cuyo cálculo comentaremos en el próximo subapartado.

Puntuaciones factoriales individuales

En ocasiones, puede ser interesante conocer las puntuaciones


que tienen los CP para cada caso, lo cual nos permitirá entre otras
cosas representar los casos en el espacio de los CP. Las puntuacio-
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 239

nes factoriales para cada caso de la muestra pueden calcularse


según la siguiente expresión:

En la expresión anterior, Fij representa la puntuación del iésimo


componente, correspondiente a el jésimo caso de la muestra, K
indica el número de variables, ais representa la puntuación factorial
correspondiente a la esésima variable y al iésimo componente y Zsj
representa el valor estandarizado de la esésima variable corres-
pondiente al jésimo caso.

ANÁLISIS FACTORIAL

Aunque la técnica matemática del análisis factorial es similar al


análisis de componentes principales, los fundamentos teóricos son
distintos.
El análisis factorial supone que hay una parte común, COMUNA-
LIDAD, de la variabilidad de las variables, explicada por factores
comunes no observables. Cada variable tiene una parte de su va-
riabilidad no común propia de cada variable; a esta variabilidad no
común la llamaremos factor único. Se asume que los factores únicos
correspondientes a las variables son independientes entre sí.
En el análisis factorial distinguimos dos tipos: análisis factorial
exploratorio AFE y análisis factorial confirmativo AFC.
En el análisis factorial exploratorio, el investigador no tiene a
priori una hipótesis acerca del número de factores comunes; éstos
se seleccionan durante el análisis.
En el AFC, el investigador parte de la hipótesis de que existe un
número determinado de factores, los cuales tienen un significado
determinado. Un ejemplo clásico de AFC es el estudio de Spearman
sobre los factores que conforman la inteligencia. Partía de la hipótesis
de que la inteligencia la componen un factor general C y otros
240 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

factores: capacidad de análisis verbal, capacidad de análisis mate-


mático y capacidad de integración espacial. Otro modelo clásico es
el que considera que los factores antropométricos e intelectuales
de un individuo se deben a dos factores principales, uno genético
y otro sociocultural.

Modelo matemático del análisis factorial

Las ideas expresadas en el apartado anterior se resumen en el


siguiente modelo:

En la expresión anterior, Xij es el valor de la jésima variable


correspondiente al iésimo caso, Fij son los coeficientes factoriales
correspondientes al iésimo caso y aij las puntuaciones factoriales,
Uj es el factor único correspondiente a la jésima variable. La dife-
rencia del modelo del análisis factorial respecto al de componentes
principales es que el análisis factorial supone que la variabilidad
de cada variable tiene una parte explicable por factores comunes y
otra independiente de las demás variables.
En un modelo factorial, partimos de la base de que sólo una
parte de la variabilidad de cada variable depende de factores co-
munes y, por lo tanto, debemos buscar una comunalidad inicial
para cada variable. Inicialmente construimos un modelo de regresión
múltiple para cada variable. En cada uno de los modelos figura una
variable distinta como variable dependiente y el resto como varia-
bles independientes. El coeficiente de determinación del modelo
en que cada variable figura como variable dependiente se considera
como comunalidad inicial. Por ejemplo supongamos que en un fi-
chero de datos disponemos de las variables PESO, TALLA y EDAD;
construiremos un modelo de regresión múltiple en el que la variable
dependiente sea el PESO, y la EDAD y la TALLA las variables
independientes de dicho modelo. A continuación, construimos otro
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 241

modelo efe regresión múltiple, en el que la variable dependiente


sea la EDAD y el PESO y la TALLA las variables independien-
tes. Por último, construimos un tercer modelo en el que la varia-
ble dependiente sea la TALLA y el PESO y la EDAD las variables
independientes. Supongamos que los coeficientes de determinación
de los tres modelos han sido 0.7 para el PESO, 0.57 para la EDAD y
0.64 para la TALLA. Dichos coeficientes de determinación se consi-
derarán como COMUNALIDADES iniciales en los modelos facto-
riales.

Fases en un modelo factorial

Un análisis factorial tiene las siguientes fases:

A) Examen de la matriz de correlaciones de todas las variables


que constituyen los datos originales.
B) Extracción de los factores comunes.
C) Rotación de los factores con objeto de facilitar su interpre-
tación.
D) Representaciones gráficas.
E) Cálculo de las puntuaciones factoriales para cada individuo.

Examen de la matriz de correlaciones

El primer paso en un análisis factorial consiste en el examen de


la matriz de correlaciones, construida a partir de todas las variables
cuantitativas que entran en el análisis.
Un análisis factorial tiene sentido si existen altas correlaciones
entre las variables; esto es indicativo de información redundante o,
lo que es lo mismo, que algunas variables aportan información que
en gran parte llevan también otras variables, y ello es indicativo de
la existencia de factores comunes.
En el análisis de componentes principales, no tiene sentido el
examen de la matriz de correlaciones, ya que no tenemos la hipótesis
de la existencia de factores comunes.
La comprobación analítica del grado de intercorrelación entre
242 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

las variables puede realizarse por varios métodos; los más


utilizados son los siguientes:

Prueba de esfericidad de Barlett

Esta prueba contrasta las siguientes hipótesis:

La hipótesis nula postula que la matriz de correlaciones es una


matriz identidad; esto significa que las correlaciones entre las varia-
bles son todas igual a cero, puesto que en una matriz identidad la
diagonal principal son todos unos y, por lo tanto, el valor del deter-
minante es igual a 1. La hipótesis alternativa asume que la matriz de
correlaciones es distinta de una matriz identidad o, lo que es lo
mismo, que el determinante de la matriz de correlaciones es signifi-
cativamente distinto de uno.
El determinante de una matriz de correlaciones es un índice de
la varianza generalizada de dicha matriz; un determinante próximo
a cero indica que una o más variables pueden ser expresadas
como una combinación lineal de las otras variables.
Tiene sentido un análisis factorial si podemos rechazar la hipótesis
nula, lo cual sería indicativo de que existen correlaciones entre las
variables. En caso de no poder rechazar la hipótesis nula, no tendría
sentido un análisis factorial, puesto que esto indicaría que existe
poca información redundante y, por tanto, el número de factores
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 243

necesario para explicar un alto porcentaje de información sería


próximo al de variables originales.
El determinante de la matriz de correlaciones muestral es un
estimador del determinante de la matriz de correlaciones poblacional.
A partir del valor del determinante muestral, se puede calcular un
estadístico, que se distribuye según una CHI CUADRADO con
grados de libertad igual a 1/2 (K2 — K); K es el número de variables
de la matriz de correlaciones. El valor del estadístico que va a servir
para contrastar las hipótesis de la prueba de Barlett es:

La condición de aplicabilidad de la prueba de BARLETT, es que


las variables procedan de una población con una distribución normal
multivariable.

Índice KMO (Kaiser-Meyer-Olkin)

Este índice permite comparar las magnitudes de los coeficientes


de correlación observados con las magnitudes de los coeficientes
de correlación parcial.
El índice KMO se calcula según la siguiente expresión:

En la expresión anterior, rij es el coeficiente de correlación entre


las variables iésima y jésima; se excluyen de los sumatorios los
244 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

coeficientes de correlación de una variable consigo, por lo tanto, el


campo de aplicación de los sumatorios no es aplicable en los casos
i = j, Sij y es el coeficiente de correlación parcial entre las variables
iésima y jésima. También se excluyen los casos i = j.
Un índice KMO bajo indica que la intercorrelación entre las va-
riables no es grande y, por lo tanto, el análisis factorial no sería
práctico, ya que necesitaríamos casi tantos factores como variables
para incluir un porcentaje de la información aceptable.
KAISER indica que un KMO mayor que 0.7 es indicativo de alta
intercorrelación y, por tanto, indicativo de que el AF es una técnica
útil. Entre 0.5 y 0.6 el grado de intercorrelación es medio y el AF
sería menos útil que en el caso anterior, pero aplicable; un KMO < 0.5
indicaría que el AF no resultaría una técnica útil.

Correlación antiimagen AIC


El coeficiente de correlación parcial es un indicador de la fuerza
de la asociación entre dos variables que elimina la influencia de las
otras variables. Si existen factores comunes, esperamos que los
coeficientes de correlación parcial sean pequeños. El coeficiente
de correlación antiimagen es el negativo del coeficiente de corre-
lación parcial entre dos variables. Es aplicable el análisis factorial si
en la matriz de correlaciones antiimagen hay muchos coeficientes
con valores pequeños.

Medida de adecuación de la muestra (MSA)


Este índice se calcula para cada variable, de forma similar al
índice KMO.
El índice MSA viene dado por la siguiente expresión:
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 245

La expresión anterior indica cómo calcular el índice MSA. Para


la iésima variable, el significado de los coeficientes es el mismo
que en el índice KMO y, en este caso también se excluyen del
sumatorio los casos i = j.
Si el índice MSA es pequeño, no se aconseja un AF.
En las salidas del paquete SPSS, el índice MSA de cada variable
figura en la diagonal principal de la matriz antiimagen.
En caso de realizar un AF, podría estudiarse eliminar las variables
con MSA bajo.

Correlación múltiple

Este coeficiente indica el grado de asociación entre una variable


y todas las otras que intervienen en el análisis. Si hay muchas
variables con un coeficiente de correlación múltiple alto, el AF
puede utilizarse. Las variables con un coeficiente de correlación
múltiple bajo podrían eliminarse del análisis factorial.

Extracción de los factores comunes

En los modelos de análisis factorial, la selección de los ejes


tiene fundamentos matemáticos distintos si es un AFE o un AFC.
A lo largo de la historia, se han utilizado diversos métodos mate-
máticos para calcular los factores. Algunos de ellos se han empleado
mucho, por ser más fáciles de calcular, y otros no se han utilizado
apenas por sus dificultades en cuanto al cálculo. La aparición y
difusión de la informática ha permitido que actualmente se utilicen
los métodos más rigurosos, independientemente de su dificultad
de cálculo. Los métodos más utilizados y que incluyen los principales
paquetes estadísticos como SPSS son:

MÁXIMA VEROSIMILITUD.
FACTORIZACIÓN DE EJES PRINCIPALES.
FACTORIZACIÓN ALFA.
FACTORIZACIÓN DE IMAGEN.
MÍNIMOS CUADRADOS NO PONDERADOS.
MÍNIMOS CUADRADOS GENERALIZADOS.
246 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Comentaremos brevemente los dos primeros, que son los más


utilizados.

MÁXIMA VEROSIMILITUD. Este método exige la especifica-


ción previa del modelo, incluido el número de factores, es por tanto
un método adecuado para el análisis factorial confirmativo, aunque
en algunas ocasiones también puede aplicarse al análisis factorial
exploratorio. El método calcula la matriz factorial y de varianzas
residuales, de forma que sea máxima la probabilidad (verosimilitud)
de la matriz de varianzas de los datos. Los coeficientes de determi-
nación de los modelos de regresión múltiple, suelen considerarse,
habitualmente, como las comunalidades iniciales.
FACTORIZACIÓN DE EJES PRINCIPALES. En este método
se suelen considerar como comunalidades iniciales los coeficientes
de determinación de los modelos de regresión comentados en el
apartado Modelo matemático del análisis factorial (se ha demostrado
matemáticamente que las comunalidades finales son iguales o me-
nores que los coeficientes de determinación). En principio, se elige
el eje sobre el que la variabilidad de las proyecciones de los datos
es máxima; a continuación se elige el eje sobre el que la variabilidad
restante de la proyección es máxima y así sucesivamente. El inves-
tigador debe elegir el número de factores que expliquen mejor las
variables iniciales.

MATRIZ FACTORIAL. Una vez seleccionados los factores co-


munes, calculamos la matriz factorial. Se representan en forma de
matriz los factores comunes y las variables; habitualmente, en las
columnas se suelen representar los factores y en las filas las varia-
bles. Cada elemento de la matriz representa los coeficientes facto-
riales de las variables, los cuales nos permiten calcular las puntua-
ciones de los individuos y de las variables, según los casos. La
matriz factorial tiene tantas columnas como factores comunes y
tantas filas como variables.
Los coeficientes de la matriz aij son las correlaciones entre las
variables y los factores comunes. La suma de todos los coeficientes
al cuadrado de cada factor es igual al valor propio de la matriz de
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 247

correlaciones (o de la matriz de varianzas covarianzas) correspon-


diente a dicho factor.
COMUNALIDADES FINALES. Se denomina comunalidad
final a la proporción de variabilidad de cada variable explicada por
los factores comunes.
La comunalidad de una variable es igual a la suma de los coefi-
cientes factoriales al cuadrado de cada variable con todos los fac-
tores.
La comunalidad puede oscilar entre 0 y 1; 0 indica que los
factores no explican nada de la variable, y 1 que explican el 100%
de la variabilidad de la variable.
La variabilidad total de una variable es igual a:

1 = h2 + U2

En la expresión anterior, h2 es la comunalidad y U el factor


único; de esta manera, el factor único al cuadrado indica la variabi-
lidad de una variable, no explicada por los factores.

Rotación de factores y representación gráfica

Tanto en la rotación de factores como en la representación gráfica,


es válido todo lo dicho respecto a estos mismos temas en compo-
nentes principales. Los métodos utilizables y el significado son los
mismos en componentes principales que en análisis factorial.

Puntuaciones factoriales

Las puntuaciones factoriales para cada caso de la muestra pueden


calcularse según la siguiente expresión:
248 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTR1CA CON SPSS

En la expresión anterior, Fij representa la puntuación del iésimo


factor común, correspondiente al jésimo caso de la muestra; Kindica
el número de variables, ais representa la puntuación factorial co-
rrespondiente a la esésima variable y al iésimo factor y Zsj representa
el valor estandarizado de la esésima variable correspondiente al
jésimo caso.

Bondad del ajuste. Residuos

Si los factores comunes son ortogonales, las intercorrelaciones


entre las variables pueden estimarse según la siguiente expresión:

En la expresión anterior, rij es el coeficiente de correlación entre


la iésima y la jésima variables, rfi es la correlación entre el fésimo
factor y la iésima variable. La expresión anterior indica cuál es el
coeficiente de correlación estimado entre la iésima y la jésima
variable.
El residuo lo calcularemos restando el valor estimado del coefi-
ciente de correlación entre dos variables del resultado observado,
consultando en la matriz de correlación. La diferencia obtenida es
el residuo. Si el modelo es bueno, la mayoría de los residuos serán
pequeños.

No existe un método analítico para decidir qué número de resi-


duos grandes es indicativo de que el modelo resulta adecuado.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 249

ANÁLISIS FACTORIAL CON SPSS.


EL PROCEDIMIENTO FACTOR

El procedimiento FACTOR permite realizar análisis factorial con


SPSS.
La forma básica consta al menos del subcomando VARIABLES,
por ejemplo:

FACTOR VARIABLES = VARI VAR2 VAR3 VAR4 VAR5.

La instrucción anterior indica a SPSS que realice un análisis fac-


torial con las cinco variables indicadas. Puesto que no se indi-
ca método de extracción de factores ni tipo de rotación, SPSS,
por defecto, utiliza como método de extracción de factores la téc-
nica de componentes principales y como tipo de rotación VA-
RIMAX.
El procedimiento FACTOR admite los subcomandos siguientes:

VARIABLES.
MISSING.
EXTRACTION.
CRITERIA.
ROTATION.
PRINT.
PLOT.
SAVE.
DIAGONAL.
WRITE.
READ.

El subcomando VARIABLES permite especificar las variables


que deben intervenir en el análisis factorial.
El subcomando Missing permite controlar la inclusión y/o ex-
clusión del análisis de casos con valores ausentes.
A continuación comentaremos las posibilidades del resto de los
subcomandos listados.
250 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El subcomando EXTRACTION

Este subcomando permite elegir el método de extracción de


factores; en caso de no utilizar este subcomando, SPSS utiliza el
método de componentes principales. Los métodos disponibles son
las siguientes:

PC. Componentes principales; es la opción por defecto.


PAF. Factorización de ejes principales.
ML. Máxima verosimilitud.
ALPHA. Factorización alpha.
IMAGE. Factorización de imagen.
ULS. Mínimos cuadrados no ponderados.
GLS. Mínimos cuadrados generalizados.

El subcomando CRITERIA

Este subcomando admite las opciones siguientes:

FACTORS (nf). Número de factores que deben ser extraídos;


por defecto, el número de factores será el indicado por la opción
MINEIGEN. Si se desea un número fijo, debe indicarse en lugar
de (nf).
MINEIGEN (eg). Esta opción indica el valor mínimo de un auto-
valor; para que el correspondiente factor sea incluido, por defecto
se incluyen todos los auto valores iguales o mayores que 1. En caso
de querer especificar otro valor límite, hacerlo en lugar de (eg).
ITERATE (ni). Esta opción permite indicar el número de itera-
ciones empleado en el cálculo del factor. Por defecto se emplean
25 iteraciones. En caso de precisar un número de iteraciones distinto
de 25, hacerlo en lugar de (ni).
ECONVERGE (el). Esta opción permite especificar el criterio
de convergencia para la extracción de factores; por defecto, el
criterio es 0.001. Si se desea un criterio de convergencia distinto,
especificarlo en lugar de (el).
RCONVERGE (e2). Esta opción permite especificar el criterio
de convergencia para la rotación; por defecto, el criterio es 0.0001.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 251

Si se desea un criterio de convergencia distinto, especificarlo en


lugar de (e2).
KAISER. Esta opción realiza la normalización de KAISER en la
rotación. Es la opción por defecto.
NOKAISER. Esta opción indica a SPSS que no utilice la normali-
zación de KAISER en la rotación.
DELTA (d). Esta opción permite indicar delta para rotaciones
oblicuas.

En caso de utilizar el subcomando CRITERIA, debe utilizarse


antes que el subcomando EXTRACTION.

El subcomando ROTATION

Este subcomando permite especificar el tipo de rotación que


emplear; si este subcomando no se utiliza, SPSS realiza la rotación
VARIMAX. Las opciones disponibles son las siguientes:

VARIMAX. Esta opción selecciona como tipo de rotación VA-


RIMAX; ésta es la opción por defecto.
EQUAMAX. Esta opción indica a SPSS que el tipo de rotación
que debe utilizarse es EQUAMAX.
QUARTIMAX. Esta opción indica a SPSS que el tipo de rotación
que debe utilizarse es QUARTIMAX.
OBLIMIN. Esta opción indica a SPSS que el tipo de rotación que
debe utilizarse es oblicua. Por defecto, usa como valor de delta 0.
Emplear el subcomando CRITERIA, a fin de modificar este valor, si
ello fuera preciso.
NOROTATE. Esta opción indica a SPSS que los factores no deben
ser rotados. Si utilizamos el subcomando EXTRACTION, pero no el
subcomando ROTATION, no se rotan los factores.

El subcomando PRINT

Este subcomando permite obtener salidas adicionales de pará-


metros estadísticos. Las opciones disponibles son las siguientes:
252 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

UNIVARIATE. Esta opción lista el número de observaciones


válidas, la media y la desviación típica de las variables que inter-
vienen en el análisis.
INITIAL. Esta opción lista una tabla con las comunalidades ini-
ciales, los valores propios y el porcentaje de varianza explicada.
CORRELATION. Esta opción lista la matriz de correlaciones, co-
rrespondiente a las variables que intervienen en el análisis.
SIG. Esta opción muestra la significación de las correlaciones.
DET. Esta opción muestra el determinante de la matriz de co-
rrelaciones.
INV. Esta opción muestra la inversa de la matriz de correla-
ciones.
KMO. Esta opción muestra el índice de KMO, la medida de
adecuación de la muestra y la prueba de esfericidad de Barlett.
EXTRACTION. Esta opción muestra las comunalidades, los va-
lores propios y los factores rotados.
REPR. Esta opción muestra las correlaciones y los correspon-
dientes residuos.
ROTATION. Esta opción muestra los factores rotados parámetros
y su correspondiente matriz, matriz de transformación y matriz de
correlaciones entre factores y variables.
FSCORE. Esta opción muestra la matriz de cargas factoriales.
DEFAULT. Por defecto, en caso de no utilizar el subcomando
PRINT, se muestran los estadísticos correspondientes a las opciones
INITIAL, EXTRACTION y ROTATION. Si utilizamos el subcomando
EXTRACTION sin el subcomando ROTATION, solamente se mostra-
rán los estadísticos correspondientes a las opciones INITIAL y EX-
TRACTIONS.

El subcomando PLOT
Esta opción permite la salida de los siguientes diagramas:

EIGEN. Esta opción muestra un gráfico de los valores propios


en orden descendente.
ROTATION (nl n2). Esta opción permite visualizar ejes de coor-
denadas, en los que el eje de abscisas es el factor indicado en ni y
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 253

el de ordenadas el indicado en n2. En una misma orden pueden


indicarse varios ejes coordenados. Por ejemplo (1,2), (2,3), (1,3),
(1,4), etc.

El subcomando SAVE
Este subcomando permite incorporar al fichero activo las pun-
tuaciones factoriales para cada caso. Las opciones disponibles son
las siguientes:

REG. Puntuaciones calculadas mediante el método de regresión.


BAR. Puntuaciones calculadas mediante el método de Barlett.
AR. Puntuaciones calculadas mediante el método de Anderson-
Rubin.
(n,raíz). Las puntuaciones de los n primeros factores se alma-
cenarán en las variables raíz1, raíz2.....raízn.

El subcomando DIAGONAL
Este subcomando permite especificar los valores iniciales de la
diagonal principal de la matriz de correlaciones. Por defecto, los
valores de esta diagonal, contiene las comunidades iniciales. La
opción es la siguiente:

Dl,D2,...Dn. Lista de valores iniciales. Esta opción sólo está dis-


ponible para los métodos PAF y PA2.

El subcomando WRITE
Este subcomando permite escribir en el fichero SPSS.PRC, salvo
que el usuario haya indicado otro fichero mediante el comando SET
RESULTS, los siguientes resultados.

CORRELATION. Esta es la opción por defecto y graba la matriz


de correlaciones.
FACTOR. Esta opción graba la o las matrices factoriales.
254 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

El subcomando READ
Esta opción permite realizar un análisis de componentes princi-
pales o factorial, a partir de datos matriciales. Las opciones disponi-
bles son las siguientes:
CORRELATION. Esta es la opción por defecto, indica que la
matriz es de correlaciones cuadrada.
CORRELATION TRIANGLE. Esta opción indica que la matriz de
correlaciones es triangular.

Ejemplos
Dedicaremos un apartado a los ejemplos correspondientes a
este capítulo. En primer lugar, comentaremos un ejemplo sobre
componentes principales y dos sobre análisis factorial.

Ejemplo sobre componentes principales


A continuación, realizaremos un ejemplo con el fichero HOSPITAL,
mediante la técnica de componentes principales. El fichero HOSPI-
TAL, contiene datos asistenciales de 10 hospitales; los datos que
tenemos de cada hospital son: PEX (consultas externas), PEN (es-
tancias totales), URG (urgencias), INTO (intervenciones quirúrgicas),
EXAT (exploraciones de alta tecnología) y EM (estancia media).
Nuestro interés se centra en calcular componentes principales, que
nos permitan explicar la información del fichero con el mínimo
número de variables posible.
Comience una sesión con SPSS y siga las siguientes instruc-
ciones:
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 255

La utilización del procedimiento FACTOR, sin el subcomando


EXTRACTION, indica a SPSS que los ejes deben seleccionarse me-
diante la técnica de componentes principales. Al no utilizar el sub-
comando ROTATION, SPSS realiza de forma automática la rotación
VARIMAX. SPSS seleccionará todos los componentes principales
mayores que 1. En caso de que quisiéramos seleccionar un número
determinado de componentes principales, deberíamos utilizar el
subcomando CRITERIA, con la extensión FACTORS(n).
Los resultados obtenidos son los siguientes:

La tabla anterior muestra las comunalidades iniciales y los auto-


valores (eigenvalue) de la matriz de correlaciones. Como se explicó
en el apartado correspondiente a componentes principales, las co-
munalidades iniciales en esta técnica son iguales a 1, puesto que la
variabilidad total puede explicarse a partir de los 6 componentes.
El primer factor tiene un valor de 2.44785, y él solo es capaz de
explicar el 41.3% de la variabilidad total (Pct of Var). El segundo
factor tiene un valor igual a 1.38925, y él solo explica el 23.2% de la
variabilidad; entre los dos primeros factores explican el 64.5% de la
variabilidad Cum Pct. Sólo hay tres factores con valores mayores
que 1; por lo tanto, éstos son los componentes principales. Recorda-
mos al lector que hay diversos criterios para seleccionar el número
adecuado de componentes principales (ver Componentes princi-
256 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

pales), pero SPSS, por defecto, selecciona los que tienen valores
superiores a 1. Mediante el subcomando CRITERIA con la extensión
FACTORS(n), puede seleccionarse el número de factores que el
lector estime necesario.
En la gráfica siguiente, se representa de forma gráfica el valor
de los factores; el gráfico es consecuencia de la extensión EIGEN
del subcomando PLOT.

La tabla anterior expresa la matriz factorial, cuyos elementos


son las puntuaciones factoriales aij; la suma de las puntuaciones al
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 257

cuadrado correspondientes a un factor, es igual al autovalor corres-


pondiente a dicho factor. Por ejemplo, el autovalor correspondiente
al primer factor es igual a la suma al cuadrado de las puntuaciones
factoriales de dicho factor, con las variables originales:

2.47785 = (0.87402)2 + (0.63745)2 + ....... + (0.65242)2

Las puntuaciones factoriales también pueden considerarse como


los coeficientes de correlación lineal de Pearson del factor y la
variable implicados. Por ejemplo, 0.87402 es la puntuación facto-
rial correspondiente a la variable PEX y el primer factor, y también
el coeficiente de correlación entre el primer factor y la variable
PEX.
En la tabla siguiente se muestran las comunalidades finales, ex-
plicadas por los componentes seleccionados. En este caso, hay tres
componentes principales, los cuales explican una proporción de
variabilidad de 0.88792 de la variable PEX, 0.43078 de la variable
PEN, 0.9731 de la variable URG, y así sucesivamente. En dicha tabla
también se muestran los valores de los componentes seleccionados
y la variabilidad total que explican juntos y separados. La comuna-
lidad final de una variable es igual a la suma al cuadrado de las
puntuaciones factoriales de dicha variable. Por ejemplo, la comuna-
lidad final de la variable PEX es igual a:

CFPEX= (0.87402)2 + (0.24522)2 = (.25273)2 = 0.8879.


258 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 259

La matriz factorial, rotada, muestra las puntuaciones factoriales


correspondientes a las variables y a los factores rotados. Las comu-
nalidades finales no cambian. Por ejemplo, la comunalidad final de
la variable PEX es la suma al cuadrado de las puntuaciones facto-
riales de la matriz factorial rotada, correspondientes a la variable
PEX:

Compare el resultado obtenido a partir de las puntuaciones fac-


toriales de la matriz factorial no rotada con la matriz factorial rotada;
los resultados son idénticos.
El gráfico anterior, consecuencia del subcomando PLOT con la
extensión ROTATION (12), muestra las variables en el plano definido
por los dos componentes principales. El primer factor tiene una alta
correlación con las variables PEX y EM y el segundo con las varia-
bles INTQ y EXAT. Podríamos decir que el primer factor está más
relacionado con los pacientes ambulatorios y el segundo con los
pacientes ingresados que precisan pruebas especiales.

Ejemplo sobre análisis factorial exploratorio

El fundamento de esta técnica es que el investigador cree que


existen factores comunes asociados a las variables originales. En
este estadio el investigador no sabe cuántos son los factores comu-
nes; el número de factores se determinará explorando los autovalores
de la matriz de correlaciones y los factores posibles, de ahí el
nombre de AFE.
A continuación, realizaremos un ejemplo con los datos del fichero
CORONAR. En principio, tenemos la hipótesis de que existen factores
comunes que pueden resumir la variabilidad de las variables CB
(COLESTEROL BASAL), TB (TRIGLICERIDOS BÁSALES), TAS (TEN-
SIÓN ARTERIAL SISTOLICA), TAD (TENSIÓN ARTERIAL DIASTOLI-
CA), PESO y TALLA.
Inicie una sesión con SPSS y siga las siguientes instrucciones:
260 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Las instrucciones anteriores indican a SPSS que se proceda a un


análisis factorial. Los factores deben calcularse mediante la técnica
de los ejes principales (EXTRACTION PAF). Los ejes deben rotarse
mediante la técnica VARIMAX (al utilizar el subcomando EXTRAC-
TION, la rotación de los ejes solamente se hace si se solicita expre-
samente mediante el subcomando ROTATION). No indicamos un
número determinado de factores; por lo tanto, se trata de un AFE.
Los resultados obtenidos son los siguientes:

En la tabla anterior se muestran las comunalidades iniciales,


los autovalores correspondientes a los factores y la variabilidad
que explican. Las comunalidades iniciales son distintas de 1. La
comunalidad correspondiente a CB es 0.58111 y esto significa
que sí construimos un modelo de REGRESIÓN MÚLTIPLE, en el
crue la variable CB es la variable dependiente v las demás las
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 261

variables independientes. El coeficiente de determinación de dicho


modelo es 0.58111, o, lo que es lo mismo, que las variables indepen-
dientes explican un 58.111% de la variabilidad correspondiente al
COLESTEROL BASAL, CB. Las comunalidades iniciales son un punto
de partida en el proceso del análisis factorial. En el gráfico siguiente
se muestran gráficamente los autovalores.
262 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior se expresan las comunalidades finales ex-


plicadas por los tres factores seleccionados. Los tres factores se-
leccionados explican un 70.497 % de la variabilidad de la variable
CB, un 20.373 % de la variabilidad de la variable TB, y así sucesi-
vamente. Los autovalores correspondientes a los factores comunes
y la variabilidad que explican también está incluida en la tabla
anterior.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 263

En las tablas anteriores se muestran la matriz factorial rotada y la


matriz de transformación. El primer factor tiene altas correlaciones
con las variables TAS, TAD y CB. El segundo factor tiene altas
correlaciones con las variables PESO y TALLA. El tercer factor sola-
mente parece estar relacionado con la variable TB.

Ejemplo sobre análisis factorial confirmatorio

En el análisis factorial confirmatorio, el investigador no sólo tiene


una hipótesis previa sobre la existencia de factores comunes, tam-
bién tiene una hipótesis previa sobre el número de factores.
Siguiendo con el ejemplo CORONAR, supongamos que un in-
vestigador tiene la hipótesis de que la mayor parte de la variabilidad
de las variables TAS, TAD, CB, TB, PESO y TALLA puede ser expli-
cada por dos factores comunes. Para confirmar dicha hipótesis, de-
bemos realizar un análisis factorial confirmatorio.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

En el conjunto de instrucciones anterior, el subcomando CRI-


TERIA con la extensión FACTORS (2) indica que se extraigan dos
factores; el subcomando EXTRACTION, con la extensión ML, indica
que la selección de los ejes se realice mediante la técnica de
máxima verosimilitud. Ésta es la técnica habitualmente empleada
en el análisis factorial confirmatorio. Al igual que ocurría en el
caso del análisis factorial exploratorio, el subcomando ROTATION
debe emplearse si se desea que los factores sean rotados.
Los resultados obtenidos son los siguientes:
264 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El contrate de hipótesis anterior evalúa si el número de factores


elegidos es correcto. La hipótesis nula considera que dicho número
es correcto; por tanto, si la significación es menor que 0.05 debe-
remos considerar otro número de factores. En este caso como la
significación es mayor de 0.05, no rechazamos la hipótesis nula y,
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL 265

por tanto, podemos considerar el número supuesto de factores co-


rrecto. El estadístico de contraste se basa en una complicada formula
matricial. Dicho estadístico se distribuye según una distribución
CHI CUADRADO con GL grados de libertad. Los grados de libertad
se calculan según la siguiente expresión:

En la expresión anterior, K es el número de variables y m el


número de factores. En nuestro ejemplo las variables son 6 y los
factores 2; aplicando la expresión anterior, GL = 4.
266 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Las tablas y gráneos anteriores tienen el mismo significado


que el descrito en el ejemplo de Componentes principales y
análisis factorial exploratorio.
Capítulo 8
ANÁLISIS DISCRIMINANTE

INTRODUCCIÓN
En muchas circunstancias disponemos de dos o más grupos de
elementos, de los cuales conocemos datos correspondientes a varias
variables numéricas. Ante esta situación, se nos plantean los dos
problemas siguientes:

A) Explicar la pertenencia de un elemento a un grupo deter-


minado, en función de los valores de las variables disponibles ¿Qué
variables explican la clasificación en grupos distintos? ¿Cuáles de
estas variables son más importantes en la discriminación?
B) Predecir a qué grupo pertenece o pertenecerá un elemento
del que se conocen los valores de una serie de variables.

Las disciplinas en que es útil el análisis discriminante son múlti-


ples. En las ciencias de la salud es una técnica estadística cada vez
más utilizada, debido a la difusión creciente de la informática.
Algunos ejemplos, en los que la utilización del análisis discrimi-
nante es útil, son los siguientes.
Supongamos que disponemos de dos grupos de individuos, de
los que conocemos una serie de parámetros biológicos y sociales.
Uno de los grupos de individuos padece una determinada enfer-
medad y el otro no la padece. Desde el punto de vista clínico, es
importante conocer las variables capaces de discriminar de forma
significativa entre enfermos y sanos; por otra parte, ante un nuevo
268 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

paciente es importante calcular la probabilidad de contraer una


determinada enfermedad, conocidas una serie de variables.
Ante un grupo de pacientes a los que hay que someter a una
determinada técnica quirúrgica, es importante conocer las variables
que pueden influir en el éxito o fracaso de la intervención. Ante un
paciente susceptible de ser intervenido, sería importante calcular
la probabilidad de éxito o de fracaso.
En administración sanitaria también es útil el análisis discrimi-
nante. Podemos estudiar las variables que discriminen entre centros
con buenos indicadores y malos indicadores, etc.
La diferencia fundamental del análisis discriminante con los mé-
todos de agrupamiento (CLUSTERS) es que, en el análisis discrimi-
nante, los grupos están definidos, mientras que en el análisis de
CLUSTER se trata de definir los grupos ante un conjunto de indivi-
duos. En muchas ocasiones, el análisis de Cluster es un paso previo
en el análisis discriminante: primero formamos los grupos y después
detectamos qué variables influyen en la diferenciación en grupos.

MÉTODOS DE ANÁLISIS DISCRIMINANTE

En los ejemplos anteriores, hemos visto que en algunas


ocasiones nos interesa explicar qué variables contribuyen de forma
significativa a la diferenciación en dos o más grupos. En otras
ocasiones, nos interesa calcular la probabilidad de que un individuo
pertenezca a un determinado grupo. Según cual sea nuestro interés,
utilizaremos uno de los dos métodos siguientes:

I) ANÁLISIS FACTORIAL DISCRIMINANTE (ÁFD), el


cual tiene como objetivo primordial explicar la pertenencia de un
individuo a un determinado grupo. Este método también permite
realizar predicciones, asignando a cada individuo al grupo más
cercano a su puntuación factorial, pero el método de las funciones
discriminantes es más potente en cuanto a predicciones.
II) FUNCIONES DISCRIMINANTES. Este método pretende
predecir la pertenencia de un individuo a un determinado grupo, en
base a la probabilidad calculada, conocidos una serie de datos.
El método de las funciones discriminantes calcula las probabili-
ANÁLISIS DISCRIMINANTE 269

dades de pertenecer a un determinado grupo según técnicas de


decisión BAYESIANAS.

En la expresión anterior, D representa una determinada puntua-


ción factorial y Gi el iésimo grupo. El primer miembro de la ecuación
indica la probabilidad de que un individuo pertenezca al iésimo
grupo sabiendo que tiene una puntuación factorial D. Dicha proba-
bilidad se calcula a partir del teorema de Bayes, representado en el
segundo miembro de la ecuación.
En muchos casos prácticos utilizamos los dos métodos. Primero
el AFD, a fin de determinar las variables explicativas, y después el
método de las funciones discriminantes, a fin de calcular las proba-
bilidades de pertenecer a un grupo, según los valores de una serie
de variables.

FUNCIÓN DISCRIMINANTE. PUNTUACIONES


DISCRIMINANTES
Supongamos que conocemos datos del colesterol basal (CB) y
de la tensión arterial sistólica de un conjunto de individuos, entre
los cuales podemos distinguir dos grupos, los afectados de cardio-
patía isquémica y los no afectados de cardiopatía isquémica. Ni el
valor del CB, ni el de la tensión arterial sistólica TAS son suficientes
por sí solos para explicar por qué unos individuos están enfermos
y otros no. Pero podemos tratar de obtener una variable discrimi-
nante, combinación lineal de las anteriores, que explique la perte-
nencia de un individuo a uno u otro grupo.
270 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

D es una función discriminante, combinación lineal de las varia-


bles discriminantes CB y TAS, en este caso. Ay B son los coeficientes
discriminantes no estandarizados y C una constante.
El valor de la función discriminante para un individuo determi-
nado se calcula sustituyendo los valores de las variables en la
función discriminante. Al valor obtenido se le denomina puntua-
ción discriminante. En la función anterior, supongamos que C = 12,
A = 1.5 y B = 0.9; el iésimo individuo tiene un CB de 250 y una TAS
de 140 su puntuación discriminante es:

Calculamos el valor de D para todos los individuos enfermos


y calculamos su media; a continuación, calcularemos las puntuacio-
nes para los individuos no enfermos y también calcularemos su
media. Asignamos un individuo al grupo cuyo centro esté más
próximo.
En el ejemplo anterior, supongamos que el grupo de enfermos
tiene una puntuación media de 627 y el grupo de sanos de 400. La
puntuación del individuo del ejemplo anterior está más próxima al
valor medio del grupo de sanos que del valor medio del grupo de
enfermos. Asignaremos a este individuo al grupo de sanos.
Una vez concluida la asignación de todos los individuos, podemos
estimar la capacidad explicativa del modelo, calculando el porcentaje
de asignaciones correctas.
El número máximo de funciones discriminantes es el valor mínimo
entre el número de grupos menos 1 y el número de variables.
En el caso de que las funciones discriminantes sean dos, definen
un plano y habrá que calcular los límites de asignación de cada
individuo a los grupos; si las variables son 3, definen un espacio
tridimensional, etc.

FUNDAMENTOS MATEMÁTICOS

La variabilidad total podemos descomponerla en variabilidad


dentro de los grupos y variabilidad entre grupos. En análisis discri-
minante nos interesa encontrar la función o funciones que maximicen
ANÁLISIS DISCRIMINANTE 271

el cociente entre la variabilidad entre grupos y la variabilidad dentro


de grupos. De esta manera, la función debe tener el máximo poder
posible de discriminación de los grupos.

En el gráfico anterior podemos observar que hay valores de


las variables X e Y que pueden darse tanto en elementos del gru-
po A como del B; por tanto, dichas variables, por sí solas, no
pueden discriminar los dos grupos. Proyectando ambos grupos
sobre el eje Z, podemos discriminar los elementos pertenecientes a
los grupos A y B. Por lo tanto, debemos calcular una función discri-
minante D, combinación lineal de X e Y definida sobre el eje Z.
El caso anterior es un caso ideal de discriminación, en la mayoría
de los casos prácticos, el poder de discriminación no es total.
Las puntuaciones factoriales dependen de las unidades de me-
dida; si queremos comparar el poder discriminante de cada variable,
podemos hacerlo calculando las funciones discriminantes en función
de las variables estandarizadas. El máximo poder discriminante co-
rresponderá a la variable con mayor coeficiente en las funciones
discriminantes estandarizadas.
272 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

ANÁLISIS DISCRIMINANTE CON SPSS.


EL COMANDO DSCRIMINANT

El comando DSCRIMINANT (NO HAY ERROR, LA PRIMERA I DE


DISCRIMINANTE NO DEBE IR EN EL COMANDO), permite realizar
análisis discriminante con el paquete estadístico SPSS. Este comando
admite los siguientes subcomandos:

GROUPS.
VARIABLES.
ANALYSIS.
METHOD.
MAXSTEPS.
TOLERANCE.
FIN.
FOUT.
PIN:
POUT.
VIN.
FUNCTIONS.
SELECT.
PRIORS.
SAVE.
OPTIONS.
STATISTICS.

Sintaxis mínima. Los subcomandos GROUPS


y VARIABLES

En un análisis discriminante con SPSS, deben figurar al menos


los subcomandos GROUPS y VARIABLES. GROUPS permite definir
cuáles son los grupos sobre los que queremos realizar el análisis y
VARIABLES especifica las variables cuyo poder discriminante sobre
los grupos definidos por GROUPS queremos estudiar.
A continuación veremos un ejemplo. Inicie una sesión con SPSS
y teclee las siguientes instrucciones:
ANÁLISIS DISCRIMINANTE 273

La segunda orden indica a SPSS que proceda a realizar un análisis


discriminante sobre los grupos definidos por la variable EC = 1
(ENFERMOS CORONARIOS) y EC = 2 (NO ENFERMOS). Nuestro
interés se centra en estudiar el poder discriminante de las variables
TAS, CB y EDAD sobre enfermos y sanos. Los resultados obtenidos
son los siguientes:
274 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Los resultados anteriores constan de varias partes, que pasamos


a describir. En primer lugar, se nos informa del número de casos
incluidos en el análisis y el número de casos excluidos. En este
caso se han incluido 70 casos y no se ha excluido ninguno.
En segundo lugar, se nos muestra una tabla que indica los casos
ponderados y no ponderados; en este ejemplo, no hay casos pon-
derados.
En tercer lugar, se nos informa de los criterios de trabajo utiliza-
ANÁLISIS DISCRIMINANTE 275

dos, TOLERANCIA1 0.001, Número MÁXIMO DE FUNCIONES DIS-


CRIMINANTES2 1, PORCENTAJE CUMULATIVO MÍNIMO DE LA VA-
RIANZA 100, MÁXIMA SIGNIFICACIÓN DE LA LAMBDA DE WILKS
1.00 Y PROBABILIDAD A PRIORI3 0.5 (PRIOR PROBABILITY).
En cuarto lugar, aparecen las funciones discriminantes canóni-
cas y una serie de parámetros que nos indican si los factores dis-
criminantes (en este caso sólo uno) contribuyen a diferenciar los
grupos de forma significativa. El programa nos muestra el valor del
LAMBDA de WILKS, y del siguiente estadístico:

En la expresión anterior, n es el número de casos, K el número


de variables discriminantes, G el número de grupos y LW el valor
del parámetro LAMBDA DE WILKS, cuyo significado describire-
mos en este mismo capítulo. El estadístico anterior se distribuye
como una CHI cuadrado con K (G-l) grados de libertad; K es el
número de variables discriminantes y G el número de grupos. En el
ejemplo anterior, K= 3 y G = 2; por lo tanto, los grados de libertad
son: 3 (2-1) = 3. Aplicando la expresión anterior a los datos del
ejemplo anterior:

1
La tolerancia en este caso, es el porcentaje de la variabilidad de una variable, que no explican las
otras variables discriminantes. Si la tolerancia es menor que 0.001, no se incluirá aunque cumpla otros
criterios de selección. Este valor puede ser modificado por el usuario.
2
Recuérdese que el número máximo de funciones discriminantes es el mínimo entre el número de
grupos menos 1 y el número de variables discriminantes; en este caso, el número de grupos menos 1 es
2— 1 = 1, y el número de variables discriminantes es 3; el mínimo entre 1 y 3 es 1 y éste es el número
máximo de funciones discriminantes.
3
La probabilidad a priori tiene una gran influencia en las predicciones. MÉTODO DE LAS
FUNCIONES DISCRIMINANTES: esta probabilidad es modificable por el usuario mediante el
subcomando PRIORS, como veremos en este mismo capítulo.
276 ESTADÍSTICA MLJLTIVARLANTE Y NO PARAMÉTRICA CON SPSS

La interpretación es que la función discriminante diferencia los


grupos de forma significativa.
También nos indica para cada función discriminante el corres-
pondiente autovalor (EIGENVALUE) al único factor de la función
discriminante que recoge mayor variabilidad (en este caso, sólo
hay una función discriminante); si hubiera más factores discrimi-
nantes, tendríamos un autovalor por cada factor. El porcentaje de
varianza que explica cada función discriminante y la varianza ex-
plicada acumulada (cumulative percent) por la función actualmente
en descripción y la suma de las anteriores. (En nuestro caso, al
haber sólo una función, coinciden la varianza explicada y la acumu-
lada.) La correlación canónica es el coeficiente de correlación de
Pearson, entre la puntuación discriminante y los grupos, es equiva-
lente al coeficiente ETA en el análisis de la varianza.
En quinto lugar se muestran los coeficientes factoriales estanda-
rizados correspondientes a cada variable para cada función discri-
minante. Si los coeficientes son estandarizados, el mayor indica que
su correspondiente variable es la que más influye en la discrimina-
ción; en nuestro caso, el coeficiente mayor corresponde a CB (CO-
LESTEROL BASAL), 0.71749. Si los coeficientes no están estandariza-
dos, el valor de cada coeficiente depende de las unidades de me-
dida y no son comparables. Las puntuaciones discriminantes se
calculan a partir de los coeficientes no estandarizados. Mediante el
subcomando STATISTIC, podremos obtener los coeficientes no es-
tandarizados, lo cual veremos en el último ejemplo de este capítulo,
(ver subapartado «El subcomando STATISTICS»).
En sexto lugar se nos muestran los coeficientes de correlación
entre las variables discriminantes y la función discriminante (POOLED
WITHIN GROUPS...). Coeficientes cercanos a 1 indican una alta aso-
ciación entre la variable y la función; correlaciones próximas a cero
indican escasa o nula asociación. En este caso, el orden de asociación
entre las variables y la función es CB = 0.75547, TAS = 0.66759 y
EDAD =0.21508.
En séptimo lugar se muestran los valores medios de los grupos
de enfermos (EC = 1) y sanos (EC = 2), cuyos valores son 3.13170
para enfermos y —1.16671 para sanos.
ANÁLISIS DISCRIMINANTE 277

El subcomando ANALYSIS

Este subcomando permite seleccionar diversos análisis discri-


minantes con las variables indicadas en el subcomando VARIABLES,
con los mismos grupos.
En el siguiente grupo de órdenes:

En el ejemplo anterior estamos interesados en un análisis discri-


minante con los dos grupos definidos por el subcomando GROUPS
y la variable VARG (1,2). Las 7 variables discriminantes, de VARI A
VAR7, van a incluirse en tres análisis distintos, lo cual es posible
mediante el subcomando ANALYSIS. En el primero, sólo van a in-
tervenir como variables discriminantes VAR1, VAR2 y VAR3; en el
segundo intervienen VAR2, VAR3, VAR5 y VAR6; en el último inter-
vienen todas las variables.
El subcomando ANALYSIS permite controlar el orden de entrada
en el modelo. A las variables podemos asignarles un nivel (LEVEL),
con un número del 1 al 99; las variables con un nivel mayor entran
primero en el modelo. Si cumplen los requisitos de entrada, las
variables con igual nivel se consideran para entrar en el modelo a
la vez; las variables con un nivel mayor que uno, una vez incluidas
en el modelo, no pueden eliminarse.
278 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

En el ejemplo anterior se ha asignado nivel 2 a las variables


VAR5 y VAR6, y nivel 1 al resto; el nivel por defecto es el 1.

El subcomando METHOD

Este subcomando permite indicar el método de selección de


variables. En general, nos interesa incluir en la función discriminante
sólo las variables que contribuyan de forma significativa a diferenciar
los grupos.
Todas las opciones disponibles con SPSS, menos la primera, son
hacia adelante e incorporan a la función discriminante variables de
una en una; si cumplen los criterios de entrada. (Por defecto, el
criterio de entrada F > 1 Y TOLERANCIA < 0.001), las variables se
incorporan. Una variable que se ha incorporado puede salir de la
ecuación si en un paso posterior, al incorporar otra variable, el
valor de F disminuye por debajo de 1. Los criterios de entrada y de
salida son modificables por el usuario (Ver subcomandos de criterio).
El método anterior, en el que las variables se incorporan paso a
paso y pueden eliminarse en un paso posterior a su entrada, se
denomina STEPWISE.
Las opciones disponibles usan como método de selección el
STEPWISE. Podemos seleccionar el criterio de incorporación de
variables. Las opciones disponibles son las siguientes:

DIRECT. Ésta es la opción por defecto. Cuando no usamos el


subcomando METHOD, incorpora todas las variables a la función
discriminante, sin selección previa en cuanto a su significación.
WILKS. Es un método STEPWISE. Esta opción incorpora la fun-
ción discriminante a la variable cuyo valor de LAMBDA de WILKS
es menor, entre todas las que cumplen el criterio de entrada PIN. El
parámetro LAMBDA de WILKS es el cociente entre el determinante
de la matriz de variabilidad dentro de grupos y el determinante de
la variabilidad total; si es próximo a cero, indica que la mayor parte
de la variabilidad es entre los grupos y, por tanto, su correspondiente
variable influye en la diferenciación de los grupos. Por el contrario,
si su valor es próximo a 1, indica que la mayor parte de la variabili-
dad es dentro de grupos y que la variable no influye de forma
ANÁLISIS DISCRIMINANTE 279

importante en la diferenciación entre grupos. La variabilidad total


es igual a la variabilidad entre grupos más la variabilidad dentro
de grupos.
RAO. Es un método STEPWISE. Esta opción incorpora la función
discriminante la variable cuya V de RAO es máxima entre todas las
que cumplen el criterio de entrada PIN. La V de RAO es un pará-
metro estadístico, que viene dado por la siguiente expresión:

En la expresión anterior, n es el número de casos procesados, G


el número de grupos, k el número de variables independientes, Cij
es un elemento de la matriz inversa de varianzas covarianzas dentro
de grupos, ns es el número de casos correspondientes al esésimo
grupo, Xis es la media de la iésima variable en el esésimo grupo, Xi
es la media de la iésima variable en el total de los grupos. Una V
de RAO grande indica que la variable implicada diferencia los
grupos más que otra variable con una V de RAO menor.
MAHAL. Es un método STEPWISE. Esta opción incorpora a la
función discriminante la variable cuyo valor de la distancia de Ma-
halanobis es mayor entre todas las que cumplen el criterio de
entrada PIN. La distancia de Mahalanobis, es una medida de distancia
entre dos grupos, muy útil en la diferenciación entre grupos; entre
dos variables, influye más en la diferenciación entre dos grupos la
que tiene mayor distancia de Mahalanobis.
La distancia de Mahalanobis viene dada por la siguiente ex-
presión:
280 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la expresión anterior, n es el número de casos procesados, G


el número de grupos, k el número de variables independientes, cij
es un elemento de la matriz inversa de varianzas covarianzas dentro
de grupos y Xia es la media de la iésima variable en el grupo a. Una
distancia de Mahalanobis grande indica que la variable implicada
diferencia los grupos más que otra variable con una V de RAO
menor.
MAXMINF. Es un método STEPWISE. Esta opción selecciona
la variable que maximiza la menor F entre pares de grupos. Un
contraste de hipótesis para la igualdad de medias en dos poblacio-
nes, se basa en el siguiente estadístico:

Bajo la hipótesis nula de igualdad de medias, el estadístico ante-


rior se distribuye como una F de Snedecor. En la expresión anterior,
n es el tamaño muestral, nA es el tamaño de la muestra correspon-
diente al grupo A, nB es el tamaño de la muestra correspondiente al
grupo B, K es el número de variables discriminantes y D2AB es la
distancia de Mahalanobis entre los grupos A y B.
El método, en cada caso, selecciona la variable, que hace máxima
la menor F entre cada dos grupos. Si tenemos tres grupos A, B y C,
para cada variable que incluir en el modelo se calcula el valor de las
F según la expresión anterior, entre todos los pares de grupos posi-
bles; en nuestro caso, AB, AC y BC, anotando el valor menor de las
3 F (en este caso) para cada variable. La variable seleccionada para
entrar en el modelo es aquella cuya F anotada es la mayor de todas.
En el caso de dos grupos, se incluye en el modelo la variable cuya
F sea máxima, ya que para cada variable sólo hay una posible F, al
haber sólo dos grupos.
Para que una variable se incluya en el modelo, además del
criterio anterior, debe cumplir el criterio de entrada PIN.
MINRESID. Es un método STEPWISE, selecciona la variable
que minimiza la suma de la variación no explicada entre grupos.
ANÁLISIS DISCRIMINANTE 281

Podemos considerar un análisis discriminante para cada dos


grupos como una regresión múltiple, en la que la variable depen-
diente toma valores 0 ó l , 0 para el grupo A y 1 para el grupo B. De
hecho, la distancia de Mahalanobis y el coeficiente de determinación
son proporcionales:

En la expresión anterior, c es una constante que determinar en


cada caso.
Para cada par de grupos, la variabilidad no explicada por el
modelo es: 1 — R2AB. La suma de la variabilidad no explicada para
cada par de grupos puede utilizarse como criterio de selección. La
variable que incluir en el modelo es aquella que minimiza la suma
de las variabilidades no explicadas, tomando los grupos dos a dos.
En el caso de que haya sólo dos grupos, la variable seleccionada
es aquella que minimiza 1 — R2AB.
A continuación veremos un ejemplo con el fichero VASCULAR,
basado en el criterio del LAMBDA de Wilks.
Inicie una sesión con SPSS y siga las siguientes instrucciones:

En el grupo de instrucciones anteriores, se indica a SPSS que


realice un análisis discriminante con las variables CB, EDAD, PESO
y TALLA, a fin de determinar a cuáles diferencian mejor los grupos
HTA = 0 (no hipertensos) y HTA = 1 (hipertensos).
Los resultados obtenidos son los siguientes:
282 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE 283
284 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Canonical Discriminant Functions evaluated at Group Means (Group Centroids)


ANÁLISIS DISCRIMINANTE 285

Los resultados anteriores nos muestran en primer lugar las infor-


maciones ya comentadas en el primer ejemplo. A continuación de
prior probability 0.500, hay una tabla con todas las variables discri-
minantes en la que se indican la tolerancia4, el valor de la F y el
valor del LAMBDA de Wilks (LW). El criterio de entrada seleccio-
nado por nosotros es el del LW; entrando en el modelo la variable
cuyo LW sea menor, siempre y cuando la correspondiente F sea
significativa, el valor menor corresponde al CB, con un valor de
0.43088; como su correspondiente F es significativa, ésta es la primera
variable discriminante incorporada.
Después de la tabla descrita anteriormente, se muestra la tabla
titulada: VARIABLES NOT IN THE ECUACIÓN AFTER STEP 1, varia-
bles no incluidas después del primer paso. En esta tabla aparecen
la tolerancia respecto a las variables incluidas, CB en este caso, el
valor de la F y del LW; la variable que se incorporará en el pró-
ximo paso es aquella cuyo LW sea el menor, siempre y cuando
sea significativa su contribución a diferenciar los grupos. En este
caso, el valor mínimo del LW es 0.41084 y corresponde a la varia-
ble PESO, la cual se incorpora al modelo. Después de la incorpo-
ración de esta variable no se incorpora ninguna más, puesto que
ni la edad ni la talla diferencian de forma significativa ambos
grupos.
Una vez incorporadas las variables que contribuyen significati-
vamente a la discriminación, aparecen los coeficientes estandarizados
de las dos variables incluidas, puesto que los coeficientes son es-
tandarizados, son comparables y su valor está relacionado con la
importancia que tienen en la discriminación, la variable CB, con un
coeficiente de 0,8785, es la más discriminante. A continuación de
esta información se muestran los coeficientes de correlación simple

4
En este caso, la tolerancia se considera la variabilidad de cada variable, no explicada por las
variables incluidas en el modelo; puesto que hasta el momento no hay ninguna variable, la
tolerancia es 1 para todas, ya que al no haber ninguna variable la variabilidad no explicada es el
100%.
286 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

de Pearson, entre todas las variables discriminantes significativas y


no significativas con la función discriminante.
Por último aparecen las coordenadas de la proyección del cen-
troide de cada grupo sobre la función discriminante; en este caso,
las coordenadas en la función discriminante para los no hipertensos,
UTA = 0, es —0.65872 y 2.10789 para los hipertensos HTA = 1.

El subcomando MAXSTEPS

Este subcomando permite modificar el máximo número de pasos


en la selección de las variables, cuando empleamos un método
paso a paso (STEPWISE). El máximo número posible es el doble del
de variables discriminantes en el caso de no utilizar el subcomando
ANALYSIS. Si utilizamos el subcomando ANALYSIS, el máximo nú-
mero posible es el doble de variables con nivel 1, más el número
de variables con nivel mayor que 1. Este subcomando se aplica
únicamente al último ANALYSIS subcomando utilizado. MAXSTEPS
= m indica que el máximo número de pasos debe ser m, siempre
que m sea menor que el máximo número de pasos posible.
En caso de utilizar el subcomando MAXSTEP, debe ir inmediata-
mente detrás del subcomando METHOD.

Subcomandos de CRITERIO

Al comando DSCRIMINANT pueden asociársele varios subco-


mandos, a fin de regular por parte del usuario los criterios de entrada
y de salida de las variables en el modelo. En caso de utilizar uno o
más de los subcomandos siguientes, deben especificarse inmedia-
tamente después del subcomando METHOD.
A diferencia de otros comandos de SPSS, en los que existe un
subcomando CRITERIA con varias opciones, en este caso cada una
de las opciones que se analizan a continuación son SUBCOMANDOS
y, por tanto, al utilizar cualquiera de ellos debe ir precedido del
separador habitual entre subcomandos (/).
TOLERANCE n. Este subcomando permite regular el nivel
mínimo de tolerancia de una variable; por defecto, el nivel de tole-
ANÁLISIS DISCRIMINANTE 287

rancia es 0.001, pero el usuario puede especificar cualquier valor


de la tolerancia entre 0 y 1, sustituyendo el valor deseado en el
lugar de n. Por ejemplo, TOLERANCE=0.01 significa que el usuario
desea que se considere como nivel mínimo de tolerancia 0.01.
FIN=n. Este subcomando permite especificar el valor mínimo
de la F correspondiente a una variable para entrar en el modelo. El
comando DSCRIMINANT utiliza como criterio de entrada el valor
de la F; por defecto, el valor mínimo es 1. El usuario puede especi-
ficar cualquier valor en lugar de n. Por ejemplo, FIN=4 indica sólo
pueden incorporarse al modelo aquellas variables cuya F sea
mayor de 4. Puede especificarse cualquier número positivo.
FOUT=n. Este subcomando permite especificar el mínimo valor
de la F, correspondiente a una variable para que permanezca en el
modelo; en ocasiones, al incorporar una variable a un modelo dis-
criminante, otra variable que había sido incorporada en un paso
anterior puede disminuir el valor de su correspondiente F FOUT
permite que el usuario determine el mínimo valor que debe tener
para que permanezca en el modelo. Por ejemplo, FOUT =1.4 in-
dica qué variables cuya correspondiente F sea menor que 1.4 de-
ben ser eliminadas del modelo (salvo algunas excepciones, como
haber asignado un nivel mayor que 1 a la variable cuya F es
menor que el valor indicado por FOUT) mediante el subcomando
ANALYSIS.
El valor por defecto es 1.0.
PIN=n. Con el comando DSCRIMINANT, el criterio por defecto
que utilizar no es el nivel de significación PIN, sino FIN. Si el usuario
quiere utilizar este criterio como entrada de las variables en el
modelo, puede especificar el valor deseado entre 0 y 1 con el
subcomando PIN, poniendo el valor requerido en el lugar de n. Por
ejemplo, PIN=0.05 indica que, para que una variable entre en el
modelo, su nivel de significación debe ser igual o menor que 0.05.
POUT=n. Este subcomando permite considerar como criterio
de salida de una variable del modelo el nivel de significación. El
comando DSCRIMINANT utiliza como criterio de salida el valor de
la F, el cual puede ser regulado por FOUT. Si el usuario lo prefiere,
puede utilizar el subcomando POUT para que el criterio de salida
sea la significación. El nivel de significación puede ser cualquier
número entre 0 y 1. Por ejemplo, POUT=0.1 indica que para que
288 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

una variable se elimine de un modelo una vez introducida en un


paso anterior, su nivel de significación debe ser mayor que 0.1.
VIN=n. Este subcomando permite definir como criterio de en-
trada el valor de la V de RAO; el valor por defecto es 0.

Número de funciones discriminantes.


El subcomando FUNCTIONS
Este subcomando permite controlar el número de funciones dis-
criminantes. El número máximo de funciones discriminantes es el
valor mínimo entre el número de grupos menos 1 y el número de
variables discriminantes; si sólo hay dos grupos, el número máximo
de funciones discriminantes es 1. Independientemente del número
de variables discriminantes, si el número de grupos es 4 y el de
variables discriminantes 2, el máximo número de funciones discri-
minantes es 2, porque el número de grupos menos 1 es 3 y el de
variables discriminantes 2. Como hay que tomar como máximo el
número menor que los anteriores, en este caso el número máximo
de funciones discriminantes sería dos.
El subcomando FUNCTIONS permite designar un número de
funciones discriminantes menor que el máximo posible según los
criterios expuestos en el párrafo anterior. Por ejemplo, si en un caso
fuera posible calcular 3 funciones discriminantes, FUNCTIONS=2
indicaría a SPSS que sólo deben calcularse dos funciones discrimi-
nantes de las tres posibles.

El subcomando SELECT

Esta es una interesante opción, que permite seleccionar un grupo


de casos del fichero. Supongamos que queremos estudiar la de-
pendencia de la enfermedad coronaria EC, en función de la tensión
arterial sistólica TAS, en función del colesterol CB y de la tensión
arterial diastólica TAD, pero dicho modelo queremos realizarlo en
HOMBRES. El subcomando SELECT nos permite seleccionar los su-
jetos que van a intervenir en el modelo, que serán los que cumplan
la proposición indicada por SELECT.
ANÁLISIS DISCRIMINANTE 289

La sintaxis del subcomando SELECT, en el caso del comando


DSCRIMINANT, es distinta a otros subcomandos SELECT analizados
para otros subcomandos. En este caso, la sintaxis es la siguiente:

/SELECT= VAR (NE) los casos seleccionadas para el análisis son


aquellos que en la variable asociada a SELECT tengan el valor
indicado en lugar de NE. NE debe ser un número entero. Por ejem-
plo, /SELECT= FUMA (l) selecciona para el análisis a los individuos
fumadores. Este subcomando sólo se aplica durante el análisis en
curso sin afectar al fichero activo. Una vez terminado el análisis
discriminante, el fichero activo será el existente antes de realizarlo.
En caso de utilizar el subcomando SELECT, debe preceder al
primer subcomando ANALYSIS cuando dicho subcomando se haya
utilizado.

El subcomando OPTIONS

Este subcomando permite al usuario especificar algunas carac-


terísticas de las salidas de resultados y también el tratamiento de
valores ausentes. Las opciones disponibles son las siguientes:

TRATAMIENTO DE LOS VALORES AUSENTES (MISSING)

OPTION 1. Esta opción incluye en el análisis como casos váli-


dos, los valores ausentes (MISSING) definidos por el usuario, los
valores ausentes de sistema seguirán siendo considerados como
tales.
OPTION 8. Esta opción sustituye, durante la clasificación, los
valores ausentes por las medias aritméticas. Durante el análisis, los
valores ausentes no se procesan; esta opción sólo afecta al proceso
de clasificación 5.

5
Clasificación: Una vez calculadas las funciones discriminantes, se clasifica cada caso en el
grupo cuya probabilidad es mayor (ver apartado 5.9, subcomando STATISTICS 13 y 14).
290 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

OPCIONES QUE AFECTAN A LAS SALIDAS DE RESULTADOS

OPTION 4. Esta opción suprime la salida de los resultados


paso a paso, en el caso de utilizar un método STEPWISE.
OPTION 5. Esta opción suprime la tabla sumario de los resul-
tados.

OTRAS OPCIONES

OPTION 6. Esta opción permite la rotación VARIMAX de la


matriz de coeficientes de la función discriminante.
OPTION 7. Esta opción permite la rotación VARIMAX de la
matriz de estructura.
OPTION 9. En caso de utilizar el subcomando SELECT, el pro-
ceso de clasificación se realiza para los individuos seleccionados y
no seleccionados. Utilizar esta opción elimina la clasificación de los
individuos no seleccionados.
OPTION 10. El subcomando GROUPS define los valores de la
variable que van a determinar los grupos. Por ejemplo: GROUPS
var (1,3) indica que los grupos son tres, según el valor de VAR sea
1, 2 ó 3, pero esta variable puede tener más valores, suponga-
mos que VAR toma valores enteros del 1 al 5: los individuos con
valores 4 ó 5, quedan excluidos del análisis. Esta opción permite
que la clasificación se realice únicamente con los individuos ex-
cluidos de los grupos. En el ejemplo anterior, utilizar la opción 10
significaría clasificar únicamente a los individuos con valores de
VAR 4 ó 5.
OPTION 11. En el proceso de clasificación interviene la matriz
de varianzas covarianzas intragrupo conjunta. Esta opción determina
que en la clasificación se realice a partir de las matrices de varianzas
covarianzas intragrupo separadas.
Las opciones 2 y 3 no existen.
/ OPTION 1 6 9
La línea anterior incluida en un comando DSCRIMINANT, espe-
cifica que se utilicen las opciones 1, 6 y 9.
ANÁLISIS DISCRIMINANTE 291

El subcomando STATISTICS
Este subcomando permite obtener diversos resultados estadísti-
cos como consecuencia del análisis.

STATISTIC 1. En la salida de resultados, se muestran las medias


de todas las variables discriminantes para el total de los datos y
para cada grupo definido mediante el subcomando GROUP.
STATISTIC 2. En la salida de resultados, se muestran las des-
viaciones típicas de todas las variables discriminantes, para el total
de los datos y para cada grupo definido mediante el subcomando
GROUP.
STATISTIC 3. En la salida de resultados, se muestra la matriz
de varianzas covarianzas intragrupos conjunta.
STATISTIC 4. Matriz de correlaciones dentro de grupos.
STATISTIC 5. Muestra los valores de las F para cada par de
grupos correspondientes a la significación de la distancia de Maha-
lanobis. Aplicable a métodos STEPWISE.
STATISTIC 6. Realiza un análisis de la varianza de una vía,
con cada una de las variables discriminantes, en relación con los
grupos definidos por GROUPS.
STATISTIC 7. Realiza la prueba M de BOX para la igualdad de
matrices de covarianzas entre los grupos definidos por GROUPS.
STATISTIC 8. Muestra, para cada grupo definido mediante
GROUPS, la matriz de covarianzas.
STATISTIC 9. Matriz de varianzas covarianzas para el total, sin
tener en cuenta los grupos.
STATISTIC 10. Muestra un gráfico para el mapa territorial, que
define los límites de los grupos, según los resultados del análisis
discriminante. Si hay una función discriminante, el mapa se realiza
sobre una recta; si hay dos funciones discriminantes, sobre un plano,
y así sucesivamente.
STATISTIC 11. Coeficientes no estandarizados de las funciones
discriminantes.
STATISTIC 12. Coeficientes de las funciones para la clasifi-
cación.
STATISTIC 13. Tabla con el resumen de resultados de la cla-
sificación.
292 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

STATISTIC 14. Tabla que incluye la puntuación discriminante


y el grupo en que ha sido clasificado cada caso.
STATISTIC 15. Muestra un gráfico de las puntuaciones discri-
minantes para todos los grupos de forma conjunta. El tipo de gráfico
varía en función del número de funciones discriminantes.
STATISTIC 16. Muestra un gráfico para cada grupo con las
puntuaciones discriminantes. Al igual que en el caso anterior, el
gráfico varía según el número de funciones discriminantes.
A continuación veremos un ejemplo, en el que destacaremos
algunas de las opciones más importantes del subcomando STATIS-
TICS y algunos de criterio.
Inicie una sesión con SPSS y teclee las siguientes instruc-
ciones:

El conjunto de instrucciones anterior permite realizar un análisis


discriminante con las variables EDAD, CB, TALLA y PESO en relación
con los grupos definidos por EC = 0 (no enfermos) y EC = 1 (enfermos
coronarios). El método del análisis es STEPWISE, y usa como pará-
metro el lambda de Wilks. Los criterios de entrada y salida se han
modificado (el criterio por defecto es el valor de la F), mediante
PIN y POUT, respectivamente; entrarán a formar parte del modelo
aquellas variables cuya F tenga un nivel de significación igual o
menor que 0.05 y saldrán de la ecuación las variables ya incluidas
en el modelo que, en algún paso posterior, tengan un nivel de
significación mayor que 0.1. El subcomando STATISTICS solicita los
estadísticos 1, 6, 10, 11, 12, 13, 14, 15 y 16.
Los resultados obtenidos son los siguientes:
ANÁLISIS DISCRIMINANTE 293

La primera de las dos tablas anteriores, muestra las medias por


grupos y para el total de los datos de todas las variables discrimi-
294 ESTADÍSTICA MULTIV ARLANTE Y NO PARAMÉTRICA CON SPSS

nantes; es consecuencia de STATISTIC 1. La segunda tabla nos mues-


tra los resultados obtenidos al realizar una comparación de medias
entre los dos grupos definidos mediante GROUPS, EC = 0 y EC — 1,
con todas las variables discriminantes. Se han detectado diferencias
significativas en todas las variables, excepto la TALLA. La prueba
anterior se ha realizado mediante el análisis de la varianza de una
vía. El que las diferencias sean significativas al comparar las variables
una a una, no quiere decir que al considerarlas todas de forma
conjunta sigan siendo significativas, puesto que puede haber fenó-
menos de confusión o de modificación del efecto. La tabla anterior
es consecuencia del STATISTIC 6.
ANÁLISIS DISCRIMINANTE 295
296 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE 297

La tabla anterior, CONSECUENCIA DE statistic 11, muestra los


coeficientes no estandarizados correspondientes a las variables in-
cluidas en el modelo. La función discriminante, por tanto, es:
298 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE 299

La tabla anterior, consecuencia de STATISTIC 14, muestra para


cada caso el grupo al que pertenece y la probabilidad de que
pertenezca a cada uno de los grupos en base a los valores de las
variables. El método utilizado es el de las funciones discriminantes,
basado en el cálculo de probabilidades según técnicas BAYESIANAS.
Por ejemplo, el caso uno pertenece al grupo 1 (enfermos); el grupo
al que se predice su pertenencia es al 1. La probabilidad de tener
unos valores de la función discriminante como el que se observa
perteneciente al grupo 1 es: P (D/G) = 0.4938. La probabilidad de
pertenecer al grupo 1 con un valor de la función discriminante
como el observado es: P (G/D) = 1.00; seguidamente, nos indica la
probabilidad de pertenecer al grupo 2, con un valor de la función
discriminante como el observado, es 0.00. La suma de todas las
P (G/D), para cada caso, debe ser igual a 1. Por último, la tabla nos
muestra la puntuación factorial (SCORE) para cada caso.
El caso 7 es el único en el que difieren los grupos observado y
clasificado; dicho caso pertenece al grupo 1, pero el programa lo
clasifica en el grupo 0, según el valor de su función" discriminante.
La probabilidad a priori tiene una gran influencia en los procesos
de clasificación; esta probabilidad puede ser modificada por el usua-
rio mediante el subcomando PRIOR, (Ver subapartado «El subco-
mando PRIOR»).
300 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE 301

Classification Processing Summary


65 Cases were processed.
0 Cases were excluded for missing or out-of-range group codes.
0 Cases had at least one missing discriminating variable.
65 Cases were used for printed.output.

De los tres gráficos anteriores, los dos primeros consecuencia


del STATISTIC 16 nos muestran los casos para cada grupo en fun-
ción del valor de la función discriminante para cada caso. El ter-
cer gráfico consecuencia de STATISTICS 15 nos muestra, en un
mismo gráfico, los valores de las puntuaciones discriminantes para
los dos grupos.
La última tabla consecuencia de STATISTIC 13 muestra un resu-
302 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

men de la clasificación observada y estimada; en este caso, la con-


cordancia entre las observaciones y el análisis es del 98.46 %.

El subcomando PRIORS
La probabilidad a priori se establece por defecto igualmente
para todos los grupos. La probabilidad a priori influye de forma
decisiva en los procesos de clasificación que se realizan según
reglas BAYESIANAS. Las opciones disponibles son las siguientes:
EQUAL. Esta es la opción por defecto. Aplica a todos los grupos
la misma probabilidad; si hay dos grupos 50%, si hay tres grupos,
33.33%, etc.
SIZE. Calcula la probabilidad a priori, en base al fichero de
trabajo. Supongamos que, en un análisis discriminante, tenemos un
30% de enfermos, en caso de utilizar el subcomando PRIORS con la
opción SIZE, SPSS utiliza como probabilidad a priori en los procesos
de clasificación 30%.
LISTA. Asigna a cada grupo el valor de la probabilidad definido
en la lista. Por ejemplo, supongamos que la siguiente línea forma
parte de un comando DSCRIMINANT en el que se han definido tres
grupos:
/ PRIORS= 0.3 0.6 0.1
La línea anterior determina que se aplique como probabilidad a
priori para el primer grupo 0.3, 0.6 para el segundo y 0.1 para el
tercero, independientemente de las proporciones de cada grupo
existentes en el fichero original.

El subcomando SAVE
Este subcomando permite incorporar al fichero activo variables
que contienen información sobre el análisis discriminante realizado.
Las opciones disponibles son las siguientes:
CLASS NV. Incorpora al fichero activo una nueva variable, cuyo
nombre es el especificado en lugar de NV y cuyo valor para cada
caso es el grupo en que ha sido clasificado.
ANÁLISIS DISCRIMINANTE 303

PROBS NV. Incorpora al fichero activo tantas variables como


grupos definidos por GROUPS. El nombre de las variables comienza
por el especificado, en lugar de NV, y se añade un número correla-
tivo 1 para el primer grupo, 2 para el segundo, etc. El valor de cada
variable para cada caso es la probabilidad calculada de que cada
caso pertenezca a cada uno de los grupos.
SCORES NV. Incorpora al fichero activo tantas variables como
funciones discriminantes. El nombre de cada una es el especificado
en lugar de NV, con un número correlativo 1 para la primera función
discriminante, 2 para la segunda, etc. El valor de la variable en cada
caso es el valor de la puntuación discriminante para cada función.
Capítulo 9
ESTADÍSTICA NO PARAMÉTRICA.
EL PROCEDIMIENTO NPAR

En este capítulo, vamos a estudiar un conjunto amplio de pruebas


estadísticas, agrupadas bajo el epígrafe de estadística no paramétnca
o métodos de distribución libre. Estas pruebas se realizan con el
paquete estadístico SPSS, mediante el procedimiento NPAR, aso-
ciándole el subcomando correspondiente a la prueba que queramos
ejecutar.

ESTADÍSTICA PARAMÉTRICA Y NO PARAMÉTRICA

La mayoría de las pruebas estadísticas analizadas en capítulos


anteriores se basaban en que la variable estadística, o media arit-
mética muestral, se distribuía en la población según una distribución
normal.
Las pruebas estadísticas que en su ejecución implicaba que
un estadístico siga la distribución t de Student, F de Snedecor o
CHICUADRADO asumían ciertas hipótesis previas; la más general
es que la media muestral siga una distribución normal. En otras
ocasiones, para la correcta aplicación de la prueba se exigía la ho-
mogeneidad de varianzas, etc. A las pruebas anteriores se las de-
nomina pruebas PARAMÉTRICAS, y el uso de estas pruebas en
casos en que no se cumplan las condiciones exigidas puede llevar
a cometer importantes errores estadísticos. Las pruebas de compa-
ración de medias, el análisis de la varianza, análisis de regresión,
etc, exigen, para su correcta aplicación, la distribución normal de
306 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

alguno de los estadísticos utilizados y/o homogeneidad de las va-


rianzas.
El incumplimiento de las exigencias de las pruebas paramétricas
(sobre todo la normalidad), es más fácil que ocurra en muestras pe-
queñas (menores de 30 casos). Por otra parte, las pruebas paramétri-
cas aumentan su potencia estadística en relación con las no paramé-
tricas según aumenta el tamaño de la muestra. En muestras menores
de 11 casos, la potencia estadística de las pruebas paramétricas y no
paramétricas es equivalente, teniendo en cuenta que las exigencias
para las pruebas no paramétricas son menores y que detectar viola-
ciones de las condiciones de aplicabilidad en las pruebas paramé-
tricas es más difícil. Ello hace aconsejable utilizar pruebas estadísticas
no paramétricas cuando tengamos muestras menores de 11 casos.
Las pruebas no paramétricas deben aplicarse cuando el tamaño
de la muestra sea menor de 11 casos y cuando el tamaño de la
muestra sea mayor de 11 casos, pero no se cumplan las condiciones
de aplicabilidad de las pruebas paramétricas.
Otra circunstancia que influye en la popularidad creciente de
estas pruebas es que los conocimientos estadísticos para compren-
derlas son mínimos, mientras que los conocimientos estadísticos
necesarios para comprender las pruebas paramétricas son mucho
más extensos.
Las pruebas no paramétricas se denominan también pruebas de
distribución libre, debido a que en la mayoría de ellas no es impor-
tante cómo se distribuyan los datos. Las pruebas no paramétricas
pueden aplicarse a datos que sigan distribuciones normales o no,
lo cual implica que estas pruebas pueden realizarse incluso en
casos en los que se cumplan las condiciones de aplicabilidad de
las pruebas paramétricas.
Resumiendo, podríamos decir que las pruebas no paramétricas
son aplicables en casi todos los casos, mientras que las pruebas
paramétricas sólo son aplicables bajo ciertas condiciones.

EL PROCEDIMIENTO NPAR

Este procedimiento permite realizar 17 pruebas no paramétricas,


indicando cuál queremos realizar en cada caso mediante el corres-
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 307

pondiente subcomando. Además de los 16 comandos específicos


para cada prueba, NPAR admite también los subcomandos OPTIONS
y STATISTICS, que pueden utilizarse opcionalmente en todas las
pruebas no paramétricas disponibles.
Clasificaremos a las pruebas no paramétricas, para su estudio,
según el número de muestras, y la relación existente entre ellas de
la siguiente manera:

En base a la clasificación anterior, desarrollaremos el contenido


de este capítulo.
Al comando NPAR le podemos asociar 19 subcomandos; 17 son
los correspondientes a las 17 pruebas no paramétricas disponibles,
los cuales veremos uno a uno junto a cada prueba; los otros dos
STATISTICS y OPTIONS, son aplicables en todas las pruebas.

El subcomando OPTIONS

Este subcomando, aplicable en todas las pruebas, tiene las si-


guientes opciones:

1) Incluye en el análisis los casos con valores ausentes de


usuario. Por defecto, SPSS excluye de cada análisis los casos con
valores ausentes en las variables implicadas en dicho análisis.
2) Excluye los casos con valores ausentes en alguna de las
variables incluida en los análisis. Por ejemplo, si mediante el co-
mando NPAR realizamos varias pruebas, esta opción excluye del
análisis en todas las pruebas a cualquier variable que participe en
el análisis, y que tenga valores ausentes.
3) Esta opción es aplicable solamente con las pruebas de Mcne-
308 ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS

mar, de los signos y de Wilcoxon, y es útil cuando queramos realizar


la misma prueba con varias variables.

La instrucción anterior, sin ninguna opción, realiza la prueba de


Wilcoxon en dos ocasiones; en primer lugar, con las variables VARI
y VAR3, y a continuación con las variables VAR2 y VAR4. Si inclui-
mos la siguiente instrucción:

La instrucción anterior incluye las mismas variables pero con la


opción 3; en este caso, la prueba de Wilcoxon se realiza entre las
variables VARÍ y VAR3, VARI Y VAR4, VAR2 Y VAR3, Y VAR2 Y
VAR4.
4) Esta opción realiza los cálculos con una muestra aleatoria de
los datos, si no hay espacio suficiente en memoria para realizar los
cálculos con todos los datos. El tamaño de la muestra lo calcula de
acuerdo con la memoria disponible.

El subcomando STATISTICS

Este subcomando permite dos especificaciones.

1) ESTADÍSTICA UMVARIANTE. Esta especificación permite que


se liste una tabla con la media, máximo, mínimo, desviación típica y
número de casos para cada variable implicada en el análisis.
2) Esta especificación permite que se liste una tabla con los
percentiles 25, 50 y 75, correspondientes a todas las variables im-
plicadas en el análisis.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 309

PRUEBAS PARA UNA SOLA MUESTRA

En este apartado estudiaremos las pruebas no paramétricas apli-


cables a una sola muestra. En este caso, podemos contrastar hipótesis
sobre la posibilidad de que los datos procedan de una población
con unas determinadas características.
Las pruebas de que dispone SPSS para comprobar hipótesis con
una sola muestra son:

Prueba binomial. El subcomando binomial

En muchas circunstancias trabajamos con variables dicotómicas,


las cuales tienen dos valores posibles. Por ejemplo, HOMBRE y
MUJER, ENFERMO y NO ENFERMO, SI y NO, etc. La prueba binomial
nos va a permitir comprobar hipótesis sobre la proporción de casos
que hay en una población con un determinada característica. Por
ejemplo, comprobar si la proporción de mujeres en una población
es distinta del 50%, o si la proporción de personas que han padecido
de catarro común en los últimos 6 meses es mayor que el 40%, si la
proporción de individuos con colesterol basal mayor que 225
mg/100 mi es mayor que el 50%, etc.
Si tomamos una muestra estadísticamente representativa, de ta-
maño n, de una población y estudiamos una variable dicotómica,
con valores posibles A o B, la probabilidad de obtener K casos con
valor A viene dada por la siguiente expresión:
310 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la expresión anterior, P(K) es la probabilidad de que en n


casos K tengan el valor A; evidentemente, K< n, p es la proporción
de casos en la población con valor A y q es la proporción de casos
en la población con valor distinto de A. En este caso, q es por lo
tanto la proporción de casos con valor B.
La expresión anterior, según la mayoría de los autores, es aplica-
ble si p > 0.05 y q < 0.95; en probabilidades pequeñas, la distribución
de probabilidad aplicable es la distribución de Poisson.
Veamos un ejemplo. Supongamos que tenemos una moneda
perfecta y la tiramos 6 veces al aire. ¿Cuál es la probabilidad de
sacar 2 caras? El resultado de tirar una moneda al aire puede ser
cara o cruz (variable dicotómica); si la moneda es perfecta; la pro-
babilidad de sacar cara (p) es 0.5 y la probabilidad de sacar cruz
(g) también es 0.5. La probabilidad de sacar exactamente 2 caras
(observe que la probabilidad que nos interesa no es sacar 2 o más
caras) es:

Si el tamaño de la muestra n es mayor que 25, podemos aproxi-


mar la distribución de probabilidad a una distribución normal, con
n — np y σ2 = npq. Con estos parámetros, la abscisa normal
tipificada z es:

Una vez obtenida z, en base a los datos experimentales, calcula-


remos su probabilidad consultando las correspondientes tablas de
la distribución normal tipificada. El sumar o restar 0.5 a x es una
corrección por continuidad; sumaremos 0.5 a x cuando x sea menor
que (np) y restaremos 0.5 a x cuando x sea mayor que (np).
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 311

SPSS realizará los cálculos en base a la expresión (9-1) si n < 25


y según la expresión (9-2) si n > 25.
Las hipótesis sobre la proporción poblacional de un determinado
valor pueden ser de dos colas o de una cola.
CONTRASTE DE DOS COLAS

Si tenemos la hipótesis de que en una población la proporción


de mujeres es distinta de 0.5, plantearíamos un contraste de hipótesis
de dos colas de la siguiente manera:

El contraste de hipótesis anterior es de dos colas y rechazaremos


la hipótesis nula, tanto si p es significativamente mayor que 0.5
como si es significativamente menor.

CONTRASTES DE UNA COLA

Si tenemos la hipótesis de que en una población la proporción


de hipertensos es menor que 0.12, plantearemos un contraste de
hipótesis de la siguiente manera:
312 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En el caso anterior, sólo consideramos la posibilidad de que p


sea mayor que 0.12.
En los resultados listados por SPSS, para esta prueba muestra la
probabilidad según un contraste de dos colas; si queremos resolver
un contraste de una cola, dividiremos por dos la probabilidad del
contraste de dos colas. Por ejemplo, si la probabilidad mostrada es
0.06, dividiremos por dos y quedará una probabilidad igual a 0.03
para un contraste de una cola.
La ejecución de la prueba binomial con SPSS se consigue me-
diante la utilización del subcomando BINOMIAL.
Veamos un ejemplo. Inicie una sesión con SPSS y siga las si-
guientes instrucciones,

La primera de las instrucciones anteriores indica que se van a


introducir datos en formato libre.
La instrucción NPAR BINOMIAL(0.4) = CATARRO indica que se
contraste la hipótesis de que en la población la proporción de
afectados de catarro es mayor que 0.4 (ésta es la hipótesis alternativa:
en este caso, la hipótesis nula es que la proporción de personas
afectadas de catarro en los últimos 6 meses es menor o igual que el
40%). Los resultados obtenidos son los siguientes:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 313

La tabla anterior nos indica que hay 15 casos en los que la


variable CATARRO toma el valor 1; recuérdese que este valor es
15 con SI y 9 con NO. El total de casos válidos es 24. Test Prop. = 0.4
es la proporción que se contrasta, Obs. Pop. = 0.625 es la proporción
observada o, lo que es lo mismo, la proporción muestral 15/24. La
probabilidad de obtener 15 casos de catarro tomando una muestra
de 24 individuos al azar, de una población en la que la proporción
de afectados es 0.4, es menor que 0.05 (en este caso, la probabilidad
es 0.02165; ésta es la probabilidad 0.0433 dividida por 2, puesto que
en este ejercicio hemos planteado conceptualmente una prueba de
una cola y SPSS nos muestra la correspondiente a una prueba de
dos colas). Puesto que la probabilidad es menor que el nivel de
significación, rechazamos la hipótesis nula y concluimos que, en la
población muestreada, la proporción de personas que han padecido
catarro en los últimos 6 meses es mayor de 0.4.
En el caso anterior, el tamaño de la muestra n es 24; como es
menor que 26, la probabilidad se ha calculado, aplicando la expresión
(9.1) para p = 0.4 q = 0.6 reiteradamente para k = 15 hasta k = 20. Si
el tamaño de la muestra es 26 o mayor, SPSS realiza los cálculos
según la expresión (19-2): veamos un ejemplo.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

La segunda de las instrucciones anteriores contrasta la hipótesis


de que la proporción de individuos sedentarios en la población
muestreada es distinta de 0.5 (contraste de dos colas) Rechazaremos
la hipótesis nula, tanto si la proporción de sedentarios es significati-
vamente mayor o menor que 0.5. Los resultados obtenidos son los
siguientes:
314 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior observamos que en la muestra hay 30 indivi-


duos sedentarios y 40 no sedentarios. La proporción que contrastar
es 0.5; la proporción observada es 0.4286, y la probabilidad de que
la muestra proceda de una población en la que la proporción de
sedentarios es 0.5 es 0.281; puesto que esta probabilidad es mayor
que 0.05, no rechazamos la hipótesis nula y concluimos que no
tenemos evidencia suficiente para afirmar que la proporción de
sedentarios en la población es distinta de 0.5.
En este caso, como n es mayor que 25, la probabilidad se ha
calculado, por aproximación a la normal según (9.2). Como x = 30,
en este caso, es menor que (np), que es 35, la corrección por
continuidad la efectuaremos sumando 0.5 a 30. Recuerde que la
probabilidad listada es la correspondiente a un contraste de dos
colas.

Prueba de CHI CUADRADO.


El subcomando CHI-SQUARE

La prueba CHI CUADRADO se emplea, para comparar un grupo


de frecuencias observadas, con una frecuencia esperada, y decidir
si existen diferencias significativas. Si tomamos una muestra de una
población, la diferencia entre las frecuencias observadas (muéstrales)
y esperadas (poblacionales) al cuadrado, y dividimos el resultado
por las frecuencias esperadas, este estadístico se distribuye según
la distribución CHI CUADRADO con grados de libertad. Los grados
de libertad son iguales al número de categorías menos 1. El esta-
dístico viene dado por la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 315

En la expresión anterior, Oi representa a las frecuencias relativas


observadas y Ei a las frecuencias relativas esperadas.
La sintaxis del subcomando CHISQUARE es la siguiente:

En la instrucción anterior, VAR indica el nombre de la variable


que queremos evaluar; la palabra clave EXPECTED (que significa
esperadas) debe ir seguida de las frecuencias esperadas, tantas
como categorías tenga la variable.
Supongamos que, en el ejemplo CORONAR, tenemos la hipótesis
de que las clases sociales se encuentran en la proporción 1-2-1 en
la población muestreada, esto es, 25% de clase alta, 50% de clase
media y 25% de clase baja. Obsérvese la notación 1-2-1, que indica
proporción doble de clase media, CLSO = 2, que de clase alta,
CLSO = 1, y de clase baja, CLSO — 3. Vamos a resolver este ejemplo
mediante el subcomando CHI-SQUARE.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

La tabla siguiente muestra los valores observados, los valores


esperados siguiendo las proporciones 1-2-1 y las diferencias entre
las frecuencias observadas y esperadas, que son los residuos. Debajo
de estos datos aparece el valor de la CHI CUADRADO experimental,
calculada según la expresión (9-3), que en este caso es 13.886. Los
316 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

grados de libertad D.F son 2, puesto que el número de categorías


es 3, y los grados de libertad son iguales al número de categorías
menos 1. La probabilidad de que unos valores como los observados
procedan de una población en la que la relación proporcional entre
las tres clases sociales siga la regla 1-2-1 es menor que 0.001 y,
como esta probabilidad es menor que 0.05, que es el nivel de
significación habitual, rechazamos la hipótesis nula y concluimos
que, en la población muestreada, las clases sociales no siguen una
regla proporcional 12 1.

La prueba CHI-CUADRADO no es aplicable si más del 25% de


las frecuencias esperadas son menores que 5.

Prueba de Kolmogorov-Smirnov. El subcomando K-S


La prueba de Kolmogorov-Smirnov se utiliza para comprobar el
ajuste de datos muéstrales con una distribución teórica. SPSS permite
comprobar la bondad del ajuste de un conjunto de datos muéstrales
mediante la prueba de Kolmogorov-Smirnov con tres distribuciones
teóricas: UNIFORME, NORMAL y POISSON.
El estudio del ajuste de datos muéstrales en una distribución
normal puede realizarse analítica y gráficamente con SPSS mediante
el procedimiento EXAMINE. Las pruebas analíticas utilizadas por el
comando EXAMINE, son las de Kolmogorov-Smirnov con la modifi-
cación de Lilliefors y la prueba de Shapiro-Wilks.
Recomendamos al lector, que emplee las pruebas de ajuste a la
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 317

distribución normal utilizadas por el comando EXAMINE, por ser


éstas más modernas que la incluida en el comando NPAR.
La prueba de Kolmogorov-Smirnov se basa en calcular el valor
absoluto de la diferencia entre la frecuencia relativa acumulativa
teórica (Ft) y la frecuencia relativa acumulativa observada (Fo). A
esta diferencia la llamaremos D:

Ft es la frecuencia esperada, en el supuesto de que los datos


procedan de una población, cuyos datos sigan la distribución teórica
que se esté evaluando. Fo es la frecuencia observada. Entre estas
dos frecuencias se permiten pequeñas diferencias explicables por
el azar. Si obtenemos una diferencia cuya probabilidad, bajo el
supuesto de que en la población la variable siga la distribución
teórica, que se esté evaluando sea menor que el límite prefijado en
el contraste de hipótesis (habitualmente este límite es 0.05), recha-
zaremos la hipótesis nula y por lo tanto rechazaremos que en la
población la variable siga la distribución evaluada.
Las máximas diferencias aceptables están tabuladas; éstas de-
penden del tamaño de la muestra y del nivel de significación acep-
tado en el contraste. Si D es mayor que el máximo valor aceptable,
al que llamaremos valor crítico Vc, el cual está tabulado, rechazare-
mos la hipótesis nula y concluiremos que en la población la variable
no sigue la distribución teórica evaluada.
Las hipótesis en la prueba de Kolmogorov-Smirnov son:

La hipótesis nula desde el punto conceptual es que la variable


sigue en la población la distribución teórica evaluada. Esta hipótesis
se rechazará si D es mayor que Vc.
El que D sea mayor que el máximo valor aceptable, para el
318 ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS

nivel de significación del contraste y para el tamaño de la muestra


que tenemos, es equivalente a decir que la probabilidad de obtener
una diferencia entre las frecuencias teórica y observada es menor
que el valor indicado en el contraste a; habitualmente, esta proba-
bilidad se fija en 0.05.
Con el programa SPSS, mediante la prueba de Kolmogorov- Smir-
nov, podemos evaluar el ajuste de datos muéstrales en tres tipos
de distribuciones teóricas: la normal, la uniforme y la de Poisson.
La sintaxis para realizar la prueba de Kolmogorov-Smirnov es la
siguiente:

El subcomando K-S va seguido de la palabra DIS entre paréntesis;


en el lugar de DIS, debemos poner UNIFORM, NORMAL o POISSON,
según de cuál sea la distribución teórica a la que queremos ajustar
nuestros datos. Después de la distribución, en el lugar de PAR
indicaremos los parámetros que deben tenerse en cuenta para ajus-
tar los datos; esta parte es opcional. VARL es la variable cuyos
datos deben ser ajustados.

UNIFORM. Si se usa esta distribución para ajustar los datos,


podemos incluir como parámetros los valores mínimo y máximo,
por este orden. Si no introducimos los parámetros, SPSS realizará la
prueba utilizando los valores mínimo y máximo de la variable que
estemos evaluando.
NORMAL. Si utilizamos esta distribución, podemos emplear
como parámetros la media aritmética y la desviación típica. Si intro-
ducimos los parámetros, el ajuste se efectuará en una distribución
normal, con la media y desviación típica introducidas, si no introdu-
cimos estos parámetros, SPSS utilizará la media y la desviación
típica de los datos, cuyo ajuste estamos evaluando.
Supongamos que tenemos unos datos correspondientes a la TA-
LLA de un grupo de individuos, cuya media es 170 cm y su desvia-
ción típica 8 cm. En estas circunstancias, podemos estar interesados
en estudiar si estos datos proceden de una población en la que la
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 319

variable TALLA se distribuye normalmente; en este caso, no intro-


duciremos parámetros y SPSS, utilizará como media 170 y como
desviación típica 8, para el ajuste. La instrucción en este caso sería:

En el caso anterior, podríamos estar interesados en saber si


proceden de una población en la que la variable TALLA se distri-
buye normalmente con media 169 y desviación típica 7. La instruc-
ción necesaria en este caso es:

Obsérvense detenidamente los dos planteamientos: en el primero,


nuestro interés es estudiar el ajuste a una distribución normal, cuyos
parámetros son los muéstrales. En el segundo caso, el ajuste se
realiza sobre una distribución normal con parámetros predefinidos.
POISSON. En este caso podemos utilizar como parámetro op-
cional la media. En caso de no introducir una media sobre la que se
realice el ajuste, SPSS utilizará la media de los datos correspon-
dientes a la variable que estamos evaluando. El planteamiento es
similar al de los casos anteriores: podemos realizar el ajuste sobre
parámetros predefinidos o, por defecto, SPSS utilizará los paráme-
tros correspondientes a los datos evaluados como referencia. Un
detalle que debe tenerse en cuenta es que, si la media es mayor de
100000, SPSS efectúa una aproximación a la normal para realizar el
ajuste.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:
320 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La segunda de las instrucciones anteriores indica que se realice


un ajuste a una distribución normal de la variable CB, usando como
media y desviación típica los de la variable.
Los resultados obtenidos son los siguientes:

En la tabla anterior, SPSS nos muestra en primer lugar los pará-


metros utilizados para el ajuste, que en este caso son la media y
desviación típica de la variable CB. Obsérvese que no hemos indi-
cado parámetros; por lo tanto, SPSS utiliza los de la muestra. A
continuación exhibe las diferencias máximas observadas absoluta,
positiva y negativa. Recuérdese que la mayoría de las tablas refe-
rentes a esta prueba evalúan la máxima diferencia observada abso-
luta. También nos muestra la Z de Kolmogorov- Smirnov y la proba-
bilidad de que estos datos procedan de una población en la que la
variable CB se distribuya normalmente con media 236.77 y desvia-
ción típica 34.6. Dado que esta probabilidad es mayor que 0.05, no
rechazaremos la hipótesis nula y aceptaremos que los datos de la
variable CB pueden proceder de una población en la que dicha
variable se distribuye normalmente, con media 236.77 y desviación
típica 38. Si la probabilidad fuera menor que 0.05, rechazaríamos la
hipótesis nula y por lo tanto concluiríamos que la variable no se
distribuye según una distribución normal con los parámetros sobre
los que se realizó el ajuste.
A continuación vamos a evaluar un ajuste a una distribución
normal de la variable CB, pero con parámetros predefinidos, media
241 y desviación típica 38; en este caso, no utilizamos como pará-
metros de la distribución los de los datos. Nuestro planteamiento es
si los datos correspondientes a la variable CB pueden proceder de
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 321

una población en la que la variable se distribuye según una normal


de media 241 y desviación típica 38.
Teclee la siguiente instrucción (si terminó la sesión, cargue pre-
viamente el fichero de sistema CORONAR.SYS):

Los resultados obtenidos son los siguientes:

En la tabla anterior, observamos que la probabilidad de que


estos datos se hayan muestreado en una población, en la que la
media sea 241 y la desviación típica 38, es 0.034. Puesto que esta
probabilidad es menor que 0.05, rechazamos la hipótesis nula y
concluimos que nuestros datos no proceden de una población en
la que la variable se distribuya normalmente con los parámetros
predefinidos.
En este caso no' descartamos que los datos se distribuyan nor-
malmente con otros parámetros; de hecho, ajustando con los pará-
metros propios de la variable, no podemos rechazar la hipótesis de
normalidad, como vimos en el ejemplo anterior a éste.
Aconsejamos al lector que estudie detenidamente estos ejemplos
y la diferencia en las conclusiones correspondientes a cada caso.
En algunos casos de ajuste de datos experimentales a distribu-
ciones teóricas es posible utilizar la prueba de la CHI CUADRADO
322 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

de Pearson o la prueba de Kolmogrov-Smirnov. En estas circuns-


tancias debe tenerse en cuenta que la prueba de Kolmogorov-
Smimov es más potente que la prueba de CHI-CUADRADO de
Pearson; además ésta no resulta aplicable cuando las muestras son
pequeñas.

Pruebas de aleatoriedad. Prueba de las rachas

Las tres pruebas analizadas hasta ahora son pruebas que miden
la bondad del ajuste de un conjunto de datos a distribuciones teóri-
cas y tienen en cuenta si las frecuencias observadas difieren signi-
ficativamente de las frecuencias esperadas, en el supuesto de que
la variable siga, en la población, la distribución sobre la que se
realiza la prueba de ajuste.
La prueba de las rachas no compara frecuencias; podría ocurrir
que de 20 observaciones tuviéramos 10 de un valor y 10 de otro,
pero su orden de observación no fuera el adecuado para considerar
la aleatoriedad del muestreo. Esta prueba comprueba si los datos
se han extraído de forma aleatoria. Para poder realizar esta prueba,
debemos conservar los datos por el orden de observación. Si hemos
alterado este orden, por haber clasificado los datos en base a otros
criterios, como de menor a mayor o por cualquier otro, la prueba
no tendrá valor. Recuerde que las pruebas de aleatoriedad sólo son
válidas si se aplican sobre los datos según el orden de observación.
Existen varias pruebas de aleatoriedad; la más utilizada actual-
mente es la de las rachas (RUNS en inglés). Denominamos racha a
una sucesión de observaciones con el mismo valor. Para aplicar la
prueba, debemos convertir en dicotomica la variable sobre la que
queremos realizar la prueba. Por ejemplo, la variable SEXO es dico-
tómica, pero la variable TAS (tensión arterial sistólica) no lo es; en
este caso, consideraremos como punto de corte de la variable a la
mediana, puesto que la mediana, por definición, es el valor que
divide los datos en dos partes iguales en cuanto al número. La
mitad de los valores de TAS serán menores que la mediana y la
otra mitad mayores. Señalaremos con un signo — a los datos con un
valor de la variable menor que la mediana, y con un signo + a los
datos con un valor de la variable mayor que la mediana. De esta
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 323

manera, hemos convertido una variable continua en dicotómica y


podremos aplicar la prueba de las rachas a la variable TAS, a pesar
de no ser originalmente dicotómica.
Consideraremos racha a una sucesión de valores idénticos.
Supongamos que hemos tirado una moneda al aire 15 veces.
Identificamos cara por C y cruz por S. Se obtiene la siguiente se-
cuencia, por orden de observación.

Las dos primeras observaciones, C C, constituyen una racha,


puesto que son dos observaciones idénticas; la tercera observación
es 5, que es otra racha, la cuarta observación, C, constituye otra
racha, la quinta observación, S, constituye otra racha, la sexta obser-
vación, C, constituye otra racha, la séptima, octava, novena y décima
observaciones, S S S S, constituyen otra racha, y las cinco ultimas
observaciones, C C C C C, constituyen otra racha. Por lo tanto, la
secuencia anterior consta de 7 rachas. Una racha comienza a contarse
cuando cambia el valor de la observación y se considera hasta que
vuelve a haber un cambio en el valor de la variable. Independien-
temente del número de valores repetidos que salgan, se considera
racha tanto una sucesión de un sólo valor como una sucesión de 10
valores: en ambos casos contabilizaremos una racha.
Las hipótesis en este caso son:

La prueba se basa, tanto si hay pocas rachas como si hay muchas


(lo que podría indicar dependencia entre las observaciones) en
que con pocas rachas, podríamos pensar que el que se observe un
determinado valor favorece que éste se repita, o viceversa; si sale
un valor, disminuye la probabilidad de que éste se repita. El máximo
y el mínimo número de rachas permitido para aceptar la aleatonedad
324 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

está tabulado y dependiendo de n1 y n2, que representan el número


de veces que se ha observado cada valor de la variable. Recuérdese
que la prueba de las rachas se aplica sobre variables dicotómi-
cas. En el ejemplo anterior, estos valores son 9 y 6, puesto que
hemos observado 9 caras y seis cruces. Al número de rachas máxi-
mo y mínimo permitido en cada caso les llamaremos valores críti-
cos Vc.
Si el número de rachas es menor o mayor, que los valores críti-
cos de la tabla, rechazaremos la hipótesis nula y concluiremos que
las observaciones no se han realizado de manera aleatoria y, por
tanto, existe algún grado de dependencia entre los valores de la
variable.
Las tablas para la prueba de las rachas están realizadas para
valores relativamente pequeños. Es difícil encontrar tablas con va-
lores para n1 o n2 mayores que 20. Pero en este caso podemos
emplear un estadístico de contraste que se distribuye normalmente,
Los parámetros de este estadístico, media y desviación típica se
calculan según las siguientes expresiones:

Basándonos en los parámetros anteriores, calcularemos Z, distri-


bución normal tipificada, restando a la variable r (número de rachas)
el valor medio de rachas esperado bajo el supuesto de indepen-
dencia, que viene dado por la expresión (9-5) y dividiendo la di-
ferencia anterior por la desviación típica de r, que viene dada por
(9-6). Z viene dado por la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 325

En las expresiones anteriores, n1 y n2 indican el número de


observaciones de cada valor de la variable, y r el número de rachas
observadas. La media y desviación típica anteriores, representan el
número medio de rachas y la desviación típica que esperamos
obtener, bajo el supuesto de que los valores de la variable son
independientes. Se admiten diferencias respecto a estos valores
que explique el azar y, por tanto, que la probabilidad de obtenerlos
no sea demasiado pequeña; si la probabilidad es menor que 0.05,
rechazaremos la hipótesis nula y concluiremos que las observaciones
no son aleatorias. Evaluaremos el contraste en función de los valores
de Z obtenidos según la expresión (9-7), Para un contraste bilate-
ral con 0.05, rechazaremos la hipótesis nula si Z es mayor o menor
de 1.96.
La prueba de las rachas con SPSS se realiza mediante el subco-
mando RUNS, según la siguiente sintaxis:

En la instrucción anterior, indicaremos un valor que nos convierta


la variable en dicotómica, considerando un valor de la variable los
valores menores que el punto de corte y como otro valor los valores
iguales o mayores que el punto de corte.
Suponiendo que el orden de los datos del ejemplo CORONAR
fuera el de observación, vamos a comprobar si la observación de
hombres y mujeres es aleatoria. Inicie una sesión con SPSS y siga
las siguientes instrucciones:
326 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La segunda de las instrucciones anteriores indica que se realice


la prueba de las rachas con la variable sexo. Obsérvese que, como
punto de corte, en este caso hemos utilizado el 2, puesto que divide
los valores de la variable en dos partes: los valores menores que
dos, en este caso hombres, puesto que valores menores que 2 sólo
hay el 1, y este valor en la variable SEXO, equivale a los hombres, y
por otra parte los valores mayores o iguales que 2, las mujeres.
Los resultados obtenidos son los siguientes:

En la tabla anterior, se muestran los resultados de la prueba de


las rachas correspondientes a la variable sexo. Las rachas observadas
han sido 44 (RUNS: 44), el punto de corte 2 (Test Valué = 2), hay 35
casos con valor menor que 2 (Lt 2) y 35 casos con valor igual o
mayor que 2 (Ge 2). La Z calculada según la expresión (9-7) es
1.9264, que corresponde a una probabilidad P = 0.0541; puesto que
esta probabilidad es mayor que 0.05, (aunque muy poco), no pode-
mos rechazar la hipótesis nula y aceptamos que los datos se han
elegido aleatoriamente. Recuérdese que el punto crítico de la Z,
para rechazar la hipótesis nula, es 1.96.
Veamos un ejemplo a partir de una variable continua como el
colesterol. En este caso calculamos la mediana, que es 230; la mitad
de los datos deben tener un colesterol menor que 230 y la otra
mitad deben tener un colesterol mayor que 230 (salvo pequeñas
diferencias dependientes de la estructura de los datos). Si los valores
del colesterol se han elegido aleatoriamente, la observación de los
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 327

datos alrededor de la mediana debe cumplir las reglas para datos


cuya observación es aleatoria vistas en este subapartado. Teclee la
siguiente instrucción:

Los resultados obtenidos son los siguientes:

En la tabla anterior, podemos ver que hay 38 rachas, que el


punto de corte es 230, hay 33 casos con colesterol basal menor que
230 y 37 con valores de colesterol basal mayores que 230. El valor
de Z para estos datos es 0.5108, al que le corresponde una probabi-
lidad de 0.6095, puesto que esta probabilidad es mayor que 0.05. No
rechazamos la hipótesis nula y aceptamos que las observaciones
del colesterol basal se han comportado aleatoriamente respecto a
la mediana.

PRUEBAS PARA DOS VARIABLES RELACIONADAS


En muchos trabajos científicos, interesa comparar los resultados
de una variable en dos muestras distintas. Los ejemplos sobre este
tema son múltiples. Por ejemplo, si ha desaparecido el dolor después
de un determinado tratamiento, si ha disminuido la TAS después de
un determinado tratamiento, si las calificaciones de dos grupos de
alumnos son distintas, si la opinión sobre un tema se ha modificado
después de un discurso, si la talla media de dos poblaciones es
distinta, etc. En algunos de los casos anteriores, podemos plantear
328 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

el problema con dos grupos de elementos independientes o con


dos grupos de datos dependientes.
Consideraremos dos grupos de datos independientes: cuando
los elementos de cada grupo son distintos, y dependientes o rela-
cionados, cuando los elementos son los mismos en distintas situa-
ciones, casi siempre en circunstancias temporales distintas, de tal
forma que compararemos los resultados de una variable antes y
después de una situación que puede modificar los resultados. Si
queremos estudiar si un fármaco alivia el dolor, podemos seleccionar
dos muestras aleatorias de una población de pacientes, aplicar a un
grupo el tratamiento y al otro grupo no, y comparar después los
resultados. En este caso tenemos dos grupos independientes. El
mismo tratamiento podemos aplicarlo a un grupo de pacientes y
evaluar después de transcurrido un tiempo si han mejorado los
síntomas. En este caso tenemos dos muestras relacionadas, pues
los individuos de las dos muestras son los mismos.
El planteamiento de estudios sobre muestras relacionadas tiene
la ventaja de poder eliminar la influencia de variables extrañas, al
ser cada individuo el control de sí mismo, aunque en función del
estudio, hay que evaluar convenientemente las condiciones am-
bientales y asegurarnos de que algunos cambios no son producto
del transcurrir del tiempo, sobre todo si entre el antes y el después
el tiempo es largo.
Las pruebas no paramétricas de que dispone SPSS para aplicar
a dos muestras relacionadas, son las siguientes:

Prueba de McNemar
Esta prueba es adecuada para evaluar las variaciones en una
variable dicotómica antes y después de una determinada circuns-
tancia. Por ejemplo, si tenemos un grupo de pacientes, algunos de
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 329

ellos con dolor, podemos evaluar al principio la variable dolor con


dos posibles respuestas, sí y no; después de aplicar un tratamiento,
podemos volver a evaluar el dolor y estudiar si las diferencias
observadas son significativas. Otra circunstancia interesante para
aplicar esta prueba es estudiar si la opinión de un grupo de indivi-
duos sobre un determinado tema cambia después de un discurso,
cursillo lectura de un folleto, etc.
La disposición habitual de los datos en la prueba de Mcnemar
es en forma de tabla dos x dos, de la siguiente manera:

En la tabla anterior, en las filas disponemos los valores de la


variable antes y, en las columnas, después de la circunstancia que
creemos puede modificar los valores de la variable. Es muy impor-
tante destacar que las letras son frecuencias. La primera casilla in-
dica que A individuos han pasado del NO al SÍ; la segunda casilla
indica que B individuos no han modificado el valor NO; la terce-
ra casilla indica que C individuos no han modificado el valor NO y
la casilla D indica que D individuos han pasado de SÍ a NO. En este
caso, hemos considerado los valores de la variable, como SÍ y NO,
pero pueden ser otros valores, siempre que sea posible evaluarlos
dicotómicamente.
Nuestro problema es estudiar si los cambios observados son lo
suficientemente grandes para pensar que la circunstancia diferen-
ciadora entre el antes y el después, el tratamiento, discurso, etc., ha
originado cambios significativos.
330 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Las casillas de interés son la A y la D, puesto que en ellas se


reflejan los cambios ocurridos.
Las hipótesis son:

Conceptualmente, la hipótesis nula indica que los cambios en


ambos sentidos son iguales y, por lo tanto, no podemos decir que
la circunstancia diferenciadora origine cambios en un determinado
sentido. La hipótesis alternativa indica que los cambios observados
son significativamente distintos en un sentido que en otro, y con-
cluiremos que observamos diferencias significativas entre ANTES
y DESPUÉS.
El estadístico que utilizaremos para resolver el contraste está
basado en los cambios observados en las casillas A y D. Dicho
estadístico sigue una distribución CHI-CUADRADO con un grado
de libertad y viene dado por la siguiente expresión:

La mayoría de los autores indican que, si la muestra es menor


que 200, debe realizarse la corrección por continuidad, también
conocida por corrección de Yates. En este caso, el estadístico de
contraste viene dado por la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 331

No confundir este estadístico con otros, que aunque siguen una


distribución CHI CUADRADO, están basados en fundamentos dis-
tintos.
Supongamos que queremos probar un analgésico en un grupo
de pacientes reumáticos, para lo cual tomamos una muestra de 20
pacientes y evaluamos antes y después del tratamiento si tienen
dolor; los valores de la variable son SÍ o NO. Los resultados obtenidos
son los siguientes:

En los datos anteriores, los individuos son los mismos y están en


el mismo orden, En el primero ha desaparecido el dolor, el segundo
no tenía dolor ni antes ni después, en el tercero ha desaparecido el
dolor, en el cuarto el dolor no ha mejorado, en el quinto el dolor ha
desaparecido, etc.
Los resultados anteriores los podemos disponer según la tabla
descrita anteriormente, cuyos resultados son los siguientes:

La aplicación de estadísticos cuya distribución sigue una CHI-


CUADRADO requiere ciertas condiciones, como que no puede haber
más del 25% de las casillas teóricas con frecuencias menores que 5.
332 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Cuando esto ocurre resolvemos el problema mediante la


distribución binomial.
La prueba de Mcnemar podemos realizarla con SPSS, mediante
el subcomando Mcnemar, y su sintaxis es la siguiente:

La instrucción anterior indica a SPSS que se realice la prueba de


Mcnemar, con las variables VARI y VAR2, las cuales deberán cum-
plir las condiciones descritas en este apartado.
A continuación vamos a resolver con SPSS un ejemplo. En un
grupo de pacientes traumatizados, se prueba un nuevo analgésico,
para lo cual se selecciona a 55 pacientes y se evalúa si tienen o no
dolor, antes y después del tratamiento. Inicie una sesión con SPSS y
teclee las siguientes instrucciones:

En la primera instrucción, se indica que se va a proceder a la


introducción de datos de forma directa, correspondientes a las va-
riables antes y después. El 1 significa SÍ y el 2 NO; los datos de
cada individuo se introducen de forma consecutiva. En la primera
fila, los dos primeros datos son 1, 2; esto significa que el primer
individuo tenía dolor antes y no tenía dolor después. Los dos datos
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 333

siguientes corresponden al segundo individuo, 2 2; este individuo


no tenía dolor ni antes ni después, y así sucesivamente.
La quinta instrucción, encabezada por el comando NPAR, indica
que se realice la prueba de Mcnemar con las variables ANTES y
DESPUÉS.
Los resultados obtenidos son los siguientes:

En la tabla anterior se nos indica que se ha evaluado a 55 indivi-


duos. El valor de la CHI-CUADRADO experimental es 16.5313 (el
cálculo se ha realizado aplicando la corrección de Yates); la signifi-
cación estadística es 0.0000, pero esto no significa que sea cero,
pues la probabilidad siempre es mayor que cero. Esto indica que
esta probabilidad es menor de 0.0001, puesto que SPSS utiliza 4
decimales en esta salida de resultados. La tabla 2 x 2 indica que 28
pacientes han pasado de 1 a 2, es decir, de dolor a no dolor; 11 que
tenían dolor no han mejorado, 12 que no tenían dolor siguen sin
tenerlo, y 4 que no tenían dolor sí lo tienen después.
Teniendo en cuenta los resultados anteriores, como el valor del
estadístico es mayor que el punto critico, que para una CHI CUA-
DRADO con un grado de libertad es 3.84, rechazamos la hipótesis
nula y concluimos que el tratamiento disminuye el dolor de forma
significativa.
Cuando la muestra es pequeña, SPSS resuelve el problema apli-
cando la distribución binomial indicándolo en la salida de resul-
tados.
334 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Prueba de los signos para dos variables relacionadas


Esta prueba es aplicable a variables continuas. Cuando, después
de una circunstancia diferenciadora, evaluamos el resultado con un
signo más (+) o con un signo menos (—). Por ejemplo, si tenemos
un grupo de estudiantes con una determinada puntuación en mate-
máticas a los cuales sometemos a un curso extra, evaluaremos des-
pués si han mejorado o no sus puntuaciones indicando con un
signo + que ha aumentado la nota, y con un signo — que la nota ha
disminuido. Evaluaremos con cero los casos en los que no haya
cambio. En este ejemplo, si un alumno pasa de un 3 a un 8, y otro
de 4 a 5, a los dos les puntuaremos con +, puesto que la nota ha
subido, pero sin tener en cuenta cuánto ha subido.
En caso de que la circunstancia diferenciadora no tenga efecto,
esperamos encontrar una proporción de (+) y (—) iguales y de 0.5,
salvo las diferencias debidas al azar. Si la diferencia entre la pro-
porción de signos es estadísticamente significativa, concluiremos
que la circunstancia diferenciadora ha tenido un efecto significativo.
Las hipótesis son las siguientes:

BAJO LA HIPÓTESIS NULA, P(+) = P(—) = 0.5; si no hay efecto,


esperamos encontrar un 50% de signos + y un 50% de signos —.
Si la muestra es pequeña (menos de 25 casos) resolveremos el
contraste anterior mediante la distribución binomial y, si la muestra
es mayor que 25, se realiza una aproximación a la normal.
La aproximación a la normal se realiza con la media y la desvia-
ción típica, calculadas según las siguientes expresiones:

En la expresión anterior, n es el número de casos y p la probabi-


lidad de obtener signo +, como bajo la hipótesis nula p = 0.5,
sustituimos p por su valor.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 335

En la expresión anterior, p es la proporción de signos más y q la


de signos menos, bajo la hipótesis nula, tanto p como q son iguales
a 0.5.
A partir de los parámetros anteriores, calculamos el valor de Z,
que es la abscisa para una curva normal tipificada y viene dada por
la siguiente expresión:

En la expresión anterior, X representa el número de signos +


observado. La mayoría de los autores indican que debe efectuarse
una corrección de continuidad, sumando o restando, según los casos;
en la expresión anterior, 0.5 a X, número de signos + observados.
Aplicando esta corrección:

En la expresión anterior, sumaremos 0.5 cuando X sea menor


que 0.5 n y restaremos 0.5 cuando X sea mayor que 0.5 n,
SPSS utiliza la distribución binomial si n < 25 y la aproximación
normal si n > 25.
A continuación, veamos un ejemplo: supongamos que tenemos
15 alumnos cuyas puntuaciones en estadística conocemos; después
de realizar un curso especial, volvemos a puntuarles y los resultados
son los siguientes:
336 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En el ejemplo anterior, observamos que 9 mejoran, los evaluados


con el signo +, 4 empeoran la nota, evaluados con el signo — y hay
2 repeticiones.
Aplicando la distribución binomial, puesto que n < 25, bajo los
supuestos de que p y q son iguales a 0.5, calcularemos la
probabilidad de que bajo los supuestos de la hipótesis nula, p = q =
0.5, tengamos 4 o menos signos positivos por un lado y 9 o más
signos positivos por otro; a continuación sumaremos ambas
probabilidades. La probabilidad total es 0.267; dado que esta
probabilidad es mayor que 0.05, no rechazamos la hipótesis nula, y
concluimos que no tenemos evidencia de que el curso haya
servido para mejorar la nota.
A continuación, resolveremos el ejemplo anterior mediante SPSS.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

En las instrucciones anteriores, hemos definido dos variables,


ANTES Y DESPUÉS. Las puntuaciones de cada individuo se han
introducido de forma consecutiva, los dos primeros números, 5 y 6,
son las puntuaciones del primer alumno antes y después del curso
y así sucesivamente.
La quinta instrucción, encabezada por el comando NPAR y me-
diante el subcomando SIGN, indica a SPSS que realice la prueba de
los signos.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 337

La cuarta instrucción graba los datos anteriores en forma de


fichero de sistema, con el nombre de SIGNOS.SYS.
Los resultados obtenidos son los siguientes:

En los resultados anteriores, SPSS nos indica que hay 4 individuos


que han disminuido la puntuación y que han sido evaluados con el
signo —, 9 individuos que han aumentado la puntuación y que han
sido evaluados con el signo + y 2 individuos que han repetido la
puntuación, a los que denomina TIES. También nos informa que ha
resuelto el problema mediante la distribución binomial y que la
probabilidad calculada es 0.2668; puesto que es mayor que 0.05, no
podemos rechazar la hipótesis nula y, por tanto, no tenemos evi-
dencia de que el curso sea efectivo. Cuando SPSS calcula la proba-
bilidad mediante la aproximación a la normal, lo indica en la tabla
de resultados.

Prueba de Wilcoxon para dos variables relacionadas

La prueba de Wilcoxon es aplicable en los mismos supuestos


que en el caso anterior, para variables continuas relacionadas. Esta
prueba es más potente que la de los signos, pues tiene en cuenta el
signo, el aumento o disminución de la variable y la magnitud del
cambio.
La técnica, consiste en calcular las diferencias entre las variables
de cada elemento y ordenarlas por valor absoluto, de menor a
mayor; esto significa que una diferencia negativa de 5 puntos se
ordena posteriormente a una diferencia positiva de 4 puntos. Una
vez ordenadas las diferencias, las numeramos de 1 a n, siendo n el
número de individuos de la muestra; a este número le llamaremos
338 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

rango, El rango 1 lo asignaremos a la mínima diferencia observada


en valor absoluto, y así sucesivamente hasta n, cuyo rango corres-
ponderá a la máxima diferencia. Si hay empate, se asigna a cada
diferencia empatada la media de los rangos implicados en el empate;
por ejemplo, si hay 3 elementos empatados a los que les corres-
ponderían los rangos 4, 5 y 6, se asigna a los tres el rango medio
que, en este caso, es la suma de los tres, que es 15, dividida por 3;
por lo tanto, asignaríamos a los tres el rango 5 y al siguiente elemento
le asignaríamos el rango 7. Una vez ordenados los datos, sumamos
los rangos de las diferencias positivas (W+) también sumamos los
rangos de las diferencias negativas (W—) y elegimos el menor de
los dos. En la mayoría de las tablas y estadísticos, se usa la suma de
rangos menor. Los casos en los que la diferencia sea cero se igno-
rarán.
La prueba se basa en que, si no hay efecto entre las dos variables
relacionadas, los rangos estarán repartidos de forma homogénea, y
tan probable será encontrar un rango grande positivo como negativo.
Por lo tanto, si sumamos los rangos correspondientes a diferencias
positivas (W+) y los rangos correspondientes a diferencias negativas
(W—), deben ser similares y se encontrará entre ellos pequeñas
diferencias debidas al azar. Si las diferencias entre la suma de rangos,
son significativamente mayores en un sentido, rechazaremos la hi-
pótesis nula y concluiremos que el efecto de la causa diferenciadora
es significativo.
Las hipótesis son:

El contraste se resuelve, para muestras pequeñas, consultando


las tablas de Wilcoxon, en las que se representan las máximas o
mínimas sumas de rangos consideradas aceptables y se rechaza la
hipótesis nula, en caso de que la suma de rangos observada sea
superior o inferior a estos valores. Para muestras grandes, podemos
hacer una aproximación a la normal, con la media y desviación
típica definidas por las siguientes expresiones:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 339

En la expresión anterior, n es el tamaño de la muestra.

A partir de las expresiones (9-14) y (9-15), deducimos la expre-


sión para Z curva normal tipificada para esta prueba y que viene
dada por la siguiente expresión:

En la expresión anterior, W es la mínima suma de rangos entre


la suma de rangos de las diferencias positivas y la suma de rangos
de las diferencias negativas.
A continuación, resolveremos mediante la prueba de Wilcoxon,
el ejercicio sobre las puntuaciones de alumnos que vimos en el
subapartado anterior, en la prueba de los signos.
En la tabla siguiente, las diferencias entre las variables antes y
después están calculadas en valor absoluto. En la columna RANGOS,
se han ordenado las diferencias según los siguientes criterios: hay
dos diferencias iguales a cero, las cuales se han ignorado; como
veremos, a todos los efectos trataremos los datos anteriores como
si hubiera 13 datos en lugar de 15, la diferencia mínima observada
340 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

en valor absoluto, pero hay 8. Por lo tanto, a este grupo de diferencias


le corresponderían los rangos del 1 al 8. Lo que hacemos es asignar
el rango medio de estos 8 a todos ellos; el rango medio es 4.5, a
continuación hay tres diferencias con valor 2, a las que correspon-
derían los rangos 9, 10 y 11. Asignamos el rango medio de las tres a
cada una de ellas, que es 10, y, por último tenemos dos diferencias
iguales a tres, a las que corresponderían los rangos 12 y 13; asigna-
mos a cada uno de ellos el rango medio, que es 12.5.
En la columna rangos con signo, asignamos el signo menos a las
diferencias negativas y el signo más a las diferencias positivas. El
signo (—), en este caso, significa que la puntuación ha aumentado,
puesto que al restar ANTES-DESPUÉS las puntuaciones que han
aumen-
tado tienen diferencia negativa. El signo en esta prueba es un símbolo
diferenciador y debe tenerse cuidado con su interpretación.
Sumamos los rangos con signo positivo W+ = 23.5 y los negativos
W— = 67.5.
Aplicando la expresión (9.16):
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 341

Puesto que Zestá comprendido entre —1.96 y 1.96, que son los
puntos críticos, para un estadístico que se distribuye normalmente,
con un nivel de significación de 0.05, no podemos rechazar la hipó-
tesis nula y no tenemos evidencia que el curso mejore las puntua-
ciones de estadística.
A continuación, resolveremos el ejemplo anterior mediante SPSS.
Inicie una sesión de trabajo con SPSS y teclee las siguientes ins-
trucciones:

Cuando realizamos el ejemplo de las puntuaciones, en el suba-


partado anterior (prueba de los signos), grabamos los datos en el
fichero de sistema SIGNOS.SYS; no obstante, dicho fichero está en el
disquete de ejemplos.
La segunda de las instrucciones anteriores indica a SPSS que se
realice la prueba de Wilcoxon, mediante el subcomando del mismo
nombre. Los resultados obtenidos son los siguientes:
342 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, SPSS nos indica que hay 4 casos con valores
menores que antes. (En este caso, las puntuaciones han disminuido);
9 con valores mayores después que antes (en este caso, las pun-
tuaciones han aumentado) y 2 (TIES) que permanecen iguales. La
Z = —1.5375 coincide exactamente con la calculada por nosotros
(lo cual es lógico, puesto que utiliza el mismo método de cálculo),
la probabilidad correspondiente a la Z como es mayor de 0.05, no
podemos rechazar la hipótesis nula.
Obsérvese que, aunque SPSS ha considerado con signo menos
las puntuaciones que han disminuido y con más las que han aumen-
tado, porque ha realizado la diferencia en el sentido DESPUÉS-AN-
TES, esto es irrelevante de cara el resultado, que coincide hasta en
el cuarto decimal, ya que el signo no es más que un símbolo dife-
renciador. En esta prueba, y trabajando correctamente, es igual
realizar las diferencias en el sentido DESPUÉS-ANTES, que ANTES-
DESPUÉS.

PRUEBAS PARA K VARIABLES RELACIONADAS

En el apartado anterior, estudiamos las pruebas no paramétricas


más importantes para comparar dos variables relacionadas. En este
apartado estudiaremos las pruebas para comparar más de dos va-
riables relacionadas.
Los ejemplos de este tipo de variables son múltiples. Supongamos
que queremos estudiar la concentración de un tóxico en distintos
órganos (cerebro, corazón y sangre) de peces, con objeto de evaluar
el alcance de la contaminación de un río así como los órganos más
afectados. Para llevar a cabo este experimento, podríamos extraer
tres muestras de peces y, en cada una de ellas, estudiar la concen-
tración de tóxico en un órgano determinado; pero, debido a la
posible dispersión del hábitat, podríamos cometer errores, ya que
uno de los objetivos es comparar la concentración del tóxico en
tres órganos distintos. Un experimento más perfecto sería extraer
una sola muestra de peces y estudiar en cada pez la concentración
de tóxico en cada órgano. De esta manera, tendremos tres variables,
cada una de ellas correspondiente a la concentración de tóxico en
un órgano. Las tres variables están relacionadas.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 343

Las pruebas disponibles en SPSS para comparar variables co-


rrespondientes a invariables relacionadas son:

Prueba de Friedman
Esta prueba nos permite comparar K variables continuas rela-
cionadas. Tenemos invariables, las cuales dispondremos en las co-
lumnas, correspondientes a n elementos, los cuales dispondremos
en filas, de tal manera que en cada columna tendremos los datos
correspondientes a la misma variable y en cada fila los correspon-
dientes a cada elemento.
A la prueba de Wilcoxon algunos autores la denominan análisis
de la varianza de bloques no paramétrico, porque puede aplicarse
en los supuestos de ANOVA bloques cuando no se cumplen las
condiciones paramétricas.
En algunos textos, puede leerse que los grupos se disponen en
las filas y los elementos en las columnas, lo cual es irrelevante si se
tiene en cuenta.
Las filas, en ciertas ocasiones, pueden representar grupos de
elementos. Algunos autores llaman bloques a los datos de fila.
A los valores de cada fila les asignaremos un número del 1 a K,
según el orden de magnitud de menor a mayor; a este número le
llamaremos rango. Si no hay diferencia entre las variables, debemos
esperar que los rangos estén repartidos en cada columna de manera
uniforme y sólo encontraremos entre ellas pequeñas diferencias
debidas al azar; si las diferencias son demasiado grandes, rechaza-
remos la hipótesis nula y concluiremos que existen diferencias sig-
nificativas entre las variables.
Las hipótesis son:
344 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Ri representa la suma de rangos correspondientes a la iésima


variable; según la disposición de los datos indicada por nosotros,
representa la suma de rangos correspondientes a una columna.
La hipótesis nula indica que las sumas de rangos, de todas las
variables son iguales, salvo diferencias explicables por el azar. La
hipótesis alternativa indica que, al menos, la suma de rangos de
una variable es significativamente distinta de alguna de las otras.
Para resolver el contraste de hipótesis anterior, usamos un esta-
dístico propuesto por Friedman, el cual se distribuye como una CHI
CUADRADO con K— 1 grados de libertad, siendo K el número de
variables relacionadas.
El estadístico de contraste viene dado por la siguiente expresión:

En la expresión anterior, n representa el número de elementos o


de bloques, K el número de variables relacionadas y Ri representa
la suma de rangos de la iésima variable.
A continuación, veamos un ejemplo: Con objeto de estudiar la
diferencia de concentración de un tóxico en distintos órganos, se
extrae una muestra de peces de un río y se estudia en cada uno de
ellos la concentración del tóxico en cerebro corazón y sangre. El
objetivo del estudio, es ver si la concentración del tóxico en los
tres órganos es igual o distinta. Los resultados obtenidos son los
siguientes:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 345

Los datos anteriores están grabados en el fichero de sistema,


PECES.SYS.
El número que figura entre paréntesis es el rango de cada valor
correspondiente a la fila. Por ejemplo, 164 es el valor más alto de su
fila y le corresponde el rango 3, 96 es el segundo valor en magnitud
de su fila y le corresponde el rango 2 y 51 es el valor más pequeño
de la fila y le corresponde el rango 1, en la segunda fila el valor
mayor es 115 y le corresponde el rango 3, el siguiente es 105 y le
corresponde el rango 2, etc.
La sumas de rangos son las siguientes:

Aplicando el estadístico de contraste, definido en la expresión


(9-17), estos datos, obtenemos un valor del estadístico:

El punto critico para una CHI CUADRADO con dos grados de


libertad (los grados de libertad son el número de variables [K]
menos uno) es 5.99; como el valor experimental, 15.17, es mayor,
rechazamos la hipótesis nula y concluimos que la concentración de
tóxico es distinta en los órganos estudiados.
346 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

A continuación realizaremos el ejemplo anterior mediante SPSS.


Inicie una sesión con SPSS y teclee las siguientes instrucciones:

La primera instrucción carga el fichero de sistema PECES.SYS


este fichero, que le ha sido suministrado con el disquete de ejemplos,
contiene los datos correspondientes al ejemplo realizado en este
subapartado sobre la concentración de tóxico en peces. La segunda
instrucción indica a SPSS que realice la prueba de Friedman, con
las variables CEREBRO, CORAZÓN Y SANGRE.
Los resultados obtenidos son los siguientes:

En la tabla anterior se nos indican los rangos medios de cada


grupo, el número de casos, 12, y el valor del estadístico de contraste,
calculado mediante la expresión (9-17). La probabilidad correspon-
diente a este valor es mucho menor que 0.05; por lo tanto, podemos
rechazar la hipótesis nula, y concluir que la concentración de tóxicos
en los órganos estudiados es distinta.

Coeficiente de concordancia de Kendall


El coeficiente de concordancia de Kendall, al que la mayoría de
los autores simboliza por la letra W, es una técnica de análisis
estadístico muy utilizada en ciencias de la salud y en sociología.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 347

Mide el grado de concordancia entre un grupo de elementos y


un grupo de características. Si la concordancia es la máxima posi-
ble, W = 1, el máximo valor que puede tener el coeficiente W es
la unidad; por el contrario, si la concordancia es la mínima posible,
W = 0. Por lo tanto, el coeficiente puede oscilar entre 0 y 1. Los
campos más frecuentes de aplicación son los siguientes:

CAMPOS DE APLICACIÓN
A) Conocer el grado de homogeneidad de un grupo de ele-
mentos respecto a un grupo de circunstancias. Supongamos que
queremos comprobar si los alumnos universitarios formados en un
mismo centro tienen un grado de formación homogéneo respecto a
varias disciplinas o, por el contrario, si hay disciplinas en las que
los alumnos, en general, destacan y otras en las que la preparación
de la mayoría es deficiente. La comprobación anterior podemos
llevarla a cabo seleccionando una muestra de K alumnos,
evaluando la aptitud de cada uno de ellos sobre cada una de las n
disciplinas seleccionadas, clasificando en cada alumno el orden de
aptitud de las n disciplinas de 1 a n; si un alumno tiene la mejor
nota en Matemáticas, asignaremos el número 1 a esta disciplina en
la fila correspondiente a ese alumno (si la nota siguiente
corresponde a Anatomía, asignaremos el número 2 a esta
disciplina y así hasta K, número que le corresponderá a la
disciplina en que ese alumno tenga peor nota); esta clasificación la
llevaremos a cabo con cada uno de los alumnos seleccionados.
Veamos un ejemplo:
Seleccionamos 6 alumnos y 4 disciplinas.
348 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El primer alumno de las 4 disciplinas ha obtenido la mejor califi-


cación en Matemáticas, la segunda mejor nota la obtuvo en Anatomía,
la tercera en Biología y la cuarta en Física. Las puntuaciones ante-
riores no son las notas; en Matemáticas, el primer alumno no ha
obtenido un 1. Por otra parte, cuando decimos que el primer alumno
ha obtenido la mejor nota en Matemáticas, no nos referimos a todos
los alumnos, sino a la clasificación de las disciplinas en cada alumno.
Si en el ejemplo anterior hubiera concordancia entre la prepara-
ción de los alumnos, como parece que la hay, puesto que la mayoría
sacan las calificaciones más altas en Anatomía y Biología, esperamos
que la suma de las columnas sea distinta. Un ejemplo de concor-
dancia máxima sería el siguiente:

En la tabla anterior, todos los alumnos tienen la mejor preparación


en Anatomía y la peor preparación en Matemáticas; el valor del
coeficiente W debe de ser igual a 1, como luego comprobaremos.
Cuando la concordancia es máxima, la suma de ordenaciones en la
columna correspondiente a la disciplina clasificada en primer lugar
es igual a k; 6 en este caso, puesto que le corresponde un punto
por alumno. El total de la columna correspondiente a la disciplina
clasificada en segundo lugar es 2k; 12, en nuestro caso. La tercera
3k; 18, en nuestro caso, y la cuarta 4k, 24 en nuestro caso.
Si la concordancia fuera cero, las ordenaciones de las disciplinas
estarían repartidas aleatoriamente, y en este caso esperaríamos que
la suma de las columnas fuese aproximadamente igual en todas
ellas y de un valor aproximado a 15 en nuestro ejemplo, ya que la
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 349

suma total de todas las columnas es 60 siempre y el valor medio


que le correspondería a cada columna sería 15.
En el ejemplo anterior, la concordancia indica que la preparación
de los alumnos está desnivelada. En general, los alumnos están
mejor preparados en unas disciplinas que en otras, lo cual puede
ser por un deficiente funcionamiento de las disciplinas en las que
la aptitud es menor, o bien porque el grado de interés de los
alumnos en general se centra en unas disciplinas determinadas.
B) Otro campo de aplicación muy importante es estudiar el
grado de acuerdo de un grupo de expertos (médicos, psicólogos,
jueces, etc.), sobre un conjunto de temas. Por ejemplo, podríamos
plantear a un grupo de de k médicos, que clasifique en orden de
importancia un conjunto de n síntomas, colocando primero el que
considere el más importante, al que asignaremos el número 1, y por
último el que considere el menos importante, al que puntuaremos
con n. Al igual que en el ejemplo anterior, la clasificación de la
valoración de importancia de los síntomas se hace para cada médico
de forma independiente de los demás. Si hay acuerdo entre la
valoración de los síntomas, esperamos encontrar un desequilibrio
en la suma de las puntuaciones de cada síntoma. Esta suma será
menor para el síntoma más importante y mayor para el menos
importante.
Se selecciona un grupo de 5 médicos para que evalúe, en orden
de importancia para el diagnóstico de una enfermedad, 4 síntomas,
Los resultados obtenidos son los siguientes:
350 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

PLANTEAMIENTO ESTADÍSTICO
En los ejemplos anteriores, hemos visto de forma conceptual
que, si existe concordancia, el valor de W se aproximará a uno, y la
suma de las columnas correspondientes a las características eva-
luadas (disciplinas y síntomas en los ejemplos anteriores) estará
desequilibrada. Pero como en todo estudio estadístico necesitamos
un planteamiento matemático, que nos permita decir si las diferencias
observadas son o no significativas, sólo si las diferencias son signi-
ficativas evaluaremos el grado de concordancia mediante el coefi-
ciente W. Téngase en cuenta que, si W es grande, próximo a 1,
pero las diferencias no son significativas, no tiene sentido estadístico
decir que hay concordancia.
El coeficiente W de Kendall, viene definido en la siguiente ex-
presión:

En la expresión anterior, n es el número de características que


evaluar, K es el número de elementos que intervienen en el estudio,
S es la suma de las puntuaciones de cada característica evaluada,
que correspondería a la suma de las columnas; según la disposición
de los datos realizada en los ejemplos anteriores, el máximo valor
posible para W es 1, máxima concordancia, y el mínimo cero, para
una falta total de concordancia.
Calculando W en los ejemplos anteriores mediante la
expresión anterior, para el ejemplo de los alumnos, W = 0.378. En
el mismo ejemplo de los alumnos, compruébese que en la tabla
que pusimos para la máxima concordancia, W = 1. En el ejemplo de
los médicos, W = 0.152.
En los ejemplos descritos, no hemos planteado la posibilidad de
empates; por ejemplo, que un alumno hubiera sacado las mismas
calificaciones en dos disciplinas o que algún médico hubiera clasi-
ficado dos síntomas en el mismo orden de importancia. Si esto
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 351

ocurre, para el cálculo de W no es válida la expresión (9-18); en


caso de empate, la expresión para el cálculo de W es la siguiente:

En la expresión anterior, ti es el número de observaciones em-


patadas con el mismo rango; puede tomar valores entre 2 y n. El
valor n lo tomaría si un evaluador diera a todas las características el
mismo rango. Obsérvese que, si no hay empate, el valor de ti es 1;
uno al cubo es uno y, al restarle uno, queda cero. Por eso, este
término no interviene en la expresión (9-18), válida cuando no hay
empates, pero con las consideraciones realizadas, la expresión ge-
neral para el cálculo del coeficiente de concordancia de Kendall, es
la (9-19).
La evaluación de W no tiene sentido si previamente no hemos
comprobado que las diferencias observadas son significativas, para
lo cual debemos resolver el siguiente contraste de hipótesis:

El estadístico que utilizaremos para resolver el contraste de hi-


pótesis anterior es el siguiente:

El estadístico anterior sigue una distribución CHI CUADRADO,


con n — 1 grados de libertad.
352 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En este tipo de problemas, debemos resolver en primer lugar el


contraste de hipótesis y, sólo si las diferencias son significativas,
interpretar el coeficiente de concordancia. Decir que no podemos
rechazar la hipótesis nula es equivalente a decir que no tenemos
evidencia de que W sea significativamente distinto de cero; téngase
en cuenta que puede ocurrir que W sea grande, pero no significativo,
en cuyo caso nuestra conclusión sería en el sentido de no poder
rechazar la hipótesis de no concordancia.
El valor del estadístico de contraste, en el caso de los alumnos, es
6.804 y en el de los médicos 2.28; los grados de libertad n — 1 son en
ambos casos 3; el punto crítico de una CHI CUADRADO con 3 grados
de libertad es 7.81; como ambos valores son menores que el punto
crítico, no podemos rechazar la hipótesis nula y nuestra conclusión,
en ambos casos, es que no tenemos evidencia de que exista concor-
dancia. Recuérdese que no poder rechazar la hipótesis nula puede
ser por falta de potencia en la prueba (porque la muestra sea peque-
ña), lo cual podemos solventar aumentando el tamaño de la muestra.

CÁLCULO DEL COEFICIENTE DE CONCORDANCIA CON SPSS


El cálculo del coeficiente de concordancia con SPSS, lo podemos
realizar mediante el subcomando Kendall.
A continuación, resolveremos los problemas anteriores mediante
SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 353

La última de las instrucciones anteriores, mediante el subcomando


KENDALL, indica a SPSS que calcule W y resuelva el contraste de
hipótesis con los datos anteriores, que son los correspondientes al
ejemplo de los alumnos. Los resultados obtenidos son los siguientes:

En la tabla anterior, SPSS lista el rango medio de cada disciplina,


el número de casos, el valor de W, del estadístico de contraste y la
significación. Obsérvese la coincidencia con los cálculos realizados
aplicando las expresiones vistas en este subapartado; la probabilidad
es mayor que 0.05, y por lo tanto no podemos rechazar la hipótesis
nula, que es la conclusión a la que llegamos anteriormente.
A continuación procedemos a realizar el otro ejemplo. Teclee
las siguientes instrucciones:
354 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La última de las instrucciones anteriores, mediante el subcomando


KENDALL, indica a SPSS que calcule W y resuelva el contraste de
hipótesis con los datos anteriores, que son los correspondientes al
ejemplo de los alumnos. Los resultados obtenidos son los siguientes:

En la tabla anterior, podemos comprobar que los resultados no


son significativos. La probabilidad es mayor que 0.05 y, por lo tanto,
no tenemos evidencia de que haya acuerdo entre los médicos.
Obsérvese el valor del estadístico en este caso y en el anterior: en
el caso de los alumnos, aunque no hay significación estadística,
ésta era 0.0786, mayor de 0.05 pero próxima a ella; quizá en ese
caso se debería replantear el problema con más alumnos, pero en
el caso de los médicos la significación es 0.514 y parece que el
desacuerdo es evidente.

La prueba de la Q de Cochran

Esta prueba es válida para evaluar si la respuesta de un grupo


de elementos ante un conjunto de características, sobre las que se
tienen datos para todos los elementos, es homogénea o por el
contrario existen diferencias significativas entre los elementos estu-
diados. La respuesta es dicotómica: sólo puede tener dos valores,
éxito o fracaso, si o no, etc.
Los campos de aplicación de esta prueba son múltiples. Por
ejemplo, n individuos son sometidos a k pruebas. Cada una de ellas
sólo puede evaluarse con éxito o fracaso. La prueba de la Q nos
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 355

servirá para evaluar si las diferencias entre los individuos son sig-
nificativas. Un grupo de n individuos debe opinar sobre un grupo
de k presentadores. La respuesta puede ser bueno o malo. La prueba
de la Q nos servirá para concluir si la impresión causada por los
presentadores es homogénea o si hay diferencias entre ellos.
En las respuestas, no hay restricciones en cuanto a las evalua-
ciones; cada evaluación es independiente de las demás y un indivi-
duo puede catalogar a todos los presentadores como buenos o
como malos, a la mayoría como buenos o como malos.
A un grupo de 10 expertos se les pide que lean 4 artículos
científicos, A, B, C y D, cada uno de los cuales deben evaluar como
bueno (1) o como malo (0). Los resultados obtenidos son los si-
guientes:

En la tabla anterior, Ti representa el total de las puntuaciones de


cada artículo, y Si representa el total de las puntuaciones otorgadas
por cada experto.
Si hay acuerdo entre los expertos, esperamos que las sumas de
las puntuaciones de cada artículo, sean significativamente distintas;
por el contrario si no hay acuerdo, esperamos que entre la suma de
las columnas, y por tanto de las filas, existan pequeñas diferencias
explicables por el azar.
356 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Las hipótesis en este caso son:

El estadístico utilizado para resolver el contraste anterior es:

La expresión anterior, representa la Q de Cochran. K es el número


de pruebas, n es el número de evaluadores, Sj, es la suma de las
puntuaciones otorgadas por cada evaluador y Ti es la suma de las
puntuaciones de cada prueba.
El estadístico Q sigue una distribución CHI CUADRADO, con
K— 1 grados de libertad.
En el ejemplo anterior, Q es igual a 9.69; el punto crítico para una
distribución CHI CUADRADO con 3 grados de libertad y una signi-
ficación de 0.05 es 7.81; como el valor de la Q es mayor que el
punto crítico, rechazamos la hipótesis nula y aceptamos que, según
los expertos, el valor de los artículos es distinto.
Una conclusión general, en caso de rechazar la hipótesis nula en
la prueba de la Q es que la respuesta a las pruebas de los individuos
seleccionados es significativamente distinta.
SPSS resuelve la prueba de la Q mediante el subcomando COCH-
RAN.
A continuación, resolveremos el ejemplo anterior mediante SPSS.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 357

Los resultados obtenidos son los siguientes:

En la tabla anterior, se nos indica el número de puntuaciones 0


y 1 que obtuvo cada revista, el número de casos de que constaba
la prueba, el valor de la Q, los grados de libertad y la significación;
como la significación es menor que 0.05, rechazamos la hipótesis
nula y concluimos que, según los expertos, los artículos evaluados
tienen distinto valor científico.
358 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES

En los dos apartados anteriores, hemos analizado las pruebas


no paramétricas disponibles en SPSS para comparar 2 o más varia-
bles relacionadas. En este apartado, estudiaremos las pruebas dis-
ponibles para analizar casos en los que tenemos dos variables in-
dependientes. Básicamente, consideraremos que las variables son
independientes cuando los valores de cada variable procedan de
sujetos distintos, con características distintas; nuestro interés es ana-
lizar si estas características distintas influyen en el valor de la va-
riable.
Los campos de aplicación son múltiples. Por ejemplo, si quere-
mos comprobar si dos tratamientos antihipertensivos son diferen-
tes podemos aplicar un tratamiento a un grupo de pacientes y el
otro tratamiento a otro grupo de pacientes y, a continuación, com-
parar las tensiones arteriales en ambos grupos, a fin de deter-
minar si hay diferencias significativas. Los dos grupos anteriores
deben seleccionarse mediante las técnicas de muestreo adecua-
das. En el caso anterior, las variables que comparar son: tensión
arterial en el grupo al que se ha aplicado el tratamiento A y tensión
arterial en el grupo al que se ha aplicado el tratamiento B. Las
variables son independientes, puesto que proceden de individuos
distintos.
Las pruebas disponibles en SPSS para comparar dos variables
independientes son las siguientes:

Analizaremos las pruebas anteriores en los siguientes subapar-


tados.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 359

Prueba de la mediana para dos muestras


independientes
Esta prueba es adecuada para comparar dos variables continuas.
Los tamaños de las dos poblaciones pueden ser distintos. Los deno-
minaremos n1 y n2.
La prueba se fundamenta en analizar si las medianas de las dos
poblaciones son distintas o diferentes. En primer lugar, calcularemos
la mediana para todos los datos. Disponemos todos los datos en un
mismo grupo y calculamos la mediana global. A continuación, en
una tabla dos por dos, disponemos el número de casos de cada
muestra, que son mayores o menores que la mediana global. Si las
medianas poblacionales son iguales, la proporción de casos de
cada muestra que son menores o mayores que la mediana global
deben ser similares, salvo diferencias debidas al azar; por el contrario,
si las medianas son diferentes, la proporción de casos por encima o
debajo de la mediana global serán significativamente distintos en
ambas muestras.
Las hipótesis son:

La hipótesis nula admite que las medianas poblacionales son


iguales y la alternativa que son distintas. También pueden plantearse
contrastes unilaterales.
Si el número total de casos suma de las dos muestras es mayor
que 20 y ninguna frecuencia teórica es menor que 5, aplicaremos la
prueba de la CHI CUADRADO de Pearson con la corrección de
Yates.
Si el número total de casos es menor que 20, o alguna frecuencia
teórica es menor de 5, aplicaremos la prueba de Fisher.
SPSS indica cómo ha realizado los cálculos: si aplica la prueba
de FISHER, en los resultados aparece EXACT PROBABILITY, y si
aplica la prueba de la CHI CUADRADO de Pearson aparece CHI-
SQUARE.
360 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

El subcomando adecuado para realizar la prueba de la mediana


con SPSS es MEDIAN.
A continuación compararemos, mediante la prueba de la mediana,
la tensión arterial diastólica en hombres y mujeres, utilizando los
datos del ejemplo CORONAR. Inicie una sesión con SPSS y teclee
las siguientes instrucciones:

;La
segunda de las instrucciones anteriores indica a SPSS que
realice la prueba de la mediana sobre los datos de la TAD, entre los
individuos con SEXO = 1, hombres, y SEXO = 2, mujeres; obsérvese
que la segunda variable define los grupos. Si hubiéramos puesto
CLSO(1,3), las comparaciones se realizarían entre los individuos
con CLSO = 1 y CLSO = 3.
Los resultados obtenidos son los siguientes:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 361

En los resultados, SPSS nos muestra en primer lugar la tabla dos


por dos, en la que representa el número de casos de cada muestra
por encima y por debajo de la mediana global. Hay 18 hombres y
17 mujeres, con TAD mayor que la mediana; 11 hombres y 24 muje-
res con valores de TAD menor que la mediana. La mediana global
es 80, el valor de la CHI CUADRADO de Pearson es 2.1194, el cual
no es significativo, puesto que la significación 0.1454 es mayor que
0.05. Por tanto, no podemos rechazar la hipótesis nula y no tenemos
evidencia de que las medianas sean significativamente distintas.

La prueba de Mann-Whitney

Esta prueba es aplicable para comparar dos variables continuas


independientes. Las dos muestras pueden tener tamaños distintos.
Es la prueba no paramétrica considerada más potente para comparar
dos variables continuas independientes.
El procedimiento es el siguiente: agrupamos los datos de las
dos muestras en un sólo grupo y ordenamos los datos de menor a
mayor, asignándole a cada dato el rango correspondiente a su orden
de magnitud; si no hay diferencias significativas entre las dos varia-
bles, esperamos que los rangos estén uniformemente repartidos
entre los dos grupos. Por el contrario, si hay diferencias significativas
entre las dos variables, esperamos que los rangos menores se aso-
cien con un grupo y los mayores con el otro grupo.
Las hipótesis son:

Si existen desequilibrios significativos, los detectará la prueba


propuesta por Mann-Whitney, basada en la suma de los rangos
para grupo. Supongamos que tenemos dos grupos de datos, con
tamaños n1 y n2; la suma de los rangos correspondientes a cada
grupo, son R1 y R2. A partir de estos datos, calculamos los estadísticos
U1 y U2 según las siguientes expresiones:
362 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Una vez calculados los parámetros anteriores, elegimos el menor;


a este valor lo denominaremos U y, mediante la correspondiente
tabla, comprobaremos si las diferencias son significativas.
Cuando las muestras son grandes, se consigue una buena apro-
ximación a una distribución normal con media y desviación típica
definidas según las siguientes expresiones:

A partir de la media y desviación típica definidas en las expre-


siones anteriores, calculamos Z, valor normal tipificado, según la
siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 363

En la expresión anterior U, es el menor entre U1 y U2.


Veamos un ejemplo. Para probar dos tratamientos 1 y 2 contra
el colesterol, seleccionamos dos muestras de pacientes hipercoles-
terolémicos. Se administra un tratamiento a cada muestra durante 3
meses, al cabo de los cuales medimos el colesterol basal en ambos
grupos y comparamos sus resultados, a fin de determinar si las
diferencias observadas son significativas. Los resultados obtenidos
son los siguientes:

Los tamaños muéstrales son distintos, n1 — 7 y n2 = 6.


Aplicamos la prueba de Mann-Whitney, para lo cual agrupamos
a todos los valores en un sólo conjunto y los ordenamos de menor
a mayor:

La suma de rangos para el grupo 1, R1 = 24.


La suma de rangos para el grupo 2, R2 = 67.
A partir de los datos anteriores, calculamos U1 y U2 mediante las
expresiones (9-22) y (9-23).

El menor de los dos es U1 = 3, y este valor es el que asignaremos


al parámetro W = 3.
Consultando en la tablas correspondientes, encontramos que la
364 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

significación para los valores anteriores es 0.008; por lo tanto, recha-


zamos la hipótesis nula y concluimos que los tratamientos son dis-
tintos. El 2 es el mejor de los dos, puesto que los valores de coles-
terol son significativamente menores en los pacientes que lo han
seguido.
SPSS calcula la prueba de Mann-Whitney mediante el subco-
mando M-W. A continuación realizaremos el ejemplo anterior me-
diante SPSS. Inicie una sesión con SPSS y teclee las siguientes ins-
trucciones:

La última instrucción indica a SPSS que realice la prueba de


Mann-Whitney, entre los colesteroles básales del grupo 1 y 2.
Los resultados obtenidos son los siguientes:

En la tabla anterior, lista en primer lugar el rango medio para


cada grupo, y a continuación el parámetro U, que es el menor entre
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 365

U1 y U2. El parámetro W es debido a Wilcoxon, el cual ha ideado


una prueba para comparar dos muestras independientes, y en este
caso es la suma de rangos menor de las dos. A continuación lista la
probabilidad exacta y la calculada mediante aproximación a la nor-
mal. La aproximación a la normal mejora según aumenta el tamaño
de la muestra. CORRECTED FOR TIES indica que los valores se
calculan corrigiendo las distorsiones por empates, aunque en este
caso no ha habido ninguno, un empate sería que hubiera valores
iguales en ambos grupos. Por ejemplo que hubiera un colesterol
de 240 en los dos grupos.
A continuación realizaremos otro ejercicio, a partir del ejemplo
CORONAR. Teclee las siguientes instrucciones:

La segunda instrucción indica a SPSS que realice la prueba de


Mann-Whitney comparando los valores del colesterol basal (CB)
entre individuos sedentarios y no sedentarios. Los resultados obte-
nidos son los siguientes:
366 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, no se lista la probabilidad exacta, debido a


que las muestras son grandes. La probabilidad se ha calculado
mediante la aproximación a la normal. La significación es 0.0007,
mucho menor que 0.05; por lo tanto, rechazamos la hipótesis nula y
concluimos que el CB es distinto en los dos grupos, y menor en
individuos no sedentarios, que es el grupo al que corresponde el
menor rango medio.

La prueba de Kolmogorov-Smirnov
para dos variables independientes
Además de la prueba no paramétrica, vista en este mismo capí-
tulo, Kolmogorov-Smimov idearon otra prueba, válida para comparar
dos variables independientes. Las variables que comparar deben
ser numéricas. Los fundamentos de esta prueba son similares a los
de la prueba aplicable para una sola muestra.
En el caso de dos variables independientes, la prueba pretende
comprobar si las distribuciones poblacionales de las dos variables
son iguales o distintas. La prueba de dos colas es sensible a dife-
rencias en tendencia central, dispersión y colocación.
Las hipótesis son:

El estadístico de contraste es D, que es la máxima diferencia


entre las proporciones escalonadas calculadas para cada valor. El
parámetro D viene definido según la siguiente expresión:

En la expresión anterior, S1 es la proporción de valores de la


primera muestra, que son iguales o menores que x, S2 es la propor-
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 367

ción de valores de la segunda muestra que son iguales o menores


que x. La diferencia anterior se calcula para todos los valores y el
valor de la diferencia máxima es el parámetro D.
El parámetro D está tabulado y, consultando las correspondientes
tablas, podremos comprobar si las diferencias son o no significativas.
Cuando las dos muestras son mayores que 40 casos, podemos utilizar
el siguiente estadístico para resolver el contraste de hipótesis:

El estadístico anterior sigue una distribución CHI CUADRADO


con 2 grados de libertad.
Esta prueba puede realizarse con SPSS mediante el subcomando
K-S. Inicie una sesión con SPSS y siga las siguientes instrucciones:

La segunda de las instrucciones anteriores indica a SPSS que


realice la prueba de Kolmogorov-Smirnov para dos muestras inde-
pendientes, a fin de comparar las distribuciones de los triglicéridos
básales entre individuos sedentarios y no sedentarios.
Los resultados obtenidos son los siguientes:
368 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, SPSS lista en primer lugar el número de


casos de cada muestra; a continuación, las máximas diferencias
observadas en valor absoluto y con su correspondiente signo. Tam-
bién lista la z de Kolmogorov-Smirnov y la probabilidad, que en
este caso es mayor que 0.05, y por lo tanto no rechazaremos la
hipótesis nula. Nuestra conclusión es que no tenemos evidencia de
que la distribución de los triglicéridos en individuos sedentarios y
no sedentarios sea distinta.
En el listado de resultados, aparece un mensaje de prevención
(WARNING), en el que avisa de que el tamaño de la muestra es
pequeño y por ello deben comprobarse los resultados, consultando
la tabla de Kolmogorov-Smirnov, para dos muestras,

La prueba de las rachas de Wald-Wolfowitz


para dos variables independientes

Esta prueba analiza las distribuciones de dos variables indepen-


dientes y puede detectar diferencias en la tendencia central, dis-
persión u oblicuidad.
Los datos de las dos variables se agrupan en un solo conjunto
de datos, ordenándolos de menor a mayor y contando a continuación
las rachas referidas a los grupos. Si el primer dato es del grupo 1,
se cuenta una racha; si los datos segundo y tercero pertenecen al
grupo 2, se cuenta otra racha, etc. Cada sucesión de datos corres-
pondiente a un grupo se cuenta como una racha. La prueba se basa
en que, si las distribuciones de los datos son iguales, las rachas
estarán uniformemente repartidas; por el contrario, si hay diferencias
entre ellas, las rachas de cada grupo se encontrarán repartidas de
forma desequilibrada.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 369

En un experimento sobre el valor de los triglicéridos básales en


dos grupos de individuos, obtenemos los siguientes resultados:

Para realizar esta prueba dispondríamos los datos de la siguiente


manera:

Las rachas las contabilizamos con los grupos, no con los valores;
en el caso anterior hay 4 rachas.
Las hipótesis son:

El contraste anterior se resuelve para muestras pequeñas (me-


nores que 20) consultando las rachas obtenidas en la correspon-
diente tabla. Para muestras grandes, se puede realizar una aproxi-
mación a la normal, con media y desviación típica definidas en las
siguientes expresiones:
370 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

A partir de las expresiones para la media y la desviación típica


anteriores, deducimos la expresión para Z, abscisa normal tpiñcada,
según la siguiente expresión:

En la expresión anterior, r es el número de rachas observado.


Algunos autores indican que en la expresión anterior debe realizarse
una corrección de continuidad para mejorar la aproximación. La
corrección por continuidad consiste en restar 0.5 al valor absoluto
del numerador en la expresión anterior, que queda de la siguiente
manera:

Si se producen empates, se plantean problemas difíciles de re-


solver. Supongamos que tenemos tres valores del colesterol basal,
iguales a 234, 2 de los cuales pertenecen al grupo 1 y 1 al grupo 2.
Según la disposición de los grupos, el número de rachas puede
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 371

modificarse. SPSS nos indica el número de empates (TIES) mediante


un mensaje de prevención (WARNING) y el número mínimo y
máximo de rachas que pueden obtenerse, según cómo se resuelvan
los empates.
Esta prueba podemos realizarla con SPSS mediante el subco-
mando W-W,
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

La segunda de las instrucciones anteriores indica a SPSS que,


mediante la prueba de Wald-Wolfowitz, evalúe las distribuciones
del colesterol en fumadores y no fumadores.
Los resultados obtenidos son los siguientes:

En la tabla anterior, se indica el número de casos de cada grupo


y los valores extremos de las rachas. Cuando dice máximo posi-
ble 34, significa que los empates se han resuelto, obteniendo el
máximo posible de rachas; el mínimo posible 27 quiere decir que
372 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

los empates se han resuelto obteniendo el número mínimo posible


de rachas. Las probabilidades asociadas a cada situación se han
calculado, mediante la aproximación a la normal. Obsérvese la in-
fluencia de los empates: si resolvemos los empates obteniendo el
mínimo posible de rachas, el resultado de la prueba es significativo;
si resolvemos los empates obteniendo el máximo posible de rachas,
el resultado no es significativo. En este caso, el resultado es incierto
y sería recomendable realizar otra prueba de comparación. Si el
resultado de las dos situaciones, mínimo y máximo, fuera significativo,
concluiríamos que las distribuciones son distintas. Si el resultado
de las dos situaciones fuera no significativo, aceptaríamos que no
tenemos evidencia de que las distribuciones sean distintas, pero
cuando ocurre que una es significativa y otra no, debemos realizar
otra prueba.
SPSS advierte mediante el aviso (WARNING) de que existen 8
empates que afectan a 21 casos.

La prueba de los valores extremos de Moses

La prueba de Moses trata de determinar si el comportamiento


en los valores extremos, mayores y menores, de dos variables es
igual o distinto. A uno de los grupos lo denominaremos grupo
experimental, y al otro control.
La prueba se basa en agrupar en un solo conjunto los datos y
ordenarlos de menor a mayor, asignándoles los rangos correspon-
dientes y evaluando el parámetro S, que es el número más pequeño
de posiciones que incluye todos los valores del grupo control; viene
dado por la siguiente expresión:

En la expresión anterior, RM es el máximo rango obtenido por


los valores del grupo control y Rm es el mínimo rango obtenido
por los valores del grupo control.
Si no hay diferencias significativas entre los valores extremos,
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 373

esperamos que los rangos mayores y menores estén repartidos


equitativamente entre los dos grupos; en caso contrario, habrá dife-
rencias que podrán ser detectadas por la prueba de Moses.
Supongamos que disponemos de los siguientes datos, corres-
pondientes a la glucosa basal de dos grupos de individuos; el grupo
E, tratado con insulina, y el grupo C, grupo control.

Los valores anteriores los disponemos en un solo grupo y les


asignamos el correspondiente rango.

El máximo rango obtenido por los valores del grupo control es


6, que es el correspondiente al valor 110, y el mínimo 1, que es el
correspondiente a 80. Por tanto, S’= 6 — 1 + 1 = 6 ; esto indica
que el número más pequeño de posiciones que incluye a todos
los valores es 6.
Moses, propuso que para el calculo de S’, previamente se des-
contara un número pequeño de los valores extremos al número de
valores descartados; lo simbolizaremos por h. Supongamos, en el
ejemplo anterior, que h = 1; por tanto, debemos eliminar el mayor
y el menor rango del grupo control. Entonces, el rango máximo es 5
y el menor 4, en este caso S’ = 5 — 4 + 1 = 2.
Las hipótesis son:
374 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

SPSS resuelve la prueba de Moses, mediante el subcomando


MOSES. Inicie una sesión con SPSS y siga las siguientes instruc-
ciones:

La segunda de las instrucciones anteriores indica a SPSS que


realice una prueba de Moses de los valores del colesterol entre
fumadores y no fumadores. Los valores de FUMA=1 corresponden
a fumadores y FUMA=2 a no fumadores. Como queremos que el
grupo control sean los no fumadores, FUMA=2, hemos indicado
esto mediante FUMA(2,1). SPSS hubiera entendido que el grupo
control son los fumadores si en la instrucción figurara FUMA(1,2);
por tanto, considera como grupo control el primer valor asociado al
factor, variable posterior a BY.
Los resultados obtenidos son los siguientes:

En la tabla anterior, se indica el número de sujetos de cada


grupo y la probabilidad calculada, para el caso de no eliminar los
rangos extremos del grupo control. S’ , en ese caso (SPAN OF CON-
TROL GROUP), es 68 y le corresponde una probabilidad de 0.5, que
no es significativa. Eliminando el rango mayor y menor, h — 1 (AFTER
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 375

REMOVING 1 OUTLIER(S) FROM EACH END), S’= 53 y la probabili-


dad es 0.001 menor que 0.05, y por tanto, es significativa; por tanto,
concluimos que el CB tiene un comportamiento distinto en cuanto a
los valores extremos en fumadores que en no fumadores.
En la prueba de Moses, habitualmente aceptamos la probabilidad
calculada eliminando los rangos extremos.
SPSS, si no se le indica otra cosa, elimina un 5% de los rangos
menores y mayores. Si queremos eliminar un número determinado,
podemos indicarlo junto al subcomando MOSES. Si quisiéramos eli-
minar los 3 rangos mayores y menores del grupo control, lo indica-
ríamos de la siguiente manera:

PRUEBAS NO PARAMÉTRICAS PARA K VARIABLES

En el apartado anterior, hemos estudiado varias pruebas que


nos permitían contrastar hipótesis sobre el comportamiento de dos
variables independientes. En este apartado, analizaremos las pruebas
disponibles en SPSS para comparar K muestras.
Los campos de aplicación son múltiples. Por ejemplo, suponga-
mos que queremos comparar simultáneamente el colesterol basal
en tres grupos: no fumadores, fumadores de menos de 10 cigarrillos
y fumadores de más de 10 cigarrillos. Alguien podría pensar que,
aplicando de forma sucesiva las pruebas para dos muestras, podría
resolver el problema, lo cual es un error, pues la probabilidad de
cometer error tipo I sería muy grande.
Las pruebas disponibles en SPSS para evaluar K muestras inde-
pendientes son:
376 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

La prueba de Kruskall Wallis

Esta prueba es válida para comparar simultáneamente invariables


continuas. También se denomina, análisis de la varianza no paramé-
trico de una vía.
Las hipótesis son:

La prueba se basa en agrupar los datos de las K variables en un


solo grupo, ordenado de menor a mayor, asignando a cada dato el
correspondiente rango. Si las distribuciones son iguales, los datos
de las K variables se repartirán de manera homogénea en el grupo
común ordenado, y la suma de los rangos asignadas a cada grupo
tendrá valores próximos. Por el contrario, si las distribuciones son
distintas, son de esperar diferencias entre las sumas de rangos más
grandes que las explicables por el azar.
El estadístico de contraste, que recoge los conceptos expresados
anteriormente, viene dado por la siguiente expresión:

En la expresión anterior, K es el número de los K grupos corres-


pondientes a las K variables, ni es el número de casos del iésimo
grupo, Ri es la suma de rangos del iésimo grupo y N es el número
total de sujetos que intervienen en la prueba.
Para muestras pequeñas, la significación de los valores de H
está tabulada. Según aumenta el tamaño de la muestra, H se aproxima
a una distribución CHI CUADRADO con K — 1 grados de libertad.
Cuando hay empates (dos o más datos tienen los mismos valo-
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 377

res), resolveremos cada empate que se produzca asignando a cada


dato implicado en el empate el rango medio correspondiente a
todos los rangos implicados en dicho empate. La mayoría de los
autores indican que en caso de empates, el estadístico H debe ser
corregido, calculando H según la siguiente expresión:

En la expresión anterior, s indica el esésimo empate (téngase en


cuenta que puede haber varios empates), y r el número total de
empates; ts es el número de sujetos empatados en el esésimo em-
pate.
A continuación, veamos un ejemplo. Para comparar tres trata-
mientos antihipertensivos 1, 2 y 3, se seleccionan tres muestras de
pacientes hipertensos, a cada una de las cuales se asigna un trata-
miento distinto durante tres meses. Al cabo de ese tiempo medimos
la TAS (tensión arterial sistólica) a todos los pacientes. Los resultados
obtenidos son los siguientes:

Los datos anteriores los agruparemos en un solo grupo ordenado


de menor a mayor, asignándoles los correspondientes rangos. En
caso de empates, asignaremos a los datos empatados el mismo
valor, el rango medio correspondiente a todos los datos implicados
en cada empate.
378 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la siguiente tabla se muestran los resultados, según los con-


ceptos expresados anteriormente.

En la tabla anterior se observan varios empates; el primer empate


lo forman dos valores 130, uno del grupo 1 y otro del grupo 3; a
estos datos les corresponden los rangos 4 y 5, asignándoles a cada
uno el rango medio de los rangos empatados 4.5. El resto de los
empates se resuelven de la misma manera.
En el ejemplo anterior, tenemos 18 casos. El grupo 1 tiene 6
casos, el grupo 2 tiene 5 casos y el grupo 3 tiene 7 casos. La suma
de rangos del primer grupo es 36.5, la suma de rangos del segundo
grupo es 55 y la suma de rangos del tercer grupo es 79.5.
El valor de H sin corregir por empates es 3.69 y el valor de H
corregido por empates es 3.714. El punto crítico para una distribución
CHI CUADRADO con 2 grados de libertad es 5.99; dado que el
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 379

valor observado es menor que el punto crítico, no podemos rechazar


la hipótesis nula y concluimos que no tenemos evidencia estadística
de que la distribución de la TAS en los tres grupos sea distinta. No
podemos afirmar que haya diferencias significativas entre los trata-
mientos.
La prueba de Kruskal-Wallis puede resolverse con SPSS mediante
el subcomando K-W.
A continuación vamos a resolver el ejemplo anterior mediante
SPSS. Inicie una sesión con SPSS y teclee las siguientes instruc-
ciones:

La última de las instrucciones anteriores indica a SPSS, mediante


el subcomando K-W indica a SPSS que realice la prueba de Kruskal-
Wallis con los datos anteriores. Los resultados obtenidos son los
siguientes:
380 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, podemos observar los resultados, que coin-


ciden plenamente con los calculados anteriormente, dado que la
significación es mayor que 0.05; no podemos rechazar la hipótesis
nula.

La prueba de la mediana para K variables

La prueba de la mediana para invariables es una ampliación de


la prueba de la mediana para dos variables; los conceptos funda-
mentales de ambas coinciden.
Esta prueba es adecuada para comparar si K variables continuas
tienen la misma mediana. Los tamaños de las K poblaciones pueden
ser distintos. Los denominaremos n1...nk.
La prueba se fundamenta en analizar si las medianas de las K
poblaciones son distintas o diferentes. En primer lugar, calcularemos
la mediana para todos los datos. Disponemos todos los datos en un
mismo grupo y calculamos la mediana global. A continuación, en
una tabla dos por K, disponemos el número de casos de cada
muestra, que son mayores o menores que la mediana global. Si las
medianas poblacionales son iguales, la proporción de casos de
cada muestra que son menores o mayores que la mediana global
deben ser similares, salvo diferencias debidas al azar; por el contrario,
si las medianas son diferentes, la proporción de casos por encima o
debajo de la mediana global será significativamente distinta, para
cada variable.
Las hipótesis son:

La hipótesis nula admite que las medianas poblacionales son


iguales, y la alternativa que, al menos la mediana de una de las
variables es distinta de las demás. También pueden plantearse con-
trastes unilaterales.
El contraste de hipótesis anterior, se resuelve aplicando la clásica
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR 381

prueba de la CHI CUADRADO de Pearson, teniendo en cuenta que


para la correcta aplicación de la prueba, no debe haber más del
25 % de las casillas con valores esperados menores que 5. En caso
de que haya más del 25 % de las casillas con valores menores de 5,
la prueba no es aplicable y debemos emplear otra. SPSS avisa si no
se cumplen las condiciones anteriores.
Inicie una sesión con SPSS y teclee las siguientes instrucciones:

La penúltima de las instrucciones anteriores, mediante el subco-


mando MEDIAN, indica a SPSS que realice la prueba de la mediana,
a fin de comprobar si la tendencia central es la misma en los valores
de la TAD en las tres clases sociales.
382 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla anterior, se nos presentan los resultados, que tienen


la misma interpretación que en el caso de dos muestras. Obsérvese
que SPSS emite un mensaje de aviso en el que nos indica que hay
2 casillas teóricas con menos de 5 casos, por lo que la prueba
podría no ser válida en este caso.
Apéndice
DESCRIPCIÓN DE LOS FICHEROS
DE EJEMPLO

A1 EJEMPLO CORONAR

En una ciudad se decide llevar a cabo un trabajo sobre la in-


fluencia de diversos factores de riesgo en las enfermedades car-
díacas, para lo cual se extrae una muestra estadísticamente repre-
sentativa de 70 individuos entre 40 y 70 años. El ejemplo es ficticio
construido con fines didácticos. En cada individuo seleccionado en
la muestra se decide la recogida de las siguientes características
(variables):
384 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

Los datos correspondientes a las variables anteriores son los


siguientes:
DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO 385
386 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS

En la tabla de datos anterior, cada línea recoge los resultados de


un caso por el mismo orden que el listado de variables previo a los
datos. En la tabla de variables quedan reflejadas las equivalencias
de valores de las variables cualitativas. El fichero de sistema CO-
RONAR.SYS contiene los datos y su definición, según formato SPSS
descritos anteriormente.

A2 EJEMPLO VASCULAR
Los datos del fichero vascular corresponden a 65 individuos
ficticios, los cuales constituyen una muestra representativa de una
hipotética población. Las variables representadas son las siguientes:
DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO 387

En la tabla de datos anterior, cada línea recoge los resultados de


un caso, por el mismo orden que el listado de variables previo a los
datos. En la tabla de variables quedan reflejados la equivalencia de
valores de las variables cualitativas.
388 ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO 389

Los datos anteriores y su definición, según formato SPSS, están


incluidos en el fichero de sistema VASCULAR.SYS.

A3 EJEMPLO PECES

Los datos del ejemplo peces, corresponden a la concentración


de un tóxico en el cerebro, corazón y sangre de 12 peces. Los
datos son los siguientes:

CONCENTRACIÓN DE TÓXICO EN mg/1000 gr

CEREBRO CORAZÓN SANGRE

El fichero PECES.SPS contiene los datos y las instrucciones ne-


cesarias para que SPSS lea los datos. El fichero PECES.SYS es un
fichero de sistema SPSS, a partir del cual pueden realizarse los
análisis estadísticos de forma directa.
En el libro hay otros ejemplos que se describen en el texto.
BIBLIOGRAFÍA RECOMENDADA

Marija, J.: Norusi SPSS/PC+ Advanced Statistics 4.0 SPSS Inc. Chicago,
U.S.A
Marija J.: Norusi SSPSS/PC+ Statistics 4.0 SPSS Inc. Chicago U.S.A.
Marija, J.: Norusi SSPSS/PC+ Advanced Statistics 5.0 SPSS Inc. Chicago,
U.S.A.
Marija, J.: Norusi SSPSS/PC+ Profesional Statistics 5.0 SPSS Inc. Chi-
cago U.SA.
Bisquerra, R.: Análisis multivariable. Editorial PPU, Barcelona, 1989.
González López-Valcárcel, R.: Análisis multivariante aplicación al
ámbito sanitario. SG Editores, Barcelona, 1991.
Álvarez Cáceres, R.: Estadística básica y procesamiento de datos
con SPSS aplicado a las ciencias de la salud. C.S.C.M., Madrid,
1994.