Departamento de Matemáticas y Computación

Curso avanzado de análisis
de datos con Statistica







Mayo-Junio de 2012


Curso avanzado de análisis de datos con Statistica.
A cargo de: Área de Estadística e Investigación Operativa. Departamento de Matemá-
ticas y Computación. Universidad de La Rioja.
Horario: Días 29, 31 de mayo, 5 y 7 de junio, de 16:00 a 19:00
Lugar: Aula Informática nº 4 del CCT.
Profesores: Juan Carlos Fillat Ballesteros
Despacho 226 del edificio Vives. juan-carlos.fillat@unirioja.es
Zenaida Hernández Martín
Despacho 227 del edificio Vives. zenaida.hernandez@unirioja.es
David Ortigosa Martínez
Despacho 206 del edificio Vives. david.ortigosa@unirioja.es
Montserrat San Martín Pérez
Despacho 227 del edificio Vives. montse.sanmartin@unirioja.es
Objetivo: El objetivo de este curso es “Introducir algunos temas no elementales del
análisis estadístico de datos a quienes poseen conocimientos básicos de Es-
tadística Descriptiva e Inferencial, utilizando STATISTICA”.
Programa: El curso consta de 4 sesiones con los siguientes contenidos:
1. Contrastes no paramétricos
1.1. Pruebas de normalidad
1.2. Contrastes de localización
1.3. Contrastes para 2 muestras relacionadas
1.4. Contrastes para 2 muestras independientes
1.5. Contrastes para k muestras relacionadas
1.6. Contrastes para k muestras independientes
1.7. Contrastes para variables cualitativas
2. Análisis de varianza
2.1. ANOVA básico
2.2. Comparación de grupos específicos
2.3. Ajuste del nivel de significación en comparaciones múltiples
3. Regresión lineal múltiple
3.1. Modelos de regresión simple
3.2. Contrastes de hipótesis en el modelo de regresión lineal simple
3.3. Condiciones teóricas del modelo de regresión lineal simple
3.4. Predicciones
3.5. Modelo de regresión lineal múltiple
3.6. Novedades en el caso múltiple
3.7. Condiciones teóricas del modelo de regresión lineal múltiple
3.8. Comentarios finales
4. Introducción al análisis multivariante: análisis de componentes principales
4.1. Introducción al análisis de componentes principales
4.2. ¿Cómo llevar a cabo un análisis de componentes principales?
4.3. Análisis de componentes principales vs análisis factorial
4.4. La rotación de los factores
Anexo: Trabajo final
Web: www.unirioja.es/cu/zehernan
Sesión 1.
CONTRASTES NO PARAMÉTRICOS

Al estimar los parámetros de un modelo se supone que los datos constituyen una mues-
tra aleatoria de una distribución que, salvo por sus parámetros, es conocida.
La primera etapa de un estudio consiste, por tanto, en contrastar si las hipótesis básicas
no están en contradicción con la muestra. Así, las primeras pruebas no paramétricas
analizan:
- si la distribución supuesta es consistente con los datos, denominadas pruebas de
bondad de ajuste: test de la _
2
, de Kolmogorov-Smirnov, de Shapiro-Wilk y de
Jarque-Bera
Por otra parte, ¿cuál es el efecto de un modelo distinto al supuesto?
El utilizar un modelo falso nos puede llevar a conclusiones no válidas o, aunque sean
válidas, dejan de ser óptimas. Por ejemplo, los procedimientos que suponen normalidad
llevan a estimaciones poco precisas cuando esta hipótesis no es válida, lo que se traduce
en intervalos innecesariamente grandes o contrastes poco potentes. Por tanto, deberemos
utilizar procedimientos alternativos que no requieran de suposiciones sobre la población
salvo, en algunos casos, la de que sea continua.
Cuando tenemos una muestra utilizamos:
- contrastes de localización: test de los signos y de los rangos con signo de Wil-
coxon
En el caso de querer contrastar diferencias con dos o más muestras tenemos:
- dos muestras relacionadas: test de los signos, de los rangos con signo de Wil-
coxon
- dos muestras independientes: test de rachas de Wald-Wolfowitz, de Kolmogo-
rov-Smirnov y de la U de Mann-Whitney
- k muestras relacionadas: test de Friedman y de Kendall
- k muestras independientes: test de Kruskal –Wallis y de la mediana
- para variables cualitativas: test de Cochran
Ventajas de la utilización de pruebas no paramétricas frente a las paramétricas
- No requieren de la suposición de normalidad u otra distribución
- En general, son de fácil cálculo e interpretación
- A veces, no es necesario tener observaciones exactas, sirve con saber el orden de
dichas observaciones
Desventajas de la utilización de pruebas no paramétricas frente a las paramétricas
- Debido a que no es necesario que las observaciones sean tan exactas se pierde
información
- A menudo no son tan eficaces como las pruebas paramétricas

Curso avanzado de análisis de datos con Statistica Mayo de 2012

Antes empezar con los distintos contrastes deberemos descargar el fichero revisión.sav
con el que estaremos trabajando durante la sesión.

Contenido del fichero revisión.sav:
De entre los trabajadores de un determinado sector productivo de una comunidad au-
tónoma, se toma una muestra. El archivo revisión.sav contiene, para los 47 trabaja-
dores de la muestra, los datos de las siguientes variables:
ID: Código de identificación del empleado
tabaco: Relación con el tabaco (1=”Fumador”, 2=”Menos de un año de exfumador”,
3=”Entre 1 y 5 años de exfumador”, 4=”No fumador”)
act_física: Nivel de actividad física (0=”Sedentario”, 1=”no sedentario”)
act_laboral: Actividad laboral (1=”Operario”, 2=”Supervisor”, 3=”Administrativo”,
4=”Gerente”)
IMC_06: Índice de Masa Corporal en la revisión de 2006 (0=“Sin sobrepeso”,
1=“Con sobrepeso”)
IMC_07: Índice de Masa Corporal en la revisión de 2007 (0=“Sin sobrepeso”,
1=“Con sobrepeso”)
IMC_08: Índice de Masa Corporal en la revisión de 2008 (0=“Sin sobrepeso”,
1=“Con sobrepeso”)
colesterol_06: Nivel de colesterol en sangre en la analítica de 2006, en mg/dl
colesterol_07: Nivel de colesterol en sangre en la analítica de 2007, en mg/dl
colesterol_08: Nivel de colesterol en sangre en la analítica de 2008, en mg/dl
glucosa_06: Nivel de glucosa en sangre en la analítica de 2006, en mg/dl
glucosa_07: Nivel de glucosa en sangre en la analítica de 2007, en mg/dl
glucosa_08: Nivel de glucosa en sangre en la analítica de 2008, en mg/dl

Sesión 1. Contrastes no paramétricos 7

1.1. Pruebas de normalidad

Estos procedimientos tratan de averiguar si nuestros datos pueden proceder de una va-
riable con distribución normal (Ho).


1.1.1. Contraste de la _
2
de Pearson de bondad de ajuste

Los contrastes de la
2
_ comparan las frecuencias observadas frente a las esperadas con
la hipótesis que se contrasta.

Para la aplicación del contraste es necesario que la muestra sea grande (mínimo 25), las
observaciones deben estar agrupadas en clases (al menos 5 clases), que cada clase tenga
al menos 5 datos y que la frecuencia esperada sea también de al menos 5.

El estadístico de la
2
_ tiene la siguiente expresión:
( )
¿
÷
i i
i i
E
E O
2
que sigue una distribución
2
_
Donde:
i
O y
i
E son, para cada clase, las frecuencias observadas y esperadas respecti-
vamente.

Cuando deseamos realizar un contraste de bondad de ajuste, el estadístico de la
2
_ de
Pearson sigue una distribución asintótica
2
_ con k – r – 1 grados de libertad siendo k
el número de clases y r el número de parámetros estimados del modelo. Es decir:

( )
2
1
1
2
~
÷ ÷
=
¿
÷
r k
k
i i
i i
np
np n
_

La aplicación más frecuente de este contraste para la normalidad es a problemas de
muestra grande y donde µ y
2
o se estiman a partir de los datos mediante x y
2
s por lo
que la distribución del estadístico será de una
2
3 ÷ k
_ .

Si la variable sigue una ley normal, se espera que no haya mucha diferencia entre la
frecuencia observada y la esperada por lo que se rechaza la normalidad para valores
grandes del estadístico.


1.1.2. Contraste de Kolmogorov – Smirnov

Este contraste de bondad de ajuste compara la probabilidad acumulada de la distribu-
ción teórica de una variable continua frente a la empírica mediante el estadístico D de
Kolmogorov – Smirnov.
El estadístico de Kolmogorov – Smirnov es ) x ( F ) x ( F sup D
n R x
÷ =
e

siendo ) x ( F y ) x ( F
n
las frecuencias relativas acumuladas teóricas y observadas res-
pectivamente.

Curso avanzado de análisis de datos con Statistica Mayo de 2012

Los valores críticos para este contraste están tabulados en el supuesto de que no se re-
quiera de la estimación de parámetros, sin embargo, cuando el contraste necesita de la
estimación de parámetros, esta tabulación clásica conduce a un contraste muy conserva-
dor, es decir, tiende a aceptar la hipótesis nula.
Para mejorar el contraste, Lilliefors tabuló el estadístico D de Kolmogorov – Smirnov
cuando estimamos los parámetros media ( µ ) y varianza (
2
o ) de la distribución normal
con sus valores muestrales x y
2
s . Se rechaza la normalidad para valores grandes del
estadístico D.


1.1.3. Contraste de Shapiro y Wilk

Existen gráficos de probabilidad para contrastar la normalidad. Que comparan la proba-
bilidad acumulada observada (la que proporcionan los datos) frente a la probabilidad
acumulada esperada (la obtenida de la distribución teórica a contrastar).
Para poder aceptar la distribución teórica los puntos se agruparán en torno a una línea
recta.
El estadístico W de Shapiro – Wilk es el coeficiente de determinación del ajuste de esos
puntos a la recta por lo que valores grandes del estadístico (cerca de 1) nos llevan a
aceptar la hipótesis de normalidad.
Este contraste se aplica cuando el tamaño de la muestra es de, como mucho, 50.


1.1.4. Contrastes de Asimetría, Curtosis y test de Jarque-Bera

De la observación de la asimetría y curtosis de gráficos como el histograma, gráfico de
tallos y hojas y diagrama de cajas podemos también darnos cuenta de la necesidad de no
aceptar la normalidad en casos con una gran asimetría o una curtosis muy alejada de la
de la curva normal.

Además, los coeficientes de asimetría A y curtosis K son 0 bajo la hipótesis de normali-
dad por lo que valores alejados de 0 en esos coeficientes nos indican la posible no nor-
malidad de los datos.
Para tamaños de muestra grande (n al menos 50) el coeficiente de asimetría A sigue
una distribución normal de media 0 y varianza n 6 .
Para tamaños de muestra grande (n al menos 200) el coeficiente de custosis K sigue
una distribución normal de media 0 y varianza n 24 .
Valores pequeños de estos estadísticos nos permiten aceptar la normalidad de los datos.

Por otra parte, el test de Jarque-Bera es un contraste de normalidad basado en los coefi-
cientes de asimetría y curtosis:
|
.
|

\
|
+ =
2 2
4
1
2
K A
n
JB
que, para tamaños de muestra grande, sigue una distribución
2
_ con 2 grados de liber-
tad. Se utiliza habitualmente en análisis de series temporales.

Sesión 1. Contrastes no paramétricos 9

STATISTICA:

Podemos utilizar los distintos contrastes de normalidad desde varias opciones del menú:

- Estadísticas básicas y tablas / Estadísticas descriptivas donde podemos obtener el
contraste de Kolmogorov-Smirnov con y sin la corrección de Lilliefors y el contraste
de Shapiro - Wilk



- Estadísticas básicas y tablas / Prueba t, muestra simple donde podemos obtener el
diagrama de probabilidad de la normal aunque este contraste gráfico siempre será
menos objetivo que uno basado en un estadístico con un p-valor.



Curso avanzado de análisis de datos con Statistica Mayo de 2012


- Ajuste de distribución donde podemos obtener el contraste de Kolmogorov-
Smirnov con y sin la corrección de Lilliefors y el contraste de la _
2






- Gráficos / Histogramas donde podemos obtener el contraste de Kolmogorov-
Smirnov con y sin la corrección de Lilliefors y el de Shapiro - Wilk


Sesión 1. Contrastes no paramétricos 11


- Gráficos / Gráficos 2D / Diagramas de probabilidad normal donde podemos ob-
tener el contraste de Shapiro - Wilk



La exploración de los datos ayuda a determinar si son adecuadas las técnicas estadísti-
cas que está teniendo en consideración para el análisis de los datos. Si no se puede acep-
tar la normalidad de estos, el usuario necesita utilizar pruebas no paramétricas.

EJERCICIO 1.1
Contrasta la normalidad de la variable colesterol_07

Dado el tamaño de la muestra (n = 47) podemos utilizar los contrastes de Shapiro –
Wilk (n < 50), _
2
(n > 25) y el de Kolmogorov – Smirnov – Lilliefors,

El diagrama de probabilidad normal al que le añadimos el contraste de Shapiro – Wilk
nos permite contrastar la normalidad

Diagrama de probabilidad normal de colesterol_07
REVISIÓN.sta 13v*47c
120 140 160 180 200 220 240 260 280 300
Valor observado
-3
-2
-1
0
1
2
3
V
a
l
o
r

n
o
r
m
a
l

e
s
p
e
r
a
d
o
colesterol_07: 'SW-W' =0,9698; p =0,2615

Curso avanzado de análisis de datos con Statistica Mayo de 2012

y con las tablas de frecuencias observadas y esperadas obtenemos los contrastes de la _
2

y de Kolmogorov – Smirnov – Lilliefors.



Los tres contrastes nos permiten aceptar la hipótesis de normalidad de la distribución de
la que proceden las observaciones de colesterol_07. En todos los casos el valor p ÷ es
grande.

Aunque ya hemos obtenido todos los contrastes de normalidad, vamos a completar el
estudio con un histograma con los contrastes de Kolmogorov – Smirnov y Shapiro –
Wilk.

Histograma:colesterol_07
K-S d=,10072, p>.20; Lilliefors p>.20
Shapiro-Wilk W=,96985, p=,26145
120 140 160 180 200 220 240 260 280 300
X <=Límite de la categoría
0
2
4
6
8
10
12
14
N
°

d
e

o
b
s
.

Sesión 1. Contrastes no paramétricos 13


EJERCICIO 1.2
Estudia la hipótesis de normalidad de glucosa_07 y glucosa_08.

EJERCICIO 1.3
Contrasta la hipótesis de normalidad de la variable que mide la diferencia de nivel de
glucosa entre 2007 y 2008

EJERCICIO 1.4
Estudia la hipótesis de normalidad de colesterol_07 para los trabajadores sedentarios y
para los no sedentarios por separado.

EJERCICIO 1.5
A la vista de los resultados obtenidos, ¿podemos aceptar que se verifican las condicio-
nes para realizar un contraste sobre la media de la variable colesterol_07?

EJERCICIO 1.6
A la vista de los resultados obtenidos, ¿podemos aceptar que se verifican las condicio-
nes para realizar un contraste sobre la diferencia de medias entre glucosa_07 y gluco-
sa_08?

Curso avanzado de análisis de datos con Statistica Mayo de 2012

1.2. Contrastes de localización

Estos contrastes tratan de analizar si la muestra puede procede de una población con una
determinada medida de posición. La hipótesis nula conjetura que determinado percentil
toma cierto valor. Nos vamos a centrar en el caso del percentil 50, es decir, la mediana.
Tenemos, por tanto, el contraste:
¹
´
¦
=
=
u
u
Me H
Me H
:
:
1
0



1.2.1. Prueba de los signos

Si aceptamos que la hipótesis nula es cierta y la mediana es u, la probabilidad de que un
elemento de la muestra sea superior a u es ½, por tanto, en una muestra de tamaño n
cabe esperarse que el número de valores superiores a u sea de aproximadamente la mi-
tad. Se rechazará la hipótesis nula si aparece un número excesivamente alto o excesiva-
mente bajo respecto al 50%.

Los valores críticos de este contraste se determinan a partir de la distribución binomial
puesto que el estadístico B que mide el número valores de la muestra superiores a u
sigue una ley binomial B(n,½).

Además, en el caso de n grande, puede utilizarse la aproximación a la distribución
normal por el teorema de Moivre.


1.2.2. Prueba de los rangos con signo de Wilcoxon

A diferencia del anterior, este contraste tiene en cuenta, no sólo, el signo de las diferen-
cias entre los valores de la muestra y la mediana que queremos contrastar, si no tam-
bién, la magnitud de tales diferencias.

Este contraste utiliza los estadísticos
+
T y
÷
T de Wilcoxon que se obtienen de sumar
los rangos, para las diferencias respecto a u en valor absoluto, de los valores superiores
o inferiores a u respectivamente. Es decir, asignamos a cada elemento de la muestra,
i
x , el rango,
i
R , que obtenemos de ordenar los valores u ÷
i
x con lo que:
¿
>
+
=
u
i
x
i
R T y
¿
<
÷
=
u
i
x
i
R T .
(para los empates se asigna la media de los rangos)

Si u es la mediana cabe esperarse que
+
T y
÷
T sean aproximadamente iguales y, a su
vez, aproximadamente iguales a la mitad de la suma de todos los rangos, con lo que,
teniendo en cuenta que ( )n n n T T + = + + + = +
+ +
1 2 1
2
1
 , tanto
+
T como
÷
T deberí-
an estar alrededor de ( )n n + 1
4
1
.

Para n > 30, los estadísticos de Wilcoxon siguen aproximadamente una ley normal de

media =µ =
n n+1
( )
4
y

varianza = o
2
=
n n+1
( )
2n+1
( )
24

Cuando n s 30 los valores críticos están tabulados
Sesión 1. Contrastes no paramétricos 15

1.3. Contrastes para 2 muestras relacionadas

Estos contrastes tratan de ver si dos muestras pueden proceder de la misma población o
de poblaciones similares cuando las muestras están relacionadas.

Dos de los contrastes para esta situación son: el test de los signos y el test de los rangos
con signo de Wilcoxon, es decir, los que se utilizan en el caso de estar interesados en
contrastar la mediana para una sola muestra.

Para poder utilizar estos contrastes deberemos obtener, para cada caso, las diferencias
entre las dos muestras. Por tanto, contrastaremos como en el apartado anterior si la me-
diana de la diferencia es 0 ó no, es decir:
¹
´
¦
=
=
0 :
0 :
1
0
dif
dif
Me H
Me H



STATISTICA

Tanto si decidimos realizar un contraste de localización de una muestra como si tene-
mos dos muestras relacionadas la opción es Estadísticas / no-paramétricos / Compa-
rando dos muestras dependientes (variables)



Cuando queramos contrastar la mediana de una muestra deberemos crear una variable
que contenga, en todos los casos, dicho valor a contrastar.


EJERCICIO 1.7
¿Podemos aceptar que la mediana de la variable que mide el colesterol en 2007 es de
180 mg/dl?, es decir, ¿la mitad de los trabajadores del sector tiene un colesterol inferior
a 180 mg/dl y la otra mitad superior?

Primero debemos crear la variable que toma constantemente el valor 180. Vamos a lla-
marla valor_180, después aplicamos los test de los signos y de Wilcoxon a las variables
(relacionadas) colesterol_07 y valor_180


Curso avanzado de análisis de datos con Statistica Mayo de 2012








En ambos contrastes el p-valor nos indica que no podemos aceptar la hipótesis de que
la mediana sea de 180 mg/dl.


EJERCICIO 1.8
¿Podemos aceptar que el colesterol de los trabajadores del sector ha variado de 2006 a
2007?





Sesión 1. Contrastes no paramétricos 17




Los dos contrastes nos proporcionan un p-valor igual a 0 lo que nos lleva a aceptar que
ha habido cambios en el colesterol de los trabajadores del sector de 2006 a 2007.

EJERCICIO 1.9
¿Podemos aceptar que el nivel de glucosa de los trabajadores del sector ha variado de
2007 a 2008?

EJERCICIO 1.10
¿Podemos aceptar que el colesterol de los trabajadores “sedentarios” ha variado de 2007
a 2008?

EJERCICIO 1.11
¿Podemos aceptar que el nivel de glucosa de los trabajadores “no sedentarios” ha varia-
do de 2007 a 2008?




Curso avanzado de análisis de datos con Statistica Mayo de 2012

1.4. Contrastes para 2 muestras independientes

Estos contrastes tratan de estudiar si dos muestras pueden proceder de la misma pobla-
ción o de poblaciones similares cuando las muestras son independientes.
Los contrastes que implementa STATISTICA son: el test de Rachas de Wald-
Wolfowitz, el de Kolmogorov-Smirnov y el de Mann-Whitney-Wilcoxon,


1.4.1. Contraste de Rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz contrasta si es aleatorio el orden de aparición de
los valores de las dos muestras si éstos están ordenados (Ho).
Una racha es una secuencia de observaciones de la misma muestra, por ejemplo, la si-
guiente secuencia:
son 6 rachas
El número total de rachas de las muestras proporcionan un indicio de si hay o no aleato-
riedad en su aparición. Un número reducido de rachas (el caso extremo es 2) es indicio
de que los valores de la muestras no aparecen de forma aleatoria. También un número
excesivamente alto parece indicarlo.
Para tamaños de muestra suficientemente grande, es decir, cuando n
1
ó n
2
>20 (
1
n ta-
maño de la primera muestra y
2
n de la segunda) la variable que mide el número de
rachas se aproxima a una distribución normal de media:
1
2
2 1
2 1
+
+
=
n n
n n
µ
y varianza:
( ) ( ) 1
) 2 ( 2
2 1
2
2 1
2 1 2 1 2 1 2
÷ + +
÷ ÷
=
n n n n
n n n n n n
o


1.4.2. Contraste de Kolmogorov-Smirnov para 2 muestras

Este test se aplica a variables de tipo continuo y utiliza el estadístico de Kolmogorov-
Smirnov , comparando las frecuencias relativas acumuladas de las dos muestras.
El estadístico de Kolmogorov – Smirnov es ) ( ) ( sup
2 1
x F x F D
n n R x
÷ =
e

siendo ) (
1
x F
n
y ) (
2
x F
n
las frecuencias relativas acumulada observadas para las dos
muestras.
Si la hipótesis nula es cierta, la diferencia entre ) (
1
x F
n
y ) (
2
x F
n
no será muy grande por
lo que se rechaza Ho para valores grandes del estadístico.


1.4.3. Contraste de la U de Mann-Whitney-Wilcoxon

Este test se aplica a variables de tipo continuo y utiliza el estadístico de la U de Mann –
Whitney que mide, de entre el total de pares formados entre un elemento de cada mues-
tra, el número de ellos en los que el valor de la primera muestra es inferior al valor de la
segunda.
Sesión 1. Contrastes no paramétricos 19

Si aceptamos que la hipótesis nula de igualdad entre las muestras es cierta, la probabili-
dad de que un valor de la primera muestra sea inferior a otro de la segunda es ½. Si te-
nemos muestras de tamaño n
1
y n
2
, el total de pares formados entre un elemento de ca-
da muestra es
2 1
n n y, por tanto, el número esperado de pares en los que el valor de la
primera muestra es inferior al valor de la segunda es 2
2 1
n n . Rechazaremos H
0
para
valores excesivamente grandes o pequeños del estadístico.

Los valores críticos de este contraste aparecen en el Anexo (tabla T.4).
Además, si n
1
ó n
2
> 20, una generalización del Teorema del Límite Central nos per-
mite aproximar el estadístico U a una distribución Normal N( µ , o ) con

µ =
n
1
n
2
2
y

o
2
=
n
1
n
2
(n
1
+ n
2
+1)
12



STATISTICA

Para contrastar diferencias entre dos muestras independientes la opción es Estadísticas /
no-paramétricos / Comparando dos muestras independientes (grupos).


EJERCICIO 1.12
¿Podemos aceptar que existen diferencias según la actividad física en el nivel de gluco-
sa en el año 2007?





Curso avanzado de análisis de datos con Statistica Mayo de 2012








Vistos los p-valores, podemos aceptar que no hay diferencias significativas en el nivel
de glucosa en 2007 entre los sedentarios y los no sedentarios, ni siquiera en cuanto a la
dispersión.

EJERCICIO 1.13
¿Podemos aceptar que existen diferencias según la actividad física en el nivel de coles-
terol en el año 2006?

EJERCICIO 1.14
¿Podemos aceptar que existen diferencias entre operarios y supervisores en el nivel de
colesterol en el año 2008?

EJERCICIO 1.15
¿Podemos aceptar que existen diferencias entre operarios y administrativos en el nivel
de glucosa en el año 2008?



Sesión 1. Contrastes no paramétricos 21

1.5. Contrastes para k muestras relacionadas

Estos contrastes tratan de ver si más de dos muestras pueden proceder de la misma po-
blación o de poblaciones similares cuando las muestras están relacionadas.

Los contrastes que implementa STATISTICA son: el de Friedman y el de Kendall.


1.5.1. Test de Friedman

Este contraste, junto con el de Kendall, se utiliza para detectar posibles diferencias entre
más de 2 muestras relacionadas siendo la hipótesis nula la no existencia de diferencias
entre las k muestras relacionadas.
Este contraste utiliza los rangos
ij
R obtenidos de ordenar los k valores del caso i que
por tanto variarán de 1 a k.
Después, para cada muestra, se obtiene el rango medio:
n
R
R
n
i
ij
j
¿
=
=
1

Si las muestras son similares es esperable que la diferencia entre estos rangos medios no
sea muy grande. Para esto se utiliza el estadístico de Friedman que sigue una distribu-
ción asintótica
2
_ con k-1 grados de libertad y se rechaza la hipótesis nula para valores
grandes del estadístico.


1.5.2. Test de Kendall

Este contraste se basa en el coeficiente de concordancia de Kendall que sirve para anali-
zar el grado de coincidencias entre los k conjuntos de rangos.

Diremos que la concordancia es máxima si para los n casos cada muestra ha obtenido el
mismo rango. Por el contrario, diremos que la concordancia es mínima si se tienen ran-
gos distintos.
Teniendo en cuenta qué ocurre con la suma de rangos para cada sujeto en estas situacio-
nes extremas se construye el coeficiente de concordancia de Kendall que toma valores
entre 0 y 1 (0 para la ausencia de concordancia, 1 para la total concordancia).

La hipótesis nula de no existencia de diferencias entre las k situaciones es la misma que
ausencia de concordancia entre los rangos de los casos, por lo que la rechazaremos para
valores del coeficiente significativamente distintos de 0.

Además, este coeficiente se puede transformar en el estadístico de Friedman por lo que
estamos ante el mismo contraste.


STATISTICA

Para contrastar diferencias entre dos muestras relacionadas la opción es Estadísticas /
no-paramétricos / Comparando muestras dependientes múltiples (variables)

Curso avanzado de análisis de datos con Statistica Mayo de 2012

EJERCICIO 1.16
¿Podemos aceptar que existen diferencias en el nivel de glucosa de los trabajadores en
los 3 años?





Atendiendo al p-valor y al coeficiente de concordancia de Kendall podemos concluir
que las muestras no son similares y que hay una alta concordancia entre los rangos.

EJERCICIO 1.17
¿Podemos aceptar que existen diferencias en el nivel de nivel de colesterol de los traba-
jadores en los 3 años?

EJERCICIO 1.18
¿Podemos aceptar que existen diferencias en el nivel de nivel de glucosa de los supervi-
sores en los 3 años?

Sesión 1. Contrastes no paramétricos 23

1.6. Contrastes para k muestras independientes

Estos contrastes tratan de ver si más de dos muestras pueden proceder de la misma po-
blación o de poblaciones similares cuando las muestras son independientes.

Los contrastes que implementa STATISTICA son: el de la mediana y el de Kruskall-
Wallis


1.6.1. Test de la mediana

La hipótesis nula de este contraste es que las k muestras proceden de poblaciones con la
misma mediana.

El procedimiento consiste en obtener la mediana conjunta de las muestras. Después ob-
tener, para cada muestra, el número de observaciones con valores inferiores o iguales a
la mediana y con valores superiores a la mediana. Con estas frecuencias se tiene una
tabla de doble entrada a la que se puede aplicar un test de la
2
_ .


1.6.2. Test de Kruskal-Wallis

Esta prueba es la generalización de la U de Mann – Whitney para más de 2 muestras
independientes.
En este contraste se obtienen los rangos de las observaciones de todas las muestras de
forma conjunta, posteriormente se calcula la suma de rangos de cada muestra. Si la
hipótesis nula de que las k muestras proceden de la misma población o de poblaciones
similares es esperable que las sumas de los rangos no sean muy distintos. El estadístico
utilizado es el que da nombre al contraste que sigue asintóticamente una distribución
2
_ con k-1 grados de libertad.

STATISTICA

Para contrastar diferencias entre dos muestras independientes la opción es Estadísticas /
no-paramétricos / Comparando muestras independientes múltiples (grupos)

EJERCICIO 1.19
¿Podemos aceptar que existen diferencias entre los distintos grupos de trabajadores en el
nivel de colesterol en 2007?


Curso avanzado de análisis de datos con Statistica Mayo de 2012






El test de la mediana utiliza el contraste de la
2
_ por lo que debe cumplir que la fre-
cuencia esperada para cada clase sea superior a 5. Se podría pasar por alto para supervi-
sores y administrativos con frecuencias esperadas cerca de 5 pero no para el grupo de
gerentes en el que son inferiores a 1. Además, Statistica no proporciona el p-valor para
el test de Kruskal-Wallis, podríamos obtenerlo utilizando la distribución
2
_ pero sólo
hay un gerente por lo que, en ese caso, la muestra es muy pequeña.
Si se cambian los grupos uniendo el de administrativos con el de gerentes, las muestras
ahora son de mayor tamaño, los contrastes quedan de la siguiente forma:





?
0,961
Sesión 1. Contrastes no paramétricos 25

Ambos test nos proporcionan un alto p-valor con lo que aceptamos que no existen dife-
rencias de colesterol en los 3 grupos de trabajadores en el año 2007.

EJERCICIO 1.20
¿Podemos aceptar que existen diferencias entre operarios, supervisores y administrati-
vos en el nivel de glucosa en 2006?, ¿y en el 2007 y 2008?



Curso avanzado de análisis de datos con Statistica Mayo de 2012

1.7. Contrastes para variables cualitativas

Estos contrastes tratan de analizar diferencias entre dos o más muestras procedentes de
variables cualitativas.


1.7.1. Test de Cochran

Este contraste es específico para variables dicotómicas con los mismos valores, en este
caso dos o más. Generalmente se utiliza para evaluar las variaciones de una variable
dicotómica medida en varias circunstancias, por ejemplo, la variación de n individuos
sometidos a k pruebas donde cada una de ellas sólo puede evaluarse como éxito o fra-
caso.
La hipótesis nula del contraste es que el número de repeticiones de uno de los valores es
el mismo en todas las muestras.
El estadístico Q de Cochran tiene la siguiente expresión:
( )
¿
¿
=
-
=
-
÷
÷ ÷
=
n
i
i
k
j
j
X X kn
X X k k
Q
1
2
1
2
) 1 (
siendo
¦
¹
¦
´
¦
-
-
muestra por éxitos de medio número el
muestra la en éxitos de número el
caso el en éxitos de número el
X
j X
i X
j
i

que sigue una distribución
2
_ con k-1 grados de libertad.
Se rechazará la hipótesis nula para valores excesivamente grandes del estadístico.

EJERCICIO 1.21
¿Podemos aceptar que el Índice de Masa Corporal de los trabajadores del sector ha va-
riado de 2006 a 2007?

En este caso, las variables son dicotómicas con los mismos valores por lo tanto un test
adecuado es el de Cochran:



El p-valor nos indica que no hay diferencias significativas en el IMC de los trabajadores
de 2006 a 2007.

EJERCICIO 1.22
¿Podemos aceptar que el Índice de Masa Corporal de los trabajadores del sector ha va-
riado de 2006 a 2008?

EJERCICIO 1.23
¿Podemos aceptar que existen diferencias en el IMC de los trabajadores sedentarios en
los 3 años?

Sesión 2.
ANÁLISIS DE VARIANZA


2.1. ANOVA básico

En la tabla siguiente se presentan los datos recogidos en un experimento realiza-
do en el departamento de psiquiatría de una universidad. Los investigadores estaban
interesados en el efecto del “tipo de información recibida” sobre la “susceptibilidad hip-
nótica”. Un total de 36 individuos fueron asignados a cuatro grupos (9 a cada uno), co-
rrespondientes a los cuatro tipos de información proporcionada: Activa programada,
activa, pasiva, y sin información (grupo control). Se aplicó a los sujetos la Escala de
Susceptibilidad Hipnótica de Stanford (ESHS). Valores más elevados indican mayor
susceptibilidad hipnótica.


Grupo 1
Información activa
programada
Grupo 2
Información activa
Grupo 3
Información pasiva
Grupo 4
Sin información
(Grupo control)
4 10 4 4
7 6 6 2
5 3 5 5
6 4 2 7
10 7 10 5
11 8 9 1
9 5 7 3
7 9 6 6
8 7 7 4


El análisis estadístico de estos datos irá destinado a averiguar si la puntuación
obtenida en la ESHS depende del tipo de información recibida. Dicho de otra manera,
nos preguntamos si existen diferencias significativas entre las puntuaciones de los cua-
tro grupos. La comparación de varios grupos respecto a una respuesta cuantitativa se
realiza mediante el llamado Análisis de la Varianza (suponiendo que se satisfagan razo-
nablemente las condiciones teóricas de aplicación, de las que hablaremos más adelante).
Dividiremos el análisis en fases.

Curso avanzado de análisis de datos con Statistica Mayo de 2012

2.1.1. Fase 1: Estudio descriptivo de los datos (gráfico y analítico)

Diagrama de dispersión (Gráficos>Diagramas de dispersión…) y gráfico de cajas
(Gráficos>Gráficos 2D>Diagramas de caja…)

Activa programada Activa Pasiva Sin información
Tipo de información
0
2
4
6
8
10
12
E
s
c
a
l
a

s
u
s
c
e
p
t
i
b
i
l
i
d
a
d

h
i
p
n
ó
t
i
c
a

Activa programada Activa Pasiva Sin información
Tipo de información
0
2
4
6
8
10
12
E
s
c
a
l
a

s
u
s
c
e
p
t
i
b
i
l
i
d
a
d

h
i
p
n
ó
t
i
c
a


Sesión 2. Análisis de la varianza 29

Estadísticos descriptivos (Estadísticas>Estadísticas/Tablas básicas, seleccionar “Es-
tadísticas descriptivas”, seleccionar la variable, activar un análisis “por grupo…”, en
la pestaña Avanzado seleccionar los estadísticos deseados)





2.1.2. Fase 2: Comparación global de las cuatro medias.

Las hipótesis a contrastar son

H
0
: µ
1
= µ
2
= µ
3
= µ
4

H
1
: No todas las medias son iguales

Utilizaremos un nivel de significación o = 0.05. Statistica nos proporciona los resulta-
dos siguientes (Estadísticas>Estadísticas/Tablas básicas, seleccionar “Análisis de
variancia ‘Breakdown’ & de una vía”, seleccionar las variables dependiente y de
agrupamiento, pulsar el botón “Análisis de variancia”, en la pestaña Descriptivos se
pueden solicitar para cada grupo los estadísticos que se deseen):



Como el p-valor del contraste p=0.0246 es inferior al nivel de significación ele-
gido, concluimos que la hipótesis nula no se sostiene, es decir, existen diferencias signi-
ficativas entre los cuatro grupos respecto a la variable susceptibilidad hipnótica.

Es posible que este contraste no tenga en si mismo demasiado interés para el
investigador, pero siempre merece la pena realizarlo porque entre los resultados aparece
un estadístico fundamental: la estimación de la varianza común a todos los grupos CM
in-
tra
= 5.028.


2.1.3. Fase 3: Intervalos de confianza para las medias de grupo.

Los intervalos de confianza para las medias de grupo ya habían sido obtenidos
en la Fase 1. Sin embargo, en el contexto de la comparación de los cuatro grupos, es
mejor calcular dichos intervalos utilizando la mejor estimación disponible de la varianza
común a las cuatro poblaciones (CM
intra
= 5.028). Para ello tenemos que seguir los si-
guientes pasos:

Curso avanzado de análisis de datos con Statistica Mayo de 2012

1) Ejecutamos Estadísticas/Análisis de variancia. Se abre la ventana Análisis de va-
riancia/Análisis de variancia multivariante generales(‘ANOVA/MANOVA’):



2) En Tipo de análisis seleccionamos Anál. de var. de una vía.
En Método de especificación seleccionamos Diálogo rápido de espec.
Pulsamos Aceptar. Se abre la ventana ‘ANOVA/MANOVA’ Anál. de var. de una
vía:



3) En la pestaña Menú básico, pulsamos el botón Variables. Se abre la ventana Selec.
var. dependientes y una variable predictora categórica (factor):


Sesión 2. Análisis de la varianza 31

4) En la lista de la izquierda seleccionamos la variable dependiente (la 2: pun-
tos_ESHS). En la lista de la derecha seleccionamos la variable de agrupamiento (la 1:
tipo_info). Pulsamos Aceptar. Volvemos a la ventana anterior. Pulsamos Aceptar. Se
abre la ventana Análisis de variancia Resultados 1:



5) En la pestaña Medias, pulsamos el botón Observado, no ponderado:



Curso avanzado de análisis de datos con Statistica Mayo de 2012

Aparece en nuestro libro de trabajo una nueva hoja con los intervalos que buscá-
bamos:






2.1.4. Fase 4: Cálculo de tamaños de efecto (effect sizes).

Para terminar nuestro Análisis de la Varianza básico, realizaremos algunas con-
sideraciones en relación con la llamada “magnitud (o tamaño) de efecto” (effect size).
Tanto en los estudios experimentales como en los observacionales, nos proponemos
investigar el efecto de un factor (variable explicativa o tratamiento) sobre una respuesta.
Sería importante, no sólo saber si el efecto observado en los datos es estadísticamente
significativo, sino también poder medir la “intensidad” del efecto del tratamiento sobre
la respuesta. La situación es análoga a la de medir el grado de asociación entre dos va-
riables. Es lo que hacemos, por ejemplo, con el conocido coeficiente de correlación li-
neal cuando factor y respuesta son cuantitativas continuas.

Si el factor se presenta en dos niveles y la respuesta es continua, podemos medir
el efecto del factor sobre la respuesta simplemente mediante la diferencia de medias de
grupo
2 1
x x ÷ . Es preferible, no obstante, calcular un tamaño de efecto estandarizado,
para lo cual dividimos la diferencia de medias por una estimación de la variabilidad de
las poblaciones:
comb
s
x x
g
2 1
÷
=

donde s
comb
representa una estimación “combinada” de la desviación tipica de ambas
poblaciones.

En un Análisis de Varianza, el factor se presenta en k niveles, y podemos reali-
zar este cálculo para cada pareja de medias de grupo, utilizando el cuadrado medio intra
(CM
intra
) como medida de variabilidad:

2 / 1
int
) (
ra
j i
ij
CM
x x
g
÷
=
(i,j = 1,...,k, i = j)

Esto es engorroso y difícil de interpretar, por lo que podríamos utilizar la máxi-
ma de estas cantidades, que corresponde, desde luego, a la diferencia entre las medias
de grupo más grande y más pequeña, y mide el máximo efecto observado en los datos:

Sesión 2. Análisis de la varianza 33

2 / 1
int
min max
) (
ra
CM
x x ÷
= o

Para nuestro experimento sobre susceptibilidad hipnótica tendríamos:

49 . 1
) 028 . 5 (
11 . 4 44 . 7
2 / 1
=
÷
= o

Una receta casera para interpretar el valor obtenido es la siguiente:

o “alrededor de” 0.25 : Tamaño de efecto “pequeño”
o “alrededor de” 0.75: Tamaño de efecto “mediano”
o “alrededor de” 1.25: Tamaño de efecto “grande”

Para nuestro ejemplo, concluiríamos, por tanto, que se ha observado un tamaño de efec-
to “grande”. Esta cantidad o no es proporcionada por Statistica, por lo que tendremos
que obtenerla “a mano”.

Un enfoque alternativo para medir la magnitud del efecto observado consiste en
calcular la desviación típica de las medias de grupo (unas medias de grupo muy simila-
res indicarían un pequeño tamaño de efecto):

2 / 1
2
) (
1
|
.
|

\
|
÷ =
¿
x x
k
s
i m


y estandarizarla respecto a CM
intra
:

2 / 1
int
) (
ra
m
CM
s
f =

Esta cantidad recibe el nombre de f de Cohen, y tampoco se puede obtener con
Statistica. Una receta casera para su interpretación es:

f “alrededor de” 0.10: Tamaño de efecto “pequeño”
f “alrededor de” 0.25: Tamaño de efecto “mediano”
f “alrededor de” 0.40: Tamaño de efecto “grande”

Para nuestro experimento sobre susceptibilidad hipnótica tendríamos:

f = 1.235/(5.028)
1/2
= 0.55,

concluyendo, de nuevo, que se ha observado un tamaño de efecto grande.


Curso avanzado de análisis de datos con Statistica Mayo de 2012

Una medida de tamaño de efecto que podemos obtener directamente con Statis-
tica es la llamada q
2
(eta cuadrado). No es más que la proporción que representa la
suma de cuadrados entre dentro de la suma de cuadrados total (es el equivalente del
coeficiente de determinación en regresión):

total
entre
SC
SC
=
2
q

Esta medida tomará valores entre 0 y 1, siendo la magnitud del efecto tanto ma-
yor cuanto más nos acerquemos a 1. En nuestro ejemplo se obtiene:

q
2
= 53.861/214.750 = 0.2508

proporción baja que indica un efecto de pequeña magnitud (esta aparente contradicción
nos recuerda que los distintos métodos disponibles no son matemáticamente equivalen-
tes, y pueden conducir a resultados poco concluyentes).

Para obtener q
2
con Statistica debemos proceder como sigue:

En la ventana Análisis de variancia Resultados 1, obtenida en el punto 4 de la
Fase 3 anterior, pulsamos el botón Tamaño de los efectos. Obtenemos una nueva hoja
en nuestro libro de trabajo, que contiene, entre otros resultados, el valor de q
2
:



Además de q
2
, es posible utilizar también q, que es la raiz cuadrada positiva de
q
2
(el equivalente del coeficiente de correlación en regresión).

Aunque sea proporcionada directamente por Statistica (y otros programas esta-
dísticos), su uso no está especialmente recomendado, debido sobre todo a que tiende a
sobreestimar el valor del correspondiente parámetro poblacional. En su lugar, podemos
utilizar e
2
(omega cuadrado), que corrige el sesgo positivo de q
2
. Viene dada por:

Intra Total
Intra Entre
CM SC
CM k SC
+
÷ ÷
=
) 1 (
2
e



donde:

Sesión 2. Análisis de la varianza 35

SC
Entre
: Suma de cuadrados entre grupos
SC
Total
: Suma de cuadrados total
CM
Intra
: Cuadrado medio dentro de grupos
k: número de grupos que se están comparando


Una regla casera para interpretar el valor de e
2
es la siguiente:

e
2
“alrededor de” 0.01: Tamaño de efecto “pequeño”
e
2
“alrededor de” 0.06: Tamaño de efecto “mediano”
e
2
“alrededor de” 0.15: Tamaño de efecto “grande”

En nuestro ejemplo se obtiene:
176 . 0
028 . 5 750 . 214
) 028 . 5 ( 3 861 . 53
2
=
+
÷
= e
lo que indica que estamos ante un efecto grande.

Muchos autores desaconsejan utilizar medidas de magnitud de efecto en el con-
texto de la comparación global de más de dos medias, ya que resultan difíciles de inter-
pretar: ¿En qué consiste el efecto? ¿Por qué es grande? Estas preguntas no siempre son
fáciles de responder.


EJERCICIO 2.1

Realizar un ANOVA básico para el siguiente experimento.

En la tabla siguiente se presentan los datos recogidos en un experimento realiza-
do en el departamento de medicina de una universidad. Los investigadores estaban inte-
resados en la efectividad de distintos tratamientos para la reducción de la presión san-
guínea. Un total de 20 individuos con diagnóstico de hipertensión fueron asignados a
cuatro grupos (5 a cada uno), correspondientes a las cuatro modalidades de tratamiento
consideradas: Fármacos, biofeedback, dieta, y una combinación de todos ellos. La va-
riable respuesta medida es la presión sanguínea sistólica después de dos semanas de
tratamiento. Valores más elevados indican menor eficacia del tratamiento.

Grupo 1
Fármacos
Grupo 2
Biofeedback
Grupo 3
Dieta
Grupo 4
Combinación
84 81 98 91
95 84 95 78
93 92 86 85
104 101 87 80
80 108 94 81

Curso avanzado de análisis de datos con Statistica Mayo de 2012

2.2. Comparación de grupos específicos

Generalmente no interesa únicamente realizar una comparación global de los k
grupos en consideración, sino que alguna de las preguntas de investigación hace refe-
rencia a alguna comparación específica entre ellos. Supongamos, por ejemplo, que se
están comparando cuatro grupos definidos por distintos tratamientos: sin tratamiento,
con tratamiento 1, con tratamiento 2, y con tratamiento 3. Una pregunta interesante sería
la de si es mejor tratar (con cualquiera de los tres tratamientos) que no tratar. Para res-
ponder a esta pregunta es necesario comparar el grupo “sin tratamiento” con el grupo
“con tratamiento” (que está formado por los otros tres grupos). También podría intere-
sarnos saber, por ejemplo, si el tratamiento 1 es mejor que el tratamiento 3. Estas pre-
guntas tienen sentido al margen de que un test global de todos los grupos haya resultado
significativo o no. De hecho, es perfectamente válido abordarlas directamente, sin nece-
sidad de realizar dicho test global (excepto, como ya hemos mencionado, para estimar la
varianza común a todos los grupos: CM
intra
).

Además, desde un punto de vista conceptual y metodológico es necesario que
comprendamos la diferencia entre dos tipos de comparaciones entre grupos específicos:
las planificadas de antemano y las sugeridas por los datos. A veces se engloban ambas
bajo la denominación de comparaciones “a posteriori” (después de obtener un resultado
global significativo), aunque se pueden realizar antes de, o incluso en lugar de, la com-
paración global. Vamos a empezar a fijar ideas sobre un ejemplo.

Un equipo de psicólogos de la educación de una universidad está investigando la
influencia de las recompensas sobre el aprendizaje de los niños (de ambos sexos). En
cuatro grupos, de cinco niños cada uno, aplica 4 niveles de recompensa: Constante
(100%), frecuente (66%), infrecuente (33%), e inexistente (0%). La variable respuesta
es el número de intentos para resolver un rompecabezas. Los datos recogidos se presen-
tan en la tabla siguiente:


Nivel de recompensa
Constante
(100%)
Frecuente
(66%)
Infrecuente
(33%)
Inexistente
(0%)
12 9 15 17
13 10 16 18
11 9 17 12
12 13 16 18
12 14 16 20


La comparación global de estos cuatro grupos mediante el Análisis de la Varian-
za proporciona una estimación de la varianza común CM
intra
= 3.8750 con N – k = 20 –
4 = 16 grados de libertad. El p-valor del contraste vale p = 0.0003, por lo que se rechaza
la hipótesis nula, y se concluye que existen diferencias significativas entre los cuatro
grupos, es decir, se ha detectado en las muestras observadas un efecto significativo del
nivel de recompensa sobre el ritmo de aprendizaje de los niños.

Además de (o en lugar de) realizar la comparación global de los cuatro grupos,
algunas preguntas que podrían interesar son:

Sesión 2. Análisis de la varianza 37

a) ¿Una recompensa constante produce un aprendizaje más rápido que una frecuente,
infrecuente o inexistente?
b) ¿Una recompensa frecuente produce un aprendizaje más rápido que una infrecuente o
inexistente?
c) ¿Una recompensa infrecuente produce un aprendizaje más rápido que una inexisten-
te?
Si denotamos por µ
1
(constante), µ
2
(frecuente), µ
3
(infrecuente) y µ
4
(inexisten-
te) las medias poblacionales correspondientes a cada nivel de recompensa, estas pregun-
tas pueden ser contestadas contrastando las siguientes hipótesis:

Pregunta H
0
H
1

a
3
4 3 2
1
µ µ µ
µ
+ +
=
3
4 3 2
1
µ µ µ
µ
+ +
=
b
2
4 3
2
µ µ
µ
+
=
2
4 3
2
µ µ
µ
+
=
c
4 3
µ µ =
4 3
µ µ =

En todos los casos las hipótesis nulas establecen que cierta combinación lineal
de las medias poblacionales vale cero. Además, los coeficientes de dichas combinacio-
nes lineales suman cero. Una combinación lineal de las medias poblacionales con coefi-
cientes de suma cero recibe el nombre de “contraste”. En general, un contraste viene
dado por:
k k
k
i
i i
c c c c µ µ µ µ ¢ + + + = =
¿
=

2 2 1 1
1

con
0
2 1
1
= + + + =
¿
=
k
k
i
i
c c c c 

Para evitar manejar cifras redondeadas, conviene utilizar coeficientes enteros. Para
ello podemos multiplicar todos los coeficientes de un contraste por una constante
apropiada. Los coeficientes de los contrastes asociados con nuestras hipótesis son:

Pregunta Coeficientes Coeficientes enteros
a |
.
|

\
|
÷ ÷ ÷
3
1
3
1
3
1
1 ( ) 1 1 1 3 ÷ ÷ ÷
b |
.
|

\
|
÷ ÷
2
1
2
1
1 0 ( ) 1 1 2 0 ÷ ÷
c ( ) 1 1 0 0 ÷ ( ) 1 1 0 0 ÷



Para obtener las correspondientes pruebas de significación con Statistica segui-
remos los siguientes pasos:

Curso avanzado de análisis de datos con Statistica Mayo de 2012

1) Repetir los pasos de la Fase 3 anterior (apartado 2.1.3, pag. 29) hasta el punto 4, en el
que se abre la ventana Análisis de variancia Resultados 1. Activar la pestaña Compa-
raciones:



2) Pulsar el botón Contrastes para medias de mín. cuad. Se abre la ventana Especifi-
car contrastes para este factor. Introducir los coeficientes de los contrastes por co-
lumnas, tal como se indica (sólo se pueden encargar tres de una vez). Pulsar Aceptar.
Regresamos a la ventana anterior.



3) Pulsar el botón Calcular. Aparecen tres nuevas hojas en nuestro libro de trabajo. En
la segunda de ellas aparecen los resultados de los contrastes de hipótesis:


Sesión 2. Análisis de la varianza 39




Ahora podemos responder a nuestras preguntas:

Pregunta a: Si, una recompensa constante produce un aprendizaje significativamente
más rápido (media 12 intentos) que una recompensa frecuente, infrecuente
o inexistente (media 14.67 intentos), ya que
p-valor = 0.0184 < 0.05
y rechazamos H
0
.

Pregunta b: Si, una recompensa frecuente produce un aprendizaje significativamente
más rápido (media 11 intentos) que una recompensa infrecuente o inexis-
tente (media 16.5 intentos), ya que
p-valor = 0.0001 < 0.0005
y rechazamos H
0
.

Pregunta c: No, una recompensa infrecuente no produce un aprendizaje significativa-
mente más rápido (media 16 intentos) que una recompensa inexistente
(media 17 intentos), ya que
p-valor = 0.4336 > 0.05
y aceptamos H
0
.


Obsérvese que Statistica proporciona intervalos de confianza para los contrastes
considerados, los cuales vienen dados por la expresión:

| | ¢ ¢ ¢
o o
  
e s t IC
k N 2 / ; 1
) (
÷ ÷
± =


Los grados de libertad de la abscisa t a utilizar en el intervalo son los asociados
con la estimación de la varianza común a todos los grupos (CM
intra
= 3.8750), que son
en nuestro ejemplo N – k = 20 – 4 = 16. Tenemos a mano estos resultados en la tercera
del grupo de tres hojas que acabamos de incorporar a nuestro libro de trabajo:



Curso avanzado de análisis de datos con Statistica Mayo de 2012

Si, en la misma ventana (Análisis de variancia Resultados 1), pulsamos el bo-
tón Exhibir medias de mín. cuad., aparecerá una nueva hoja en el libro de trabajo que
contiene las medias de grupo, las cuales viene bien tener a mano a la hora de las inter-
pretaciones:





Intervalo para el contraste correspondiente a la pregunta a:

) 534 . 1 , 466 . 14 ( ) 050 . 3 )( 12 . 2 ( 8 ) (
1 95 . 0
÷ ÷ = ± ÷ = ¢ IC
(las pequeñas diferencias respecto al resultado proporcionado por Statistica se deben a
los redondeos)

Debemos estar atentos al hecho de que es preciso dividir por 3 este intervalo pa-
ra recuperar la escala original de los datos:

) 511 . 0 , 822 . 4 ( ) 3 / (
1 95 . 0
÷ ÷ = ¢ IC

Interpretación: Para un nivel de confianza del 95%, la diferencia en número de
intentos entre los niños que reciben una recompensa constante y los que reciben una
recompensa frecuente, infrecuente o inexistente se sitúa entre –4.82 y –0.51.


Intervalo para el contraste correspondiente a la pregunta b:

) 429 . 6 , 571 . 15 ( ) 156 . 2 )( 12 . 2 ( 11 ) (
2 95 . 0
÷ ÷ = ± ÷ = ¢ IC

Dividiendo por 2 obtenemos el intervalo en la escala original de los datos:

) 215 . 3 , 785 . 7 ( ) 2 / (
1 95 . 0
÷ ÷ = ¢ IC

Interpretación: Para un nivel de confianza del 95%, la diferencia en número de
intentos entre los niños que reciben una recompensa frecuente y los que reciben una
recompensa infrecuente o inexistente se sitúa entre –7.79 y –3.22.




Sesión 2. Análisis de la varianza 41

Intervalo para el contraste correspondiente a la pregunta c:

) 639 . 1 , 639 . 3 ( ) 245 . 1 )( 12 . 2 ( 1 ) (
3 95 . 0
÷ = ± ÷ = ¢ IC

Este intervalo ya está expresado directamente en la escala original de los datos.

Interpretación: Para un nivel de confianza del 95%, la diferencia en número de
intentos entre los niños que reciben una recompensa infrecuente y los que no reciben
ninguna recompensa se sitúa entre –3.64 y 1.64.

Obsérvese que este intervalo contiene el valor 0, hipótesis que no ha podido ser
rechazada, mientras que los dos intervalos anteriores no contenían el valor 0, y tal hipó-
tesis fue rechazada.


EJERCICIO 2.2

En la sección de traumatología de un hospital se ha realizado una intervención
qirúrgica en la rodilla a 24 varones entre 18 y 30 años. Interesa investigar la relación
entre el estado de forma física previo a la intervención (por debajo de la media, en la
media, por encima de la media) y el tiempo (días) requerido para completar con éxito la
rehabilitación postquirúrgica mediante fisioterapia. Los datos recogidos se presentan en
la tabla siguiente:

Estado de forma física previo
Por debajo de
la media
En la media
Por encima de
la media
29 30 26
42 35 32
38 39 21
40 28 20
43 31 23
40 31 22
30 29
42 35
29
33


Ayuda al equipo de investigación a responder a las siguientes cuestiones:
a) ¿Los pacientes por encima de la media completan su fisioterapia más deprisa
que los demás pacientes?
b) ¿Los pacientes en la media completan su fisioterapia más deprisa que los pa-
cientes por debajo de la media?
c) ¿Los pacientes en la media completan su fisioterapia más despacio que los
pacientes por encima de la media?


Curso avanzado de análisis de datos con Statistica Mayo de 2012

2.3. Ajuste del nivel de significación en comparaciones múltiples.

Como sabemos, cuando se realizan múltiples pruebas de significación para un
nivel dado o, el nivel de significación global para el conjunto de todas las pruebas pue-
de ser bastante más elevado que dicho o. Dado que el nivel de significación es una pro-
babilidad de error (el error de tipo I: rechazar una hipótesis nula cierta, es decir, concluir
que existe una diferencia cuando en realidad no existe), es importante mantenerlo en
niveles aceptables. En la siguiente tabla se presentan, para distintos valores del número
de pruebas realizadas (al nivel 0.05), la probabilidad de cometer algún error y el número
esperado de errores.

Nº de pruebas
n
Probabilidad de
algún error
1 - (1 - 0.05)
n

Nº esperado de
errores
0.05n
1 0.05 0.05
5 0.23 0.25
10 0.40 0.50
15 0.54 0.75
20 0.64 1.00
25 0.72 1.25

Vamos a ver en este apartado algunas de las técnicas disponibles en Statistica
para abordar este problema. La idea básica es la de controlar o, no al nivel de cada
prueba individual, sino al nivel del experimento completo. Sin embargo, las cosas toda-
vía se complican un poquito más si tenemos en cuenta que se pueden plantear dos tipos
de pruebas: las pruebas planificadas de antemano y las pruebas post hoc (a poste-
riori).

Una prueba planificada de antemano es aquella que el investigador ha decidido
realizar antes de examinar los datos de su experimento. Llamadas algunas veces pruebas
a priori, emanan de las teorías o la experiencia del investigador, y forman parte de una
estrategia de análisis de datos denominada confirmatoria. Por su parte, una prueba post
hoc se plantea después de observar los resultados del experimento. Vienen sugeridas por
los datos, y forman parte de una estrategia de análisis denominada exploratoria.

Planteemos una situación hipotética con el fin de entender mejor las implicacio-
nes de estas dos clases de pruebas. Dos investigadores realizan un experimento con cua-
tro grupos: A, B, C y D. El investigador 1, antes de realizar el experimento plantea la
siguiente hipótesis, que desea poner a prueba para un nivel de significación o = 0.05:
2 2
4 3 2 1
µ µ µ µ +
=
+

El investigador 2 no posee inicialmente ninguna hipótesis. Se realiza el experi-
mento y se obtienen las siguientes medias de grupo:

Grupo
A B C D
2.0 1.5 5.0 6.0

A la vista de estos resultados, el investigador 2 decide plantear la siguiente hipótesis,
que también desea poner a prueba para un nivel de significación o = 0.05:
Sesión 2. Análisis de la varianza 43

2 2
4 3 2 1
µ µ µ µ +
=
+

¿Están planteando ambos investigadores la misma hipótesis? Supongamos que se hubie-
ran obtenido otras medias de grupo diferentes:

Grupo
A B C D
2.0 5.0 1.5 6.0

¿Cambiarían en algo los análisis planteados por nuestros investigadores? El investiga-
dor 1 tenía una hipótesis independiente de los resultados del experimento y seguirá in-
sistiendo en poner a prueba:
2 2
4 3 2 1
µ µ µ µ +
=
+

El investigador 2, que no partía de ninguna hipótesis previa, a la vista de los nuevos
resultados posiblemente plantearía la hipótesis:
2 2
4 2 3 1
µ µ µ µ +
=
+

La elección del investigador 2 viene determinada por el orden de las medias de grupo.
La hipótesis que plantea es, en realidad:
2 2
1 max max 1 min min ÷ +
+
=
+ µ µ µ µ

Supongamos que la hipótesis nula es cierta, y que las diferencias entre las medias de
grupo se deben únicamente al azar. El investigador 1 está asumiendo realmente un ries-
go del 5%, mientras que el investigador 2 está utilizando en contra de la hipótesis nula
la variabilidad aleatoria de los datos, y su probabilidad de cometer un error de tipo I
puede ser mucho mayor que 0.05. En términos más técnicos, las distribuciones muestra-
les asociadas con ambas hipótesis son muy diferentes.

Importante: La idea que debe quedar clara en este punto es que ambos tipos de pruebas
se enfrentan al problema de las comparaciones múltiples, pero las pruebas post hoc se
enfrentan además al problema de estar capitalizando diferencias debidas al azar. Vea-
mos algunos de los métodos disponibles en Statistica (y alguno no disponible) para
abordar estos dos tipos de situaciones.


2.3.1.-Métodos para pruebas planificadas de antemano.

Supongamos que se dispone de un conjunto de contrastes planificados de ante-
mano. En este caso no tenemos que preocuparnos por el papel del azar en la determina-
ción de nuestros contrastes. Sólo tenemos que preocuparnos de que la probabilidad de
error esté controlada globalmente para el conjunto de nuestros contrastes. Disponemos
para ello de la llamada “Corrección de Bonferroni”.


Corrección de Bonferroni

Curso avanzado de análisis de datos con Statistica Mayo de 2012

Si planteamos realizar c contrastes, manteniendo el nivel de significación global
en un valor o
g
dado, el método de Bonferroni consiste en realizar cada prueba indivi-
dual con un nivel de significación o = o
g
/c. Generalmente elegiremos o
g
= 0.05, y, por
tanto, tendremos o = 0.05/c. La opción “Bonferroni” del Statistica sólo es útil si esta-
mos interesados en realizar todas las comparaciones dos a dos. En otro caso deberemos
aplicar la corrección manualmente.


Corrección de Dunn-Sidák

Este método no está disponible en Statistica, por lo que si nos interesa debere-
mos aplicarlo manualmente. Consiste en realizar cada prueba individual con un nivel de
significación dado por
c
g
1
) 1 ( 1 o o ÷ ÷ =
Habitualmente elegiremos o
g
= 0.05, con lo que se tendrá:
c
1
) 95 . 0 ( 1÷ = o
Suele argumentarse a favor de la corrección de Dunn-Sidák, que la de Bonferro-
ni es demasiado conservadora, pero en la práctica ambas conducen a resultados bastante
parecidos.

EJEMPLO:

Se está investigando el efecto sobre la memoria de un entrenamiento en estrate-
gias. Para ello se divide una muestra de niños de 6 años de edad en un grupo que recibe
el entrenamiento y otro grupo de control. Se divide análogamente una muestra de niños
de 8 años de edad. La variable respuesta es el resultado obtenido en una prueba de me-
moria (a mayor puntuación, mejor memoria). Los investigadores se plantean de antema-
no las tres preguntas siguientes:
a) ¿Existen diferencias, respecto a la memoria, entre el grupo entrenado y el gru-
po de control, en niños de 6 años de edad?
b) ¿Existen diferencias, respecto a la memoria, entre el grupo entrenado y el
grupo de control, en niños de 8 años de edad?
c) ¿Existen diferencias, respecto a la memoria, entre los niños entrenados y los
niños control, al margen de su edad?

Cada una de estas preguntas corresponde a un contraste cuyos coeficientes vie-
nen dados en la siguiente tabla:


Niños de 6 años Niños de 8 años
Pregunta
Entrenado Control Entrenado Control
a 1 -1 0 0
b 0 0 1 -1
c 0.5 -0.5 0.5 -0.5


Una vez realizado el estudio se obtuvieron los siguientes datos:
Sesión 2. Análisis de la varianza 45


Niños de 6 años Niños de 8 años
Entrenado Control Entrenado Control
6 5 6 3
5 3 9 7
7 1 9 6
5 5 4 3
3 3 5 4
4 4 6 7


Al realizar el análisis de la varianza con el Statistica obtenemos un resultado no
significativo:




Si concluyéramos que no existen diferencias entre los cuatro grupos y diéramos
por finalizado el análisis, nuestras preguntas de investigación quedarían sin respuesta.
Un resultado global no significativo no implica que cualquier comparación particular
entre los grupos vaya a resultar no significativa. Debemos, pues, continuar nuestro aná-
lisis realizando las pruebas de significación para los tres contrastes de interés. Los resul-
tados son los siguientes (sin aplicar ninguna corrección por comparaciones múltiples):





Hemos obtenido un resultado significativo para el contraste 3, que corresponde a
la comparación entre niños entrenados y niños control al margen de la edad.

En Statistica podemos acceder a la opción “Bonferroni” siguiendo los siguien-
tes pasos:







1) Repetir los pasos de la Fase 3 anterior (apartado 2.1.3, pag. 29) hasta el punto 4, en el
que se abre la ventana Análisis de variancia Resultados 1:
Curso avanzado de análisis de datos con Statistica Mayo de 2012





2) Pulsar el botón Más resultados. La ventana pasa a ofrecer un mayor número de pes-
tañas y opciones. Activar la pestaña Post-hoc:



3) Pulsar el botón Bonferroni. Aparecerá en nuestro libro de trabajo una nueva hoja con
los p-valores de las comparaciones dos a dos de los cuatro grupos:
Sesión 2. Análisis de la varianza 47





Resulta, pues, que esta opción sólo nos resulta útil si las comparaciones en las
que estamos interesados son las de todas las parejas de medias. Además la corrección de
Dunn-Sidák no está disponible en ningún caso. Para nuestros tres contrastes las correc-
ciones hay que hacerlas manualmente. Veamos:

Estamos poniendo a prueba simultáneamente tres contrastes, de manera que te-
nemos c = 3. Para un nivel de significación global o
g
= 0.05, las fórmulas para las co-
rrecciones de Bonferroni y Dunn-Sidák proporcionan niveles de significación individua-
les:
Bonferroni o = 0.05/3 = 0.0167
Sidak o = 1 - (1 - 0.05)
1/3
= 0.0170

Ahora tenemos que comparar los p-valores obtenidos para nuestros contrastes con es-
tos niveles de significación corregidos, y declararlos significativos o no, según pro-
ceda, para el nivel global 0.05. Los tres p-valores son mayores que los alfas corregi-
dos, por lo que concluimos que ninguno de los tres es significativo al nivel global
0.05. Las respuestas a nuestras tres preguntas de investigación son tres noes.


2.3.2. Métodos para pruebas a posteriori sugeridas por los datos.

En principio las correcciones de Bonferroni y Dunn-Sidák no son apropiadas
para pruebas a posteriori, ya que controlan el problema de las comparaciones múltiples
pero no tienen en cuenta el problema de las comparaciones sugeridas por los datos. Sin
embargo, no es incorrecto utilizarlas para pruebas a posteriori en el caso particular de
que estemos interesados en todas las comparaciones entre parejas de medias. En este
caso se tendrá c = k(k - 1)/2.

A continuación indicamos las condiciones en las que están indicadas algunas de
las pruebas a posteriori disponibles en el Statistica.






Curso avanzado de análisis de datos con Statistica Mayo de 2012

Prueba DMS (Diferencia Significativa Mínima) de Fisher

Botón “Dif. sig. mín. (‘LSD’) de Fisher”

1) Estamos interesados en todas las comparaciones entre parejas de medias
2) La prueba global de la igualdad de las k medias ha resultado significativa
3) Tenemos un máximo de tres grupos.


Prueba de Tukey

Para grupos del mismo tamaño: Botón “Prueba de la dif. sig. hon. (‘HSD’) de Tukey”
Para grupos de tamaños desiguales: Botón “Prueba ‘HSD’ desigual N de Tukey”

1) Estamos interesados en la comparación entre las medias máxima y mínima
(para otras comparaciones entre medias esta prueba resulta conservadora).


Prueba de Dunnett

Botón “Dunnett” (especificar antes si queremos contrastes unilaterales o bilaterales, y
cuál es el grupo control)

1) Estamos interesados en la comparación de cada una de las medias con la me-
dia de un grupo control.
2) Los tamaños de grupo son iguales


Prueba S-N-K (Student-Newman-Keuls)

Botón “Newman-Keuls”

Es una modificación de la prueba de Tukey que tiene en cuenta la “distancia”
entre las medias a comparar (no sólo el orden). En realidad no controla el nivel de signi-
ficación global del experimento, por lo que no suele recomendarse su uso.

Sesión 3.
REGRESIÓN LINEAL MÚLTIPLE

En el fichero estudiantes.sta disponemos de información proporcionada por una institu-
ción educativa estadounidense referida a n = 24 alumnos. Concretamente, las puntuaciones obte-
nidas en lectura, escritura, matemáticas, ciencias y sociales.

Nuestro objetivo es el siguiente: construir un modelo lineal (modelo de regresión lineal
múltiple) que explique el comportamiento de lectura (Y, variable dependiente o explicada) a
partir de las k = 4 variables escritura, matemáticas, ciencias y sociales (X
1
, X
2
, X
3
, X
4
, varia-
bles independientes o explicativas). Cumplir dicho objetivo tendría una doble utilidad, la pro-
piamente explicativa, y la predictiva.

Para explicar de forma sencilla los fundamentos y herramientas de la regresión y familia-
rizarnos con STATISTICA, vamos a simplificar un poco el anterior problema, planteándonos
como objetivo construir un modelo lineal (modelo de regresión lineal simple) que explique el
comportamiento de lectura (Y, variable dependiente) a partir de escritura (X, variable indepen-
diente, es decir, k = 1). Posteriormente, estudiaremos el caso múltiple siguiendo el mismo es-
quema y prestando atención a las “novedades”.

3.1. Modelos de Regresión Simple
Al disponer de una única variable independiente puede sernos útil una representación grá-
fica por medio de un Gráfico de Dispersión. Con STATISTICA puede hacerse yendo a la opción
Gráficos/Diagramas de dispersión

Eligiendo como variable X, escritura, y como variable Y, lectura, en la pestaña Avan-
zado tenemos a nuestra disposición multitud de opciones; de momento nos fijamos (luego volve-
remos sobre algunas otras), en el tipo de ajuste:
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012































Seleccionando el LINEAL y pulsando en Aceptar, obtenemos:


Seleccionamos entre los disponibles el tipo de ajuste en el que estamos interesados:
LINEAL Y = B
0
+ B
1
X
LOGARÍTMICO
Y = B
0
+ B
1
Log(X)
POLINOMIO Y = B
0
+ B
1
X + B
2
X
2
EXPONENCIAL Y = B
0
e
B
1
X

Notas:
1) Por defecto el ordenador toma el orden 2 (cuadrático) en el ajuste polinomial y base
10 en el logarítmico. En la pestaña Opciones 2, podemos elegir mayores órdenes en el
primero (cúbico, bicuadrático o quíntico) o utilizar base e en el segundo.
2) Intuitivamente es fácil entender qué representa la curva de ajuste: es la que “más cer-
ca” está del conjunto de puntos entre las de su tipo. Hay muchas formas de medir dis-
tancias, y la más habitual –y la que emplea STATISTICA por defecto- es por mínimos
cuadrados. Otras posibilidades son: DIST. POND. POR MIN.
2
que pondera la fun-
ción de pérdida por 1/x
2
y EXP. NEG. POND. POR MIN.
2
pondera por e
-x
.
3) Las restantes opciones no ajustan una curva concreta sino la combinación de varias:
‘SPLINE’ construye polinomios de forma que pasen por todos los puntos.
LOWESS construye rectas de regresión entre puntos próximos.

Sesión 3. Regresión Lineal Múltiple. 51

Diagrama de dispersión de lectura contra escritura
Estudiantes 5v*24c
lectura =13,8833+0,7057*x
25 30 35 40 45 50 55 60 65 70
escritura
20
30
40
50
60
70
80
l
e
c
t
u
r
a


Y la impresión que proporciona el gráfico es que el modelo lineal
Y =
0
ˆ
B +
1
ˆ
B

X = 13’8833 + 0’7057

X
recoge cierta tendencia aunque no “es del todo” satisfactorio. Vamos a comprobarlo.

EJERCICIO 3.1
Dibuja la recta de regresión con las bandas de confianza y de regresión (las explicaremos luego).
EJERCICIO 3.2
Dibuja los diagramas con las otras posibilidades de ajuste.
Nota: ¿Por qué
0
ˆ
B ,
1
ˆ
B

en vez de B
0
, B
1
? Hay que tener en cuenta que los valores que acaba-
mos de calcular a partir de los datos de la muestra son sólo estimaciones de los desconocidos
parámetros poblacionales.

RECORDATORIO: INFERENCIA ESTADÍSTICA
Hasta ahora, lo único que hemos hecho ha sido describir el comportamiento de los 24 estu-
diantes de nuestra muestra. Supongamos que queremos ir más allá: buscamos generalizar, inferir
la información que hemos obtenido, para una población a la que representa la muestra. Esque-
máticamente:
1) Hemos obtenido una MUESTRA de 24 estudiantes.
2) Acabamos de describir la muestra:
Y = 13’8833 + 0’7057

X
3) Con la información obtenida en el paso anterior, ¿qué somos ca-
paces de inferir para toda la población? ¿es bueno o no el modelo
Y = 13’8833 + 0’7057 X? ¿nos dará buenas predicciones?
Nota: La primera condición que se tiene que cumplir para poder decir
algo fiable sobre una población a partir de una muestra, es que dicha
muestra sea representativa (respecto a la variable o variables de inte-
rés). Una forma de que así sea sería tomarla aleatoria. En todo lo que
sigue, consideraremos que la muestra ha sido obtenida aleatoriamente
dentro de la población que nos interesa estudiar.

POBLACIÓN
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Vamos a ver cómo decidir si el ajuste es bueno más allá de la subjetiva impresión propor-
cionada por el gráfico. Si nos fijamos, disponemos de:
Y
j
que son los valores observados de la puntuación en lectura
Ŷ
j
los valores pronosticados por el modelo, que podemos calcular sin más que sustituir
en la anterior ecuación los valores de X = escritura
y así, comparando los valores de Y
j
con los de Ŷ
j
podemos estudiar la bondad del modelo. Por
ejemplo, si calculamos:
SC
TOTAL
=
2
9
1
) ( Y Y
j
j
÷
¿
=
= 2411’333
SC
REGRESIÓN
=
2
9
1
)
ˆ
( Y Y
j
j
÷
¿
=
= 783’744
SC
RESIDUAL
=
2
9
1
)
ˆ
(
j
j
j
Y Y ÷
¿
=
= 1627’589
SC
TOTAL =
SC
REGRESIÓN +
SC
RESIDUAL
podemos definir:
R
2
= SC
REGRESIÓN
/
SC
TOTAL = 0’325

Notas importantes:
1) R
2
se dice coeficiente de determinación del modelo de regresión (lineal en este caso). Es
una estimación del coeficiente de determinación poblacional desconocido, al que es habi-
tual denotar
ρ
2
.

2) Es un parámetro que se calcula e interpreta igual, independientemente del modelo de re-
gresión que se esté estudiando.
3) Nos proporciona la proporción de variabilidad de la variable dependiente Y que es expli-
cada por la variable independiente X considerando el modelo de regresión (lineal en este
caso). En nuestro ejemplo, podemos concluir que (para la muestra) el modelo de regre-
sión lineal, considerando escritura como variable independiente, explica un 32’5% de la
variabilidad que existe en la variable lectura.
4) El coeficiente de determinación tiene algunas pegas y, para corregirlas, se define, a partir
de él, el R
2
ajustado.
Todos estos cálculos (y otros que iremos comentando), nos los hace STATISTICA acudiendo
a la opción Estadísticas/Regresión múltiple donde eligiendo como variable dependiente lectu-
ra y como independiente escritura, haciendo clic en Aceptar, obtenemos:
Sesión 3. Regresión Lineal Múltiple. 53








Además, el programa nos ha proporcionado los resultados de algunos contrastes de hipó-
tesis (inferencia estadística), para comprobar la bondad del anterior como modelo para toda la
población. Los vemos a continuación.

Y =
0
ˆ
B +
1
ˆ
B

X = 13’8833 + 0’7056*X
Resumen de la regresión para variable dependiente: lectura (Estudiantes
R =,57010979 R²=,32502517 R² ajustado =,29434450
F(1,22)=10,594 p<,00363 Error est. de la estima8,6012
N=24
Beta Err.est.
de Beta
B Err.est.
de B
t(22) nivel-p
Intersección
escritura
13,88326 10,22416 1,357887 0,188265
0,570110 0,175159 0,70565 0,21680 3,254813 0,003631
Análisis de varianci; Var.lectura (Estudiantes)
Efecto
Sumas de
Cuadrado
gl Media
Cuadrado
F nivel-p
Regresió
Residual
Total
783,744 1 783,7440 10,59381 0,003631
1627,589 22 73,9813
2411,333
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


3.2. Contrastes de Hipótesis en el Modelo de Regresión Lineal Simple

3.2.1. Contraste de regresión (Análisis de la Varianza):
Contrasta la bondad del modelo lineal para la población de la que proceden los datos de
la muestra. En términos del coeficiente de determinación poblacional sería:
H
0
÷ ρ
2
=0
H
1
÷ ρ
2
=0
Bajo ciertas condiciones teóricas, que enseguida indicaremos, este contraste se resuelve
construyendo una F de Snedecor y estudiando la significación alcanzada.
F = MC
REGRESIÓN
/
MC
RESIDUAL
donde
MC
REGRESIÓN
= SC
REGRESIÓN
/
GL
EXPLICADA
MC
RESIDUAL
= SC
RESIDUAL
/
GL
RESIDUAL
Notas:
1) MC = Media Cuadrática. GL = Grados de Libertad.
2) En general GL
REGRESIÓN
= número de variables independientes (k =1 en nuestro caso) y
GL
RESIDUAL
= n – k – 1 = 22.
3) Así, para el problema que estamos estudiando, como el valor del estadístico F = 10’59
nos proporciona un p-valor = 0’003631, rechazamos H
0
.

3.2.2. Contraste sobre los coeficientes del modelo
En este caso, la pendiente de la recta,
H
0
÷ B
1
= 0

H
1
÷ B
1
= 0
tomándose la decisión a partir de una t de Student con n – 2 grados de libertad, obteniéndose
t = 3’2448, p-valor = 0’003631.
y la constante,
H
0
÷ B
0
= 0

H
1
÷ B
0
= 0
que, bajo ciertas condiciones teóricas, nos lleva a tomar la decisión a partir de una t de Student
con n – 2 grados de libertad. En nuestro caso, t = 1’3579, p-valor = 0’188.
Nota: En el caso de la regresión lineal simple, el contraste sobre B
1
es equivalente al contraste
de regresión (¡hay regresión lineal si tenemos una recta con su correspondiente pendiente!).
EJERCICIO 3.3
Interpreta los resultados obtenidos en los contrastes de los coeficientes.
Sesión 3. Regresión Lineal Múltiple. 55

3.3. Condiciones teóricas del Modelo de Regresión Lineal Simple
El modelo de regresión que acabamos de ver necesita del cumplimiento de ciertas condi-
ciones:
1) Sólo la variable dependiente Y se trata como aleatoria. La variable independiente X se su-
pone dada al observar Y.
2) Las observaciones de Y, (Y
1
, Y
2
,...,Y
n
) han de ser independientes.
3) Hipótesis estructural del modelo. Para cada individuo de la población se cumple que
Y = B
0
+ B
1
X + U siendo U una perturbación aleatoria
Es decir, según nuestro modelo contamos con (X
1
, X
2
,...,X
n
) valores dados, las observaciones
(Y
1
, Y
2
,...,Y
n
) y (U
1
, U
2
,...,U
n
) –donde U
j
=Y
j-
Ŷ
j
se dicen residuos- de dos variables aleatorias Y
y U, y dos parámetros B
0
y B
1
desconocidos.
4) E[Y]= B
0
+ B
1

X
5) Condición de homoscedasticidad, que supone que Var[Y] es constante respecto de X.
6) La variable Y sigue una distribución normal.

Notar: las condiciones anteriores podrían haberse escrito de forma equivalente en términos de U
(y de las correspondientes observaciones de los residuos). En particular:

2) Las observaciones de U, (U
1
, U
2
,...,U
n
) han de ser independientes.
4) E[U]= 0
5) Condición de homoscedasticidad, que supone que Var[U] es constante respecto de X.
6) La variable U sigue una distribución normal.


Análisis de los residuos
Para comprobar las condiciones teóricas del modelo de regresión se realiza un estudio de
los residuos, es decir, de los valores U
j
=Y
j-
Ŷ
j
, que son una muestra de la variable U. Con
herramientas de Inferencia Estadística (gráficos, contrastes), hay que verificar:
- que son independientes,
- que provienen de una población normal,
- que la esperanza (media) es 0,
- que cumplen la hipótesis de homoscedasticidad.

STATISTICA nos permite hacer un primer acercamiento a estas cuestiones desde la ven-
tana en la que estamos, yendo a la pestaña Residuales/prueba de hipótesis/predicción y
haciendo clic en el botón Realizar análisis de desempeño.

Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Nos fijamos en las pestañas Menú básico, Residuales y Diagramas de dispersión.



En la primera pediremos un Diagrama normal de residuales, en la segunda el Histo-
grama de residuales y en la tercera el diagrama Predecidos vs. Residuales.
Diagrama de probabilidad normal de residuales
-20 -15 -10 -5 0 5 10 15 20
Residuale
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
V
a
l
o
r

n
o
r
m
a
l

e
s
p
e
r
a
d
o
Distribución de
Normal esperado
-25 -20 -15 -10 -5 0 5 10 15 20
0
1
2
3
4
5
6
7
N
°

d
e

o
b
s

Sesión 3. Regresión Lineal Múltiple. 57

Puntajes predecidas vs. residuales
Variable dependiente:lectura
34 36 38 40 42 44 46 48 50 52 54 56 58 60 62
Valores predecid
-20
-15
-10
-5
0
5
10
15
20
R
e
s
i
d
u
a
l
e
0,95Int. de conf.

Vamos a explicar qué es cada “cosa”:
- en el Diagrama de normalidad, un buen ajuste de los puntos a la recta apoyaría la normalidad
de los residuales. En el histograma podemos comprobar el ajuste a la curva normal.
- el diagrama de dispersión de los valores predecidos y los residuales nos permitirá investigar la
condición de homoscedasticidad. Vamos a ver dos ejemplos y cómo interpretarlo:

Puntajes predecidas vs. residuales
Variable dependiente:Y
0 5 10 15 20 25 30 35
Valores predecid
-4
-3
-2
-1
0
1
2
3
4
R
e
s
i
d
u
a
l
e
0,95Int. de conf.
HOMOSCEDASTICIDAD: La nube de puntos
se distribuye a lo largo de una banda. La variabi-
lidad de los residuales aparece constante.
Puntajes predecidas vs. residuales
Variable dependiente:Y2
0 5 10 15 20 25 30 35
Valores predecid
-6
-4
-2
0
2
4
6
R
e
s
i
d
u
a
l
e
0,95Int. de conf.
NO HOMOSCEDASTICIDAD: En este caso,
para valores mayores de las predicciones, los
residuales presentan una mayor variabilidad.

EJERCICIO 3.4
Interpreta los gráficos obtenidos y estudia rigurosamente la condición de normalidad por medio
de los contrastes de Shapiro-Wilk y Kolmogorov-Smirnof-Lilliefors.

Nota: ¿Qué podemos hacer cuando fallan las condiciones de aplicación del modelo de regresión
lineal? Para algunas de ellas hay transformaciones en las variables que, a veces, nos llevan a
otras que sí cumplen dichas condiciones. Así, podemos hacer un estudio de regresión lineal sobre
dichas variables y luego traducir los resultados en términos de las variables originales.
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


3.4. Predicciones
Una utilidad inmediata de contar con un buen modelo de regresión, es la posibilidad de
efectuar predicciones para la variable dependiente, dado un valor de la variable dependiente. Por
ejemplo, podríamos preguntarnos: ¿cuál es el valor medio en lectura de los alumnos que puntú-
an 50 en escritura? o ¿cuál es el valor de la puntuación en lectura de un alumno que puntúa 50
en escritura? La respuesta es inmediata: utilizando nuestro modelo de regresión
Y=lectura = 13’8833 + 0’7056

escritura
damos una predicción puntual Ŷ = 13’8833 + 0’7056*50

= 63’03855, que conviene com-
pletar con un intervalo de confianza. Es aquí donde daremos distinta respuesta a las dos pregun-
tas planteadas: la precisión de la estimación de la puntuación media vendrá dada por la variabili-
dad del modelo de regresión, mientras que la de un individuo concreto, añade a la anterior, la
variabilidad de la propia variable dependiente (lectura), obteniéndose en este caso una menor
precisión (mayor amplitud del intervalo).
STATISTICA nos proporciona los resultados acudiendo a la pestaña Residuales/prueba
de hipótesis/predicción



Nota: Las bandas de confianza y de predicción que hemos representado en el Diagrama de dis-
persión del EJERCICIO 3.1, se corresponden con los límites de confianza y de predicción, res-
pectivamente.
IC para la media
IC para un individuo confianza=(1-α)x100
Prediciendo valores p (Estudiantes)
variable:
Variable
B-ponder Valor B-ponder
* Valor
escritura
Intersección
Predecido
-95,0%'C
+95,0%'C
0,705652 50,00000 35,28259
13,88326
49,16585
45,19172
53,13998
Prediciendo valores p (Estudiantes)
variable:
Variable
B-ponder Valor B-ponder
* Valor
escritura
Intersección
Predecido
-95,0%'P
+95,0%'P
0,705652 50,00000 35,28259
13,88326
49,16585
30,89063
67,44107
Sesión 3. Regresión Lineal Múltiple. 59

3.5. Modelo de Regresión Lineal Múltiple
Vamos, ahora sí, a centrarnos en el objetivo de construir un modelo lineal (modelo de re-
gresión lineal múltiple) que explique el comportamiento de lectura (Y, variable dependiente) a
partir de las k=4 variables escritura, matemáticas, ciencias y sociales (las denotaremos
1
en ese
orden, X
1
, X
2
, X
3
, X
4
, variables independientes). En este caso sin ayuda gráfica, buscamos un
modelo lineal, es decir, de la forma
Y = B
0
+ B
1
X
1
+ B
2
X
2
+ B
3
X
3
+ B
4
X
4
No es necesaria ninguna explicación teórica adicional para que podamos entender e in-
terpretar perfectamente los resultados que STATISTICA nos proporciona cuando en Estadísti-
cas/Regresión múltiple, introducimos la variable dependiente lectura y las 4 independientes
(escritura, matemáticas, ciencias y sociales) y pedimos el Análisis de varianza y el Resumen
de la regresión.

PREGUNTA ¿Cuál es la ecuación del modelo? Interpreta los resultados obtenidos (ANOVA,
coeficiente de determinación, contrastes sobre los parámetros). Mientras no se diga lo contrario
toma o=0’05.
Respuesta:
Y = -9’83207 + 0’25784

X
1
+ 0’47021

X
2
+ 0’43643

X
3
+ 0’05066

X
4

Como R
2

= 0’537, el modelo explica (para la muestra) un 53’7% de la variabilidad de la variable
dependiente Y=lectura.
Contraste de REGRESIÓN: SIGNIFICATIVO. Aceptamos la regresión.
Contraste de B
1
: NO SIGNIFICATIVO. Aceptamos que B
1
=0.

Contraste de B
2
: NO SIGNIFICATIVO. Aceptamos que B
2
=0.
Contraste de B
3
: SIGNIFICATIVO. Aceptamos que B
3
=0.
Contraste de B
4
: NO SIGNIFICATIVO. Aceptamos que B
4
=0.
Yo no me quedo muy contento, ¿y vosotros?

1
Ojo que la notación se complica un poquito. X
i
para i=1, 2, 3, 4, es decir, X
1
, X
2
, X
3
, X
4
, representan variables. De
cada una de estas k=4 variables, disponemos de n=24 observaciones, que ahora denotaremos X
ij
para j=1,..., 22, es
decir, (X
11
, X
12
,...,X
1n
),...,(X
k1
, X
k2
,...,X
kn
).
Resumen de la regresión para variable dependiente: lectura (Estudiantes
R =,73287144 R²=,53710054 R² ajustado =,43964803
F(4,19)=5,5114 p<,00405 Error est. de la estima7,6647
N=24
Beta Err.est.
de Beta
B Err.est.
de B
t(19) nivel-p
Intersección
escritura
matemáticas
ciencias
sociales
-9,83207 12,48082 -0,787775 0,440546
0,208312 0,221341 0,25784 0,27396 0,941134 0,358449
0,320719 0,174433 0,47021 0,25574 1,838637 0,081653
0,350316 0,208746 0,43643 0,26006 1,678197 0,109681
0,045769 0,219996 0,05066 0,24352 0,208047 0,837406
Análisis de varianci; Var.lectura (Estudiantes)
Efecto
Sumas de
Cuadrado
gl Media
Cuadrado
F nivel-p
Regresió
Residual
Total
1295,128 4 323,7821 5,511407 0,004052
1116,205 19 58,7476
2411,333
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


3.6. Novedades en el caso múltiple
Antes de lanzarnos a hablar de las condiciones teóricas del modelo y a hacer el correspon-
diente análisis de residuos para comprobarlas, vamos a preguntarnos: ¿nos estamos perdiendo
algo? ¿el caso múltiple no aporta ninguna novedad? Hay algunos “detalles”, relacionados entre
sí, a los que conviene prestar atención, por ejemplo, la multicolinealidad y la posibilidad de des-
arrollar una estrategia “paso a paso”.
3.6.1 Multicolinealidad.
Este fenómeno ocurre cuando las variables independientes consideradas llevan información
redundante (por ejemplo, porque una de ellas es combinación lineal de las demás). En estos ca-
sos, un modelo con un alto coeficiente de determinación (o con un ANOVA que confirma la re-
gresión), puede tener la pega de que los coeficientes de regresión de las variables, analizados
individualmente, no sean significativos. Podemos encontrarnos con estas 6 situaciones:
CONTRASTE DE
REGRESIÓN
(CONJUNTO)
CONTRASTES DE LOS
COEFICIENTES
(INDIVIDUALES)
INTERPRETACIÓN
SIGNIFICATIVO TODOS SIGNIFICATIVOS Todas las variables explicativas influyen en la
respuesta.
SIGNIFICATIVO ALGUNOS SIGNIFICATI-
VOS
Algunas variables explicativas influyen en la
respuesta. Posible multicolinealidad. Malas
estimaciones de los coeficientes.
SIGNIFICATIVO NINGUNO SIGNIFICATIVO Síntoma de multicolinealidad. Malas estima-
ciones de los coeficientes.
NO SIGNIFICATIVO TODOS SIGNIFICATIVOS Situación extraña que podría deberse a dos va-
riables relacionadas que influyen en sentido
contrario. Multicolinealidad.
NO SIGNIFICATIVO ALGUNOS SIGNIFICATI-
VOS
Parecida situación al caso anterior.
NO SIGNIFICATIVO NINGUNO SIGNIFICATIVO Ninguna de las variables explicativa influye en
la respuesta.

PREGUNTA ¿Sabríais interpretar los resultados que hemos obtenido?
Respuesta: Posible existencia de MULTICOLINEALIDAD. Malas estimaciones de los coefi-
cientes.

3.6.2 Paso a paso.
Una posibilidad en un estudio de regresión es adoptar una estrategia de paso a paso. La
idea es sencilla: primero creamos un modelo con una única variable (la “mejor”), y vamos intro-
duciendo las restantes una a una, en cada paso la “mejor” de las que queden, si es que queda al-
guna “suficientemente buena”. Y también estaremos pendientes del hecho de si en algún
momento, alguna de las variables previamente introducidas, “deja de ser buena”, en cuyo caso, la
sacaríamos del modelo. El proceso terminará cuando nos quedemos sin variables (las habremos
metido todas) o ninguna cumpla el correspondiente criterio límite de entrada o salida. Con esta
estrategia prestamos la debida atención a la multicolinealidad (la evitaremos sobre la marcha) y
estaremos estudiando la importancia de las distintas variables independientes. STATISTICA
permite adoptar esta estrategia. Antes de verlo, vamos a dar rigor a tanta comilla.
Sesión 3. Regresión Lineal Múltiple. 61

Se define, para cada variable independiente:
1) Tolerancia: es uno menos la correlación de dicha variable con las otras variables inde-
pendientes ya incorporadas al modelo. Es decir, una tolerancia cercana a 1 corresponde a
una buena variable (no redundante) y, cercana a 0, indicaría que su información resultaría
redundante (mala variable).
2) Correlación parcial: elevada al cuadrado y multiplicada por cien, es el porcentaje de va-
rianza explicada por la variable entre la no explicada (la residual) por las otras variables
independientes que ya forman parte del modelo. Es decir, cuanto mayor sea, mejor.
3) Semi-correlación parcial: elevada al cuadrado y multiplicada por cien, es el porcentaje,
respecto de la variabilidad total del modelo, de la varianza explicada por la variable, entre
la no explicada (residual) por las otras variables independientes que ya forman parte del
modelo. Con idéntica interpretación a la de la correlación parcial, tiene la ventaja de po-
der valorarse en términos del total de la variabilidad de la variable dependiente.
Vamos a pedirle a STATISTICA un estudio paso a paso. Vamos a la ventana inicial de Esta-
dísticas/Regresión múltiple, esta vez a la pestaña Avanzado, y activamos las Opciones avanza-
das (regr. paso a paso o regr. contraída).

Al pulsar en Aceptar, nos aparece la ventana del Menú básico donde podemos elegir el método.

Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Elegimos Por pasos hacia adelante
2
y definimos el proceso en las pestañas Avanzado y
Paso a paso.



Ahí indicamos los valores que definen a las variables “buenas” (F
IN
) y “malas” (F
OUT
). El
valor vendrá dado por el nivel de significación α con el que queramos trabajar (o niveles, porque
podríamos elegir uno para la entrada y otro para la salida; eso sí, con mucha lógica, el programa
nos obliga a que F
IN
> F
OUT
). Supongamos que tomamos α=0’05 (tanto para IN como para OUT).


2
Por pasos hacia atrás consiste, intuitivamente, en empezar de un modelo con todas las variables, del que iremos
sacando “las malas” e introduciendo alguna que pueda “hacerse buena”.
No se introducirá en el modelo
ninguna variable cuya tolerancia
sea inferior al valor indicado
Nº máximo de pasos
Podemos pedir los resultados
finales del proceso, o solicitar
que muestre los de cada paso.
n-k-1 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
o
0,1 3,29 3,23 3,18 3,14 3,1 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94 2,93 2,92
0,05 4,96 4,84 4,75 4,67 4,6 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,3 4,28 4,26 4,24
0,01 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,4 8,29 8,18 8,1 8,02 7,95 7,88 7,82 7,77
Tabla de probabilidades a derecha de F
1,gl2
donde gl2=n-k-1
Sesión 3. Regresión Lineal Múltiple. 63

Vamos a ir viendo cómo va el proceso. Al pulsar en Aceptar vamos a la línea de salida
(Paso 0).

Si hacemos clic en Correlaciones parciales obtenemos:

¿Cuál es la mejor de las 4 variables?
Si hacemos clic en Próximo, llegamos al primer paso.

Variables que no están en la ; Var.lectura (Estudiantes)
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia Mínimo
Tolerancia
t(22) nivel-p
escritura
matemáticas
ciencias
sociales
0,570110 0,570110 0,570110 1,000000 1,000000 3,254813 0,003631
0,549839 0,549839 0,549839 1,000000 1,000000 3,087592 0,005379
0,623599 0,623599 0,623599 1,000000 1,000000 3,741556 0,001130
0,514293 0,514293 0,514293 1,000000 1,000000 2,812742 0,010138
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Efectivamente, la primera variable en entrar en el modelo ha sido ciencias pues el p-valor de su
contraste de regresión es p=0’00113, el menor de las cuatro variables. Lo que nos preguntamos
ahora es: ¿Merece la pena introducir más variables? ¿Cuál? Lo estudiamos haciendo clic de nue-
vo en Correlaciones parciales y eligiendo la pestaña, Variables que no están en la ecuación:

Haciendo clic en Próximo, llegamos al segundo paso (que el programa indica como final).

Si pedimos el ANOVA y los contrastes sobre los parámetros, obtenemos:

Variables que no están en la ; Var.lectura (Estudiantes)
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia Mínimo
Tolerancia
t(21) nivel-p
escritura
matemáticas
sociales
0,305501 0,312143 0,244016 0,637987 0,637987 1,505649 0,147052
0,366723 0,434417 0,339603 0,857564 0,857564 2,210195 0,038327
0,225713 0,233576 0,182597 0,654444 0,654444 1,100829 0,283430
Análisis de varianci; Var.lectura (Estudiantes)
Efecto
Sumas de
Cuadrado
gl Media
Cuadrado
F nivel-p
Regresió
Residual
Total
1215,809 2 607,9046 10,67816 0,000632
1195,524 21 56,9297
2411,333
Resumen de la regresión para variable dependiente: lectura (Estudiantes
R =,71007476 R²=,50420616 R² ajustado =,45698770
F(2,21)=10,678 p<,00063 Error est. de la estima7,5452
N=24
Beta Err.est.
de Beta
B Err.est.
de B
t(21) nivel-p
Intersección
ciencias
matemáticas
-6,25474 11,90512 -0,525383 0,604821
0,485195 0,165923 0,60447 0,20671 2,924212 0,008107
0,366723 0,165923 0,53765 0,24326 2,210195 0,038327
Sesión 3. Regresión Lineal Múltiple. 65


PREGUNTA. Interpreta los resultados obtenidos (ecuación del modelo, ANOVA, coeficiente de
determinación y contrastes sobre los parámetros).
Respuesta:
lectura = -6’25474 + 0’60447

ciencias + 0’53765

matemáticas
Como R
2

= 0’5042, el modelo explica (para la muestra) un 50’42% de la variabilidad de la varia-
ble dependiente Y=lectura.
Contraste de REGRESIÓN: SIGNIFICATIVO. Aceptamos la regresión.
Contraste de B
1
: SIGNIFICATIVO. Rechazamos que B
1
=0.

Contraste de B
2
: SIGNIFICATIVO. Rechazamos que B
2
=0.

EJERCICIO 3.5
Comprobad que, efectivamente, el proceso paso a paso debe darse por terminado.

EJERCICIO 3.6
Compara la situación a la que hemos llegado, con la que teníamos con el modelo completo (con-
siderando las 4 variables).


3.7. Condiciones teóricas del Modelo de Regresión Lineal Múltiple
Son las mismas que en el caso simple y alguna más:
i) Sólo la variable dependiente Y se trata como variable aleatoria. Las variables
independientes se consideran dadas al observar Y.
ii) Las observaciones de Y, (Y
1
, Y
2
,...,Y
n
) han de ser independientes.
iii) Hipótesis estructural del modelo. Para cada individuo de la población se cumple que
Y = B
0
+ B
1
X
1
+ ... + B
k
X
k
+ U siendo U una perturbación aleatoria
Es decir, según nuestro modelo contamos con (X
11
, X
12
,...,X
1n
),...,(X
k1
, X
k2
,...,X
kn
) valo-
res predeterminados, las observaciones (Y
1
, Y
2
,...,Y
n
) y (U
1
, U
2
,...,U
n
) de dos variables
aleatorias U e Y, y k+1 parámetros B
0
, B
1
,..., B
k
desconocidos.
iv) La esperanza de las perturbaciones aleatorias es cero, es decir, E[U
i
]=0
v) Condición de homocedasticidad, que supone Var[U
i
] es constante respecto de las X
i
.
vi) U
i
siguen una distribución normal.
vii) Ninguna de las variables independientes X
i
es combinación lineal exacta del resto (au-
sencia de multicolinealidad). Si lo fuera, sobraría en el modelo.
viii) En número de datos disponibles ha de ser como mínimo de k+2 (es decir, n>k+2).
Variables actualmente en la ecuació; Var.lectura (Estudiantes)
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia R-cuadrado t(21) nivel-p
ciencias
matemáticas
0,485195 0,537926 0,449314 0,857564 0,142436 2,924212 0,008107
0,366723 0,434417 0,339603 0,857564 0,142436 2,210195 0,038327
Variables que no están en la ; Var.lectura (Estudiantes)
Variable
Beta en Parcial
Cor.
Semiparc
Cor.
Tolerancia Mínimo
Tolerancia
t(20) nivel-p
escritura
sociales
0,228205 0,253417 0,178437 0,611391 0,611391 1,171556 0,255144
0,135214 0,151070 0,106373 0,618891 0,618891 0,683451 0,502163
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


3.8. Comentarios finales
1) El algoritmo de regresión paso a paso que hemos estudiado es bastante utilizado porque
proporciona resultados razonables cuando se tiene un número grande de variables regre-
soras. En todo caso, la utilización de estos algoritmos de manera automática es peligrosa
y una vez obtenido el modelo de regresión se debe chequear que se verifican las hipótesis
del modelo así como tener en mente el problema de regresión que se está estudiando.

EJERCICIO 3.7
Realiza un estudio de los residuos para comprobar si se cumplen estas condiciones en nuestro
problema.

2) Una vez que obtenemos un buen modelo de regresión, una de sus principales utilidades es
la realización de predicciones.

EJERCICIO 3.8
Utilizando el anterior modelo de regresión, ¿qué valor pronosticas para la media de la puntuación
en lectura de los alumnos que han obtengan 50 en ciencias y 48 en matemáticas? ¿y para un
alumno concreto?
3) En el caso múltiple se desarrollan herramientas para hacer estudios (“intervalos” de con-
fianza, contrastes de hipótesis,...) de grupos de coeficientes.
4) Pueden proponerse modelos de regresión no lineales, pero ahí las “cuentas” se complican
y se hace necesaria la utilización de complicadas herramientas de análisis numérico.
5) Como complemento al estudio, en el caso en el que tengamos sólo dos variables explica-
tivas, podemos representar el correspondiente diagrama de dispersión 3-dimensional en
Gráficos/Gráficos 3D XYZ/Diagrama de dispersión...
Diag. de disp. 3D de lectura contra ciencias y matemática
Estudiantes 5v*24c




Sesión 4.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE: ANÁLISIS DE
COMPONENTES PRINCIPALES.

4.1 Introducción al Análisis de Componentes Principales.

En muchas ocasiones nos encontramos con que, para analizar una situación, disponemos
de muchas (p) variables que están correlacionadas entre sí en mayor o menor grado. Estas
correlaciones no nos permiten ver, de una forma clara, qué papel juega cada una de las
variables en el fenómeno estudiado.
Entonces nos podemos plantear cuestiones tales como:
- ¿Es posible utilizar un número más reducido de variables para explicar la situa-
ción, sin pérdidas importantes de información?
El Análisis de Componentes Principales nos permite pasar del conjunto de variables ini-
ciales (correlacionadas entre sí) a un nuevo conjunto de variables (las componentes prin-
cipales) que están incorreladas entre sí y que además se pueden ordenar en función de la
información que llevan incorporada.
Como medida de la cantidad de información incorporada en cada componente se utiliza
su varianza. Por esta razón seleccionaremos como primera componente principal la de
mayor varianza, mientras que la última será la de menor varianza.
Normalmente, la extracción de las componentes principales se hace sobre las va-
riables tipificadas, para evitar problemas relacionados con las escalas de medida.
El nuevo conjunto de variables que se obtiene por el método de las componentes
principales es igual, en número, al de las variables originales y además, la suma
de sus varianzas es igual a la suma de las varianzas de las variables originales
(p*1= p).
La diferencia fundamental entre ambos conjuntos es que las componentes princi-
pales estarán incorreladas entre sí.
Si las variables originales están muy correlacionadas entre sí, la mayor parte de su varia-
bilidad se puede explicar con muy pocas componentes principales, mientras que si las
variables originales estuvieran incorreladas coincidirían con las componentes principales
(lo que hace inútil a este método).
Es importante destacar que las componentes principales se expresan como una combina-
ción lineal de las variables originales.
Desde el punto de vista de su aplicación este método se considera un método de reduc-
ción, es decir, es un método que nos permite reducir la dimensión del número de varia-
bles consideradas en el análisis. Para ello, lo que haremos será utilizar para explicar la
situación, en lugar de las variables originales, unas cuantas componentes elegidas de mo-
do que expliquen la mayor parte de la variabilidad.
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Un aspecto fundamental en el análisis de las componentes principales es la interpreta-
ción de las componentes y que tendremos que realizar observando la relación de las
componentes con las variables originales (habrá que estudiar tanto el signo como la mag-
nitud de las correlaciones). Esta interpretación no siempre es fácil y en ella juega un pa-
pel fundamental el conocimiento que el investigador tenga sobre el tema que se está ana-
lizando.

4.2 ¿Cómo llevar a cabo un análisis de componentes principales?

El proceso de extracción de las componentes principales podemos resumirlo en los si-
guientes pasos:
- Análisis de la matriz de correlaciones: Este paso es fundamental ya que, como
hemos dicho antes, este análisis tiene sentido si existen altas correlaciones entre
las variables pues esto es indicativo de que existe información redundante y por lo
tanto, pocas componentes explicarán gran parte de la variabilidad.
- Selección de las componentes: Las componentes se seleccionan de modo que la
primera es la que recoge la mayor variabilidad, la segunda recoge la mayor varia-
bilidad no recogida por la primera y así sucesivamente hasta que consideremos
que tenemos recogida una variabilidad suficiente.
- Interpretación de las componentes: Esta es una de las fases más complicadas del
análisis. Para que una componente sea fácil de interpretar tiene que tener las si-
guientes características (difíciles de conseguir):
o Los coeficientes factoriales deben ser próximos a 1.
o Las variables deben tener coeficientes próximos a 1 sólo en una compo-
nente.
o No deben existir componentes con coeficientes parecidos.

Vamos a introducir mediante un ejemplo las ideas fundamentales de un Análisis de
Componentes Principales.
Supongamos que estamos interesados en medir el grado de satisfacción de la gente con
su vida. Para ello diseñamos un cuestionario con 10 preguntas acerca de aspectos que
consideramos relevantes para sentirse satisfechos: vida laboral (3 ítems), vida familiar (3
ítems), tiempo libre (2 ítems), y satisfacción general (2 ítems).
El cuestionario se aplica a 100 personas. Los datos obtenidos se encuentran en el fichero
satisfaction
3
. Para simplificar el análisis vamos a utilizar únicamente seis de las diez
variables: las relacionadas con la vida laboral (work_1, work_2, work_3) y las relaciona-
das con la vida familiar (home_1, home_2, home_3).
Calculamos la matriz de correlaciones:
Estadísticas / Estadísticas/Tablas Básicas / Matrices de correlación

3
Este es un fichero de datos de ejemplo que viene con el programa Statistica.
Sesión 4. Análisis de componentes principales.. 69


Los elementos de esta matriz son los coeficientes de correlación para cada pareja de va-
riables.
Sólo es necesario que miremos por encima de la diagonal principal, ya que toda matriz de
correlaciones es simétrica y los elementos de la diagonal principal valen 1.
En esta matriz es posible percibir cierta estructura en los valores de sus elementos, en
concreto se observan tres bloques de correlaciones: las variables relacionadas con la vida
laboral presentan correlaciones elevadas entre ellas, las variables relacionadas con la vida
familiar también presentan correlaciones elevadas entre ellas, mientras que las correla-
ciones entre las variables “laborales” y “familiares” son claramente menores. Todo ello
nos hace pensar que estamos midiendo dos componentes, relativamente independientes,
de la satisfacción general: la laboral y la familiar.
Vamos a realizar entonces, un análisis de componentes principales.
Estadísticas / Técnicas exploratorias multivariantes / Análisis de componentes principales
y clasificación.
Seleccionamos para el análisis nuestras 6 variables.
Al pulsar en aceptar nos aparece un segundo cuadro, con más opciones pero en el que ya
tenemos información procesada.

Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Un análisis de componentes principales construye tantas componentes como variables
iniciales existen, en nuestro caso seis.
Si queremos obtener una descripción en términos de un número más reducido de compo-
nentes tenemos que tomar una decisión respecto al número de componentes con las que
quedarnos. Para ello podemos tener en cuenta que las sucesivas componentes se constru-
yen de manera que expliquen el máximo posible de la varianza de las variables iniciales.
La componente 1 explicará toda la varianza que pueda de las variables iniciales, la com-
ponente 2 explicará toda la varianza que pueda de la que ha dejado sin explicar la com-
ponente 1, y así sucesivamente. Con seis componentes es posible explicar toda la varian-
za de las seis variables de partida.
En la tabla siguiente se han obtenido las varianzas explicadas por cada componente y las
proporciones correspondientes.
Valores propios:

Si se tipifican las variables, de manera que cada una tenga varianza unidad, la varianza
total a explicar vale 6.
En la columna Valor prop encontramos la parte de dicha varianza total explicada por
cada componente (obsérvese que la suma de dicha columna es 6). La componente 1 ex-
plica una varianza igual a 2,891, que representa el 48,189% del total. La componente 2
explica una varianza igual a 1,791, que representa el 29,850% del total. Estas dos prime-
ras componentes explican conjuntamente el 78,039% de la varianza total.
Conforme se construyen componentes sucesivas cada vez queda menos varianza pen-
diente de explicar, de manera que las últimas componentes construidas explican un resi-
duo de varianza muy pequeño. Una manera de decidir con cuántas componentes quedarse
consiste en retener aquellas que tienen varianza explicada mayor que 1, en nuestro caso
las dos primeras.
La idea que subyace a este método, que se llama método de Kaiser, es la de prescindir
de componentes que no son capaces de explicar por lo menos la misma varianza que
cualquiera de las variables iniciales (que explican una varianza igual a uno, cada una).
La información anterior se puede ver también en el llamado gráfico de sedimentación
(Diagrama de exploración):
Sesión 4. Análisis de componentes principales.. 71


De ahora en adelante, prescindiremos de todas las componentes con valor propio menor
que 1 (nos quedaremos con las dos primeras componentes).
Con las opciones que tenemos en la pestaña del menú básico, podemos intentar explicar
nuestras componentes:
Coordenadas de fact. de variables: nos da las coordenadas de cada una de las variables
tomando como ejes las componentes principales (y lo podemos dibujar con Diagrama
coordenadas de factores de variables 2D):





Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Estas coordenadas, llamadas también “cargas de los factores”, son las correlaciones entre
cada una de las variables y las componentes extraídas y nos permiten escribir cada varia-
ble en función de los factores.
Observamos que la componente 1 presenta correlaciones elevadas con todas las varia-
bles, mientras que la componente 2 presenta correlaciones algo menores (en valor absolu-
to). Este comportamiento es esperable debido a que la componente 2 intenta explicar el
máximo posible de la varianza que ha dejado sin explicar la componente 1.
Las cargas de los factores juegan un papel fundamental en la interpretación de la solución
obtenida en términos de una clasificación de las variables. Las variables que poseen car-
gas elevadas para una componente se pueden clasificar como correspondientes a la di-
mensión que mide dicha componente.
En nuestro ejemplo la solución obtenida no es demasiado satisfactoria, a este respecto, ya
que el patrón de cargas obtenido no permite dilucidar cuáles de las variables iniciales
corresponden a la dimensión representada por la componente 1.
El menú básico también nos permite obtener las coordenadas de cada uno de los casos
iniciales en el sistema de componentes que hemos considerado así como representar estos
puntos en 2 de las componentes (las podemos elegir):

Si queremos obtener más información de las relaciones entre las variables y las compo-
nentes, podemos ir a la pestaña de variables.
Las comunalidades: Para cada variable, el valor de su comunalidad representa la pro-
porción de variabilidad de cada variable explicada por las componentes.
Antes de la extracción de las componentes principales, la comunalidad de cada variable
es la unidad, y después de la extracción nos interesa que siga siendo alta.
Sesión 4. Análisis de componentes principales.. 73



Las componentes principales: desde el principio, nuestro objetivo ha sido reducir la
dimensión.
Si después de nuestro análisis, decidimos utilizar estas 2 componentes, éstas se pueden
escribir en función de las variables observas de la siguiente forma:
(Pestaña Casos /Puntajes (coeficientes) de factores)

Entonces:
c1= - 0.226 W_1 - 0.247 W_2 - 0.257 W_3 - 0.219 H_1 - 0.244 H_2 - 0.245 H_3
c2= - 0.315 W_1 - 0.302 W_2 - 0.284 W_3 + 0.314 H_1 + 0.320 H_2 + 0.293 H_3
Estas dos componentes son, en realidad, 2 variables sustitutas de las 6 iniciales que
representan su reducción y que recogen el 78% de su variabilidad total.


4.3 Análisis de Componentes Principales vs Análisis Factorial
El análisis de componentes principales y el análisis factorial tienen en común que son
técnicas para examinar la interdependencia de variables, pero difieren en su objetivo.
- El objetivo del análisis de componentes principales es explicar la mayor parte de
la variabilidad del conjunto de variables con el menor número de componentes
posible.
o Se determina el peso de cada variable en cada componente, es decir, se
explican las componentes en función de las variables observables.
- En el análisis factorial, los factores se seleccionan para explicar las interrelacio-
nes entre las variables.
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


o Las variables observables juegan el papel de dependientes que se explican
por factores que no son observables.
El hecho de que las componentes principales se utilicen como uno de los procedimientos
de extracción de factores en el análisis factorial ha hecho que en muchos casos se piense
que ambos métodos son equivalentes. A esto contribuyen también muchos programas
estadísticos, que incluyen ambos métodos en el mismo procedimiento general.

Sin entrar en los detalles del análisis factorial (que es más complicado) vamos a aplicarlo
a nuestros datos utilizando como método de extracción de factores el análisis de compo-
nentes principales y, con lo que hemos visto hasta ahora, podremos entender mejor las
salidas:
Estadísticas / Técnicas exploratorias multivariantes / Análisis de factores
Seleccionamos nuestras 6 variables y aceptamos, con lo que nos aparece el siguiente
cuadro:

Directamente nos da como número máximo de factores 2 y valor propio mínimo 1 (es el
criterio que aplicamos en el método de análisis de las componentes principales), esto es
así porque ese es el método que tiene de extracción de factores que tiene seleccionado
por defecto.
Si le pedimos los valores propios, la carga de los factores o el diagrama de cargas, obten-
dremos los mismos resultados que antes (con dos factores que son los que tenemos selec-
cionados):
Sesión 4. Análisis de componentes principales.. 75








Ajustando el eje de –1 hasta 1:


Desde la pestaña de Varianza explicada, podemos obtener también:
Diagrama de exploración (sedimentación):

Las comunalidades:




4.4 La rotación de los factores
Como ya hemos señalado, un aspecto muy importante de un análisis factorial es la inter-
pretabilidad, en el contexto del problema de investigación, de los factores extraídos y en
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


particular la posibilidad de clasificar las variables iniciales en términos de las dimensio-
nes subyacentes definidas por los factores.
Como hemos visto en nuestro ejemplo, puede suceder que la solución inicialmente obte-
nida no sea fácilmente interpretable. Se puede intentar mejorar dicha interpretabilidad
aplicando una rotación a los factores.
Existen diversos métodos de rotación, siendo uno de los más utilizados el llamado vari-
max. Básicamente consiste en orientar uno de los ejes en la dirección de máxima disper-
sión, manteniendo los demás ejes ortogonales.
El método Varimax tiene la ventaja de que después de aplicado quedan invariantes tanto
la varianza explicada por los factores como las comunalidades de las variables. Este mé-
todo simplifica la interpretación de los factores.
En algunas ocasiones, para evitar que las variables con mayores comunalidades tengan
mayor influencia en la solución final se utiliza el Varimax normalizado.


entonces, los resultados son los siguientes:

Las comunalidades:

Sesión 4. Análisis de componentes principales.. 77




Ahora podemos ver, claramente, que el pri-
mer factor explica la satisfacción en el traba-
jo, mientras que el segundo factor, explica la
satisfacción en el hogar.

Podemos escribir las componentes rotadas en función de las variables. Para ello usare-
mos:
entonces:
c1= 0.382 W_1 + 0.388 W_2 + 0.382 W_3 - 0.061 H_1 - 0.047 H_2 - 0.029 H_3
c2= - 0.069 W_1 - 0.045 W_2 - 0.025 W_3 + 0.378 H_1 + 0.400 H_2 + 0.381 H_3
Estas dos componentes son 2 variables sustitutas de las 6 iniciales que representan
su reducción y que recogen el 78% de su variabilidad total.
La primera componente recoge la satisfacción en el trabajo, mientras que la segunda re-
coge la satisfacción en el hogar.

Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Los siguientes ejercicios están sacados del libro Métodos estadísticos avanzados con
SPSS de César Pérez López (Ed. Thomson), y se han adaptado para resolverlos con Sta-
tistica.
EJERCICIO 4.1
El fichero empresas.sav contiene información sobre empresas, por países para todos los
sectores de actividad y nuestro objetivo es reducir el número de variables con la menor
pérdida posible de información.
En primer lugar, calculamos la matriz de correlación. Esto lo podemos hacer desde Esta-
dísticas / Estadísticas/Tablas básicas /Correlaciones:

O bien ya desde el análisis de Componentes Principales, en Estadísticas / Técnicas explo-
ratorias multivariantes / Análisis de componentes principales y clasificación. En este ca-
so, tendremos que buscar nosotros las correlaciones significativas

A simple vista no se aprecia ninguna estructura de correlación, aunque sí que vemos que
hay alguna variable que tiene una alta correlación con las demás, pero no hay muchas
variables con correlaciones altas entre sí, lo que nos indica que no vamos a poder reducir
mucho la dimensión.
Aún así, aplicaremos el método de Componentes principales (usamos todas las varia-
bles).
Aunque en la primera pantalla ya se intuye:
Sesión 4. Análisis de componentes principales.. 79


Pedimos los valores propios y el diagrama de exploración para determinar con cuantas
componentes nos quedaremos:

Hay tres valores propios por encima de 1. Con 3 componentes explicaríamos un 74’6%
de la varianza total (añadiendo una componente más, que nos lo planteamos porque su
valor propio es casi 1, llegaríamos a explicar hasta un 85’7% de la varianza total).
Nos vamos a quedar con 3 componentes.
Vamos a expresar cada una de las nueve variables en función de estas componentes:
Obtenemos las coordenadas (los coeficientes) de las variables en función de las compo-
nentes (c1, c2 y c3):


La proyección sobre las 2 primeras es:


Curso avanzado de Análisis de datos con Statistica. Mayo de 2012


Entonces:
Agricultura = 0.978 c1 +0.078 c2 +0.051 c3
Minería = 0.002 c1 +0.902 c2 –0.211 c3 etc...
Para ver qué variables se agrupan en cada componente, buscamos aquellas cuyos coefi-
cientes sean altos en dicha componente y bajos en las otras (se considera bajo un coefi-
ciente por debajo de 0.25).
Entonces, en la primera componente está representada claramente la agricultura, y en la
segunda está la minería, sin embargo, hay variables que están representadas en dos de las
componentes (Manufacturas o Servicios a empresas) e incluso algunas están representa-
das en las tres (Sector Servicios o Transporte y comunicaciones). Esto nos indica que es
difícil agrupar las variables en las componentes por lo que probablemente necesitaremos
una rotación (esta se hace con el análisis factorial).
Tampoco nos ayudan los gráficos de las proyecciones sobre los factores (es lo mismo):


A continuación estudiaremos la comunalidad de cada variable después de la extracción
de las componentes. La comunalidad es la parte de la varianza de cada variable explicada
por los factores.

1 componente:
AGR 0.978
2
=0.957
2 componentes:
AGR  0.978
2
+0.078
2
=0.963
3 componentes:
AGR  0.978
2
+0.078
2
+0.051
2
=0.965
Sesión 4. Análisis de componentes principales.. 81

Las componentes principales se pueden escribir en función de las variables originales
(coeficientes de puntaje de factores):
Entonces:
c1= 0.28 AGR +0.001 MIN –0.186 MAN - ... –0.196 TC
c2= 0.037 AGR +0.423 MIN +0.243 MAN+ ... +0.138 TC
c3= 0.046 AGR –0.192 MIN –0.144 MAN+ ... +0.358 TC
Estas tres componentes son, en realidad, 3 variables sustitutas de las 9 iniciales que
representan su reducción y que recogen el 74’6% de su variabilidad total.

Para completar el análisis, y puesto que las componentes obtenidas no nos satisfacen del
todo ya que no nos permiten agrupar bien a las variables, nos podemos plantear el hacer
una rotación de estas componentes.
Statistica no nos permite hacer esta rotación dentro del análisis de componentes principa-
les, pero todo este análisis se puede hacer también desde el Análisis de los factores, eli-
giendo como método de extracción el de componentes principales:

En las distintas pestañas podemos obtener los resultados anteriores. En particular en la
pestaña de cargas, tenemos el resumen de cargas de los factores:
Curso avanzado de Análisis de datos con Statistica. Mayo de 2012



en esta situación no sabíamos cómo agrupar las variables en los factores. Vamos a ver si
haciendo una rotación podemos mejorar la situación:
Si rotamos mediante un Varimax, las cargas que obtenemos son:

Hay algunos cambios respecto a la situación anterior, y desde luego parece mejor, pero
podemos constatar que la rotación tampoco nos soluciona el problema de agrupar las
variables.


Sesión 4. Análisis de componentes principales.. 83

EJERCICIO 4.2
Para estudiar las zonas de Madrid según ciertos fenómenos de discriminación social, se
consideran 13 variables (están definidas en el fichero: Zonas_Madrid), que caracterizan a
sus habitantes. Se trata de establecer una diferenciación social de Madrid mediante facto-
res (componentes) que agrupen al elevado número de indicadores del que se dispone.
La matriz de correlaciones da la sensación de que sí puede existir alguna estructura:

Vamos a estudiarlo. Vamos a hacerlo directamente mediante un análisis factorial:
OJO, hay datos faltantes y hay que decirle al sistema qué hacer con ellos, por defecto
elimina el caso correspondiente (barrio de Salamanca).
Ponemos (por ejemplo) cuatro factores como máximo y valor propio mínimo=1 (el sis-
tema seleccionará el criterio con menos componentes). Entonces:
Valores propios:
Con 3 componentes (hay 3 valores propios
mayores que 1), podemos explicar algo
más de un 89% de la varianza total, por lo
que parece aceptable.

Curso avanzado de Análisis de datos con Statistica. Mayo de 2012



Lo mismo nos indica el gráfico de sedimen-
tación.

¿Podríamos seleccionar sólo 2? (ya que con
2 se explica casi un 80%)



Con 2 factores, la varianza explicada de la
mayoría de las variables es bastante alta,
salvo la de P65 que es especialmente baja,
y que con 3 factores llega hasta el 95%.




Para agrupar las variables en factores observamos las cargas factoriales:
Debemos buscar valores altos en un factor
y bajos en los restantes.
Aunque esto no queda demasiado claro en
este ejemplo, sí que se pueden observar
cargas mayores que 0’7 en un único factor,
para la mayoría de las variables (sólo OCU
no cumple esta condición), lo que nos
permite intuir:
- un factor con variables de pobla-
ción y ocupación.
- Un factor con variables de nivel de
estudios y categoría laboral.
- Un factor con la población jubilada.

Sesión 4. Análisis de componentes principales.. 85

Los factores no están muy claros porque hay algunas mezclas y cargas altas en más de un
factor. Vamos a hacer una rotación para ver si podemos concretar más:
Al hacer una rotación Varimax, el resulta-
do es muy claro y se definen perfectamente
los 3 factores que habíamos intuido antes
(incluyendo a todas las variables):
- un factor con variables de pobla-
ción y ocupación.
- Un factor con variables de nivel de
estudios y categoría laboral.
- Un factor con la población jubilada.




















Anexo









Tablas estadísticas












TABLA T.1. Test de Rachas.

Valores críticos del estadístico Número de Rachas para n
1
y n
2
≤ 20 y α = 0’05

p = 0’975

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2 2 2
3 0 0 0 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3
4 0 0 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4
5 0 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5
6 0 2 3 3 3 4 4 4 5 5 5 5 5 6 6 6 6 6 6
7 0 2 3 3 4 4 4 5 5 5 6 6 6 6 6 7 7 7 7
8 2 2 3 3 4 4 5 5 6 6 6 6 7 7 7 7 8 8 8
9 2 2 3 4 4 5 5 6 6 6 7 7 7 8 8 8 8 9 9
10 2 3 3 4 5 5 6 6 6 7 7 8 8 8 8 9 9 9 9
11 2 3 3 4 5 5 6 6 7 8 9 9 9 10 10 10 10 11 7
12 2 3 4 4 5 6 6 7 7 9 8 8 8 9 9 9 10 10 10
13 2 3 4 4 5 6 6 7 8 9 8 9 9 10 10 10 11 11 11
14 2 3 4 5 5 6 7 7 8 9 8 9 10 10 11 11 11 12 12
15 2 3 4 5 6 6 7 8 8 10 9 10 10 11 11 11 12 12 12
16 2 3 4 5 6 6 7 8 8 10 9 10 11 11 11 12 12 12 12
17 2 3 4 5 6 7 7 8 9 10 9 10 11 11 12 12 13 13 13
18 2 3 4 5 6 7 8 8 9 10 10 11 11 12 12 13 13 14 14
19 2 3 4 5 6 7 8 9 9 11 10 11 10 12 12 13 14 14 14
20 2 3 4 5 6 7 8 9 9 7 10 11 12 12 12 13 14 14 15

p = 0’025

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 4 5 5 5 5 5 3 5 5 5 5 5 5 5 5 5 5 5 5
3 5 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
4 5 6 7 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9
5 5 7 8 8 9 9 10 10 10 11 11 11 11 11 11 11 11 11 11
6 5 7 8 9 10 10 11 11 11 12 12 12 12 13 13 13 13 13 13
7 5 7 8 9 10 11 12 12 12 13 13 13 13 14 14 14 14 14 14
8 5 7 9 10 11 12 12 13 13 14 14 14 15 15 15 15 15 15 16
9 5 7 9 10 11 12 13 13 14 14 15 15 16 16 16 16 17 17 17
10 5 7 9 10 11 12 13 14 15 15 16 16 16 17 17 17 18 18 18
11 5 7 9 11 12 13 14 14 15 17 17 18 18 19 19 20 20 20 16
12 5 7 9 11 12 13 14 15 16 17 16 17 17 18 18 18 19 19 19
13 5 7 9 11 12 13 14 15 16 18 17 18 19 19 20 20 20 21 21
14 5 7 9 11 12 13 15 16 16 18 17 19 19 20 20 21 21 22 22
15 5 7 9 11 13 14 15 16 17 19 18 19 20 20 21 21 22 22 23
16 5 7 9 11 13 14 15 16 17 19 18 20 20 21 22 22 22 23 23
17 5 7 9 11 13 14 15 16 17 20 18 20 21 21 22 23 23 24 24
18 5 7 9 11 13 14 15 17 18 20 19 20 21 22 22 23 24 25 25
19 5 7 9 11 13 14 15 17 18 20 19 21 19 22 23 24 25 25 26
20 5 7 9 11 13 14 16 17 18 16 19 21 22 23 23 24 25 26 26

TABLA T.1. Test de Rachas. (Continuación)

Valores críticos del estadístico Número de Rachas para n
1
y n
2
≤ 20 y α = 0’01

p = 0’995

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2
3 0 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2 2
4 0 0 0 0 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3
5 0 0 0 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4
6 0 0 2 2 2 3 3 3 3 4 4 4 4 4 4 5 5 5 5
7 0 0 2 2 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
8 0 0 2 2 3 3 4 4 4 4 5 5 5 5 6 6 6 6 6
9 0 2 2 3 3 4 4 4 5 5 5 6 6 6 6 7 7 7 7
10 0 2 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8
11 0 2 2 3 4 4 4 5 5 7 7 7 8 8 8 8 9 9 6
12 0 2 3 3 4 4 5 5 6 7 6 6 7 7 7 8 8 8 8
13 0 2 3 3 4 5 5 6 6 7 6 7 8 8 8 9 9 9 10
14 0 2 3 3 4 5 5 6 6 8 7 8 8 8 9 9 9 10 10
15 0 2 3 4 4 5 5 6 7 8 7 8 8 9 9 10 10 10 11
16 0 2 3 4 4 5 6 6 7 8 7 8 9 9 10 10 10 10 10
17 0 2 3 4 5 5 6 7 7 8 8 9 9 10 10 10 11 11 11
18 0 2 3 4 5 5 6 7 7 9 8 9 9 10 10 11 11 12 12
19 2 2 3 4 5 6 6 7 8 9 8 9 10 10 10 11 12 12 12
20 2 2 3 4 5 6 6 7 8 6 8 10 10 11 10 11 12 12 13

p = 0’005

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
3 5 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
4 5 7 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
5 5 7 9 9 10 10 11 10 11 11 11 11 11 11 11 11 11 11 11
6 5 7 9 10 11 11 12 12 13 13 13 13 13 13 13 13 13 13 13
7 5 7 9 10 11 12 12 13 14 14 14 15 15 15 15 15 15 15 15
8 5 7 9 11 12 12 13 14 14 15 15 16 16 16 16 17 17 17 17
9 5 7 9 10 12 13 14 15 15 16 16 17 17 17 17 17 18 18 18
10 5 7 9 11 13 14 14 15 16 17 17 18 18 18 19 19 19 19 19
11 5 7 9 11 13 14 15 16 17 18 19 20 20 21 21 21 22 22 17
12 5 7 9 11 13 14 15 16 17 19 18 18 19 19 20 20 20 21 21
13 5 7 9 11 13 15 16 17 18 20 18 20 20 21 21 22 22 23 23
14 5 7 9 11 13 15 16 17 18 20 19 20 21 22 22 23 23 23 24
15 5 7 9 11 13 15 16 17 18 21 19 21 22 22 23 23 24 24 25
16 5 7 9 11 13 15 16 17 19 21 20 21 22 23 23 24 24 25 25
17 5 7 9 11 13 15 17 17 19 21 20 22 23 23 24 25 25 26 26
18 5 7 9 11 13 15 17 18 19 22 20 22 23 24 24 25 26 26 27
19 5 7 9 11 13 15 17 18 19 22 21 23 23 24 25 26 26 27 28
20 5 7 9 11 13 15 17 18 19 17 21 23 24 25 25 26 27 28 28

Para n
1
ó n
2
> 20, el Número de Rachas sigue aproximadamente una distribución Normal de

media =μ =
2n
1
n
2
n
1
+ n
2
+1
y

varianza = σ
2
=
2n
1
n
2
(2n
1
n
2
− n
1
− n
2
)
n
1
+ n
2
( )
2
n
1
+ n
2
−1
( )

TABLA T.2. Probabilidad de una variable chi-cuadrado con n grados de libertad X ~

χ
n
2


{ } sombreada Área = = > p x X P






p
n 0’01 0’025 0’05 0’10 0’15 0’25 0’5 0’75 0’85 0’9 0’95 0’975 0’99
1 6’635 5’024 3’841 2’706 2’072 1’323 0’455 0’102 0’036 0’016 0’003932 0’000982 0’000157
2 9’210 7’378 5’991 4’605 3’794 2’773 1’386 0’575 0’325 0’211 0’103 0’051 0’020
3 11’345 9’348 7’815 6’251 5’317 4’108 2’366 1’213 0’798 0’584 0’352 0’216 0’115
4 13’277 11’143 9’488 7’779 6’745 5’385 3’357 1’923 1’366 1’064 0’711 0’484 0’297
5 15’086 12’833 11’070 9’236 8’115 6’626 4’351 2’675 1’994 1’610 1’145 0’831 0’554
6 16’812 14’449 12’592 10’645 9’446 7’841 5’348 3’455 2’661 2’204 1’635 1’237 0’872
7 18’475 16’013 14’067 12’017 10’748 9’037 6’346 4’255 3’358 2’833 2’167 1’690 1’239
8 20’090 17’535 15’507 13’362 12’027 10’219 7’344 5’071 4’078 3’490 2’733 2’180 1’646
9 21’666 19’023 16’919 14’684 13’288 11’389 8’343 5’899 4’817 4’168 3’325 2’700 2’088
10 23’209 20’483 18’307 15’987 14’534 12’549 9’342 6’737 5’570 4’865 3’940 3’247 2’558
11 24’725 21’920 19’675 17’275 15’767 13’701 10’341 7’584 6’336 5’578 4’575 3’816 3’053
12 26’217 23’337 21’026 18’549 16’989 14’845 11’340 8’438 7’114 6’304 5’226 4’404 3’571
13 27’688 24’736 22’362 19’812 18’202 15’984 12’340 9’299 7’901 7’042 5’892 5’009 4’107
14 29’141 26’119 23’685 21’064 19’406 17’117 13’339 10’165 8’696 7’790 6’571 5’629 4’660
15 30’578 27’488 24’996 22’307 20’603 18’245 14’339 11’037 9’499 8’547 7’261 6’262 5’229
16 32’000 28’845 26’296 23’542 21’793 19’369 15’338 11’912 10’309 9’312 7’962 6’908 5’812
17 33’409 30’191 27’587 24’769 22’977 20’489 16’338 12’792 11’125 10’085 8’672 7’564 6’408
18 34’805 31’526 28’869 25’989 24’155 21’605 17’338 13’675 11’946 10’865 9’390 8’231 7’015
19 36’191 32’852 30’144 27’204 25’329 22’718 18’338 14’562 12’773 11’651 10’117 8’907 7’633
20 37’566 34’170 31’410 28’412 26’498 23’828 19’337 15’452 13’604 12’443 10’851 9’591 8’260
21 38’932 35’479 32’671 29’615 27’662 24’935 20’337 16’344 14’439 13’240 11’591 10’283 8’897
22 40’289 36’781 33’924 30’813 28’822 26’039 21’337 17’240 15’279 14’041 12’338 10’982 9’542
23 41’638 38’076 35’172 32’007 29’979 27’141 22’337 18’137 16’122 14’848 13’091 11’689 10’196
24 42’980 39’364 36’415 33’196 31’132 28’241 23’337 19’037 16’969 15’659 13’848 12’401 10’856
25 44’314 40’646 37’652 34’382 32’282 29’339 24’337 19’939 17’818 16’473 14’611 13’120 11’524
26 45’642 41’923 38’885 35’563 33’429 30’435 25’336 20’843 18’671 17’292 15’379 13’844 12’198
27 46’963 43’195 40’113 36’741 34’574 31’528 26’336 21’749 19’527 18’114 16’151 14’573 12’879
28 48’278 44’461 41’337 37’916 35’715 32’620 27’336 22’657 20’386 18’939 16’928 15’308 13’565
29 49’588 45’722 42’557 39’087 36’854 33’711 28’336 23’567 21’247 19’768 17’708 16’047 14’256
30 50’892 46’979 43’773 40’256 37’990 34’800 29’336 24’478 22’110 20’599 18’493 16’791 14’953
31 52’191 48’232 44’985 41’422 39’124 35’887 30’336 25’390 22’976 21’434 19’281 17’539 15’655
32 53’486 49’480 46’194 42’585 40’256 36’973 31’336 26’304 23’844 22’271 20’072 18’291 16’362
33 54’776 50’725 47’400 43’745 41’386 38’058 32’336 27’219 24’714 23’110 20’867 19’047 17’074
34 56’061 51’966 48’602 44’903 42’514 39’141 33’336 28’136 25’586 23’952 21’664 19’806 17’789
35 57’342 53’203 49’802 46’059 43’640 40’223 34’336 29’054 26’460 24’797 22’465 20’569 18’509
36 58’619 54’437 50’998 47’212 44’764 41’304 35’336 29’973 27’336 25’643 23’269 21’336 19’233
37 59’893 55’668 52’192 48’363 45’886 42’383 36’336 30’893 28’214 26’492 24’075 22’106 19’960
38 61’162 56’896 53’384 49’513 47’007 43’462 37’335 31’815 29’093 27’343 24’884 22’878 20’691
39 62’428 58’120 54’572 50’660 48’126 44’539 38’335 32’737 29’974 28’196 25’695 23’654 21’426
40 63’691 59’342 55’758 51’805 49’244 45’616 39’335 33’660 30’856 29’051 26’509 24’433 22’164
41 64’950 60’561 56’942 52’949 50’360 46’692 40’335 34’585 31’740 29’907 27’326 25’215 22’906
42 66’206 61’777 58’124 54’090 51’475 47’766 41’335 35’510 32’626 30’765 28’144 25’999 23’650
43 67’459 62’990 59’304 55’230 52’588 48’840 42’335 36’436 33’512 31’625 28’965 26’785 24’398
44 68’710 64’201 60’481 56’369 53’700 49’913 43’335 37’363 34’400 32’487 29’787 27’575 25’148
45 69’957 65’410 61’656 57’505 54’810 50’985 44’335 38’291 35’290 33’350 30’612 28’366 25’901
50 76’154 71’420 67’505 63’167 60’346 56’334 49’335 42’942 39’754 37’689 34’764 32’357 29’707
55 82’292 77’380 73’311 68’796 65’855 61’665 54’335 47’610 44’245 42’060 38’958 36’398 33’570
60 88’379 83’298 79’082 74’397 71’341 66’981 59’335 52’294 48’759 46’459 43’188 40’482 37’485
65 94’422 89’177 84’821 79’973 76’807 72’285 64’335 56’990 53’293 50’883 47’450 44’603 41’444
70 100’425 95’023 90’531 85’527 82’255 77’577 69’334 61’698 57’844 55’329 51’739 48’758 45’442
75 106’393 100’839 96’217 91’061 87’688 82’858 74’334 66’417 62’412 59’795 56’054 52’942 49’475
80 112’329 106’629 101’879 96’578 93’106 88’130 79’334 71’145 66’994 64’278 60’391 57’153 53’540
85 118’236 112’393 107’522 102’079 98’511 93’394 84’334 75’881 71’589 68’777 64’749 61’389 57’634
90 124’116 118’136 113’145 107’565 103’904 98’650 89’334 80’625 76’195 73’291 69’126 65’647 61’754
95 129’973 123’858 118’752 113’038 109’286 103’899 94’334 85’376 80’813 77’818 73’520 69’925 65’898
100 135’807 129’561 124’342 118’498 114’659 109’141 99’334 90’133 85’441 82’358 77’929 74’222 70’065

0 x
p
TABLA T.3. Test de los rangos con signo de Wilcoxon


Valores críticos de los estadísticos de Wilcoxon para n ≤ 30


p

n 0’995 0’99 0’975 0’95 0’05 0’025 0’01 0’005
5 - - - 0 15 - - -
6 - - 0 2 19 21 - -
7 - 0 2 3 25 26 28 -
8 0 1 3 5 31 33 35 36
9 1 3 5 8 37 40 42 44
10 3 5 8 10 45 47 50 52
11 5 7 10 13 53 56 59 61
12 7 9 13 17 61 65 69 71
13 9 12 17 21 70 74 79 82
14 12 15 21 25 80 84 90 93
15 15 19 25 30 90 95 101 105
16 19 23 29 35 101 107 113 117
17 23 27 34 41 112 119 126 130
18 27 32 40 47 124 131 139 144
19 32 37 46 53 137 144 153 158
20 37 43 52 60 150 158 167 173
21 42 49 58 67 164 173 182 189
22 48 55 65 75 178 188 198 205
23 54 62 73 83 193 203 214 222
24 61 69 81 91 209 219 231 239
25 68 76 89 100 225 236 249 257
26 75 84 98 110 241 253 267 276
27 83 92 107 119 259 271 286 295
28 91 101 116 130 276 290 305 315
29 100 110 126 140 295 309 325 335
30 109 120 137 151 314 328 345 356

Para n > 30, los estadísticos de Wilcoxon siguen aproximadamente una distribución Normal de

media =μ =
n n+1
( )
4
y

varianza = σ
2
=
n n+1
( )
2n+1
( )
24




TABLA T.4. Test de la U de Mann - Whitney.

Valores críticos del estadístico U de Mann – Whitney para n
1
y n
2
≤ 20

p = 0’001

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
4 0 0 0 0 0 0 0 0 1 1 I 2 2 2 3 3 4 4 4
5 0 0 0 0 0 0 1 2 2 3 3 4 4 5 6 6 7 8 8
6 0 0 0 0 0 0 2 3 4 5 5 6 7 8 9 10 11 12 13
7 0 0 0 0 1 2 3 4 6 7 8 9 10 11 12 14 15 16 17
8 0 0 0 1 2 3 5 6 7 9 10 12 13 15 16 18 19 21 22
9 0 0 0 2 3 4 6 8 9 11 13 15 16 18 20 22 24 26 27
10 0 0 1 2 4 6 7 9 11 13 15 18 20 22 24 26 28 30 33
11 0 0 1 3 5 7 9 11 13 16 18 21 23 25 28 30 33 35 38
12 0 0 1 3 5 8 10 13 15 18 21 24 26 29 32 35 38 41 43
13 0 0 2 4 6 9 12 15 18 21 24 27 30 33 36 39 43 46 49
14 0 0 2 4 7 10 13 16 20 23 26 30 33 37 40 44 47 51 55
15 0 0 2 5 8 11 15 18 22 25 29 33 37 41 44 48 52 56 60
16 0 0 3 6 9 12 16 20 24 28 32 36 40 44 49 53 57 61 66
17 0 1 3 6 10 14 18 22 26 30 35 39 44 48 53 58 62 67 71
18 0 1 4 7 11 15 19 24 28 33 38 43 47 52 57 62 67 72 77
19 0 1 4 8 12 16 21 26 30 35 41 46 51 56 61 67 72 78 83
20 0 1 4 8 13 17 22 27 33 38 43 49 55 60 66 71 77 83 89

p = 0’005

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
3 0 0 0 0 0 0 0 1 1 1 2 2 2 3 3 3 3 4 4
4 0 0 0 0 1 1 2 2 3 3 4 4 5 6 6 7 7 8 9
5 0 0 0 1 2 2 3 4 5 6 7 8 8 9 10 11 12 13 14
6 0 0 1 2 3 4 5 6 7 8 10 11 12 13 14 16 17 18 19
7 0 0 1 2 4 5 7 8 10 11 13 14 16 17 19 20 22 23 25
8 0 0 2 3 5 7 8 10 12 14 16 18 19 21 23 25 27 29 31
9 0 1 2 4 6 8 10 12 14 17 19 21 23 25 28 30 32 34 37
10 0 1 3 5 7 10 12 14 17 19 22 25 27 30 32 35 38 40 43
11 0 1 3 6 8 11 14 17 19 22 25 28 31 34 37 40 43 46 49
12 0 2 4 7 10 13 16 19 22 25 28 32 35 38 42 45 48 52 55
13 0 2 4 8 11 14 18 21 25 28 32 35 39 43 46 50 54 58 61
14 0 2 5 8 12 16 19 23 27 31 35 39 43 47 51 55 59 6.1 68
15 0 3 6 9 13 17 21 25 30 34 38 43 47 52 56 61 65 70 74
16 0 3 6 10 14 19 23 28 32 37 42 46 51 56 61 66 71 75 80
17 0 3 7 11 16 20 25 30 35 40 45 50 55 61 66 71 76 82 87
18 0 3 7 12 17 22 27 32 38 43 48 54 59 65 71 76 82 88 93
19 1 4 8 13 18 23 29 34 40 46 52 58 64 70 75 82 88 94 100
20 1 4 9 14 19 25 31 37 43 49 55 61 68 74 80 87 93 100 106

TABLA T.4. Test de la U de Mann - Whitney. (Continuación)

Valores críticos del estadístico U de Mann – Whitney para n
1
y n
2
≤ 20

p = 0’01

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 2 2
3 0 0 0 0 0 1 1 2 2 2 3 3 3 4 4 5 5 5 6
4 0 0 0 1 2 2 3 4 4 5 6 6 7 8 8 9 10 10 11
5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
6 0 0 2 3 4 5 7 8 9 10 12 13 14 16 16 19 20 21 23
7 0 1 2 4 5 7 8 10 12 13 15 17 18 20 22 24 25 27 29
8 0 1 3 5 7 8 10 12 14 16 18 21 23 25 27 29 31 33 35
9 0 2 4 6 8 10 12 15 17 19 22 24 27 29 32 34 37 39 41
10 0 2 4 7 9 12 14 17 20 23 25 28 31 34 37 39 42 45 48
11 0 2 5 8 10 13 16 19 23 26 29 32 35 38 42 45 48 51 54
12 0 3 6 9 12 15 18 22 25 29 32 36 39 43 47 50 54 57 61
13 1 3 6 10 13 17 21 24 28 32 36 40 44 48 52 56 60 64 68
14 1 3 7 11 14 18 23 27 31 35 39 44 48 52 57 64 66 72 74
15 1 4 8 12 16 20 25 29 34 38 43 48 52 57 62 67 71 76 81
16 1 4 8 13 17 22 27 32 37 42 47 52 57 62 67 72 77 83 88
17 1 5 9 14 19 24 29 34 39 45 50 56 61 67 72 78 83 89 94
18 1 5 10 15 20 25 31 37 42 48 54 60 66 71 77 83 89 95 101
19 2 5 10 16 21 27 33 39 45 51 57 64 70 76 83 89 95 102 108
20 2 6 11 17 23 29 35 41 48 54 61 68 74 81 88 94 101 108 115

p = 0’025

n
2

n
1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 0 0 0 0 0 0 1 1 1 1 2 2 2 2 2 3 3 3 3
3 0 0 0 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9
4 0 0 1 2 3 4 5 5 6 7 8 9 10 11 12 12 13 14 15
5 0 1 2 3 4 6 7 8 9 10 12 13 14 15 16 18 19 20 21
6 0 2 3 4 6 7 9 11 12 14 15 17 18 20 22 23 25 26 28
7 0 2 4 6 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
8 1 3 5 7 9 11 14 16 18 20 23 25 27 30 32 35 37 39 42
9 1 3 5 8 11 13 16 18 21 24 27 29 32 35 38 40 43 46 49
10 1 4 6 9 12 15 18 21 24 27 30 34 37 40 43 46 49 53 56
11 1 4 7 10 14 17 20 24 27 31 34 38 41 45 48 52 56 59 63
12 2 5 8 12 15 19 23 27 30 34 38 42 46 50 54 58 62 66 70
13 2 5 9 13 17 21 25 29 34 38 42 46 51 55 60 64 68 73 77
14 2 6 10 14 18 23 27 32 37 41 46 51 56 60 65 70 75 79 84
15 2 6 11 15 20 25 30 35 40 45 50 55 60 65 71 76 81 86 91
16 2 7 12 16 22 27 32 38 43 48 54 60 65 71 73 82 87 93 99
17 3 7 12 18 23 29 35 40 46 52 58 64 70 76 82 88 94 100 106
18 3 8 13 19 25 31 37 43 49 56 62 68 71 81 87 94 100 107 113
19 3 8 14 20 26 33 39 46 53 59 66 73 79 86 93 100 107 114 120
20 3 9 15 21 28 35 42 49 56 63 70 77 84 91 99 106 113 120 128

Para n
1
ó n
2
> 20, sigue aproximadamente una distribución Normal N( μ , σ ) con

μ =
n
1
n
2
2
y

σ
2
=
n
1
n
2
(n
1
+ n
2
+1)
12

TABLA T.5. Valores críticos en la prueba de Durbin Watson para α =10%

n k d
L
d
U
n k d
L
d
U
n k d
L
d
U

6 1 0,61018 1,40015 17 5 0,66414 2,10414 22 5 0.86285 1.93996
7 1 0,69955 1,35635 17 6 0,55423 2,31755 22 6 0.76898 2.09015
7 2 0,46723 1,89636 17 7 0,45107 2,53660 22 7 0.67719 2.24646
8 1 0,76290 1,33238 17 8 0,35639 2,75688 22 8 0.58843 2.40718
8 2 0,55907 1,77711 17 9 0,27177 2,97455 22 9 0.50363 2.57051
8 3 0,36744 2,28664 17 10 0,19784 3,18400 22 10 0.42363 2.73452
9 1 0,82428 1,31988 17 11 0,13763 3,37817 22 11 0.34926 2.89726
9 2 0,62910 1,69926 17 12 0,08711 3,55716 22 12 0.28119 3.05662
9 3 0,45476 2,12816 18 1 1,15759 1,39133 22 13 0.22003 3.21061
9 4 0,29571 2,58810 18 2 1,04607 1,53525 22 14 0.16642 3.35756
10 1 0,87913 1,31971 18 3 0,93310 1,69614 22 15 0.12028 3.49463
10 2 0,69715 1,64134 18 4 0,82044 1,87189 22 16 0.08315 3.61880
10 3 0,52534 2,01632 18 5 0,70984 2,06000 22 17 0.05242 3.73092
10 4 0,37602 2,41365 18 6 0,60301 2,25750 23 1 1.25665 1.43747
10 5 0,24269 2,82165 18 7 0,50158 2,46122 23 2 1.16815 1.54346
11 1 0,92733 1,32409 18 8 0,40702 2,66753 23 3 1.07778 1.65974
11 2 0,75798 1,60439 18 9 0,32076 2,87268 23 4 0.98639 1.78546
11 3 0,59477 1,92802 18 10 0,24405 3,07345 23 5 0.89488 1.91958
11 4 0,44406 2,28327 18 11 0,17732 3,26497 23 6 0.80410 2.06093
11 5 0,31549 2,64456 18 12 0,12315 3,44141 23 7 0.71493 2.20816
11 6 0,20253 3,00447 18 13 0,07786 3,60315 23 8 0.62821 2.35988
12 1 0,97076 1,33137 19 1 1,18037 1,40118 23 9 0.54478 2.51449
12 2 0,81221 1,57935 19 2 1,07430 1,53553 23 10 0.46541 2.67038
12 3 0,65765 1,86397 19 3 0,96659 1,68509 23 11 0.39083 2.82585
12 4 0,51198 2,17662 19 4 0,85876 1,84815 23 12 0.32172 2.97919
12 5 0,37956 2,50609 19 5 0,75231 2,02262 23 13 0.25866 3.12852
12 6 0,26813 2,83196 19 6 0,64870 2,20614 23 14 0.20216 3.27216
12 7 0,17144 3,14940 19 7 0,54938 2,39602 23 15 0.15274 3.40865
13 1 1,00973 1,34040 19 8 0,45571 2,58939 23 16 0.11029 3.53549
13 2 0,86124 1,56212 19 9 0,36889 2,78312 23 17 0.07619 3.65007
13 3 0,71465 1,81593 19 10 0,29008 2,97399 23 18 0.04801 3.75327
13 4 0,57446 2,09428 19 11 0,22029 3,15930 24 1 1.27276 1.44575
13 5 0,44448 2,38967 19 12 0,15979 3,33481 24 2 1.18781 1.54639
13 6 0,32775 2,69204 19 13 0,11082 3,49566 24 3 1.10100 1.65649
13 7 0,23049 2,98506 19 14 0,07001 3,64241 24 4 1.01309 1.77526
13 8 0,14693 3,26577 20 1 1,20149 1,41073 24 5 0.92486 1.90184
14 1 1,04495 1,35027 20 2 1,10040 1,53668 24 6 0.83706 2.03522
14 2 0,90544 1,55066 20 3 0,99755 1,67634 24 7 0.75048 2.17427
14 3 0,76666 1,77882 20 4 0,89425 1,82828 24 8 0.66589 2.31774
14 4 0,63206 2,02955 20 5 0,79179 1,99079 24 9 0.58400 2.46431
14 5 0,50516 2,29593 20 6 0,69146 2,16189 24 10 0.50554 2.61260
14 6 0,38897 2,57158 20 7 0.59454 2.33937 24 11 0.43119 2.76111
14 7 0,28559 2,84769 20 8 0.50220 2.52082 24 12 0.36156 2.90835
14 8 0,20013 3,11121 20 9 0.41559 2.70374 24 13 0.29723 3.05282
14 9 0,12726 3,36038 20 10 0.33571 2.88535 24 14 0.23869 3.19285
15 1 1,07697 1,36054 20 11 0.26349 3.06292 24 15 0.18635 3.32700
15 2 0,94554 1,54318 20 12 0.19978 3.23417 24 16 0.14066 3.45402
15 3 0,81396 1,75014 20 13 0.14472 3.39540 24 17 0.10150 3.57167
15 4 0,68519 1,97735 20 14 0.10024 3.54250 24 18 0.07006 3.67769
15 5 0,56197 2,21981 20 15 0.06327 3.67619 24 19 0.04413 3.77297
15 6 0,44707 2,47148 21 1 1.22115 1.41997 25 1 1.28791 1.45371
15 7 0,34290 2,72698 21 2 1.12461 1.53849 25 2 1.20625 1.54954
15 8 0,25090 2,97866 21 3 1.02624 1.66942 25 3 1.12276 1.65403
15 9 0,17531 3,21604 21 4 0.92719 1.81157 25 4 1.03811 1.76655
15 10 0,11127 3,43819 21 5 0.82856 1.96350 25 5 0.95297 1.88634
16 1 1,10617 1,37092 21 6 0.73149 2.12355 25 6 0.86803 2.01252
16 2 0,98204 1,53860 21 7 0.63710 2.28988 25 7 0.78400 2.14412
16 3 0,85718 1,72773 21 8 0.54645 2.46051 25 8 0.70154 2.28007
16 4 0,73400 1,93506 21 9 0.46055 2.63324 25 9 0.62133 2.41924
16 5 0,61495 2,15672 21 10 0.38035 2.80588 25 10 0.54401 2.56041
16 6 0,50223 2,38813 21 11 0.30669 2.97600 25 11 0.47019 2.70229
16 7 0,39805 2,62409 21 12 0.24033 3.14129 25 12 0.40046 2.84360
16 8 0,30433 2,86009 21 13 0.18198 3.29979 25 13 0.33536 2.98300
16 9 0,22206 3,08954 21 14 0.13166 3.44827 25 14 0.27536 3.11913
16 10 0,15479 3,30391 21 15 0.09111 3.58322 25 15 0.22090 3.25058
16 11 0,09809 3,50287 21 16 0.05747 3.70544 25 16 0.17231 3.37604
17 1 1,13295 1,38122 22 1 1.23949 1.42888 25 17 0.12995 3.49447
17 2 1,01543 1,53614 22 2 1.14713 1.54079 25 18 0.09371 3.60384
17 3 0,89675 1,71009 22 3 1.05292 1.66398 25 19 0.06465 3.70220
17 4 0,77898 1,90047 22 4 0.95783 1.79744 25 20 0.04070 3.79041