You are on page 1of 23

El anlisis multivariable:

conceptos bsicos

Joaqun Alds Manzano1

Universitat de Valncia
Dpto. de Direccin de Empresas Juan Jos Renau Piqueras

1
Estas notas son una seleccin de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epgrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi nica tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
2 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

El anlisis multivariable: conceptos bsicos

1. Qu es el anlisis multivariable?
(Hair, Anderson, Tatham y Black, 1995)

El anlisis multivariable no es fcil de definir. En general, se refiere a aquellos


mtodos estadsticos que analizan simultneamente diversas variables en cada
individuo u objeto sobre el cual se investiga. Cualquier anlisis simultneo de
ms de dos variables, puede considerarse anlisis multivariable. De hecho,
muchas tcnicas multivariable son la simple extensin de anlisis univariados o
bivariados. As, por ejemplo, la regresin simple (con una sola variable indepen-
diente), es una tcnica multivariable cuando se extiende a varios regresores.
Otras tcnicas, sin embargo, como el anlisis factorial o el anlisis
discriminante, estn especficamente diseadas para trabajar nicamente con
estructuras multivariables.

2. Conceptos bsicos

Escalas de medida
(Manzano, 1995; Uriel, 1995)

El anlisis de datos, implica la identificacin y medida de la variacin en un


conjunto de variables, bien entre ellas mismas o entre una variable dependiente
y una o ms independientes. La palabra clave es medida, puesto que el investi-
gador no puede identificar la variacin hasta que sta sea medida. En cualquier
tcnica de anlisis multivariable, juega un papel muy importante el tipo de
escala en que las variables estn medidas de hecho, como veremos, un criterio
determinante para decidir qu tcnica multivariable es la adecuada para resol-
ver un problema determinado, ser el tipo de escala en que estn medidas las
variables dependientes e independientes. Podemos distinguir entre:

Escalas nominales. En este caso, los nmeros se comportan como etiquetas,


con tanta validez como una letra del alfabeto. Su misin es distinguir entre
diferentes valores; por ejemplo: sexo (hombre, mujer). En el proceso de
codificacin se puede asignar 1 al valor hombre y 2 al valor mujer. Esto no
significa que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2),
ni que existan personas de sexo intermedio (1,5).
3 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Escalas ordinales. No slo consigue distinguir entre valores, como la


anterior, sino que adems establece un orden entre ellos. El dato represen-
tado por un 3 es superior al representado por un 2; por ejemplo tamao
relativo (enorme, grande, normal, pequeo, diminuto). Si codificamos estos
valores de la siguiente forma:

1 diminuto; 2 pequeo; 3 normal; 4 grande; 5 enorme

entonces es cierta la relacin de orden, puesto que 1<2<3<4<5, pero no es


cierto que entre grande y enorme exista la misma diferencia que entre
pequeo y normal (5-4 = 1 = 3-2), como tampoco que pequeo sea el doble
que diminuto (2=1x2).
Escalas de intervalo. Adems de distincin y orden, la distancia o diferencia
entre dos valores consecutivos cualesquiera es siempre la misma. En este
caso, entre el valor representado por un 3 y el representado por un 2, existe
la misma diferencia que entre 5 y 4. Por ejemplo, la temperatura medida en
grados centgrados. En este caso, no slo 100 es diferente a 80, sino que es
mayor (100>80); inclusive la diferencia de temperatura entre ambos es la
misma que entre 80 y 60 (100-80 = 80-60). Pero no existe un cero absolu-
to, ya que la temperatura de 0 no significa ausencia de temperatura. De
esta forma 100 no es el doble de 50. Vemoslo con un ejemplo. Creemos
una nueva escala de temperatura que llamaremos en arcias, donde 1 arcia
= 1 grado centgrado. Pero esta escala no tiene el cero cuando el agua se
congela (0C) sino cuando entre en ebullicin (100C). Como se observa en
la figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto como
afirmar que 140 es el doble de 120.

Figura 1. Ejemplo de escalas de intervalo

Arcias Centgrados

80 180
60 160
40 140
20 120
0 100
-20 80

Escalas de razn. Adems de la distincin, orden e intervalo, se aade un


origen absoluto, de forma que no slo cabe hallar diferencias (ya se poda
4 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

hacer en la escala de intervalo), sino tambin mltiplos exactos. En este


caso el valor representado por 4 tiene doble cantidad medida que el repre-
sentado por 2. ste es el caso, por ejemplo, de la edad expresada en aos.
As, 40 y 20 aos son edades distintas, 40 aos es una edad superior a 20
aos, entre 20 y 40 aos hay la misma diferencia de edad que entre 30 y 50
y, adems, el 0 tiene sentido. Una persona con 0 aos realmente no tiene
edad, todava no ha nacido. De esta forma, 40 es exactamente el doble de
20.

En estos apuntes, en diferentes ocasiones, utilizaremos las expresiones escalas


mtricas, escalas no mtricas. No es una clasificacin alternativa, sino que la
literatura agrupa a las escalas nominales y ordinales bajo el nombre de no
mtricas y a las de intervalo y razn bajo el de escalas mtricas.

La inferencia estadstica
(Manzano, 1995)

Todas las tcnicas multivariables, excepto el anlisis cluster y el escalamiento


multidimensional, estn basados en inferir los valores reales que toma una
variable en una poblacin, a partir de los valores que toma esa variable en una
muestra aleatoria de la misma. Por ello es importante que nos acostumbremos
a manejar con propiedad algunos trminos que aparecern con frecuencia a lo
largo de nuestra relacin con las tcnicas multivariables.

Cuando se juzga a una persona, puede declarrsele inocente o culpable.


Independientemente del resultado del juicio, la persona ser inocente o culpa-
ble de verdad. De esta forma, tenemos las cuatro posibilidades que recoge el
cuadro 1.
Cuadro 1. Tipos de error en la inferencia estadstica
Realidad
Resultado del juicio
Inocente Culpable
Inocente Acierto Error tipo II
Culpable Error tipo I Acierto

Si hemos inferido que el individuo era inocente y en la realidad lo es, o lo


hemos declarado culpable sindolo, estamos ante situaciones de acierto. Sin
embargo las otras dos situaciones son errores. Nos planteamos entonces qu es
ms grave, si declarar culpable a un inocente (error tipo I) o declarar inocente
a un culpable (error tipo II). En las sociedades democrticas, se toma como
menos grave la ltima situacin, por lo que se parte del supuesto de inocencia.
5 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

En la inferencia estadstica el razonamiento es anlogo. Imaginemos que


estamos estudiando si existe relacin entre el sexo y el absentismo laboral. Si
partiramos de que hay que evitar a toda costa el error tipo II, daramos por
supuesto que s que existe relacin y veramos si hay evidencia de lo contrario.
Pueden no encontrarse observaciones contundentes que rechacen de manera
clara el supuesto de relacin. De esta forma se concluira que s existe relacin
y, a partir de ese momento se llevaran a cabo un abanico de decisiones
basadas en ese conocimiento cientfico. Una posible consecuencia podra ser
la segregacin en los puestos de trabajo con motivo del sexo del aspirante. Por
ese motivo, en ciencia, partimos de que no existe relacin y la labor del cient-
fico consiste en encontrar las evidencias de que s existe esa relacin.

Si hemos partido de que no existe relacin, podemos llamar a ese enuncia-


do hiptesis nula. El anlisis estadstico va a consistir bsicamente en buscar
un criterio que me lleve a rechazar la hiptesis nula slo cuando la probabili-
dad de que me equivoque sea muy pequea. El trmino pequeo, sin embargo
es algo relativo. En Ciencias Sociales se suele considerar que esa probabilidad
es pequea cuando sea inferior al 1% en unos casos o al 5% en otros. A estos
valores se los conoce como niveles de significacin y se les denota con la letra
griega . Cuando a esos niveles de significacin podamos rechazar la hiptesis
nula, diremos que la relacin entre las variables analizadas es estadsticamente
significativas.

Hoy en da, con los programas informticos, el contraste de hiptesis puede


contemplarse desde otra perspectiva mucho ms racional. As, los programas
estadsticos suelen ofrecer el llamado nivel de significacin crtico que suele
aparecer bajo la etiqueta de p-value o significatividad. Determinado , se
rechaza toda hiptesis nula a un nivel de significacin siempre que < . El
nivel de significacin crtico es, pues, un indicador del nivel de admisibilidad de
la hiptesis nula: cuanto mayor sea el nivel de significacin crtico, mayor
confianza podemos depositar en la hiptesis nula. La utilizacin del nivel de
significacin crtico, implica dar la vuelta al problema del contraste de
hiptesis. As, en lugar de fijar a priori un nivel de significacin, se calcula un
valor de que permite determinar a posteriori para qu niveles de significa-
cin se puede rechazar la hiptesis nula.
6 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

3 Tipos de tcnicas multivariables


(Hair, Anderson, Tatham y Black, 1995)

Una de las decisiones ms importantes, sino la ms relevante, a la hora de


llevar a cabo un anlisis multivariado de los datos, pasa por determinar cul es
la tcnica ms adecuada entre las muchas posibles.
Para llevar a cabo esta seleccin, cabe responder a tres preguntas bsicas:

1. Estamos tratando de establecer una relacin de dependencia -


independencia entre unas variables y otras.
2. Si lo estamos haciendo, cuntas variables independientes se estn
considerando en el anlisis?
3. Qu tipo de escala se est utilizando para medir a las variables?

De la respuesta que se de a estas tres preguntas, depender que una u otra


tcnica multivariable sea la ms adecuada para nuestra investigacin. Vemos-
las, por tanto, con ms detalle.

Siguiendo la figura 2 se observa que e primer criterio para seleccionar un tipo u


otro de tcnica, pasa por determinar si nuestro propsito es establecer o no
relaciones de dependencia e independencia entre las distintas variables. De ser
s, un grupo de ellas, las dependientes sern explicadas por otras, las indepen-
dientes, como ocurre por ejemplo con la regresin lineal. La alternativa a esta
decisin est en las tcnicas de interdependencia, donde no existe un grupo de
variables que sean definidas como dependientes o independientes, sino que la
tcnica que se aplique analizar todas las variables simultneamente. Un
ejemplo de este tipo de tcnicas es el anlisis factorial.
7 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Figura 2a. Clasificacin de las tcnicas multivariables

Tipo de relacin que


se analiza

DEPENDENCIA:
Prediccin de
variables dependientes
por otras
independientes

Cuntas relaciones
se miden

Mltiples relaciones Una relacin entre Una relacin entre una


entre varias
varias dependientes y dependiente y las
dependientes y las
las independientes independientes
independientes

Sistemas de Escala de medida de las Escala de medida de las


Ecuaciones dependientes dependientes
Estructurales

Mtrica No Mtrica Mtrica

Escala de medida de las Correlacin


independientes cannica con v. Regresin Mltiple Anlisis Conjunto
ficticias

Mtrica No Mtrica

Anlisis
Correlacin multivariable de
cannica varianza

Fuente: Hair, Anderson, Tatham y Black (1995)


8 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Figura 2b. Clasificacin de las tcnicas multivariables

INTERDEPENDENCIA:
Identificar la
estructura de
interrelaciones

La estructura de
relaciones en entre:

Casos/
Variables Objetos
Respuestas

Cmo se miden los


Anlisis factorial Anlisis cluster atributos

B Mtrica No Mtrica

C
No Mtrica
Escalamiento Anlisis de
multidimensional correspondencias

Regresin mltiple
Anlisis de variable
discriminante dependiente
limitada
LEYENDA
Punto de decisin

Decisin tomada

Tcnica seleccionada

Fuente: Hair, Anderson, Tatham y Black (1995)


9 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Los distintos mtodos que conforman el anlisis de dependencia, pueden distin-


guirse atendiendo a dos variables (1) el nmero de variables dependientes y (2)
el tipo de escalas de medida utilizada con las variables. El cuadro 2 facilita al
lector la eleccin de la tcnica de dependencia ms adecuada.

Cuadro 2 Los mtodos multivariables de dependencia

Correlacin cannica
Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(mtricas, no mtricas) (mtricas, no mtricas)

Anlisis multivariable de la varianza


Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(mtricas) (no mtricas)

Anlisis de varianza
Y1 =X1 +X2 +X3 +...+Xm
(mtrica) (no mtricas)

Anlisis de regresin mltiple


Y1 =X1 +X2 +X3 +...+Xm
(mtrica) (mtricas, no mtricas)

Anlisis conjunto
Y1 =X1 +X2 +X3 +...+Xm
(mtrica, no mtrica) (no mtricas)

Sistemas de ecuaciones estructurales


Y1 =X11 +X12 +X13 +...+X1m
Y2 =X21 +X22 +X23 +...+X2m
Yn =Xn1 +Xn2 +Xn3 +...+Xnm
(mtrica, no mtrica) (no mtricas)

Fuente: Hair, Anderson, Tatham y Black (1995)

En las tcnicas de interdependencia que aparecen en la figura 2b, se observa


que las variables no se clasifican en dependientes o independientes, dado que
todas ellas son analizadas simultneamente para encontrar si existe una estruc-
tura subyacente bajo el conjunto de las mismas. Cuando la relacin que se
busca es entre las variables, el anlisis factorial es la tcnica ms adecuada, si
10 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

son los casos los que se agrupan para encontrar la relacin subyacente se
recurre al anlisis conjunto. Finalmente si el inters est en la estructura de los
objetos, debera aplicarse el escalamiento multidimensional.

En general, el anlisis factorial y el cluster se consideran que son tcnicas de


interdependencia mtrica, aunque los datos no mtricos pueden ser transforma-
dos en variables ficticias y ser utilizados. Tambin existen las aproximaciones
mtricas y no mtricas al anlisis de escalamiento multidimensional. En el caso
de que se recurra a variables no mtricas, el anlisis de correspondencias puede
ser una alternativa al escalamiento multidimensional.

4 La construccin de un modelo multivariable


(Hair, Anderson, Tatham y Black, 1995)

Las tcnicas multivariables son, en general, herramientas muy poderosas que


permiten al investigador extraer muchsima informacin de los datos disponi-
bles. Estas tcnicas son, en s mismas, relativamente complejas y requieren para
su utilizacin un conocimiento profundo de sus fundamentos y condiciones de
aplicabilidad. El desarrollo de programas informticos de manejo sencillo, como
el SPSS, estn provocando su uso indiscriminado y, muchas veces, no se utili-
zan adecuadamente.

El objeto de este epgrafe es proporcional al lector una gua que le permita la


aplicacin correcta de las tcnicas multivariables y le facilite el llegar a conclu-
siones razonables.

Paso 1. Defina el problema que est investigado, sus objetivos


y decida la tcnica multivariable que piensa utilizar.

No se puede pretender utilizar una tcnica multivariable sin una adecuada


aproximacin terica al problema que se est abordando. El investigador
debe analizar conceptualmente su objeto de investigacin, definir los
conceptos e identificar las relaciones fundamentales que se pretenden inves-
tigar. Primero hay que centrarse en el tema que se investiga, y no en las
tcnicas que se van a emplear, lo que evitar que dejemos fuera del anlisis
conceptos importantes. Una vez, y slo una vez realizado esto, el lector
puede seguir los esquemas del epgrafe anterior para seleccionar la tcnica
ms adecuada.
11 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Paso 2. Desarrollo del plan de anlisis.

Una vez establecido el modelo conceptual, el nfasis se centra en aplicar


adecuadamente la tcnica elegida, lo que hace referencia fundamentalmente
a los tamaos muestrales mnimos que permiten su aplicacin, y a asegu-
rarse de que el procedimiento de recogida de datos (v.g. los cuestionarios)
miden las variables con las escalas oportunas (mtricas vs. no mtricas).

Paso 3. Tenga cuidado con las condiciones de aplicabilidad de


la tcnica elegida.

Una vez recogidos los datos, es necesario conocer cules son las hiptesis en
que se basan las tcnicas multivariables y, que si no se cumplen, hace que
carezca de sentido aplicarlas. En las tcnicas de dependencia, por ejemplo,
suele ser necesario que los tados cumplan las hiptesis de normalidad, linea-
lidad, independencia del trmino de error y homoscedasticidad.

Paso 4. Estime el modelo multivariable y establezca el ajuste


global del mismo.

Aplique la tcnica multivariable elegida. Pero fjese si el nivel de bondad del


ajuste es adecuado. Si no es as, deber reespecificarse el modelo, incorpo-
rando o eliminando variables.

Paso 5. Interprete los resultados.

Una vez logre un nivel de ajuste aceptable, interprete el modelo. Fjese en


los efectos de las variables individuales examinando sus coeficientes, cargas
factoriales, utilidades... La interpretacin puede conducirle a nuevas reespe-
cificaciones del modelo.

Paso 6. Valide el modelo.

Antes de aceptar los resultados a los que haya llegado, debe aplicar una
serie de tcnicas de diagnstico que asegure que estos resultados son genera-
lizables al conjunto de la poblacin.

En la explicacin de las tcnicas multivariables que haremos en temas posterio-


res, seguiremos cada uno de estos pasos, lo que permitir al lector comprender
mejor la utilidad de aplicar este procedimiento.
12 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

1.5 Comprobacin de las condiciones de aplicabilidad del anlisis


multivariable.
(Hair, Anderson, Tatham y Black, 1995)

Como se ha indicado en el paso 3 del procedimiento antes expuesto, no basta


con que las variables estn medidas en la escala adecuada para que podamos
utilizar o no una tcnica multivariable determinada. Es necesario asegurarse de
que los datos cumplen las hiptesis que se les exige a las tcnicas multivariables
para poder ser aplicadas. Si no es as, las distorsiones y sesgos introducidos no
nos permitirn llegar a conclusiones adecuadas.

Este epgrafe lo estructuraremos en dos fases. En la primera de ellas, describire-


mos las tcnicas de que disponemos para comprobar las principales hiptesis
que deben verificar los datos. A continuacin las aplicaremos a la base de datos
que nos va a servir de referencia para explicar todas las tcnicas multivariables
de este curso, lo que facilitar su comprensin. Para ello se hace necesario
detallar el contenido de la mencionada base de datos.

Descripcin de la base de datos.

HATCO es una empresa fabricante de maquinaria industrial que ha pasado


una encuesta a los jefes de compras de las empresas que adquieren sus produc-
tos, los cuales han valorado su satisfaccin con HATCO respecto a siete atribu-
tos determinantes de su servicio y, adems, han ofrecido informacin acerca de
sus empresas, como su tamao, tipo de empresa, porcentaje de sus compras de
maquinaria que efectan a HATCO y una valoracin global de sus satisfaccin
con esta empresa.

De forma ms detallada, las siete variables que miden la percepcin que tienen
de HATCO sus clientes, son las siguientes:

1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una
vez que ste ha sido confirmado.
2. X2: Nivel de precios. Valoracin sobre el precio que se carga respecto
a otros suministradores.
3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO
de negociar el precio en todo tipo de compras.
4. X4: Imagen del fabricante. Imagen global de HATCO.
5. X5: Servicio. Valoracin respecto a si la calidad actual del servicio es
suficiente para mantener la relacin entre el comprador y HATCO.
13 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventas


de HATCO.
7. X7: Calidad del producto. Nivel de calidad percibida de los productos
de HATCO.

Todas estas variables se han medido mediante una escala grfica constituida
por una lnea de diez centmetros donde en los extremos aparecen las palabras
muy mala y excelente:

Muy mala Excelente

Los entrevistados indican su percepcin marcando con una raya en cualquier


lugar de la lnea, que luego es medida y codificada entre cero y diez.

Por su parte, las caractersticas de las empresas que compran a HATCO, se


han medido mediante escalas mtricas y no mtricas y son las siguientes:

1. X8: Tamao de la empresa. Tamao relativo de la empresa respecto


a otras del mercado. Se han creado dos categoras que son 1 =
grande y 0 = pequea.
2. X9: Nivel de utilizacin de los servicios de HATCO. Es el porcentaje
del total de las compras de la empresa que se realizan a HATCO. Se
mide en una escala de cien puntos, segn sea el porcentaje.
3. X10: Nivel de satisfaccin con HATCO. Mide cun satisfecha est la
empresa con HATCO en la misma escala que las variables X1 a X7.
4. X11: Procedimiento de compra. Establece si la empresa evala cada
compra por separado (codificado como 1) o, por el contrario, tiene
establecidas unas especificaciones de producto que se aplican a todas
las compras (codificado como 0).
5. X12: Estructura de decisin. Determina si dentro de la empresa el
proceso de toma de decisiones de compra est centralizado (codifi-
cado como 1) o descentralizado (codificado como 0).
6. X13: Tipo de industria. Responde a una tipologa interna de
HATCO que las clasifica como industria tipo A (codificado como 1) u
otros tipos (codificado como 0).
7. X14: Tipo de situacin de compra. Hace referencia a si es la primera
compra a HATCO (codificado como 1), si es una recompra pero de
14 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

otros productos (cdigo 2) o es una recompra de los mismos produc-


tos que en la ltima ocasin (cdigo 3).

Cuadro 3 Variables que contiene la base de datos.


Varia- Dependiente vs.
Descripcin Escala
ble Independiente

X1 Rapidez de servicio Independiente Mtrica


X2 Nivel de precios Independiente Mtrica
X3 Flexibilidad precios Independiente Mtrica
X4 Imagen fabricante Independiente Mtrica
X5 Calidad servicio Independiente Mtrica
X6 Imagen vendedores Independiente Mtrica
X7 Calidad producto Independiente Mtrica
X8 Tamao empresa Depend o Independ No mtrica
X9 Nivel uso servicio Dependiente Mtrica
X10 Nivel satisfaccin Dependiente Mtrica
X11 Procedimiento compra Depend o Independ No mtrica
X12 Estructura decisin Depend o Independ No mtrica
X13 Tipo industria Depend o Independ No mtrica
X14 Situacin compra Depend o Independ No mtrica

Establecidas las caractersticas de la base de datos, pasaremos a detallar los


mecanismos de comprobacin de las hiptesis que garantizan la aplicabilidad
del anlisis multivariante.

Normalidad

Es una de las hiptesis ms importantes. Hace referencia al perfil que debe


mostrar la distribucin de frecuencias de cada variable mtrica
individualmente. Si este perfil se desva de la distribucin normal, cualquier
prueba estadstica que llevemos a cabo no sera vlida. La mayora de las tcni-
cas multivariables exigen, adems, que las variables sean multivariablemente
normales, esto es, no slo que individualmente tengan una distribucin normal,
sino que las combinaciones de las mismas tambin posean esta forma.

Si las variables son multivariablemente normales, lo sern individualmente,


pero lo contrario no es cierto. Comprobar la normalidad individual es relativa-
mente sencillo, y a ello nos dedicaremos en este tema. Las pruebas de normali-
15 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

dad multivariables son ms complejas y suelen ser especficas de las tcnicas


donde esta hiptesis es ms necesaria. Sern analizadas al desarrollar esas
tcnicas en concreto.

Los procedimientos para detectar la violacin de las hiptesis de normalidad


pueden agruparse en dos tipos: grficos y estadsticos. Entre los primeros el
ms til es el llamado grfico q-q o grfico de probabilidad normal, donde se
representan los valores observados de los residuos y los esperados en el caso de
que siguieran una distribucin normal. La distribucin normal aparece repre-
sentada por una lnea recta. Si las variables no estn normalmente distribuidas,
se alejarn de la recta como se ejemplifica en el grfico 3.
16 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Grfico 3 Grficos q-q y sus correspondientes distribuciones univariadas

Variable 1

Variable 2

Variable 3

Variable 4

Distribuciones
Grficos q-q
univariadas

En este grfico, la variable 1 sigue una distribucin normal, de manera que su


grfico q-q es una recta. La variable 2 muestra un elevado apuntamiento en su
distribucin, que se traduce en un grfico q-q en forma de s. Las variables 3 y 4
estn sesgadas respectivamente a la derecha e izquierda, lo que provoca que sus
grficos q-q queden por debajo de la recta en el primer caso y por encima en el
segundo.
17 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

El segundo tipo de pruebas para determinar si las variables siguen o no distri-


buciones normales, son las llamadas pruebas estadsticas. Cada paquete infor-
mtico proporciona las suyas, en el caso de SPSS que es el que vamos a
utilizar, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL).

Veamos la aplicacin de ambas pruebas a nuestra base de datos. Como hemos


indicado, slo procede evaluar la normalidad de las variables mtricas, por ello,
lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es la
siguiente:

EXAMINE
VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10
/PLOT BOXPLOT NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

que nos proporciona la siguiente informacin ms relevante. Como grficos q-q


mostramos dos ejemplos correspondientes a las variables X1 (rapidez del servi-
cio) y X6 (imagen de la fuerza de ventas)

Grfico 4. Los grficos q-q en SPSS


Grfico Q-Q normal de Rapidez de servicio
3

0
Normal esperado

-1

-2

-3
-1 0 1 2 3 4 5 6 7

Valor observado
18 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Grfico Q-Q normal de Imagen de los vendedores


3

Normal esperado
-1

-2

-3
0 1 2 3 4 5

Valor observado

Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente:

Cuadro 4 El test KSL en SPSS

Pruebas de normalidad

Kolmogorov-Smirnova
Estadstico gl Sig.
Rapidez de servicio ,063 100 ,200*
nivel de precios ,095 100 ,028
flexibilidad de precios ,095 100 ,027
Imagen del fabricante ,107 100 ,007
Servicio ,085 100 ,069
Imagen de los
,122 100 ,001
vendedores
Calidad del producto ,091 100 ,041
Nivel de uso ,079 100 ,131
nivel de satisfaccin ,078 100 ,142
*. Este es un lmite inferior de la significacin verdadera.
a. Correccin de la significacin de Lilliefors

El test KSL plantea la hiptesis nula de que la variable se distribuye segn una
normal, por lo que hay que comprobar si para alguna variable existe un valor p
inferior al nivel de significacin que, como dijimos, poda ser 0,01 o 0,05. Si es
as, podremos rechazar para esa variable la hiptesis nula y, consecuentemente,
afirmar que esa variable no se distribuye segn una normal. Puede observarse
en el cuadro 4 que las variables X4 imagen del fabricante (p=0,007) y X6
imagen de los vendedores (p=0,001) tienen valores de p inferiores a 0,01, por
lo que podremos concluir que no siguen una distribucin normal. A la misma
conclusin podramos haber llegado analizando el grfico 1.4. En l se
comprueba como en la grfica correspondiente a la variable X1 rapidez del
19 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

servicio los valores se agrupan en torno a la recta, mientras que en la variable


X6 imagen de los vendedores, el perfil es ms parecido al que mostrbamos
en la variable 2 de grfico 3, que corresponda a una distribucin no normal.

Si hubisemos elegido 0.05 como nivel de significacin, las variables X2 nivel


de precios y X3 flexibilidad de precios tampoco tendran un comporta-
miento normal.

Qu hacer con variables que no muestran un comportamiento normal? Lo


habitual es recurrir a transformaciones del tipo:

x p p 0
T (x ) =
ln x

es decir, a tomar logaritmos neperianos de la variable o tomar diversas races (p


= seran cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Para
determinar la ms adecuada, basta con transformar y volver a aplicar el test de
KSL descrito.

Homoscedasticidad

La segunda asuncin que se hace sobre los datos, para poder aplicar las tcni-
cas multivariables, hace referencia a la igualdad de varianza entre las variables
independientes, ya sean stas mtricas o no mtricas, respecto a la variable o
variables dependientes. SPSS proporciona un test especfico para analizar esta
hiptesis, el test de Levene, cuya hiptesis nula es la homoscedasticidad, es
decir, que las varianzas son iguales. En nuestro ejemplo, habra que realizar
esta prueba de homoscedasticidad para el conjunto de variables independientes
(X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variables
dependientes que, como se seal en el cuadro 3, pueden ser las variables (X8,
X11, X12, X13 y X14). La sintaxis par obtener este test en SPSS, sera la
siguiente:
20 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

EXAMINE
VARIABLES= x1 x2 x3 x4 x5 x6 x9 x10 x7 BY x8
x11 x12 x13 x14
/PLOT SPREADLEVEL
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

A modo de ejemplo, ofrecemos en el cuadro 5 la salida correspondiente a anali-


zar la homoscedaticidad de las variables independientes respecto a la variable
X8 o tamao de la empresa.

Puede comprobarse que, tomando como nivel de significacin 0,05, los valores
p correspondientes a X4 imagen del fabricante (p=0,012), X5 servicio
(p=0,006), X6 imagen de los vendedores (p=0.024) y X7 Calidad del
producto (p=0,004) permiten rechazar la hiptesis nula de homoscedasticidad
y, por ello, ser necesario realizar transformaciones anlogas a las que llevba-
mos a cabo para conseguir la normalidad, con el fin de poder aplicar muchas
de las tcnicas multivariables que analizaremos.
21 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Cuadro 5. Salida de SPSS para el anlisis de homoscedasticidad


Prueba de homogeneidad de la varianza

Estadstico
de Levene gl1 gl2 Sig.
Rapidez de servicio Basndose en la media ,934 1 98 ,336
Basndose en la
,993 1 98 ,321
mediana.
Basndose en la
mediana y con gl ,993 1 92,885 ,322
corregido
Basndose en la media
,934 1 98 ,336
recortada
nivel de precios Basndose en la media 1,582 1 98 ,211
Basndose en la
1,668 1 98 ,200
mediana.
Basndose en la
mediana y con gl 1,668 1 97,938 ,200
corregido
Basndose en la media
1,685 1 98 ,197
recortada
flexibilidad de precios Basndose en la media 1,194 1 98 ,277
Basndose en la
,749 1 98 ,389
mediana.
Basndose en la
mediana y con gl ,749 1 85,351 ,389
corregido
Basndose en la media
,817 1 98 ,368
recortada
Imagen del fabricante Basndose en la media 6,549 1 98 ,012
Basndose en la
3,960 1 98 ,049
mediana.
Basndose en la
mediana y con gl 3,960 1 79,356 ,050
corregido
Basndose en la media
6,353 1 98 ,013
recortada
Servicio Basndose en la media 7,819 1 98 ,006
Basndose en la
6,741 1 98 ,011
mediana.
Basndose en la
mediana y con gl 6,741 1 83,075 ,011
corregido
Basndose en la media
7,932 1 98 ,006
recortada
Imagen de los Basndose en la media 5,241 1 98 ,024
vendedores Basndose en la
4,604 1 98 ,034
mediana.
Basndose en la
mediana y con gl 4,604 1 93,255 ,034
corregido
Basndose en la media
4,977 1 98 ,028
recortada
Nivel de uso Basndose en la media 1,377 1 98 ,243
Basndose en la
1,305 1 98 ,256
mediana.
Basndose en la
mediana y con gl 1,305 1 97,893 ,256
corregido
Basndose en la media
1,325 1 98 ,252
recortada
nivel de satisfaccin Basndose en la media ,323 1 98 ,571
Basndose en la
,194 1 98 ,660
mediana.
Basndose en la
mediana y con gl ,194 1 97,681 ,660
corregido
Basndose en la media
,303 1 98 ,584
recortada
Calidad del producto Basndose en la media 8,748 1 98 ,004
Basndose en la
mediana. 9,178 1 98 ,003

Basndose en la
mediana y con gl 9,178 1 97,298 ,003
corregido
Basndose en la media
8,811 1 98 ,004
recortada

Linealidad

La ltima hiptesis que es necesario analizar es la linealidad, sobre todo en


aquellas tcnicas multivariables basadas en medidas de asociacin como las
correlaciones, incluyendo la regresin mltiple, la logstica, el anlisis factorial,
el anlisis conjunto y los sistemas de ecuaciones estructurales. Dado que la
correlacin representa asociaciones lineales entre variables, la ausencia de linea-
lidad provoca que el coeficiente de correlacin no mida adecuadamente la
relacin entre los pares de variables.
22 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

Disponemos, de nuevo, de dos procedimientos para analizar este supuesto. El


primero consiste en recurrir a representaciones grficas bivariables para visuali-
zar si la relacin que podemos aventurar es o no lineal. Por otro lado, los coefi-
cientes de correlacin suelen ofrecer un indicador del grado de significacin del
mismo. La hiptesis nula es que el coeficiente de correlacin no es significativo
y el valor de p nos permitir aceptarla o rechazarla.

La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos:

GRAPH
/SCATTERPLOT(MATRIX)=x1 x4 x6
/MISSING=LISTWISE .
CORRELATIONS
/VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

donde slo se pide, a modo de ejemplo, que se realicen los grficos de dispersin
entre las variables X1 rapidez del servicio, X4 imagen del fabricante y X6
imagen de los vendedores. A simple vista se observa que no parece que exista
una relacin lineal entre la rapidez del servicio y la imagen de los fabricantes,
pero s y bastante marcada, entre la imagen de los fabricantes y la de los
vendedores.

Grfico 5. Grficos de dispersin entre variables

Rapidez de servicio

Imagen del fabricant

Imagen de los vended

El cuadro 6 nos confirma esta apreciacin visual. As, se comprueba que el


coeficiente de correlacin de Pearson entre la variable rapidez del servicio y
la imagen de la empresa, que toma un valor de 0,05 no aparece marcado con
*, que dira que es significativo para un nivel del 5% ni con ** que indicara
que lo es al 1%. Esta misma informacin nos la proporcionan las p, que toma
23 Anlisis multivariable: conceptos bsicos
Joaqun Alds Manzano

un valor de 0.618 que al ser claramente superior a 0.01 y 0.05 no permiten


rechazar la hiptesis nula de no significatividad del coeficiente de correlacin.

Sin embargo, el coeficiente de correlacin de Pearson entre la imagen de la


empresa y la imagen de los vendedores, que es de 0,788 aparece marcado como
** y su p es de 0,000 que al ser inferior a 0,01 y 0,05 confirma de nuevo la
apreciacin visual que hicimos al analizar el grfico 5.

Cuadro 6. Coeficientes de correlacin de Pearson


Correlaciones

Imagen de Calidad
Rapidez de nivel de flexibilidad Imagen del los del Nivel de nivel de
servicio precios de precios fabricante Servicio vendedores producto uso satisfaccin
Rapidez de servicio Correlacin de Pearson
Sig. (bilateral)
N
nivel de precios Correlacin de Pearson -,349**
Sig. (bilateral) ,000
N 100
flexibilidad de precios Correlacin de Pearson ,509** -,487 **
Sig. (bilateral) ,000 ,000
N 100 100
Imagen del fabricante Correlacin de Pearson ,050 ,272 ** -,116
Sig. (bilateral) ,618 ,006 ,250
N 100 100 100
Servicio Correlacin de Pearson ,612** ,513 ** ,067 ,299**
Sig. (bilateral) ,000 ,000 ,510 ,003
N 100 100 100 100
Imagen de los Correlacin de Pearson ,077 ,185 -,035 ,788** ,240*
vendedores Sig. (bilateral) ,444 ,065 ,731 ,000 ,016
N 100 100 100 100 100
Calidad del producto Correlacin de Pearson -,483** ,470 ** -,448** ,200* -,055 ,177
Sig. (bilateral) ,000 ,000 ,000 ,046 ,586 ,079
N 100 100 100 100 100 100
Nivel de uso Correlacin de Pearson ,676** ,082 ,559** ,224* ,701** ,255* -,192
Sig. (bilateral) ,000 ,418 ,000 ,025 ,000 ,010 ,055
N 100 100 100 100 100 100 100
nivel de satisfaccin Correlacin de Pearson ,651** ,028 ,525** ,476** ,631** ,341** -,283 ** ,711**
Sig. (bilateral) ,000 ,779 ,000 ,000 ,000 ,001 ,004 ,000
N 100 100 100 100 100 100 100 100
**. La correlacin es significativa al nivel 0,01 (bilateral).
*. La correlacin es significante al nivel 0,05 (bilateral).

Referencias bibliogrficas

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate


Data Analysis. 4 edicin. Englewood Cliffs: Prentice Hall.

MANZANO ,V. (1995): Inferencia estadstica: aplicaciones con SPSS/PC+.


Madrid: RA-MA.

URIEL , E. (1995): Anlisis de datos. Series temporales y anlisis multivariante.


Madrid: Editorial AC.