You are on page 1of 40

QUÉ ES EL ANÁLISIS MULTIVARIANTE?

Es el conjunto de métodos estadísticos cuya finalidad es


analizar simultáneamente conjuntos de datos
multivariantes en el sentido de que hay varias variables
medidas para cada individuo ú objeto estudiado.
Su razón de ser radica en un mejor entendimiento del
fenómeno objeto de estudio obteniendo información que
los métodos estadísticos univariantes y bivariantes no
pueden proporcionar.
Así, como Hair et al. (1999) dicen:
“Las mujeres y hombres de negocios de hoy no pueden
seguir aproximaciones ya pasadas en las que los
consumidores eran considerados homogéneos y
caracterizados por un número pequeño de variables
demográficas. En su lugar, deben desarrollar estrategias
que atraigan a numerosos segmentos de clientes con
características demográficas y psicográficas diversas en
un mercado con múltiples restricciones (legales,
económicas, competitivas, tecnológicas, etc). Sólo a
través del análisis multivariante las relaciones múltiples
de este tipo podrán ser examinadas adecuadamente para
obtener un entendimiento más completo y real del entorno
que permita tomar las decisiónes más adecuadas.”
 Es una metodología estadística sofisticada, mucho más
potente, que utiliza los métodos del álgebra lineal, matricial,
cálculo numérico, geometría lineal, entre otras.

 Los métodos de análisis multivariante se diferencian unos de


otros, según su área de aplicación se refiera a una o más
problemas y según se requiera uno o más grupo de variables.
Objetivos del Análisis Multivariante

Pueden sintetizarse en dos:


1) Proporcionar métodos cuya finalidad es el estudio
conjunto de datos multivariantes que el análisis
estadístico uni y bidimensional no pueden conseguir.

2) Ayudar al analista o investigador a tomar decisiones


óptimas en el contexto en el que se encuentre
teniendo en cuenta la información disponible por el
conjunto de datos analizado.
TIPOS DE TECNICAS MULTIVARIANTES

Se pueden clasificar en tres grandes grupos:

1) Métodos de dependencia
Suponen que las variables analizadas están divididas en dos grupos:
las variables dependientes y las variables independientes. El objetivo de
los métodos de dependencia consiste en determinar si el conjunto de
variables independientes afecta al conjunto de variables dependientes y
de qué forma.

2) Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e
independientes y su objetivo consiste en identificar qué variables están
relacionadas, cómo lo están y por qué.

3) Métodos estructurales
Suponen que las variables están divididas en dos grupos: el de las
variables dependientes y el de las independientes. El objetivo de estos
métodos es análizar, no sólo como las variables independientes afectan
a las variables dependientes, sino también cómo están relacionadas las
variables de los dos grupos entre sí.
CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES
El tipo de relación que está
siendo examinadas es de:

Dependencia Interdependencia.
La estructura de la
relación es entre:

Variables. Casos. Objetos.


Varias Variables una Variable
C.P. Análisis Cluster Escalamiento
dependientes dependiente
Análisis Factorial multidimensional.
Modelos loglineal. Análisis de
Corresponden -
Métricas. cias
Manova.
Correlación Métrica. No métrica.
Canónica. Regresión Análisis Discriminante.
Múltiple. Modelos de Regresión
Análisis de Logística.
supervivencia. Análisis Conjunto.
FASES PRINCIPALES DE UNA INVESTIGACIÓN MULTIVARIANTE

• Definir el problema de Investigación


• Objetivos; diseño e hipótesis
• Técnica Multivariante a utilizar.

Desarrollo del Proyecto de Análisis

Evaluación de los supuestos de la


Técnica Multivariante

• Estimación del modelo Multivariante.


• Valoración del Ajuste del Modelo.

Interpretación de los valores Teóricos

Validación del Modelo Multivariante


APLICACIONES DE LAS TÉCNICAS
MULTIVARIANTES

Medicina
• Evaluar la presencia o ausencia de determinados síntomas
clínicos para diagnosticar la enfermedad de un paciente
(análisis discriminante).
• Para estimar la probabilidad de que la sintomatología de una
determinada enfermedad reaparezca antes de un período
determinado, conocidos el tiempo de respuesta al tratamiento
y los distintos hábitos del paciente, (Regresión logística).
• Se tabula las frecuencias de ciertos estímulos y sus respuestas.
Interesa obtener una representación bidimensional de las
correspondencias entre estímulos y respuestas (Análisis
Factorial de Correspondencia).
Biología:

 Se miden diferentes variables biométricas en los


individuos de una misma especie. Se desea detectar
componentes de tamaño y forma (Análisis de
Componentes Principales).

 Las observaciones de “p” variables biométricas


representativas de los individuos de una especie, se
obtienen para estudiar la variabilidad entre diferentes
especies o razas geográficas (Análisis Canónicos).
Sociología:

Con referencia a determinadas características sociales,


políticas y geográficas se mide la similaridad de un
grupo de naciones. (Escalamiento Multdimensional).

Psicología:

Los resultados de un test de inteligencia de “n” ítems


basados en una muestra. Para detectar los factores de la
inteligencia (Análisis Factorial).
Investigación de Mercados:

1.Se quiere determinar los beneficios subyacentes que


buscan los consumidores en la compra de una pasta
dental. (Análisis Factorial).

2. Para el análisis de percepciones y preferencias del


consumidor (Escalamiento Multidimensional).
TAREA

El estudiante realizará un resumen sobre las clases


de variable y los tipos de escala de medida, con sus
respectivos ejemplos.
MATRIZ DE DATOS
Llamaremos X a la matriz de datos y xij a su elemento genérico
que representa el valor de la variable j sobre el individuo i.
donde i = 1, ..., n y j = 1, ..., p.
La matriz de datos X tendrá dimensiones n × p y puede
representarse de dos formas distintas. Por filas como:

 x11 x12 .......... x1p   X1' 


   '
 x21 x22 ........... x 2p 
 X2 
X   
 . . ........... .   . 
 '
 x n1 x n2 ........... x np   Xn 

donde cada variable X’i es un vector fila p ×1 que representa


los valores de las p variables sobre el individuo “i”.
Alternativamente podemos representar la matriz X por
columnas:

X =  X1 X2 ....... Xp 

donde ahora cada variable Xj es un vector columna n × 1 que


representa la variable “j”, medida en los n elementos de la
población.
ESTADÍSTICOS MULTIVARIADOS

Vector de Medias muestral


Es la medida de centralización más utilizada para
describir datos multivariantes, tiene dimensión p y
recoge las medias de cada una de las p variables.
Se calcula fácilmente mediante:
 X1 
 
1 '  X2 
X  X1
n  . 
 
 X p 
Ejemplo: Se obtuvo la siguiente información de
un grupo de PEC que atienden a niños y niñas de
cero a dos años, mediante una ficha de
observación de desempeño en el aula en la región
de Apurimac.

ESTADÍSTICAS

PUNTAJE DE
DIVERSIDAD PUNTAJE DE PUNTAJE DE
CULTURAL Y PUNTAJE DE ACTITUDES PUNTAJE DE EMPATÍA Y
PUNTAJE DE PUNTAJE DE LINGÜÍSTICA EN RECURSOS EN SU CAPACIDADES RESOLUCIÓN
ESTRATEGIAS PROTAGONISMO LOS PROCESOS INSUMO Y LABOR DE DE
METODOLÓGICAS Y PARTICIPACIÓN PEDAGÓGICOS ESPACIOS COTIDIANA COMUNICACIÓN PROBLEMAS
n 6 6 6 6 6 6 6
Media 11,00 7,67 6,67 21,17 13,67 11,00 8,00
Mediana
11,00 8,00 5,50 21,50 14,50 11,00 8,00
Matriz de varianzas-covarianzas muestral, es una
medida de dispersión
La variabilidad de los datos y la información relativa a las
relaciones lineales entre las variables se resumen en la matriz de
varianzas y covarianzas. Esta matriz es cuadrada y simétrica de
orden p, donde los términos diagonales son las varianzas y los
no diagonales, las covarianzas entre las variables. Llamando S a
esta matriz, tendremos que, por definición:

 s12 s12 .......... s1p 


 
 s21 ........... s 2p 
2
s
S 
2

 . . ........... . 
s p1 s p2 ........... s 2p 

1 n
Se calcula: S    Xi - X  Xi - X 
'

n i 1

EJEMPLO:
MATRIZ DE VARIANZAS-COVARIANZAS

PUNTAJE DE
DIVERSIDAD
CULTURAL Y PUNTAJE DE PUNTAJE DE
PUNTAJE DE LINGÜÍSTICA PUNTAJE DE ACTITUDES PUNTAJE DE EMPATÍA Y
PUNTAJE DE PROTAGONISMO EN LOS RECURSOS EN SU CAPACIDADES RESOLUCIÓN
ESTRATEGIAS Y PROCESOS INSUMO Y LABOR DE DE
METODOLÓGICAS PARTICIPACIÓN PEDAGÓGICOS ESPACIOS COTIDIANA COMUNICACIÓN PROBLEMAS
PUNTAJE DE ESTRATEGIAS
9,200 9,000 8,000 14,000 10,800 8,000 5,200
METODOLÓGICAS
PUNTAJE DE PROTAGONISMO Y
9,000 10,667 6,867 14,067 12,867 7,000 6,800
PARTICIPACIÓN
PUNTAJE DE DIVERSIDAD CULTURAL Y
LINGÜÍSTICA EN LOS PROCESOS 8,000 6,867 10,267 15,667 11,667 7,600 5,800
PEDAGÓGICOS
PUNTAJE DE RECURSOS INSUMO Y
14,000 14,067 15,667 31,367 27,667 13,800 10,000
ESPACIOS
PUNTAJE DE ACTITUDES EN SU LABOR 10,800 12,867 11,667 27,667 28,267 10,000 9,600
COTIDIANA
PUNTAJE DE CAPACIDADES DE 8,000 7,000 7,600 13,800 10,000 8,000 3,600
COMUNICACIÓN
PUNTAJE DE EMPATÍA Y RESOLUCIÓN DE 5,200 6,800 5,800 10,000 9,600 3,600 6,400
PROBLEMAS

Tarea: ¿Qué es una matriz definida positiva?


MEDIDAS GLOBALES DE VARIABILIDAD

1)Varianza Total, es una medida global de dispersión para un


conjunto de variables medidas en escala métrica.

p
VT  tr (S)   s 2j
j 1

2)Varianza media, es una medida de dispersión promedio de


un conjunto de variables medidas en escala métrica.
p
1
S 2   s 2j
p i 1

Inconveniente: no considera la estructura de dependencia de


las variables y las unidades de medida de las variables.
Ejemplos

7
VT  tr (S)   s 2j  104.168
j 1

p
1
S 2   s 2j  14.88
p i 1
VG  S
3) Varianza Generalizada

Una medida global escalar de la variabilidad conjunta de k variables


es la varianza generalizada, que es el determinante de la matriz de
varianzas y covarianzas. Su raíz cuadrada se denomina desviación
típica generalizada, y tiene las propiedades siguientes:

(i) Está bien definida, ya que el determinante de la matriz de varianzas


y covarianzas es siempre mayor o igual que 0.

(ii) Es una medida del área (para p = 2), volumen (para p = 3) o


hipervolumen (para k > 3) ocupado por el conjunto de datos.
Cuando p =2

 s12 r12 s1s2  VG  s12 s22 (1  r122 )


S 
 r12 s1s2 s22  DTG  VG  s1s2 (1  r122 )

Interpretación geométrica:

Area  d1 d 2 sen  (n  1) s12 (n  1) s22 1  cos2   (n  1) s12 s22 (1  r122 )


( Area ) 2
S   s12 s22 (1  r122 )
(n  1)

La varianza generalizada en p

Volumen 2
S 
(n  1) p 1

Observación:
No es útil para comparar conjuntos de datos con diferentes
números de variables.
Debido a que la VG se incrementa o decrece monótonamente
al incrementar el número de variables.
4) Varianza Efectiva, Peña y Rodríguez (2003) propusieron la
siguiente medida global de variabilidad:

VE  VG S
1/ p 1/ p

DE  VG S
1/ 2 p 1/ 2 p

No presenta los inconvenientes de la varianza generalizada.


EJEMPLO
MATRIZ DE VARIANZAS-COVARIANZAS

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
LINGÜÍSTICA EN
PUNTAJE DE PUNTAJE DE LOS
ESTRATEGIAS PROTAGONISMO PROCESOS
METODOLÓGICAS Y PARTICIPACIÓN PEDAGÓGICOS
PUNTAJE DE
ESTRATEGIAS 9,200 9,000 8,000
METODOLÓGICAS
PUNTAJE DE
PROTAGONISMO Y 9,000 10,667 6,867
PARTICIPACIÓN
PUNTAJE DE DIVERSIDAD
CULTURAL Y
LINGÜÍSTICA EN LOS 8,000 6,867 10,267
PROCESOS
PEDAGÓGICOS

VT  30.1340
VM  10.0447
VG  48.2671
VE = 3.6410
DE =1.9081
Variabilidad y Distancias
Dados dos vectores xk , xl p , la función “d” es una distancia o
métrica con las siguientes propiedades:
i) d: p x p  + ; es decir d(xk , xl )0
ii) d(xk , xk )= 0
iii) d(xk , xl ) = d(xl , xk )
iv) d(xk , xl ) = d(xk , xm ) + d(xm , xl ) (desigualdad triangular)

y
x y
d ( x, y)  x  y
x
Una familia de medidas de distancias muy conocidas en p son
las distancias de Minkowski:

1/ r
 p
r 
d (r )
kl    ( xkj  xlj ) 
 j 1 
1/ 2
 p
2
r 2d
(2)
kl    ( xkj  xlj ) 
 j 1 

Cuando r =2 se tiene la distancia euclídea, que es la más utilizada,


pero depende de las unidades de medida.

Ejemplo: Para los datos de las PEC


Proximity Matrix

Euclidean Dis tance


1 2 3 4 5 6
1 ,000 12,530 6,928 7,483 14,000 11,576
2 12,530 ,000 10,050 16,155 26,134 22,605
3 6,928 10,050 ,000 8,602 17,664 15,362
4 7,483 16,155 8,602 ,000 12,884 11,136
5 14,000 26,134 17,664 12,884 ,000 8,124
6 11,576 22,605 15,362 11,136 8,124 ,000
This is a dis similarity matrix

1/ 2
d (2)
kl  (xk  xl ) M (xk  xl ) 
' 1

Para eliminar el efecto de las unidades de medida de las


variables se utiliza la familia de métricas euclídeas ponderadas:
M es una matriz diagonal, aunque no es necesario, pero debe ser
no singular y definida positiva.
1) Distancia de Mahalanobis, se define como:

1/ 2
di  (xi  x) S (xi  x) 
' 1
i  1, 2,...n

Esta libre de unidades de medidas y mide la distancia de cada


individuo con respecto a su vector de medias.

EJEMPLO:
Consideremos las primeras cuatro variables de las PEC
MATRIZ DE VARIANZAS-COVARIANZAS

PUNTAJE DE
DIVERSIDAD
CULTURAL Y
PUNTAJE DE LINGÜÍSTICA EN PUNTAJE DE
PUNTAJE DE PROTAGONISMO LOS RECURSOS
ESTRATEGIAS Y PROCESOS INSUMO Y
METODOLÓGICAS PARTICIPACIÓN PEDAGÓGICOS ESPACIOS
PUNTAJE DE
ESTRATEGIAS 9,200 9,000 8,000 14,000
METODOLÓGICAS
PUNTAJE DE
PROTAGONISMO Y 9,000 10,667 6,867 14,067
PARTICIPACIÓN
PUNTAJE DE DIVERSIDAD
CULTURAL Y
LINGÜÍSTICA EN LOS 8,000 6,867 10,267 15,667
PROCESOS
PEDAGÓGICOS
PUNTAJE DE RECURSOS
14,000 14,067 15,667 31,367
INSUMO Y ESPACIOS

VT  61.5
VM  15.3750
VG  249.3765
VE = 3.9739
DE = 1.9935
d1 = 1,3128
d2 =1,7670
Los resultados de las d3 = 1,9849
d4 =1,9535
Distancias de mahalanobis
d5=1,8501
son:
d6 =1,9939
Medidas de Dependencia lineal
Permite evaluar la estructura de dependencia entre las
variables bajo estudio.
Matriz de Correlación; el grado de asociación lineal entre
dos variables se estudia mediante el coeficiente de
correlación simple.

 1 r12 r1 p 
 
 r21 1 r2 p  s jk
R , rjk  1  rjk  1
  s 2 2
s
 
j k

 rp1 rp 2 1 

R es una matriz simétrica, cuadrada y definida positiva.


Ejemplo:

MATRIZ DE CORRELACIONES

PUNTAJE DE
DIVERSIDAD
CULTURAL Y PUNTAJE DE
PUNTAJE DE PUNTAJE DE LINGÜÍSTICA EN RECURSOS
ESTRATEGIAS PROTAGONISMO LOS PROCESOS INSUMO Y
METODOLÓGICAS Y PARTICIPACIÓN PEDAGÓGICOS ESPACIOS
PUNTAJE DE ESTRATEGIAS METODOLÓGICAS 1 ,909 ,823 ,824
PUNTAJE DE PROTAGONISMO Y PARTICIPACIÓN ,909 1 ,656 ,769
PUNTAJE DE DIVERSIDAD CULTURAL Y ,823 ,656 1 ,873
LINGÜÍSTICA EN LOS PROCESOS
PUNTAJE DE RECURSOS INSUMOPEDAGÓGICOS
Y ESPACIOS ,824 ,769 ,873 1
2) Correlación Múltiple, permite evaluar el grado de asociación
de una variable “j” con el resto de variables.

Para calcular, seguir los siguientes pasos:


• Tomar el j-ésimo elemento de la diagonal de la matriz de
varianza-covarianzas, al que se denotara por sjj.

• Tomar el j-ésimo elemento de la diagonal de la inversa de la


matriz de varianza-covarianzas, al que se denotara por sjj.

R1 = 0.9584
1 R2 =0.9379
Rj  1  R3 = 0.9263
s jj s jj
R4=0.9139
3) Correlaciones Parciales; mide el grado de asociación entre
dos variables controlando el efecto de las otras variables.
Trabajamos con la matriz inversa de la matriz de varianzas-
covarianzas.

s jk 1 / 2 1 / 2
rjk .1,2,...., p   P  (1)  D (S1 )  S 1  D (S 1 ) 
s jj s kk  

EJEMPLO:
-1.0000 0.8394 0.6339 -0.1789 
 0.8394 -1.0000 -0.5526 0.4352
P 
 0.6339 -0.5526 -1.0000 0.6946
 
 -0.1789 0.4352 0.6946 -1.0000
4)Coeficiente de Dependencia efectiva; es una medida global
de la dependencia de los datos:
1
CDE  1  R p p 1

Si las variables están todas incorrelacionadas, se tiene que


R= 1 y si las variables están correlacionadas R= 0

Ejemplo: Para las 4 variables medidas a las PEC, se tiene :


CDE = 0.8009
Globalmente la dependencia lineal explica el 80.09% de la
variabilidad de los puntajes de las variables consideradas.
5) Matriz de precisión, es la inversa de la matriz de varianzas-
covarianzas, y contiene la siguiente información:
•Los elementos fuera de la diagonal (sij) son los elementos de
esta matriz.; y es el cociente del coeficiente de regresión de la
variable “j” para explicar “i” y la varianza residual de la
regresión.
•En la diagonal se encuentran las inversas de las varianzas
residuales de la regresión de cada variable conel resto de ellas.
•Si se estandarizan los elementos de esta matriz , los elementos
fuera de la diagonal son las correlaciones parciales.

ˆij 1 sij
sij   2
s  2
ii
rij .R  
s (i)
r sr (i) sii s jj
Ejemplo:

1.3353 -0.8560 -0.6068 0.0909 


-0.8560 0.7787 0.4040 -0.1689
S 1  
-0.6068 0.4040 0.6863 -0.2531
 
0.0909 -0.1689 -0.2531 0.1935 
Bibliografía

1] ANDERSONT.W.:An Introduction to Multivariate Analysis. 2nd Edition. John Wiley & Sons.
[

[2] BERNARD FLURY. 1997. A First Course in Multivariate Statistics. Editorial Springer – Verlag. New
York Inc.
[3] CASTRO POSADA. 2000. Estadística Multivariante. Análisis de Correlaciones Amaru Ediciones
Melendez 21. Salamanca. España.
[4] CARLES M. CUADRAS, 2007. Nuevos Métodos de Análisis Multivariante . CMC EDITIONS.
España
[5] DANIEL PEÑA, 2002. Análisis de Datos Multivariados. McGRAW-HILL/ Interamericana de
España.
[6] URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Análisis Multivariante Aplicado. Editorial Thompson
Editores. España.
7] JOHNSON, R.; WICHERN, D. 1982. Applied Multivariate Statistical Analysis. Editorial Prentice –
Hall Inc.Englewood Cliffs. New Jersey.
[8] MARDIA, KENT AND BIBBY. 1982. Multivariate Analysis. Academic Press. London.

Textos de Consulta:

[1] DALLAS E. JOHNSON. 2000. Métodos Multivariados Aplicados al Análisis de Datos. International
Thomson Editores.
[2] HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Análisis Multivariante. Prentice Hall.