Conceptos de Análisis Multivariado

Introduccin al anlisis multivariado
Generalidades
El anlisis multivariado resume, representa e interpreta datos provenientes de pobl a-
ciones, en las que se obtienen observaciones de dos o ms caractersticas de cada unidad
experimental. La evaluacin simultnea de varias caractersticas en una misma unidad expe-
rimental se basa en el hecho de que ninguna variable aislada consigue caracterizarla adecua-
damente.
Habitualmente las variables son estudiadas separadamente obtenindose informacio-
nes parceladas, con el inconveniente de no considerar la existencia de una posible estructura
de dependencia entre ellas. Con el uso de tcnicas del anlisis multivariado es posible extraer
conclusiones globales, operando sobre muchas variables simultneamente.
El Anlisis multivariado data de la primera mitad del siglo xx y cobr auge en las lti-
mas dos dcadas por el desarrollo de la computacin y se torn usual en el campo de la Inge-
niera, Biologa, Ecologa, Sociologa, etc.
Definicin de conceptos
Espacio. Conjunto de cualquier naturaleza (espacio de personas, de vegetacin, etc.). Las di-
mensiones son los atributos que caracterizan a los puntos y por lo tanto al espacio. Los espa-
cios de una dimensin se pueden representar con una recta, dos dimensiones con un plano y
tres dimensiones con un cuerpo.
Unidad Muestral. Es un punto del espacio que se est analizando.
Variable. Cualquier propiedad que vare en los objetos en estudio.
Dato. Es el valor que tiene una variable en un punto del espacio.
Las unidades muestrales colocadas en una tabla conforman una matriz de datos o ma-
triz bruta (Tabla 1).
La tabla 1 representa un espacio constituido por 16 muestras de las que se analizaron
26 variables distintas. Para simplificar el problema slo se tom presencia - ausencia de cada
variable.
Se observa que las unidades muestrales 3 y 8 son idnticas (redundantes) y el punto 9 es
marginal (esta fuera de este universo).
La muestra no es homognea y se advierten grupos. Esto significa que hay disyuncin
dentro de los datos ( En C).
2
De M a S no hay un orden que caracterice al conjunto de datos, ni a los grupos que pudie-
ran haber dentro. Estos datos constituyen el ruido.
Tabla 1. Matriz de datos (presencia - ausencia) de 26 variables en 16 muestras
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A
+ + + + + + + + + + + + + +
B
+ + + + + + + + + + + + +
C
+ + + + + + + + + + + +
D
+ + + + + + + + +
E
+ + + + + +
F
+ + + + + + + +
G
+ + + + +
H
+ + + + + +
I
+ + + + + + +
J
+ + + + +
K
+ + + + + + + +
L
+ + + + + +
M
+ + +
N
+ + +
O
+
P
+ +
Q
+
R
+ +
S
+
T
+
U
+ +
V
+ +
W
+
X
+
Y
+
Z
+

Los grupos pueden o no estar relacionados. Las disyunciones y las relaciones entre
los grupos constituyen la Estructura de los datos .
En resumen, la tabla 1 presenta un conjunto de datos que forma un universo caracteri-
zado por las variables A, B y C dentro del cual hay una disyuncin y se forman dos grupos ca-
racterizados por las variables D a H, e I a L respectivamente.
Objetivos del Anlisis Multivariado Reducir el nmero de datos (disminuir redundancia, eli-
minar ruido y detectar marginales) para conocer la estructura de los datos y establecer relacio-
nes dentro de ellos, esto es, ordenar y/o clasificar los datos. En general, no se pretende probar
hiptesis, sino generarlas.
Tipo de Datos . Los valores de las variables pueden ser de los siguientes tipos:
1) Cuantitativos - Miden relaciones cuantitativas en sentido estricto y general no necesitan
codificacin. Ej. altura de una planta.
2) Cualitativos - Expresan relaciones no-mensurables y necesitan codificacin:
3
a) Dicotmicas o de doble estado. Indican presencia (1) ausencia (0) de un carcter.
b) Nominales. Son aquellas que no pueden ser ordenadas en una secuencia lgica de
grado del atributo (Ej. forma del tronco ). Codificacin mediante variables dummy .
c) Ordinales. Variables que pueden ser ordenadas en una secuencia lgica de magnitu-
des de la cualidad estudiada (Ej. textura fina, gruesa, etc.). Codificacin: dummy.
Matriz de datos. Es una tabla que contiene las muestras en las columnas y las variables en las
filas. Por ejemplo, en una matriz que representa un espacio de vegetacin, las especies se en-
cuentran en las filas y las muestras en las columnas.
Diagramas de dispersin
Sirven para desplegar los datos en ejes coordenados. Si de la tabla que se muestra en
secuencia se toman los atributos de a pares, se pueden encontrar distintos ordenamientos de
los datos (Figuras). El objetivo es encontrar el diagrama que mejor despliegue la estructura de
los datos.
Muestras
1 2 3 4 5 6 7 8 9 10
X1 51 83 56 9 79 24 62 39 75 16
X2 40 69 52 14 74 24 53 37 61 17
X3 26 55 18 93 67 99 13 12 62 88

Diagrama de dispersin
0
50
100
150
0 50 100
X1
X
3
X3

Manejo de datos
Es necesario que los datos renan ciertas caractersticas. Para esto se realiza:
Reduccin de datos. Eliminacin de ruido, aberrantes y redundantes.
Transformaciones. Son alteraciones a los valores para evitar que algunos datos tengan
excesivo peso (raz cuadrada , logartmica, etc.)
Diagrama de dispersin
0
20
40
60
80
0 50 100
X1
X
2
X2

4
Estandarizaciones. Son alteraciones de las variables para sus unidades sean compara-
bles. Existen varias formas de estandarizacin y se realizan por filas y/o columnas.
Matrices y Vectores
Una matriz representa un espacio. Las filas son las dimensiones del espacio y las co-
lumnas sus puntos. Se representa por:
X
11
X
12
X
1n

X
(sxn)
= X
21
X
22
X
2n

Xs1 Xs2 Xsn
Los subscriptos i y j localizan la fila y columna de los valores de la matriz.
Vector fila : Es una matriz de orden 1 x n
Vector columna : Es una matriz de orden s x 1
Transformaciones de matrices
1 - Multiplicacin de un vector por una matriz
Es posible transformar una matriz de orden superior en un vector, premultiplicando la
matriz por un vector de coeficientes de ponderacin. De esta manera se transforma una matriz
en un vector en el que es ms fcil ordenar los datos y observar las relaciones que existen entre
las muestras.
Simblicamente: u. x = y (u : vector de coeficientes)

X11 X12 X13 X14

u1 u2 u3 u4
X
21
X
22
X
23
X
24

= y
1
y
2
y
3
y
4

(1x4)

X
31
X
32
X
33
X
34

(1x4)

X41 X42 X43 X44 (4 x 4)
por que:
y
1
= u
1
. X
11
+ u
2
. X
21
+ u
3
. X
31
+ u
4
. X
41

- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
y
5
= u
1
. X
15
+ u
2
. X
25
+ u
3
. X
35
+ u
4
. X
45

El nmero de columnas del primer factor debe ser igual al numero de filas del segundo.

2 - Multiplicacin de una matriz por una matriz
Una matriz X de orden sxn, premultiplicada por una matriz U de orden 2xs resulta:
u
2 x s
. x
s x n
= Y
2 x n

5
Con un vector se hace un ordenamiento unidimensional de los datos. Con dos vectores
(o lo que es lo mismo, con una matriz de dos filas), el ordenamiento es bidimensional.
Los coeficientes de ponderacin adjudican un peso o importancia relativa a cada uno de
los atributos de la matriz de datos, obteniendo un valor para cada muestra compuesto por todos
los atributos de ella.
Si se hace una transformacin bidimensional, habr dos coeficientes de ponderacin pa-
ra cada atributo, por lo que se obtienen dos valores para cada muestra, cada uno de los cuales
refleja un criterio distinto de ponderacin de los datos.
Ejemplo. Para estudiar la calidad forrajera de diferentes pasturas, se las caracteriza con las
especies que la componen y la abundancia relativa de cada una de ellas. La matriz de datos
tendr tantas filas como especies tengan todas las muestras y tantas columnas como mues-
tras se hayan analizado. Los casilleros contendrn biomasa, nmero de individuos o coberturas
de cada especie de la muestra.
Sin embargo la calidad forrajera de cada muestra no slo esta dada para la cantidad re-
lativa de especies productivas presentes, sino tambin por su palatabilidad y digestibilidad.
En consecuencia, es necesario adjudicar valores de ponderacin segn estos parmetros, mul-
tiplicando por un factor alto a las muy palatables y por uno muy bajo, incluso cero o negativo, a
las poco palatables.
La digestibilidad puede recibir el mismo tratamiento, dando como resultado un segundo
eje de ordenamiento. La palatabilidad y la digestibilidad son caractersticas que vienen de afue-
ra, determinadas experimentalmente.
Se puede transformar la matriz de datos para obtener un ordenamiento tridimensional, e
incluso de ms dimensiones. As una matriz de orden s x n puede ordenarse en p dimensio-
nes:
U
p x s
. X
s x n
= Y
p x n
Cada una de las p filas de U es un conjunto de s coeficientes de ponderacin por los
que hay que multiplicar a los elementos de las columnas de la matriz de datos X para obtener
la matriz Y; y cada uno de las n columnas de Y es un conjunto de p valores obtenidos
para cada columna de X.
Transformaciones lineales
La matriz de datos X de orden s x n indica la posicin de n puntos en un espacio de
s dimensiones. Al multiplicar X por una matriz U de orden p x s, se obtiene una matriz Y
de orden p x n que indica la posicin de n puntos en un espacio de p dimensiones. Por lo
tanto Y es una forma modificada de X.
6
Si p < s Y es una forma comprimida de X
Si p = s los datos no se condensan, pero cambia la distribucin de los puntos
en el espacio.
Ejemplos:
Dada una matriz X, se pueden lograr diferentes transformaciones premultiplicndola
por diferentes matrices U
2x2
:
1 10 1 10
X =
1 1 10 10

a) Transformacin idntica

X
1

b) Transformacin rectangular
2 0 2 20 2 20
0 1.2
. X =
1.2 1.2 12 12
X
1

c) El conjunto de puntos rota
0.8 0.6 1.4 8.6 6.8 14
-0.6 0.8
. X =
0.2 -5.2 7.4 2
X
1

Las matrices U que producen esta rotacin sin alterar la forma y el tamao de los dia-
gramas, se llaman Ortogonales.
Una matriz es ortogonal si:
U.U = I
Las operaciones con matrices U cuadradas se llaman transformaciones lineales
porque los elementos de Y son funciones lineales de los elementos de X.
Rotaciones rgidas
Es la transformacin de una matriz de datos X en una matriz Y sin modificar su es-
tructura, esto es, sin cambiar la posicin relativa de los puntos entre s. De esta manera, el
1 0 1 10 1 10
0 1
. X =
1 1 10 10
7
conjunto de puntos no se deforma (produce la misma figura) y se mueve como si fuera una uni-
dad rgida respecto a los ejes de su sistema de coordenadas.
El problema consiste en construir una matriz ortogonal cuyo nico fin es producir una ro-
tacin rgida del conjunto de puntos en relacin al sistema de coordenadas, viceversa. La ma-
triz ortogonal se construye con los cosenos directrices que indican el ngulo de rotacin de la
matriz de resultados, sin que se deforme el diagrama de dispersin.
MATRICES CUADRADAS
Una matriz cuadrada tiene igual nmero de columnas y de filas.
Matriz transpuesta. La transposicin de una matriz se consigue permutando sus filas por sus
columnas:
Xsxn Xnxs
Propiedad conmutativa: X . X X. X
X
sxn
. X
nxs
= Y
sxs
cuadrada simtrica (R)

Xnxs . Xsxn = Ynxn cuadrada simtrica (Q)
Matrices R. Las matrices R son cuadradas de tamao s x s que operan sobre las muestras.
1) Matriz de varianza - covarianza. Pasos para su obtencin:
a) Obtencin de la matriz centrada XR. Los datos de la matriz XR son desviaciones
( x x
ij i
) entre los datos de cada fila y la media aritmtica de la fila correspondiente. De
esta manera, la sumatoria de los elementos de cada fila de XR es igual a cero.
b) Obtencin de la matriz R = XR . XR. La matriz R es cuadrada de orden s x s
cuyos elementos se obtienen sumando las pos-multiplicaciones de los s el ementos del
vector fila de X
R
, por los s elementos del vector columna de X
R
. En la diagonal principal
se obtienen sumatorias de cuadrados de desvos.

x x
i i 1

x x
i i 1
; x x
i i 2
;... x x
in i

x x
i i 2

=
( )
j
n
ij i
x x
=
1
2

.

.

x x
in i

c) Si R se divide por n (si n constituye la poblacin) por n-1, el resultado ser la va-
rianza de las observaciones.
8
Con un razonamiento semejante, fuera de la diagonal los elementos de la matriz son
covarianzas.
Var (Xi ) Cov (X1 X2) Cov (X1 Xs)
1/n R = Cov (X2, X1) Var (X2) Cov (X2 Xs)
Cov (X
s
,

X
1
) Cov (X
s
X
2
) Var (X
s
)

2) Matriz de correlacin
Debido a que las variables pueden tener diferentes unidades, la matriz de datos puede
contener valores muy altos que provoquen la dominancia de algunas sobre las restantes, o muy
bajos que produzcan distorsin. Para evitar esto, los datos se vuelven comparables mediante la
estandarizacin. Una estandarizacin corriente es dividir los valores de la matriz centrada por
su desviacin estndar:
z
x x
ij
ij i
i
=

De esta manera se obtiene la matriz estandarizada Z
R
que posmultiplicada por su
transpuesta Z
R
da la matriz S
R
que es la matriz de suma de cuadrados y productos cruzados
(SSCP) de la matriz estandarizada:
ZZ ZZ = SR

x x
i i
i
1

x x
h h
h
1
;
x x
h h
h
2
;... x x
h n h
h

x x
i i
i
2

=
( )( ) x x x x
hj h ij i
j
n
h i

=
1

.

.

x x
in i
i

( )( ) ( , ) x x x x nCov x x
hj h
j
n
ij i h i
=
=
1
y x n
Cov x x
hi
h i
h i
=
( , )

por lo tanto: X
hi
=n.r
hi

tambin: cov ( x
i
, x
i
) = var (x
i
) :
i i i
, =
2
y n
cov( , ) var( )
var( )
x x
n
x
x
h i
h i
i
i

=
9
de aqu la matriz (SSCP ) SR:

1 r
12
r
1s

S
R
= n r
21
1 r
2s

rs1 rs2 1

r12 = r21 , r1s = r s1
Matrices Q. Las matrices Q, son de tamao n x n y operan sobre los atributos. El clculo de
la matriz Que, de SSCP y la de covarianza se realiza de la siguiente manera:
1) Se transpone la matriz de datos y se la centra por filas. As se obtiene X
Q

2) Se obtiene X
Q
por transposicin de X
Q
, y luego la matriz Q mediante: Q = X
Q

X
Q

3) La matriz de covarianza 1/sQ se obtiene dividiendo por s ( s -1) la matriz SSCP. En
forma similar se calcula la matriz de correlacin.
Anlisis Eigen
Es el clculo de los autovectores (u) y los autovalores () de las matrices cuadradas.
Los porcentajes de varianza que absorbe cada vector se mide con los autovalores:
1
>
2
>
3
>
4
>
5

El primer autovector es el que mejor despliega los datos, esto es, el que mejor explica la
variabilidad de los puntos en el espacio. Normalmente los tres primeros absorben el 90% de la
varianza.

Conceptos de Análisis Multivariado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Conceptos de Análisis Multivariado

Uploaded by

Copyright:

Available Formats

Introduccin al anlisis multivariado

You might also like