Professional Documents
Culture Documents
a
Estadísti
as O
iales
Medellín Colombia, Julio 16 al 20 de 2009
1 Departamento de Estadísti a, Fa ultad de Cien ias, Universidad del Tolima, Ibagué, Colombia
2 Departamento de Quími a, Fa ultad de Cien ias, Universidad del Tolima, Ibagué, Colombia
Resumen
En la
onstru
ión de un modelo de regresión lineal múltiple basado en una matriz de datos X ,
de orden n × p, se pueden presentar dos problemas: multi
olinealidad y alta dimensionalidad de sus
variables predi
toras. En este trabajo se revisan dos metodologías relativamente similares y usadas en
la solu
ión de estos problemas: (Wold 2001, Martens 2001) Regresión por Componentes Prin
ipales
y Regresión por Mínimos Cuadrados Par
iales. En te
nología de alimentos, ha in
ursionado de ma-
nera importante
ombina el análisis de
omponentes prin
ipales y el análisis de
orrela
ión
anóni
o
(de Jong et al. 2001) ambos métodos transforman las variables predi
toras en variables arti
iales
llamadas
omponentes o variables latentes, las
uales son ortogonales y permiten ha
er una redu
-
ión de la dimensionalidad del espa
io de variables predi
toras. Luego usando solamente las variables
latentes se
onstruye el modelo de regresión estimado.
Palabras
lave : Regresión por mínimos
uadrados par
iales, Componentes Prin
ipales, valida
ión
ruzada, Clasi
a
ión supervisada.
Abstra
t
In a multiple linear regressión model based on an n × p, data matrix two problems may arise:
multi
olineality and high dimensional predi
tor variables. In this work we evaluate two relatively
similar methodologies whi
h are used to deal with these problems prin
ipal
omponents regression
and partial least squares regression.In food te
hnology, it has emerged a
ombination of prin
ipal
omponents analysis and
anoni
al
orrelation analysis. Both methods transform predi
tor variables
into arti
ial variables, also
alled
omponents or latent variables. They are orthogonal and allow us
to redu
e the dimension of the predi
tor variables spa
e. Finally, by using only latent variables, we
build the estimated regression model.
Key words : Partial least squares regression, Prin
ipal Components.
Té
ni
as
El análisis de
omponentes prin
ipales (PCA)
Es una té
ni
a que ha sido utilizada por mu
ho tiempo para de redu
ir la dimensionalidad. Sin
embargo, las primeras
omponentes que se supone tienen la más alta variabilidad no ne
esariamente
mejoran la predi
ión
uando se usa en regresión o en
lasi
a
ión. (Mardia 1979)
a Profesor asistente. E-mail: nrariasut.edu.
o
b Profesor titular. E-mail: salaman
agrossogmail.
om
1
2 Nelson Rodríguez & Guillermo Salaman
a Grosso
La regresión por mínimos
uadrados par
iales (regresión PLS, por sus siglas en inglés), fue introdu
ida
por Herman Wold (1975) (Wold 2001, Wold et al. 2001) para ser apli
ada en
ien
ias e
onómi
as y so
iales.
Sin embargo gra
ias a las
ontribu
iones de su hijo Svante Wold, (Wold et al. 1984) ha ganado popularidad
en el área de la quími
a
ono
ida
omo Chemometri
s, en donde se analizan datos que se
ara
terizan
por mu
has variables predi
toras,
on problemas de multi
olinealidad, y po
as unidades experimentales
en estudio.
La idea motivadora de PLS fue heurísti
a, por este motivo algunas de sus propiedades son todavía
des
ono
idas a pesar de los progresos al
anzados por Helland (1988), Hoskuldson (1988), Stone y Brooks
(1990) y otros. La metodología PLS generaliza y
ombina
ara
terísti
as del Análisis de Componentes
Prin
ipales y Análisis de Regresión Múltiple (Draper & Smith 1981, Helland 2001). La demanda por esta
metodología y la eviden
ia de que trabaja bien, van en aumento y así, la metodología PLS está siendo
apli
ada en mu
has ramas de la
ien
ia. En PLS, a diferen
ia de Componentes Prin
ipales, los datos de
entrada además de la matriz de predi
toras X, deben
ontener una matriz de respuestas Y.
• Sele
ión de variables o redu
ión de la dimensionalidad, para disminuir el tiempo de estima
ión
de la tasa de error de la fun
ión
lasi
adora y a
elerar el pro
eso de predi
ión.
• Para disminuir la arga omputa ional que se origina al onstruir y validar el lasi ador.
Estima
ión del PRESS (Predi
tion Sum of Squares) (Geladi & Kowalski 1986b, Wold et al. 1984): Es
un
aso parti
ular del método valida
ión
ruzada,
onsiste de los siguientes pasos:
2. Cal ular la predi ión de la observa ión que no fue in luida: ybi ,i = 1, 2, . . . , n
3. Con el modelo estimado
al
ular las predi
iones de las observa
iones, que no fueron in
luidas para
estimar el modelo: ybij , j = 1, . . . , k, tal que xi ∈ Vj
P
5. El SCRv
promedio es
al
ulado por: n1 kj−1 SCRj El número de
omponentes PLS que minimiza
la suma de
uadrados de residuales: Se elige de la siguiente manera:
• Con base en la matriz de predi
toras X(n×p) y el ve
tor de
lases Y(n×1) , se halla la matriz de
omponentes o variables latentes T(n×p) .
• Estimar el promedio de la suma de
uadrados de residuales PRESS o SCRVC del modelo de
regresión Y sobre las primeras h-
omponentes T1 , . . . , Th Enton
es PRESS (h),h = 1, . . . , p
• El número de
omponentes PLS (h∗), que serán utilizados es obtenido por la siguiente regla:
Clasi
a
ión
Es un problema de análisis multivariado que
onsiste en asignar individuos u objetos en uno de G
grupos o
lases. Para esto se ha
e uso de una fun
ión llamada
lasi
ador, la
ual se
onstruye
on base
a los datos observados que
onforman la muestra en estudio.
Ejemplo
Calibra
ión espe
tro métri
a (Al
iaturi et al. 1998, Al
iaturi et al. 1996)
Suponga que tiene un pro
eso quími
o
uyo rendimiento tiene 5
omponentes diferentes se usa un
instrumento para prede
ir la
antidad de estos
omponentes basados en un espe
tro
on el n de
alibrar
el instrumento se
orre 20
ombina
iones
ono
idas de 5
omponentes a través y se observa el espe
tro
los resultados son 20 espe
tros
on sus
antidades de
omponentes aso
iados.
Los PLS pueden ser usados para
onstruir un modelo lineal predi
tivo para las
antidades de
ompo-
nentes basados en el espe
tro. Cada espe
tro esta
ompuesto de medidas de 1000 diferentes fre
uen
ias;
estos son los niveles de los fa
tores y las respuestas son las
antidades de los 5
omponentes
En el lado izquierdo de la tabla se muestran las varia
iones individuales y a
umuladas
ontadas por
los 10 primeros fa
tores del PLS; para ambos los fa
tores y las respuestas. Note que los 5 fa
tores del
PLS
al
ula para
asi todos la varia
ión en las respuestas,
on el fa
tor quinto
al
ulado para una por
ión
regular. Esto da una fuerte indi
a
ión que los 5 fa
tores PLS son apropiados para modelar las 5
antidades
de
omponentes. El análisis de valida
ión
ruzada
onrma esto: aunque el modelo
on 9 fa
tores PLS
logra el mínimo absoluto de la suma de los
uadrados prede
idos (PRESS) esto es insigni
ante mejor
que el modelo
on 5 fa
tores.
Los fa
tores PLS son
al
ulados
omo
iertas
ombina
iones lineales de las amplitudes espe
trales, las
respuestas son prede
idas linealmente basada en estos fa
tores extraídos. Así, la fun
ión lineal predi
tiva
para
ada respuesta es también una
ombina
ión lineal de las amplitudes espe
trales. La traza para el
resultado predi
tor de la primera respuesta es mostrada en la gura
Note que una predi
ión PLS no esta aso
iada
on una úni
a fre
uen
ia
omo si fuera el
aso donde
tratáramos de es
oger fre
uen
ias optimas para prede
ir
ada respuesta. En lugar, la predi
ión PLS es
una fun
ión de todos los fa
tores entrantes en este
aso, las predi
iones PLS pueden ser interpretadas
omo
ontrastes entre bandas extensas de fre
uen
ias.
Metodología de trabajo
1. Lista de
omponentes prin
ipales
on la propiedad de ortogonalidad extraídas por valida
ión
ru-
zada, que expliquen más del 70 % de la variabilidad total.
2. Matriz de
orrela
iones de las
omponentes prin
ipales para observar el grado de aso
ia
ión elimi-
nando problemas de multi
olinealidad de las variables predi
toras que pueden
ausar severos errores
de predi
ión.
3. Se determina la taza de error de
lasi
a
ión por valida
ión
ruzada de
ada uno de los
lasi
ado-
res por ejemplo el análisis dis
riminante lineal. Existen otros
lasi
adores tales
omo: Regresión
logísti
a nominal (NLR), Regresión logísti
a ordinal (OLR), Regresión logísti
a (LR),
aso multi-
variado. La obten
ión de las mejores tasas de error por valida
ión
ruzada para
ada
onjunto de
datos depende de la metodología
on que se generó las
omponentes PLS y del
lasi
ador utilizado.
4. Se presenta el grá
o de las dos y tres primeras
omponentes PLS de
ada uno de los
onjuntos
de datos . Estas
omponentes fueron generadas
on
ada una de las metodologías presentadas.
Los grá
os de los datos tendrán que lograr una buena separabilidad de grupos
on dos o tres
omponentes, la mejor separabilidad se logra por ejemplo
on
omponentes a partir del algritmo
MLRPLS.
5. Con la sele
ión de las
omponentes PLS, se plantea la regresión lineal múltiple para
ada
ompo-
nente (
ombina
ión lineal de los datos originales) y los modelos ajustados que obtengan predi
ión
que presenten un mejor R-ajustado serán los elegidos para prede
ir mejores respuestas ne
esarias
en los pro
esos i investigativos.
6. En la parte
omputa
ional se utiliza la fun
ión pr
omp de el paquete R. y los módulos de pro-
grama
ión del SAS, para desarrollar los algoritmos, para valida
ión
ruzada; una vez denidas las
omponentes prin
ipales se utilizan los módulos de XLStat para PLS, Minitab y otro paquetes de
la preferen
ia del investigador, para
onstruir los modelos de regresión estimados para predi
ión
que es el objetivo del trabajo.
1. Con
lusiones
1. Las
omponentes PLS presentadas son ortogonales entre sí. Esta
ara
terísti
a es fundamental para
redu
ir la dimensionalidad del espa
io de predi
toras y ser apli
ados en la te
nología de alimentos.
2. Las
omponentes PLS generados a partir de las metodologías presentadas, son
ombina
iones li-
neales de las variables predi
toras, así
omo lo son las
omponentes prin
ipales y obtienen sus
pondera
iones a partir de las variables predi
toras y del ve
tor de respuestas; mientras que las
omponentes prin
ipales lo ha
en sólo a partir de las variables predi
toras.
Referen
ias
Al
iaturi, C. E., Es
obar, M. E., De La Cruz, C. & Rin
ón, C. (1998), `Predi
ión de propiedades de
arbones minerales por espe
tros
opia infrarroja y regresión de
omponentes prin
ipales', Memorias
de las 10mas Jornadas Cientí
o Té
ni
as de Ingeniería 2, QUI 40 QUI 45.
Al
iaturi, C. E., Es
obar, M. E. & Vallejo, R. (1996), `Predi
tion of
oal properties by derivative drift
spe
tros
opy', Fuel 34(4), 491499.
de Jong, S., Wise, B. & Ri
ker, N. (2001), `Canoni
al partial least squares and
ontinuum power regres-
sion', J. Chemometri
s 15(2), 85100.
Draper, N. & Smith, H. (1981), Applied Regression Analysis, Wiley, New York.
Eri
kson, C. L., Lysaght, M. J. & Callis, J. B. (1992), `Relationship between digital ltering and multi-
variate regression in quantitative analysis', Anal. Chem. 64(24), 1155A1163A.
Geladi, P. & Kowalski, B. R. (1986a), `An example of 2-blo
k predi
tive partial-least squares regression
with simulated data', Anal. Chim. A
ta 185, 117.
Geladi, P. & Kowalski, B. R. (1986b), `Partial least squares regression: A tutorial', Anal. Chim. A
ta
185, 1932.
Helland, I. S. (2001), `Some theoreti
al aspe
ts of partial least square regression', Chemom. Intell. Lab.
Syst. 58(2), 97107.
Mardia, K. V. (1979), Multivariable Analysis, A
ademi
Press, New York.
Martens, H. (2001), `Re
ursive pls algorithms for adaptive data modeling', Chemom. Intell. Lab. Syst.
58, 8595.
Qin, S. J. (1998), `Relationship between digital ltering and multivariate regression in quantitative analy-
sis', Computers Chem. Eng. 22(4-5), 503514.
Wold, S. (2001), `Personal memories of the early pls development', Anal. Chim. A
ta 2, 8384.
Wold, S., Ruke, A., Wold, H. & Dunn III, W. (1984), `The
ollinearity problem in linear regression,
the partial least squares (pls) approa
h to generalized inverses', SIAM Journal of S
ienti
and
Statisti
al Computation 5(3), 735743.
Wold, S., Trygg, J., Berglund, A. & Antti, H. (2001), `Rsome re
ent developments in pls modeling',
Chemom. Intell. Lab. Syst. 58(2), 131150.