Aprendizaje para Clasificación Con Factorización Matricial Basado en Listwise para Filtrado Colaborativo

2012
Aprendizaje para Clasificacin con Factorizacin Matricial Basado en Listwise para Filtrado Colaborativo
Ivn Lpez Espejo 22/04/2012
Sumario
1. 2. 3. 4. 5. 6. Introduccin ......................................................................................... 3 Estado del Filtrado Colaborativo y del LTR ........................................ 4 Algoritmos ............................................................................................ 5 Evaluacin y Resultados ....................................................................... 6 Conclusiones ......................................................................................... 7 Referencias ........................................................................................... 8
1.
Introduccin
Actualmente, los sistemas de recomendacin de contenido son un importante punto de atencin para los investigadores a causa de la gran cantidad de contenido multimedia disponible en Internet al alcance de los usuarios: libros, msica, pelculas, etc. Particularmente, el filtrado colaborativo se ha erigido como una de las tcnicas de recomendacin ms satisfactorias, la cual se basa en la idea de que a un usuario le podr gustar probablemente un contenido que le gusta a otros usuarios con sus mismas o similares preferencias. El propsito ms importante que un sistema de recomendacin debe cumplir es el de proveer al usuario de una lista de recomendacin de contenido. En base a esta idea, el trabajo que aqu se recoge trata de una extensin escalable a la aproximacin de factorizacin matricial aplicada al filtrado colaborativo denominada ListRank-MF (donde MF viene de Matrix Factorization). Esta aproximacin hace uso de una tcnica de aprendizaje para clasificacin listwise con el fin de clasificar u ordenar los diferentes elementos multimedia para cada uno de los usuarios, donde los usuarios y dichos elementos multimedia son representados como caractersticas latentes aprendidas haciendo uso de factorizacin matricial. La contribucin principal de la tcnica aqu expuesta es doble: por un lado proporciona un rendimiento superior en trminos de recomendacin sobre el estado del arte basado en la aproximacin de la factorizacin matricial y, por otro, mantiene una complejidad lineal con la cantidad de ratings observados en la matriz usuario-elemento multimedia dada, pudiendo, por tanto, escalarla con el fin de ser usada en colecciones de contenido realmente grandes. El aprendizaje para clasificacin (de ahora en adelante LTR por sus siglas en ingls) es una tcnica de machine-learning supervisado que construye automticamente un modelo de clasificacin o ranking a partir de unos datos de entrenamiento. Recientemente, el LTR ha sido objeto de intensivos esfuerzos de investigacin, de donde resulta el ejemplo Yahoo! LTR Challenge, pues repercute en beneficios directos sobre las tcnicas de recuperacin de informacin (information retrieval) mediante el envo de peticiones, y de recomendacin a partir de perfiles de usuario (como es el caso del presente trabajo analizado).
2.
Estado del Filtrado Colaborativo y del LTR
El filtrado colaborativo puede ser basado en memoria o en modelo. En general, las aproximaciones basadas en memoria hacen recomendaciones partiendo de la base de las similitudes entre usuarios (basadas en usuarios) o entre elementos multimedia (basadas en elementos multimedia). De otro lado, las aproximaciones basadas en modelo en un primer momento ajustan modelos de prediccin basados en datos de entrenamiento y luego usan dichos modelos con el fin de predecir las preferencias de los usuarios sobre determinados contenidos multimedia. Adems, las tcnicas de factorizacin matricial han atrado la atencin de los investigadores debido a las mejoras que proporciona en trminos de escalabilidad y precisin, especialmente en entornos ingentes de contenido multimedia. Las tcnicas de factorizacin matricial normalmente aprenden caractersticas latentes de los usuarios y los elementos multimedia a partir de los ratings observados en las matrices usuario/elemento multimedia, posteriormente usadas para predecir ratings no observados. Dentro del rea del filtrado colaborativo, la atencin en trminos de investigacin se ha movido desde el problema de la prediccin del rating al problema de la calidad en la clasificacin o la lista de recomendacin que el sistema genera. No obstante, las aproximaciones existentes basadas en lo anterior (como la clasificacin probabilstica bayesiana) tienen un alto coste de cmputo, lo que limita su escalabilidad. No obstante, ListRank-MF aqu descrito presenta una complejidad lineal con el nmero de ratings observados dada una matriz de ratings usuario/elemento multimedia. En cuanto al LTR segn una aproximacin listwise, un ejemplo de entrenamiento individual es una lista de elementos multimedia completa. Las funciones de prdida para el LTR listwise se formulan para medir la distancia entre la lista de referencia y la lista de salida del modelo de clasificacin. Varios algoritmos son aplicados para aprender el modelo de clasificacin ptimo local o global. Se propuso a la probabilidad de permutacin para representar la lista de clasificacin, la cual poda ser simplificada a la probabilidad de que un elemento multimedia dado sea clasificado en primera posicin para una lista dada. Esta ltima probabilidad es la que emplea ListRank-MF para representar la lista de recomendacin, haciendo que dicha tcnica se acerque al LTR listwise.
3.
Algoritmos
El marco de trabajo de la tcnica ListRank-MF est basado en la factorizacin matricial probabilstica, cuyos fundamentos se recogen en [2] y donde una factorizacin matricial es formulada a partir de inferencia estadstica sobre distribuciones condicionales de ratings observados, as como sobre distribuciones a priori de ratings de usuarios y de ratings de elementos multimedia. Dicho marco de trabajo se formula como , = argmin
,
1 2
La factorizacin matricial probabilstica busca representar la matriz de ratings usuario-elemento multimedia, , como dos matrices y , donde es el nmero de usuarios y es la cantidad de elementos multimedia. Se emplea un conjunto de caractersticas latentes d-dimensionales para representar tanto como . Los subndices de dichas matrices indican una determinada columna de ellas compuesta por un vector de caractersticas ddimensional. De otro lado denota el rating del usuario i-simo sobre el elemento multimedia j-simo. es una funcin indicadora que es igual a 1 cuando > 0 y 0 en otro caso. Por ltimo, y son coeficientes de regularizacin donde, normalmente, = = . La funcin logstica se emplea para acotar el rango de su argumento, siendo = 1+ 1 .
La probabilidad de que un elemento multimedia dado (el j-simo) sea clasificado en primera posicin para una lista dada (la del usuario i-simo) se puede calcular como = ,
donde se ha supuesto la existencia de elementos multimedia para el usuario i-simo y es usualmente la funcin exponencial, pues se precisa que sea estrictamente creciente y estrictamente positiva. El ListRank-MF se formula como la funcin de prdida a partir de la entropa cruzada de las anteriores probabilidades de elementos multimedia
en las listas de ejemplo de entrenamiento y en las listas de clasificacin a partir del modelo de clasificacin: , = log + 2 + .
Las listas de ejemplo de entrenamiento consisten en conjuntos de elementos multimedia de entrenamiento en los perfiles de cada usuario. La salida del modelo de recomendacin es una lista de recomendacin para cada uno de los usuarios compuesta de elementos ordenados de forma descendente en . funcin del rating de acuerdo con el valor de La anterior funcin de prdida representa la incertidumbre entre las listas de entrenamiento y las listas de salida del modelo de clasificacin. El modelo de clasificacin ptimo debera de proveer la mnima incertidumbre entre las listas de ratings de entrenamiento y las listas de predicciones de salida. En este caso tenemos que la factorizacin matricial est optimizada para posiciones de clasificacin de elementos multimedia en las listas de los usuarios. Finalmente, puesto que la funcin de prdida no es convexa conjuntamente sobre y , se escoge usar gradiente descendiente fijando alternativamente y , a partir de los cuales puede obtenerse un mnimo local. El vector gradiente se obtendra de aplicar derivadas parciales sobre la funcin de prdida, de la forma , = , , .
4.
Evaluacin y Resultados
Segn los experimentos llevados a cabo, ListRank-MF logra una mejora en el rendimiento del 15% sobre el mtodo de recomendacin colaborativo basado en elementos multimedia y del 10% y 5% sobre el estado del arte constituido por las tcnicas CoFiRank-NDGC y CoFiRank-Best, respectivamente. Adems, las mejoras son significativas en todas las condiciones de tests evaluadas, aproximadamente. Notar que aunque no hemos especifica-
do el marco de evaluacin, este es esencialmente el mismo para todos los algoritmos, por lo que los resultados mencionados resultan relevantes. En trminos aislados, es resaltable que el coeficiente de regularizacin en el ListRank-MF influye en la convergencia de la funcin de prdida y controla el sobreajuste. La siguiente figura muestra la relacin entre y la prdida, observndose cmo el riesgo de sobreajuste comienza cuando el coeficiente de regularizacin se encuentra por debajo del valor 0.001.
Figura 1. Impacto del coeficiente de regularizacin sobre la convergencia de la prdida durante el proceso de aprendizaje.
Finalmente, notar que la optimizacin de la funcin de prdida lleva a la minimizacin de la prdida. Como se observa en la siguiente figura, el rendimiento en la clasificacin de los elementos multimedia se torna ptimo y convergente cuando se optimiza la funcin de prdida.
Figura 2. Efectividad del ListRank-MF para lograr la ganancia acumulada descontada normalizada mediante la minimizacin de la prdida.
5.
Conclusiones
La evaluacin llevada a cabo sobre la tcnica aqu desarrollada ha demostrado que ListRank-MF mejora la recomendacin colaborativa basada en objetos sobre el estado del arte entonces existente. Tambin en la etapa de evaluacin fue analizada la complejidad computacional de dicha tcnica
verificndose lo expuesto en la introduccin, y es que ListRank-MF mantiene una complejidad lineal con la cantidad de ratings observados en la matriz usuario-elemento multimedia dada, pudiendo, por tanto, escalarla con el fin de ser usada en colecciones de contenido realmente grandes propias del mundo real.
6.
Referencias
[1] Y. Shi, M. Larson y A. Hanjalic, List-wise Learning to Rank with Matrix Factorization for Collaborative Filtering. [2] R. Salakhutdinov y A. Mnih, Probabilistic Matrix Factorization. 2008.

Aprendizaje para Clasificación Con Factorización Matricial Basado en Listwise para Filtrado Colaborativo

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprendizaje para Clasificación Con Factorización Matricial Basado en Listwise para Filtrado Colaborativo

Uploaded by

Copyright:

Available Formats

2012

Ivn Lpez Espejo 22/04/2012

Estado del Filtrado Colaborativo y del LTR

You might also like