Site de Busca de Comparao de Preos Andr Luis Meneses Silva Agenda Descrio do Problema Abordagem Algoritmos de Similaridade entre Strings Resultados Descrio do Problema Sistemas para Busca e Comparao de Preos Buscap, BondFaro, Google Shooping Vantagens: Facilita o trabalho de pesquisa por parte do consumidor. Auxilia lojas menores na venda de produtos. Auxilia na divulgao das lojas Descrio do Problema Itens redundantes classificados como itens diferentes Descrio do Problema Tentativa de Agrupamento mal sucedida Descrio do Problema Motivos: Fontes de dados diversas Ausncia de Padronizao Erro na escrita de Produtos Abreviaes Objetivo Tentar aplicar algoritmo de agrupamento e similaridade, com o intuito de amenizar a presena de dados redundantes em sites de comparao de preos. Abordagem Coleta de Produtos (Wrapper) Abordagem Coleta de Produtos (Wrapper) Introduo de Erros (20%) Abordagem Coleta de Produtos (Wrapper) Aplicao de Algoritmo de Similaridade aos pares de Strings Introduo de Erros (20%) Abordagem Seleo dos Melhores Casos O(n 2 ) para O(2n) Coleta de Produtos (Wrapper) Aplicao de Algoritmo de Similaridade aos pares de Strings Introduo de Erros (20%) Abordagem Aplicao do K- Means Seleo dos Melhores Casos O(n 2 ) para O(2n) Coleta de Produtos (Wrapper) Aplicao de Algoritmo de Similaridade aos pares de Strings Introduo de Erros (20%) Algoritmos de Similaridade entre Strings Foram utilizados os seguintes algoritmos: Levenshtein Jaro-Winkler Mdia dos Algoritmos de Similaridades Algoritmos de Similaridade entre Strings Distncia de Levenshtein Nmero mnimo de operaes necessrias para transformar uma palavra em outra. ("kitten", "sitting") = 3, pois: kitten sitten (substituio de "s" por "k") sitten sittin (substituio de "i" por "e") sittin sitting (insero de "g" no final). Distncia Jaro Winkler Resultados Carros 86,56% 83,09% 83,09% Resultados Vinhos AVG Levenshtein Jaro-Winkler 85,36% 82,33% 81,82% Resultados Perfumes AVG Levenshtein Jaro-Winkler 91% 86% 89% Resultados Smartphones AVG Levenshtein Jaro-Winkler 50,51% 64,65 % 54,55% Resultados Automveis Smartphones Vinhos Perfumes Levenshtein + K-Means 83,09% 50,51% 85,36% 91% Jaro-Winkler + K-Means 83,09% 64,65% 82,33% 86% AVG + K- Means 86,56% 54,55% 81,82% 89% Concluses Resultados foram promissores na tentativa de agrupar produtos Com exceo dos Smartphones. Adoo de outras mtricas para comparao de similaridade entre strings. Chapman Name, MongeElkan, etc. Introduo de Anlise de Contexto PMI (Pointwise Mutal Information) Problemas: Desempenho Referncias SimMetrics Disponvel em: http://sourceforge.net/projects/simmetrics/ Weka 3 http://www.cs.waikato.ac.nz/ml/weka/downloading.html Lin, D. and Wu, X. Phrase Clustering for Discriminative Learning. Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNL (2009).