You are on page 1of 13

Machine Learning Approach

to Music Data Analysis

FEUP / MIEIC
PDIS2010

Mário Carneiro
Contexto

• É cada vez mais fácil aceder a conteúdo musical na


Web. Estes veículos apresentam-se muitas vezes na
forma de redes sociais.

2
Contexto

• O website Last.fm permite aos utilizadores da sua


rede social catalogar, comentar e escrever sobre
artistas, canções e eventos.

• Estes textos gerados pelos utilizadores da sua rede


social tornam-se uma fonte muito significativa de
informação sobre as preferências e opiniões musicais
das pessoas.

3
Contexto

4
Contexto

• Base de dados com:


– 1,000,000 de artistas
– 500,000 tags
– 8,000,000 de atribuições de tags
– 20,000,000 de shouts
– …

– (snapshots de dois em dois meses)

5
O Desafio

• A utilização de tags para caracterizar artistas e


canções é uma fonte de informação muito relevante.
• Apesar da sua análise não ser tão simples, posts em
blogs e shouts são também fontes de informação
relevante.

• Neste contexto, o desafio é a automação da


anotação, indexação e organização destes dados,
baseada no seu conteúdo semântico.

6
O Desafio

• É, por exemplo, importante distinguir entre tags com


significado subjectivo e objectivo:

7
O Desafio

• Distinguir entre conteúdo relevante ou conteúdo que


não tem qualquer valor (lixo):

8
O Desafio

• Distinguir se certo item está relacionado com música


ou não:

9
Áreas Envolvidas

• Music Information Retrieval

• Processamento de Linguagem Natural


– (Compreensão)

• Machine Learning

• Data Mining

10
Tecnologias

• Perl

• Weka
– Waikato Environment for Knowledge Analysis — machine
learning software suite

• …

11
Plano de Trabalho

12
?