You are on page 1of 46

ОРГАНИЗАЦИЯ И ВИЗУАЛИЗАЦИЯ МУЗЫКИ

ПО СОДЕРЖИМОМУ ИСПОЛЬЗУЯ ТЕХНИКИ


САМООРГАНИЗУЮЩИХСЯ КАРТ И АНАЛИЗА
ГЛАВНЫХ КОМПОНЕНТ

Выполнил: студент 4 курса 1-ой группы


Лагода Д.А

Руководитель: доцент кафедры радиофизики


Хейдоров Игорь Эдуардович

2009 год
1
Цель:
Интегрировать существующие
методы получения воспринимаемо
значимых векторов свойств и
использовать их в приложении для
взаимодействия с музыкальными
коллекциями с новыми
возможностям визуализации,
фильтрации, поиска.

2
Мотивация:

Новая музыка
появляется– но её
невозможно найти

Большие коллекции
Требовательные пользователи

Найти похожее на то что мне Найти-Открыть новое.


нравиться – даже если Автоматическое-
логическое создание
песня, альбом, автор
плейлистов
не описаны текстово

3
Получение информации из Музыки
(Music Information Retrieval – MIR)

Задачи
•Интегрировать методы MIR описанные в литературе.
•Визуализировать данные.
•Создать возможность взаимодействия с музыкальными
произведениями.
•Создать возможность задания значимости величин в векторе
свойств данных.
•Создать возможность фильтрации музыкальных произведений
по значениям величин в векторе свойств.

4
Как можно описать Музыку?

Музыка с разных сторон


(Music Information facets)

•восприятия(енергия, текстура, ритм, темп, оркестровка,


гармоничность, тон, характер мелодии)
•редакторская(импровизации, performance instructions,
оркестровка)
•библиографическая (название, исполнитель, композитор,
страна, album art)
•культурная(жанр, субъективные квалификаторы)
•когнитивная (опыт, эмоции, reference)
•символическая(мелодия, гармония, структура)
•текстовая (слова песни)

5
Основы MIR находятся в Computer Audition

Машинное
Обработка
обучение
Сигналов(Signal
(Machine learning)
processing) Human Computer
Interaction

Компьютерное
Information Компьютерный слух зрение(Computer
Retrieval (Computer Audition ) Vision)

Визуализация Восприятие(Percep
(Visualization) tion)

Толще линии – Сильнее связь


6
Относится о MIR

7
Ухо. Колебания воздуха во
вмнешем ухе пробразовываются
средним в колебания жидкости во
внутреннем. После передаются в
Spane
мосх.

Передаточная функция среднего уха( дБ от логарифма частоты)

8
Жидкость 2 Овальное Улитка
Жидкость 1 окно

Психоакустика и Music Cognition


• модель уха
• работа мозга mm - длина
mel - относительная pitch
Bark - критическия полосы rate
Эффекты KHz - частота
маскирование – частотно и временное
критические полосы – различимость частот

9
Cлушание Познание Обучение

Предсказание Предположения
Внимание
Кратко- Долго-
Feature
Слух срочная срочная
Extraction
память память

Обработка сигналов Сегментация Распознование Кластеризация


Психоакустика Аудио паттернов Классификация
дескрипторы Онлайн обучение

Понимание механизмов мозга, в часности слуха,


идельная основа для построения перцепционных
моделей музыкального сознания. ?
10
Структурные иерархии найденные в частотной области
( отношения между нотами, акордами или тональностями) и во
временной области (такт, ритмическая компоновка, паттерны,
макроструктуры), открывают сложность и взаимосвязь между
различными компонетами составляющими музыку

Декомпозиция музыки в древовидную структуру


11
Методы поиска и получения значимых свойств

Получение значимых свойств


Для контента Для контекста

• Статистики – μ1, μ2, μ3, μ4 • статистики


•Гистограммы, • collaborative filtering
автокорреляционная функция • web crawling
• БПФ, оконное БПФ (SFFT) • natural-language processing
• ДВП
• MFCC(Mel-Frequency Cepstral
Coefficients)
• ранее полученные значимые соотношения
•Используются user studies, теория музыки, методы
оптимизации
12
Вейвлет (Wavelet)
http://ru.wikipedia.org/wiki/Вейвлет
http://ru.wikipedia.org/wiki/Дискретное_вейвлет-преобразование

Можно использовать и трактовать как

“Вейвлет” – это временная зависимость, показывающая спектр


звуковых данных в зависимости от текущего момента времени.
f Вырезая столбик из рисунка получаем
спектр звука в момент времени t0

Теплые тона показывают , что


интенсивность звука на данной
частоте в данный момент времени
больше в отличии от областей с
окрашенных в холодные цвета

t0 t 13
Вычисление MFCC
(Мелочастотные
кепстральные
коэффициенты)

14
Последовательность вычислений

Каждое
музыкальное
свойств относится
к одному из
измерений
традиционно
определенных в
музыкальной
теории.

Boldface текст подсвечивает свойства относящиеся к тону и тональности(хромограмма,


сила ноты, нотная SOM) и динамике(Root Mean Square(RMS), energy). Bold italics
обозначают свойства относящиеся к ритму( то есть темпу), четкости и отклонению
пульсации. Simple italics подсвечивают большой набор свойств которые можно
ассоциировать с тембром . Grey italics операции могут быть применены к различным
представлениям: например, статистические моменты (centroid, kurtosis, etc.) могут быть
применены как к спектру или огибающим, так и к гистограммам основанными на любом
из данных свойств.
15
Данные о музыке

•Отпечаток (Fingerprint);
•Содержание;
•Контекст;

•Длительность, Количество сегментов, Длительность


сегментов;
•Стабильность тактового размера;
•Темп;
•Гистограма ритма;
•Усреднние по статистически вычисленным функциям
характиризующим тембр;

•Жанр, Настроение, Таги – масивы строк; входит ? да = > 1


else 0 ; получаем вектор 0 и 1
•Популярность
[001]
16
Классификация
•Тембр – средние и дисперсия Centroid, Rolloff, Flux, ZeroCrossings
над 1с окне ,Low Energy основынные на STFT;
• Тембр- средние и дисперсия первых пяти MFCCs на 1с окне по
всему файлу;
•Ритмовое содержание – свойства основанные на Ритмовых
Гистограмах;
•Тоновое содержание - свойства основанные на Тоновых
Гистограммах
[003]

17
ОРГАНИЗАЦИЯ

Современные музыкальные браузеры


18
Новый по возможностям

Со старым интерфейсом

19
М УМЕНЬШЕНИЯ
у РАЗМЕРНОСТИ
з (DIMENSION REDUCTION)
ы Векторы свойств B = TxA
к
n m
а
л
ь
н
ы DR
е
к
о
м
п
о
з
и
ц
и Получение из выборки n-мерных векторов(A) новой m-мерной (B) с
и сохранением максимального количества информации(разнообразия и исходной
топологии)
20
1

Таксономия техник уменьшения размерности


21
Метод Главных Компонент (англ. Principal components
analysis, PCA)— один из основных способов уменьшить
размерность данных, потеряв наименьшее количество
информации. Вычисление главных компонент сводится к
вычислению собственных векторов и собственных
значений ковариационной матрицы исходных данных

min

22
Autoencoder - сеть обратного распространения с узким горлом

An auto-encoder is an artificial neural network used for learning efficient


codings. The aim of an auto-encoder is to learn a compressed representation
(encoding) for a set of data. This means it is being used for
dimensionality reduction. More specifically, it is a feature extraction method.
Auto-encoders use three or more layers:
•An input layer. For example, in a face recognition task, the neurons in the input
layer could map to pixels in the photograph.
•A number of considerably smaller hidden layers, which will form the encoding.
•An output layer, where each neuron has the same meaning as in the input layer.
If linear neurons are used, then an auto-encoder is very similar to PCA.

23
КЛАСТЕРИЗАЦИЯ

Методы

•Самоорганизующаяся карта Кохонена


•K-средних (K-means)
•Графовые алгоритмы
•Статистические алгоритмы
•Алгоритм FOREL
•Иерархическая кластеризация или таксономия

24
Самоорганизующаяся карта Кохонена (англ. Self-
organizing map — SOM) — соревновательная
нейронная сеть с обучением без учителя,
выполняющая задачу визуализации и кластеризации.
Является методом проецирования многомерного
пространства в пространство с более низкой
размерностью (чаще всего, двумерное), применяется
также для решения задач моделирования,
прогнозирования и др. Является одной из версий
нейронных сетей Кохонена.

25
Импульсно-кодовая модуляция (PCM — Pulse Code Modulation)
ИКМ используется для оцифровки аналоговых сигналов. Практически все
виды аналоговых данных (видео, голос, музыка, данные телеметрии,
виртуальные миры) допускают применение PCM.

26
ВИЗУАЛИЗАЦИЯ .Отдельные мелодии

Self Similarity Matrix


Анализ структуры песни на
повторяющиеся элементы

Геометрическое представление песни.


Свуковые сегменты описываются как
точки в пространстве, струтура музыки
– пусть через него.

27
Beethoven’s "Moonlight" Sonata

Daft Punk’s "Onemore time"

Время - горизонтальная координата


Тон -вертикальная
Громкость - яркость
Тембр - цвет

28
Вычисление текущего тона
Отображение переходов(черные точки)

GenreGram
Класификация “на лету”
Значения достоверности по
вертикальной оси

29
Коллекции

TimbreGram
•Временные серии векторов-свойств > PCA > RGB-пространство цвета

30
Коллекции

Islands of Music

• SOM + Smoothed Data


Histograms + цветовая схема
основанная на метафоре
георгафической карты

31
Component planes + цветовая схема синоптических карт
32
Развивающаяся SOM
(Emergent SOM)
•Много нейронов
•Безграничный тороид вместо
плоскостной топологии позволяет
убрать краевые эффекты , а именно
=> 1. Кластеры в углах и вдоль
границ; 2. Центральное
пространство карты довольно пусто
•U-Matrix/U-Map визуализируют
исходные расстояния в
пространстве данных
•Метафора географической карты
Аллеи = кластеры
Горы = границы

Тороид

33
Пример использования ESOM

34
Плавное изменение

Похожее

35
ВЫДЕЛЕНИЕ НУЖНЫХ
СВОЙСТВ

36
При большом маштабе
можно отображать
кластеры,
описывая их
собирательными
чертами песен в их
составе

37
ВСЁ ВМЕСТЕ # Своства # Измерения
x x
# Песни # Песни
Музыкальная
библиотека
Организация
Анализ
Уменьшение
Получение Визуализация
размерности,
песни свойств взаимодействие
кластеризация

MARSYAS
MIRtoolbox
Last.fm Реализации
Echonest.com SOM, PCA, …
Allmusic.com
.
.
38
Работа
получение свойств контента-> PCA -> scatter

39
Работа
Выделение нужных свойств

40
Работа
Реализация MIR системы на MATLAB 2009a
Получения данных Анализ
Statistics Toolbox Neural Network Toolbox
Signal Processing Statistics Toolbox
Toolbox
Wavelet Toolbox SOMToolbox
AuditoryToolbox Netlab Toolbox
MIRToolbox(содержит Dimension Reduction
manual с сравнением с Toolbox
другими решениями)
XBAT (программа для
биоакустики)
Визуализация
Встроеные средства MATLAB
и решения предоставляемые в
toolbox’ах, GUIDE

41
Реализация MIR системы на .NET 3.5
Получения данных Анализ
MATLAB Builder NE
Matlab Builder NE NN: NeuronDotNet, FANN
Marsyas
Math:
Web-servises: Math.NET Numerics и другие
The Echonest Api
Last.fm
Визуализация
WPF(настольная)и SL(для Web)
MATLAB 2009a может использовать Web-sevices, базы
данных(Database Toolbox), любые Java и .NET объекты=> все что
можно использовать на этих платформах.
MATLAB поддерживает OOP и JIT компиляцию. Основные
преобразования выполняются параллельно. Есть Parallel Computing
Toolbox.
42
ОРГАНИЗАЦИЯ И ВИЗУАЛИЗАЦИЯ МУЗЫКИ ПО
СОДЕРЖИМОМУ ИСПОЛЬЗУЯ ТЕХНИКИ
САМООРГАНИЗУЮЩИХСЯ КАРТ И АНАЛИЗА
ГЛАВНЫХ КОМПОНЕНТ

Music Organization and Visualization by Content using Principal


component analysis and Self-organizing maps

43
Литература относящаяся к MIR
[001] Anita Shen Lillie “MusicBox: Navigating the space of your music”
August, 2008
[002] Elias Pampalk “Islands of Music. Analysis, Organization, and
Visualization of Music Archives” Deсember, 2001
[003] George Tzanetakis “Manipulation, analysis and retrieval systems for
audio signals” June, 2002
[004] Tristan Jehan “Creating Music by Listening” September, 2005
[005] J. Stephen Downie “Music Information Retrieval” 2003
[006] Priit Kirss “Audio Based Genre Classification of Electronic Music
“June, 2007
[007] Olivier Lartillot “MIRtoolbox 1.1 User’s Manual” May, 2008

Презентации относящаяся к MIR


[050]Baumann “Visualization for Music IR” 2005

44
Литература относящаяся к анализу, DR и Clusterization

[101] A. Gorban, B. Kegl, D. Wunsch, A. Zinovyev “Principal


Manifolds for Data Visualisation and Dimension Reduction” 2007
[102] L.J.P. van der Maaten “Dimensionality Reduction: A
Comparative Review” 2008
[103] Jeff Hawkins , Sandra Blakeslee “On Intelligence” July, 2005

45
Ссылки:
www.ismir.org

46

You might also like