You are on page 1of 69

Multimedialne bazy danych

PREZENTACJA WYBRANYCH
SYSTEMW ROZPOZNAWANIA
NAGRA MUZYCZNYCH

Wprowadzenie
W tradycyjnych multimedialnych bazach danych moliwe
jest wyszukiwanie danych wycznie za pomoc kryteriw
tekstowych. Np. uytkownik wpisuje nazw wykonawcy,
system wyszukuje informacje o podanym wykonawcy
(biografia, dyskografia, itp.).
Przykad tradycyjnego systemu: AMG Allmusic Guide
http://www.allmusic.com/
Nowoczesne bazy multimedialne umoliwiaj wyszukiwanie
za pomoc kryteriw multimedialnych. Np. uytkownik
przesya fragment nagrania muzycznego, system dokonuje
parametryzacji i wyszukuje podobny obiekt w bazie,
zwraca informacje o rozpoznanym nagraniu (wykonawca,
tytu).

Zastosowanie systemw rozpoznawania muzyki


Przykady zastosowania systemw rozpoznawania muzyki:
Wyszukiwanie danych o utworze:
uytkownik syszy nagranie w radiu, przesya jego
fragment do systemu, system rozpoznaje wykonawc
i tytu, moe np. skierowa uytkownika do sklepu
internetowego.
Ochrona praw autorskich:
system porwnuje fragment muzyczny do nagra
w bazie, ocenia podobiestwo np. melodii, pomaga
wykry plagiaty.
Rozgonie radiowe:
system rozpoznaje nagrania w programie radiowym,
tworzy rejestr emitowanych nagra, pomocny np. przy
rozliczaniu tantiemw.

QBH
Systemy dziaajce w oparciu o zasad Query by Humming
(QBH) zapytanie poprzez nucenie nale do
najstarszych systemw rozpoznawania melodii
(Ghias 1995).
Zasada dziaania systemw QBH:
uytkownik nuci lub gwide do mikrofonu melodi,
algorytm ledzenia wysokoci dwiku (pitch tracking)
zamienia melodi na kontur melodyczny,
modu wyszukujcy porwnuje kontur melodyczny
uzyskany z zapytania z konturami zapisanymi w bazie,
znajduje najbardziej podobne obiekty.
Kontury melodyczne zapisane w bazie danych uzyskuje si
najczciej na podstawie plikw MIDI.

QBH
Schemat blokowy systemu QBH (Ghias et al.):

QBH ledzenie wysokoci


ledzenie wysokoci dwiku w systemie QBH:
dwik z mikrofonu nagrywany jest do pliku
dwikowego (np. WAV)
algorytm zaimplementowany w systemie Matlab
dokonuje wykrywania czstotliwoci podstawowej
w oparciu o metody:
autokorelacji,
maksimum prawdopodobiestwa,
analizy cepstralnej
wyznaczanie konturu melodycznego: kodowana jest
wysoko kadej nuty (poza pierwsz) wzgldem
poprzedniej: U (wysza), D (nisza), S (taka sama);
np. pocztek V Symfonii Beethovena:
*SSDUSSD

QBH wyszukiwanie danych


Algorytm wyszukiwania danych w systemie QBH musi
uwzgldnia bdy powstae przy nuceniu melodii:
bd transpozycji (zafaszowanie)
bd zaniku (pominicie nuty)
bd powielenia (niepotrzebne powtrzenie nuty)
Bdy nie dotyczce wysokoci dwiku (np. bdy tempa)
nie maj wpywu na wyszukiwanie.

QBH wyszukiwanie danych


Zadanie dla algorytmu wyszukujcego:
wyszuka wystpienia wzorca P = p1 p2 p3 pm
w cigach tekstowych T = t1 t2 t3 tn
przy zaoeniu maksimum k rnic
Baza zwraca list znalezionych utworw uszeregowanych
wg podobiestwa do zapytania.
Dokadno wyszukiwania zaley od:
wiernoci wykonania melodii przez uytkownika
(akcentowanie nut, krtkie przerwy midzy nutami)
dokadnoci danych dotyczcych melodii zawartych
w bazie

QBH skuteczno systemu


System QBH zaprojektowany przez Ghiasa i in.:
183 utwory w bazie, uzyskane z plikw MIDI
(z kanaw zawierajcych lini melodyczn)
sekwencje o dugoci 10-12 nut wystarczaj do
rozrnienia 90% utworw w bazie
przy odpowiednim zanuceniu melodii uzyskuje si
blisko 100% skuteczno wyszukiwania
baza danych jest maa, zwikszenie obiektw w bazie
danych powoduje liniowy wzrost czasu wyszukiwania
planowane byy usprawnienia systemu
(np. zastosowanie analizy falkowej)

MELDEX
MELDEX (MELody inDEX) system opracowany w Nowej
Zelandii w 1997 r. Przeznaczony jest do rozpoznawania pieni
ludowych.
Baza zawiera 9354 pieni ludowych (pnocnoamerykaskich,
niemieckich, chiskich i irlandzkich).
Rozpoznawanie melodii nuconej do mikrofonu (QBH) oraz
wprowadzanej z klawiatury przez specjalny panel.
Z melodii wprowadzanej przez uytkownika uzyskiwane s
informacje o:
wysokoci nut
czasie trwania nut
Adres bazy MELDEX:
http://www.nzdl.org/fast-cgi-bin/music/musiclibrary

MELDEX panel wejciowy


Panel do wprowadzania danych w systemie MELDEX

MELDEX detekcja wysokoci


Detekcja wysokoci dwiku w systemie MELDEX:
sygna jest przetwarzany przez filtr dolnoprzepustowy
ograniczenie pasma do 1 kHz
detektor wyznacza w przetworzonym sygnale
powtarzajcy si okres podstawowy
analiza w ramkach 20 ms, rozdzielczo wysokoci
ok. 5 centw

MELDEX detekcja czasu trwania


Detekcja czasu trwania nut w systemie MELDEX:
uytkownik nucc melodi wyranie rozdziela kad
nut (na na na na)
powoduje to gwatowny wzrost, a nastpnie spadek
amplitudy sygnau (trwajcy ok. 60 ms)
wartoci progowe amplitudy pozwalaj wyznaczy
pocztek i koniec kadej nuty

MELDEX kodowanie wysokoci i czasu


Kodowanie wysokoci nut w systemie MELDEX:
wysoko kadej nuty jest zapisywana jako rnica
wysokoci w centach wzgldem tonu wzorcowego
o czstotliwoci 8,176 Hz (0 w MIDI).
Kodowanie czasu trwania nut:
kwantyzacja do minimalnego czasu trwania nuty,
definiowanego przez uytkownika (np. szesnastka).

MELDEX wyszukiwanie danych


Moliwoci wyszukiwania danych w MELDEX:
okrelenie miejsca dopasowania (pocztek utworu lub
inny punkt, np. refren)
wyszukiwanie wg:
konturu melodycznego (jak w QBH)
informacji o dokadnych wartociach interwaw
uwzgldnianie informacji rytmicznych (o czasie trwania
poszczeglnych nut)
dopasowanie dokadne (jak w QBH)
przyblione dopasowywanie cigw (oparte na mierze
odlegoci cigw) uwzgldnia rnice
w wykonywaniu melodii i bdy przy nuceniu

TreeQ
System TreeQ opracowany zosta w 1997 r. przez J. Foote.
Gwne cechy:
wyszukiwanie podobiestw pomidzy sygnaami audio
na podstawie wektorw kwantyzacji
wykorzystuje algorytmy uczenia si maszyn (machine
learning)
zapytanie przez przykad (query by example)
Demonstracja dziaania systemu:
http://www.fxpal.com/people/foote/musicr/

TreeQ
Parametryzacja i wyszukiwanie danych w systemie TreeQ
Dane audio s parametryzowane uzyskuje si wektor
cech dystynktywnych, zawierajcy przykady klas
fonicznych (mowa/muzyka, gos eski/mski, itp.).
Tworzony jest kwantyzator oparty na strukturze
drzewa (trening nadzorowany)
Sparametryzowane dane s przetwarzane przez
kwantyzator uzyskujemy szablon dwikowy, czyli
histogram opisujcy najwaniejsze cechy sygnau
Wyszukiwanie danych porwnywanie szablonu
uzyskanego z wyszukiwanego nagrania z szablonami
zapisanymi w bazie

TreeQ tworzenie szablonu


Sposb tworzenia szablonu audio w systemie TreeQ

TreeQ - parametryzacja
Parametryzacja nagra audio w systemie TreeQ
okienkowanie Hamminga 25 ms z nakadkowaniem
obliczenie logarytmu widma mocy (logarytm DFT)
wspczynniki widmowe s przeliczane na skal
melow uwydatnienie skadowych o rednich
czstotliwociach
obliczenie odwrotnej transformaty Fouriera
Uzyskuje si w ten sposb 13-elementowy wektor
wspczynnikw mel-cepstralnych (MFCC mel-frequency
cepstral coefficients).
Nagranie audio jest opisane przez zbir tych wektorw
(500 wektorw na sekund).

TreeQ - kwantyzacja
Zbir wektorw cech jest przetwarzany przez kwantyzator.
W kadym wle drzewa kwantyzatora podejmowana
jest decyzja wybr potomka (kolejnej gazi drzewa)
Kady z wektorw z przetwarzanego wzoru trafia
w rezultacie do jednego z lici (potomka kocowego)
drzewa.
Dla danego zbioru wektorw mona utworzy
histogram ile wektorw przypado na kade z lici
drzewa.
Histogram ten tworzy szablon (template)
identyfikujcy nagranie audio
Kwantyzator tworzony jest w procesie treningu
ma zdolno uczenia si

TreeQ wyszukiwanie
Wyszukiwanie danych polega na porwnywaniu histogramu
otrzymanego dla nagrania w zapytaniu
z histogramami zapisanymi w bazie.
Kryterium najmniejszej odlegoci (euklidesowej lub
cosinusowej). Zwracana jest miara podobiestwa.

Musipedia/Tuneserver
System zaprojektowany w 1997 r. przez Prechelta i Typke
(Karlsruhe) jako Tuneserver, obecnie przeksztaci si w
internetowy system Musipedia, wykorzystujcy mechanizm
Wikipedia (encyklopedia tworzona przez uytkownikw).
System umoliwia wyszukiwanie melodii w bazie przez jej
zagwizdanie (lub zanucenie) mechanizm Melodyhound.
Zawarto bazy: (muzyka klasyczna, popularna, pieni
ludowe, hymny narodowe).
Adres systemu: http://www.musipedia.org/

Kod Parsonsa
Zagwizdana melodia jest zamieniana na kontur melodyczny
w postaci kodu Parsonsa (podobnie jak
w systemach QBH). Moliwe jest rwnie bezporednie
wprowadzenie kodu Parsonsa.
Kod Parsonsa: kodowanie wysokoci poszczeglnych nut za
pomoc znakw: U (wysza), D (nisza), R (taka sama).
Celowo ignoruje si informacje o rytmie oraz wielkociach
interwaw.
Np. pocztek hymnu polskiego: *UURRDUDDDDRUDUD

Musipedia schemat blokowy systemu

Musipedia parametryzacja
Wprowadzanie danych przez gwizdanie mniejsza
zmienno i atwiejsza analiza widmowa ni w przypadku
piewu lub nucenia. Parametryzacja:
podzia sygnau na ramki (46 ms, zakadkowanie 50%)
analiza widmowa kadej ramki (FFT) decyzja:
sygna czstotliwo i amplituda maksimum
cisza
ramki zawierajce sygna s czone w nuty,
rozdzielone cisz lub gwatown zmian czstotliwoci
czstotliwoci nut zamieniane s na kod Parsonsa.
Parametry analizy mog by ustawiane przez uytkownika.

Musipedia wyszukiwanie
Wyszukiwanie danych w systemie Musipedia:
obliczanie odlegoci midzy kodem Parsonsa
szukanego nagrania a wszystkimi kodami zapisanymi
w bazie danych
miara odlegoci waona suma minimalnej liczby
przeksztace kodu (wstawie, zamiany i usuni
znakw) potrzebnej do dokadnego dopasowania
zwracana jest lista najbliszych elementw
podawane s rwnie informacje dodatkowe o utworze,
jeeli zostay wprowadzone do bazy (np. zapis nutowy,
moliwo zakupu pyty, itp.).

Musipedia skuteczno systemu


Skuteczno systemu Musipedia oceniana za pomoc zbioru
testowego, przy gwizdaniu melodii:
przy braku zakce w sygnale wejciowym uzyskuje si
redni liczb poprawnych odpowiedzi 4 na 5
szum pochodzcy od oddechu ma najwikszy wpyw na
skuteczno (szum ten jest filtrowany, parametry filtracji
mog by regulowane przez uytkownika)
liczba nut mniejsza ni 8 znaczco pogarsza skuteczno
najbardziej podatne na bdy w kodzie Parsonsa s
elementy R
najczstsze znieksztacenia w kodzie Parsonsa to kody
wstawienia
skuteczno zaley te od muzyki (uzyskano wiksz
skuteczno dla muzyki Mozarta i Haydna)

System GUIDO/MIR
System GUIDO/MIR oparty jest na bazie danych
zawierajcej notacj utworw muzycznych zapisan
w formacie GUIDO.
GUIDO proponowany standard zapisu notacji muzycznej
w formacie tekstowym, czytelnym, niezalenym
od platformy.

GUIDO/MIR - wyszukiwanie
Wyszukiwanie danych w systemie GUIDO/MIR odbywa si
na zasadzie Query by Example (QBE) zapytanie przez
przykad.
Mechanizm wyszukujcy czy jeden z typw informacji
melodycznej (wysoko, interwa, klasy interwau, kontur
melodyczny) z jednym z typw informacji rytmicznej
(bezwzgldny i wzgldny czas trwania, kontur rytmiczny).
Parametry te s wyznaczane dla pojedynczych nut oraz dla
par nut.
Przy dopasowywaniu wzorca do danych mona uwzgldnia
tylko informacj o wysokociach nut
tylko informacj o czasie trwania nut
informacje o wysokoci i czasie trwania cznie

GUIDO/MIR - wyszukiwanie
Algorytm wyszukiwania danych oparty jest na acuchach
Markowa pierwszego rzdu model probabilistyczny:
w kadej chwili model znajduje si w okrelonym stanie
w dowolnym czasie nastpuje przejcie do innego stanu
cieki w modelu s opisane przez prawdopodobiestwa
przejcia pomidzy stanami
W systemie GUIDO/MIR stany modelu mog odpowiada
poszczeglnym cechom melodycznym i rytmicznym (np.
wysoko nuty, interwa, czas trwania nuty).

GUIDO/MIR - wyszukiwanie
Przykad modeli probabilistycznych opisujcych prost
melodi

wysoko

czas trwania

GUIDO/MIR - wyszukiwanie
Mechanizm wyszukujcy porwnuje model probalilistyczny
uzyskany dla zapytania z modelami zapisanymi w bazie.
Jednak porwnywanie ze wszystkimi modelami z bazy
danych byoby nieefektywne.
Baza danych jest zorganizowana w formie drzewa. Kady
li drzewa odpowiada jednemu elementowi bazy.
W kadym wle drzewa nastpuje wybr potomka, ktry
jest lepiej dopasowany do szukanego obiektu.
Skuteczno wyszukiwania zaley od sposobu wyznaczania
drzewa. Stosuje si metody grupowania hierarchicznego
(hierarchical clustering techniques).

GUIDO/MIR - wyszukiwanie
Drzewo decyzyjne uywane do wyszukiwania danych

GUIDO/MIR - wyszukiwanie
Wyszukiwanie moe odbywa si w trybie:
dokadnym (pene dopasowanie modeli)
przyblionym dopuszczamy pewne bdy
w dopasowaniu
Przy wyszukiwaniu przyblionym, do kadej cechy (np.
wysokoci nuty) uytkownik moe doda oznaczenie
niepewnoci:
! pewnoc co do wartoci cechy
? niepewno (moe by bd)
Stopie pewnoci lub niepewnoci mona wyrazi za
pomoc liczby znakw. Przykad:
[g1! e1! e1? f1??]

System OMRAS
OMRAS Online Music Retrieval and Searching
Zaoenie systemu: wyszukiwanie muzyki polifonicznej.
Wikszo systemw umoliwia wyszukiwanie jedynie
muzyki monofonicznej, np. wg linii melodycznej. System
OMRAS uwzgldnia struktur nagra polifonicznych
(np. orkiestry).
Baza systemu oparta jest na plikach MIDI (w przyszoci
planowane rozszerzenie systemu na pliki wave).
Adres systemu: http://www.omras.org
(obecnie tylko opis systemu)

OMRAS parametryzacja
W systemie OMRAS zastosowano metod indeksacji
muzycznej:
wykorzystuje si fakt wystpowania we frazach
muzycznych tematw powtarzajcych si zestawie nut
pozycje tematw zapamitywane s w postaci indeksw
parametryzacja w postaci acuchw tekstowych
indeksy tematw i ich pozycje czasowe
powtarzalno sekwencji muzycznych badana jest
za pomoc algorytmw statystycznych
klasyfikacja motywu jako tematu muzycznego
algorytmy sztucznej inteligencji
redukcja redundancji oraz usunicie informacji, ktre nie
s uyteczne z punktu widzenia wyszukiwania obiektw

OMRAS Wyszukiwanie
Wyszukiwanie danych w systemie OMRAS:
podanie przykadu (QBE) w jednym z akceptowanych
formatw (MIDI, WAV)
modu konwersji przetwarza zapytanie do formatw:
macierzy score-matrix (czaswysoko)
cigu indeksw tematw muzycznych
wyszukiwanie polega na dopasowywaniu wzorca
z zapytania do obiekw (indeksw, macierzy)
zapisanych w bazie
wyniki zwracane wg miary podobiestwa

System CubyHum
CubyHum to system oparty na Query by Humming.
Schemat dziaania systemu:
zapytanie przez nucenie melodii
estymacja wysokoci nut algorytm SHS
estymacja czasu trwania nut wykrywanie zdarze
(pocztek i koniec nuty), kwantyzacja
kodowanie konturu melodycznego (wysokoci nut) za
pomoc 9 klas interwaw muzycznych
wyszukiwanie danych dopasowywanie wzorca do
obiektw w bazie danych; wyszukiwanie przyblione
uwzgldnienie znieksztace

CubyHum algorytm SHS


SHS Sub-Harmonic Summation (sumowanie
podharmonicznych) algorytm uywany w systemie
CubyHum do estymacji wysokoci dwiku:
sygna dzielony na krtkie ramki czasowe
obliczane jest widmo sygnau w kadej ramce
sumuje si amplitudy prkw poprzez
przesunicie prkw w lewo na zlogarytmowanej
osi czstotliwoci
dodanie wyniku tej operacji do poprzedniego
powtrzenie dla wszystkich prkw
maksymalny prek w obliczonym widmie jest estymat
wysokoci dwiku
algorytm znajduje wysoko dwiku rwnie wtedy,
gdy czstotliwo podstawowa nie wystpuje w widmie

CubyHum algorytm SHS

CubyHum detekcja czasu trwania nut


Detekcja czasu trwania nut w systemie CubyHum:
stosowane s jednoczenie cztery algorytmy
metoda krtkotrwaej energii liczenie energii
w ramkach 10 ms, decyzja: cisza/sygna
metoda falowania filtracja grnoprzepustowa,
wyznaczenie obwiedni sygnau dla wysokich czst.
metoda zawartoci wysokich czstotliwoci obliczenie
zmian energii sygnau i jej koncentracji w zakresie
wysokich czstotliwoci, wykrywanie gwatownych
zmian amplitudy
metoda wysokoci separacja nut nie rozdzielonych
cisz (glissando), porwnanie rnic wysokoci
dwiku w ssiednich ramkach

CubyHum detekcja czasu trwania nut


Ilustracja dziaania
metod detekcji
czasu trwania nut

CubyHum reprezentacja melodii


Kontur melodyczny cig znakw okrelajcych interway.
Rnice wysokoci nut s kwantyzowane do jednego
z 9 poziomw

CubyHum wyszukiwanie danych


Wyszukiwanie danych w systemie CubyHum:
dopasowywanie wzorca do obiektw w bazie
szukanie najmniejszej odlegoci
uwzgldnienie znieksztace liczba
dopuszczalnych bdw wysokoci
i czasu trwania nut
filtrowanie obiektw z bazy:
dopasowywanie zgrubne odrzucanie obiektw,
ktre prawodopodobnie nie bd pasowa
dla pozostaych obiektw obliczana jest odlego

CubyHum wykorzystanie
Zaoenia: wykorzystanie systemu CubyHum w domowej
stacji muzycznej Easy Access.
Dodatkowe funkcje:
identyfikacja mwcy (preferencje)
ukadanie list odtwarzania (playlists), rwnie za
pomoc gosu i gestykulacji
rekomendacja muzyki
informacje zwrotne
synteza mowy

System Orpheus
System Orpheus:
Wykorzystuje mechanizm wyszukiwania melodii
w oparciu o tzw. odlego od odniesienia (EMD)
Zapytanie poprzez nucenie (QBH), przykad (QBE)
lub plik MIDI
Baza zawiera ok. 500 000 fragmentw utworw,
zawierajcych ok. 20 pocztkowych nut
Adres systemu: http://teuge.labs.cs.uu.nl/Ruu/?id=5

Orpheus kodowanie melodii


Melodia przeksztacana jest na sygnatury:
zbiory punktw na paszczynie czas wysoko
kady punkt opisany za pomoc wartoci: czas
wystpienia, wysoko, waga nuty
Wysoko zapisywana jest przy pomocy notacji Hewletta
(pozwala odrni nuty o tej samej wysokoci, ale o innym
zapisie).
Wagi poszczeglnych punktw zale od czasw trwania
odpowiadajcych im nut oraz ich znaczenia.

Orpheus - EMD
System Orpheus wykorzystuje mechanizm wyszukiwania
melodii w oparciu o tzw. odlego od odniesienia
(EMD, Earth Movers Distance):
Umoliwia ocen podobiestwa dwch melodii.
EMD midzy dwoma waonymi punktami okrela
minimaln liczb operacji niezbdn do transformacji
jednego punktu na paszczynie czaswysoko
w drugi, poprzez zmiany wagi punktu.
Modyfikacja EMD proporcjonalna odlego transportowa
(PTD Proportional Transportation Distance)
oparta jest na takim transporcie wagi, e jej pewna
nadwyka lub niedobr pomidzy dwoma waonymi
punktami uwzgldniane s w obliczeniu odlegoci.

Orpheus porwnywanie melodii


Przykad porwnywania dwch melodii przy pomocy EMD
ilustracja przepywu wag.

Orpheus wyszukiwanie
Baza jest zorganizowana w taki sposb, e z n obiektw
w bazie wybiera si losowo k obiekw i oblicza si
odlego transportow midzy kad par (k, n).
Z fragmentu muzycznego podanego w zapytaniu
uzyskuje si sygnatur (zbir parametrw).
Najpierw szuka si w bazie obiektu z tak sam
sygnatur.
Jeeli nie ma tej sygnatury w bazie, oblicza si
odlego transportow PTD midzy sygnatur
zapytania a punktami k w bazie.
Nastpnie wybiera si obiekty z bazy najblisze
wybranemu punktowi k i oblicza si PTD midzy
sygnatur zapytania a wybranymi obiektami z bazy.

System SOMeJB
SOMeJB The SOM-enhanced JukeBox
Projekt majcy na celu opracowanie systemu
rozpoznawania muzyki na podstawie plikw audio (PCM).
Wykorzystuje algorytmy SOM samoorganizujce si
mapy (self-organizing maps) algorytmy sztucznej
inteligencji (sieci neuronowe Kohonena).
Obecnie system jest ukierunkowany na wykrywanie
podobiestwa nagra muzycznych (np. dla systemu
rekomendujcego muzyk).
Strona projektu: http://www.ifs.tuwien.ac.at/~andi/
somejb/

SOMeJB przetwarzanie wstpne


Plik dwikowy jest w pierwszym etapie poddawany
przetwarzaniu wstpnemu:
konwersja do formatu PCM, np. rozkodowanie
plikw MP3
konwersja do formatu 11 kHz mono
segmentacja i wybr segmentw do dalszego
przetwarzania:
sygna dzielony na fragmenty o dugoci 6 s
odrzucane s pierwsze 2 i ostatnie 2 segmenty
do dalszej analizy wybierany jest co trzeci segment

SOMeJB Ekstrakcja cech gono


Druga faza: ekstrakcja z materiau dwikowego cech
opisujcych gono dwiku:
obliczenie widma mocy przez FFT (ramki 256 pr.)
podzia sygnau na pasma krytyczne (skala barkw)
uwzgldnienie maskowania w dziedzinie widma
wyznaczenie poziomu dwiku w dB-SPL
wyznaczenie poziomu gonoci w fonach (krzywe
jednakowej gonoci)
obliczenie subiektywnej gonoci w sonach

SOMeJB Ekstrakcja cech gono


Cechy uzyskane w poprzedniej fazie s zalene od czasu.
Do porwnywania nagra potrzebne s cechy niezmienne
w czasie.
Trzecia faza wyznaczanie cech opisujcych wzorce rytmu
dla wyznaczonych przebiegw czasowych gonoci
w kadym pamie krytycznym wyznacza si
wspczynnik modulacji amplitudowej
wyznaczone wspczynniki modulacji s waone
zgodnie z si fluktuacji, zalen od czstotliwoci
wynik jest poddawany filtracji gradientowej
i gaussowskiej poprawa rozrniania niektrych
wzorcw rytmu, usunicie zbdnych informacji

SOMeJB tworzenie map


Algorytm SOM (sieci neuronowe Kohonena) ukada
nagrania muzyczne w formie mapy na paszczynie.
Podobne fragmenty muzyczne znajduj si blisko
siebie na mapie SOM.
Sie neuronowa jest trenowana w taki sposb, e
potrafi poprawnie umieci na mapie nowe nagrania.
Mapa przedstawia struktur bazy nagra.
Etapy przetwarzania:
Generowanie wektorw cech, np. podzia nagra na
fragmenty (grupy segmentw).
Redukcja objtoci wektorw cech.
Trening sieci SOM.

SOMeJB tworzenie map


Przykad mapy SOM widoczne wyspy muzyki:

Systemy audentify!/notify!
Systemy opracowywane na Uniwersytecie w Bonn
notify! system QBH, zapytanie poprzez zagwizdanie
melodii, wyszukiwanie w zapisie nutowym
audentify! system wyszukiwania w nagraniach audio
(PCM), zapytanie przez przykad (QBE) plik audio,
wyszukiwanie w bazie sygnatur plikw audio
audentify!-live modyfikacja dostosowana do
wyszukiwania danych w strumieniu audio
(np. audycje radiowe)
audentify!-mobile modyfikacja do przesyania
zapyta za pomoc telefonw komrkowych
uwzgldnienie duego poziomu szumw w nagraniu

audentify! indeksowanie nagra


Indeksowanie nagra muzycznych w systemie audentify!
metoda SSP (Significant Signal Positions):
filtracja dolnoprzepustowa aproksymacja obwiedni
znalezienie prbek, ktrych amplituda jest wiksza ni
k ssiednich prbek; pozostae prbki s zerowane
spord wyznaczonych maksimw podobnie wyznacza
si te, ktrych amplituda jest wiksza od k ssiednich
sygnatur pliku jest zbir maksimw wyznaczonych
w poprzednim kroku i ich pozycje czasowe
Sygnatura wyznaczona t metod nie okazaa si jednak
skuteczna, zwaszcza przy maych przepywnociach
strumieni audio.

audentify! indeksowanie nagra


Indeksowanie nagra muzycznych w systemie audentify!
metoda zmodyfikowana:
analiza FFT sygnau w ramkach czasowych
w kadej ramce obliczany jest rodek cikoci widma
w pamie 0 4000 Hz
wyznaczone w poszczeglnych ramkach rodki cikoci
widma tworz przebieg czasowy
przebieg ten jest dalej przetwarzany w taki sam
sposb, jak sygna w poprzedniej metodzie
(filtracja DP, dwukrotne wyznaczanie maksimw)

audentify! wyszukiwanie nagra


Wyszukiwanie danych polega na porwnywaniu sygnatury
uzyskanej dla nagrania w zapytaniu do sygnatur
zapisanych w bazie. Kryterium minimalnej odlegoci.
Uwzgldnienie moliwych rnic:
k niedopasowa porwnywane cigi mog rni si
maksymalnie na k miejscach
fuzzy search zakadamy, e niektre elementy cigu
otrzymanego z zapytania s niepewne (np. w wyniku
znieksztace wejciowego sygnau)

audentify!-mobile: zakcenia w nagraniach


audentify!-mobile to modyfikacja systemu przeznaczona
do przesyania nagra za pomoc telefonu komrkowego.
Naley wzi pod uwag, e sygna przesyany przez telefon
komrkowy charakteryzuje si duymi zakceniami.
Dodatkowe kroki wstpnego przetwarzania:
filtracja sygnau charakterystyka filtru dopasowana
do charakterystyki zakce
zmniejszenie rozdzielczoci czasowej analiza
w ramkach, obliczenie cakowitej energii w ramkach
dodatkowa redukcja danych (kwantyzacja rnic midzy
wartociami)

System CUIDADO
System CUIDADO opracowywany jest przez Sony France.
Metadane:
edytorskie tekstowe
akustyczne parametryzacja:
rytm (g. dwiki perkusyjne)
energia (muzyka dynamiczna, spokojna, itp.)
brzmienie rozkad wspczynnikw
mel-cepstralnych
nagranie wokalne/instrumentalne (detekcja piewu)
Wyszukiwanie na zasadzie obliczania miar podobiestwa.
Gwnie mechanizm znajd podobne nagrania.

Philips Audio Fingerprinting


Philips Audio Fingerprinting Technology algorytm
opracowany przez firm Philips, sucy do identyfikacji
nagra muzycznych:
przesyanych w postaci strumienia (on-air)
identyfikacja na ywo
przesanych w postaci pliku
Technologia komercyjna, dostarczana jako zestaw
procedur (API) do zaimplementowania w oprogramowaniu
klienta.
System klient-serwer (serwer uruchomiony przez firm
Philips).
Nie jest znana dokadna struktura algorytmw
parametryzujcych i wyszukujcych dane.

Philips Audio Fingerprinting


Oprogramowanie po stronie klienta oblicza sygnatur
(fingerprint, odcisk palca):
sub-fingerprints obliczone na podstawie krtkich
ramek czasowych (kilka milisekund)
fingerprint blocks sygnatury zoone z 256
sub-fingerprints dla tego samego nagrania (ok. 3 sek.)
Fingerprint-blocks s przesyane do serwera, ktry
dokonuje ich identyfikacji.
Serwer przesya identyfikator utworu (Song ID) oraz
pozycj wewntrz pliku, odpowiadajc sygnaturze.
Autorzy systemu twierdz, e dowolny fragment utworu
o dugoci 3 sekundy wystarczy do identyfikacji utworu.

Philips Audio Fingerprinting


Wedug autorw, system jest niewraliwy na zmniejszanie
przepywnoci do 64 kbit/s, filtracj, dodawanie echa,
przeprbkowanie, transpozycj, zaszumienie.

System Shazam
Shazam komercyjny system Query by Mobile Phone,
opracowany przez firm Shazam Entertainment.
Rozpoznawanie utworw przesyanych za pomoc telefonu
komrkowego (zadzwo na 2580).
System zamknity brak informacji na temat struktury
i sposobu dziaania systemu. Baza zawiera ok. 1,6 mln
utworw.
Wymagane jest przesanie 30 sekund utworu.
Informacja zwrotna: wykonawca i tytu, ew. dodatkowe
informacje (np. o moliwoci pobrania dzwonka).
Adres systemu Shazam: http://www.shazam.com
Adres polskiej wersji Muzyczna Linia (nr 7254)
http://www.muzycznalinia.pl/

MusicBrainz / TRM
MusicBrainz system internetowy sucy do identyfikacji
plikw MP3 i edycji ich znacznikw (ID3 tags).
System posiada struktur klient-serwer
Do parametryzacji i wyszukiwania nagra wykorzystywana
jest komercyjna technika TRM firmy Relatable.
Algorytmy parametryzacji i wyszukiwania nie s znane
(czarna skrzynka).
Adres systemu MusicBrainz:
http://www.musicbrainz.org/

MusicBrainz / TRM
Schemat dziaania systemu:
Uytkownik wczytuje do programu klienta MusicBrainz
plik MP3.
Program oblicza sygnatur audio pliku i przesya j
do serwera.
Serwer na podstawie sygnatury oblicza identyfikator
pliku (TRMID) i odsya go do klienta.
Przykad: 0e2c91c2-bff9-4105-a48c-f0e687643d9a
Klient moe wysa do serwera danie wyszukania
informacji o pliku opisanym przez dany TRMID.
Zwrcone przez serwer informacje mog zosta
wykorzystane do zapisania znacznikw w MP3.
Wydajno bazy TRM: ponad 5000 dopasowa na sekund.

Wicej informacji
Dodatkowe informacje o systemach MIR
(Music Information Retrieval):
Indeks systemw MIR
http://mirsystems.info/
Materiay z konferencji ISMIR
http://www.ismir.net/

You might also like