Professional Documents
Culture Documents
Obraz Witpwsz
Obraz Witpwsz
PREZENTACJA WYBRANYCH
SYSTEMW ROZPOZNAWANIA
NAGRA MUZYCZNYCH
Wprowadzenie
W tradycyjnych multimedialnych bazach danych moliwe
jest wyszukiwanie danych wycznie za pomoc kryteriw
tekstowych. Np. uytkownik wpisuje nazw wykonawcy,
system wyszukuje informacje o podanym wykonawcy
(biografia, dyskografia, itp.).
Przykad tradycyjnego systemu: AMG Allmusic Guide
http://www.allmusic.com/
Nowoczesne bazy multimedialne umoliwiaj wyszukiwanie
za pomoc kryteriw multimedialnych. Np. uytkownik
przesya fragment nagrania muzycznego, system dokonuje
parametryzacji i wyszukuje podobny obiekt w bazie,
zwraca informacje o rozpoznanym nagraniu (wykonawca,
tytu).
QBH
Systemy dziaajce w oparciu o zasad Query by Humming
(QBH) zapytanie poprzez nucenie nale do
najstarszych systemw rozpoznawania melodii
(Ghias 1995).
Zasada dziaania systemw QBH:
uytkownik nuci lub gwide do mikrofonu melodi,
algorytm ledzenia wysokoci dwiku (pitch tracking)
zamienia melodi na kontur melodyczny,
modu wyszukujcy porwnuje kontur melodyczny
uzyskany z zapytania z konturami zapisanymi w bazie,
znajduje najbardziej podobne obiekty.
Kontury melodyczne zapisane w bazie danych uzyskuje si
najczciej na podstawie plikw MIDI.
QBH
Schemat blokowy systemu QBH (Ghias et al.):
MELDEX
MELDEX (MELody inDEX) system opracowany w Nowej
Zelandii w 1997 r. Przeznaczony jest do rozpoznawania pieni
ludowych.
Baza zawiera 9354 pieni ludowych (pnocnoamerykaskich,
niemieckich, chiskich i irlandzkich).
Rozpoznawanie melodii nuconej do mikrofonu (QBH) oraz
wprowadzanej z klawiatury przez specjalny panel.
Z melodii wprowadzanej przez uytkownika uzyskiwane s
informacje o:
wysokoci nut
czasie trwania nut
Adres bazy MELDEX:
http://www.nzdl.org/fast-cgi-bin/music/musiclibrary
TreeQ
System TreeQ opracowany zosta w 1997 r. przez J. Foote.
Gwne cechy:
wyszukiwanie podobiestw pomidzy sygnaami audio
na podstawie wektorw kwantyzacji
wykorzystuje algorytmy uczenia si maszyn (machine
learning)
zapytanie przez przykad (query by example)
Demonstracja dziaania systemu:
http://www.fxpal.com/people/foote/musicr/
TreeQ
Parametryzacja i wyszukiwanie danych w systemie TreeQ
Dane audio s parametryzowane uzyskuje si wektor
cech dystynktywnych, zawierajcy przykady klas
fonicznych (mowa/muzyka, gos eski/mski, itp.).
Tworzony jest kwantyzator oparty na strukturze
drzewa (trening nadzorowany)
Sparametryzowane dane s przetwarzane przez
kwantyzator uzyskujemy szablon dwikowy, czyli
histogram opisujcy najwaniejsze cechy sygnau
Wyszukiwanie danych porwnywanie szablonu
uzyskanego z wyszukiwanego nagrania z szablonami
zapisanymi w bazie
TreeQ - parametryzacja
Parametryzacja nagra audio w systemie TreeQ
okienkowanie Hamminga 25 ms z nakadkowaniem
obliczenie logarytmu widma mocy (logarytm DFT)
wspczynniki widmowe s przeliczane na skal
melow uwydatnienie skadowych o rednich
czstotliwociach
obliczenie odwrotnej transformaty Fouriera
Uzyskuje si w ten sposb 13-elementowy wektor
wspczynnikw mel-cepstralnych (MFCC mel-frequency
cepstral coefficients).
Nagranie audio jest opisane przez zbir tych wektorw
(500 wektorw na sekund).
TreeQ - kwantyzacja
Zbir wektorw cech jest przetwarzany przez kwantyzator.
W kadym wle drzewa kwantyzatora podejmowana
jest decyzja wybr potomka (kolejnej gazi drzewa)
Kady z wektorw z przetwarzanego wzoru trafia
w rezultacie do jednego z lici (potomka kocowego)
drzewa.
Dla danego zbioru wektorw mona utworzy
histogram ile wektorw przypado na kade z lici
drzewa.
Histogram ten tworzy szablon (template)
identyfikujcy nagranie audio
Kwantyzator tworzony jest w procesie treningu
ma zdolno uczenia si
TreeQ wyszukiwanie
Wyszukiwanie danych polega na porwnywaniu histogramu
otrzymanego dla nagrania w zapytaniu
z histogramami zapisanymi w bazie.
Kryterium najmniejszej odlegoci (euklidesowej lub
cosinusowej). Zwracana jest miara podobiestwa.
Musipedia/Tuneserver
System zaprojektowany w 1997 r. przez Prechelta i Typke
(Karlsruhe) jako Tuneserver, obecnie przeksztaci si w
internetowy system Musipedia, wykorzystujcy mechanizm
Wikipedia (encyklopedia tworzona przez uytkownikw).
System umoliwia wyszukiwanie melodii w bazie przez jej
zagwizdanie (lub zanucenie) mechanizm Melodyhound.
Zawarto bazy: (muzyka klasyczna, popularna, pieni
ludowe, hymny narodowe).
Adres systemu: http://www.musipedia.org/
Kod Parsonsa
Zagwizdana melodia jest zamieniana na kontur melodyczny
w postaci kodu Parsonsa (podobnie jak
w systemach QBH). Moliwe jest rwnie bezporednie
wprowadzenie kodu Parsonsa.
Kod Parsonsa: kodowanie wysokoci poszczeglnych nut za
pomoc znakw: U (wysza), D (nisza), R (taka sama).
Celowo ignoruje si informacje o rytmie oraz wielkociach
interwaw.
Np. pocztek hymnu polskiego: *UURRDUDDDDRUDUD
Musipedia parametryzacja
Wprowadzanie danych przez gwizdanie mniejsza
zmienno i atwiejsza analiza widmowa ni w przypadku
piewu lub nucenia. Parametryzacja:
podzia sygnau na ramki (46 ms, zakadkowanie 50%)
analiza widmowa kadej ramki (FFT) decyzja:
sygna czstotliwo i amplituda maksimum
cisza
ramki zawierajce sygna s czone w nuty,
rozdzielone cisz lub gwatown zmian czstotliwoci
czstotliwoci nut zamieniane s na kod Parsonsa.
Parametry analizy mog by ustawiane przez uytkownika.
Musipedia wyszukiwanie
Wyszukiwanie danych w systemie Musipedia:
obliczanie odlegoci midzy kodem Parsonsa
szukanego nagrania a wszystkimi kodami zapisanymi
w bazie danych
miara odlegoci waona suma minimalnej liczby
przeksztace kodu (wstawie, zamiany i usuni
znakw) potrzebnej do dokadnego dopasowania
zwracana jest lista najbliszych elementw
podawane s rwnie informacje dodatkowe o utworze,
jeeli zostay wprowadzone do bazy (np. zapis nutowy,
moliwo zakupu pyty, itp.).
System GUIDO/MIR
System GUIDO/MIR oparty jest na bazie danych
zawierajcej notacj utworw muzycznych zapisan
w formacie GUIDO.
GUIDO proponowany standard zapisu notacji muzycznej
w formacie tekstowym, czytelnym, niezalenym
od platformy.
GUIDO/MIR - wyszukiwanie
Wyszukiwanie danych w systemie GUIDO/MIR odbywa si
na zasadzie Query by Example (QBE) zapytanie przez
przykad.
Mechanizm wyszukujcy czy jeden z typw informacji
melodycznej (wysoko, interwa, klasy interwau, kontur
melodyczny) z jednym z typw informacji rytmicznej
(bezwzgldny i wzgldny czas trwania, kontur rytmiczny).
Parametry te s wyznaczane dla pojedynczych nut oraz dla
par nut.
Przy dopasowywaniu wzorca do danych mona uwzgldnia
tylko informacj o wysokociach nut
tylko informacj o czasie trwania nut
informacje o wysokoci i czasie trwania cznie
GUIDO/MIR - wyszukiwanie
Algorytm wyszukiwania danych oparty jest na acuchach
Markowa pierwszego rzdu model probabilistyczny:
w kadej chwili model znajduje si w okrelonym stanie
w dowolnym czasie nastpuje przejcie do innego stanu
cieki w modelu s opisane przez prawdopodobiestwa
przejcia pomidzy stanami
W systemie GUIDO/MIR stany modelu mog odpowiada
poszczeglnym cechom melodycznym i rytmicznym (np.
wysoko nuty, interwa, czas trwania nuty).
GUIDO/MIR - wyszukiwanie
Przykad modeli probabilistycznych opisujcych prost
melodi
wysoko
czas trwania
GUIDO/MIR - wyszukiwanie
Mechanizm wyszukujcy porwnuje model probalilistyczny
uzyskany dla zapytania z modelami zapisanymi w bazie.
Jednak porwnywanie ze wszystkimi modelami z bazy
danych byoby nieefektywne.
Baza danych jest zorganizowana w formie drzewa. Kady
li drzewa odpowiada jednemu elementowi bazy.
W kadym wle drzewa nastpuje wybr potomka, ktry
jest lepiej dopasowany do szukanego obiektu.
Skuteczno wyszukiwania zaley od sposobu wyznaczania
drzewa. Stosuje si metody grupowania hierarchicznego
(hierarchical clustering techniques).
GUIDO/MIR - wyszukiwanie
Drzewo decyzyjne uywane do wyszukiwania danych
GUIDO/MIR - wyszukiwanie
Wyszukiwanie moe odbywa si w trybie:
dokadnym (pene dopasowanie modeli)
przyblionym dopuszczamy pewne bdy
w dopasowaniu
Przy wyszukiwaniu przyblionym, do kadej cechy (np.
wysokoci nuty) uytkownik moe doda oznaczenie
niepewnoci:
! pewnoc co do wartoci cechy
? niepewno (moe by bd)
Stopie pewnoci lub niepewnoci mona wyrazi za
pomoc liczby znakw. Przykad:
[g1! e1! e1? f1??]
System OMRAS
OMRAS Online Music Retrieval and Searching
Zaoenie systemu: wyszukiwanie muzyki polifonicznej.
Wikszo systemw umoliwia wyszukiwanie jedynie
muzyki monofonicznej, np. wg linii melodycznej. System
OMRAS uwzgldnia struktur nagra polifonicznych
(np. orkiestry).
Baza systemu oparta jest na plikach MIDI (w przyszoci
planowane rozszerzenie systemu na pliki wave).
Adres systemu: http://www.omras.org
(obecnie tylko opis systemu)
OMRAS parametryzacja
W systemie OMRAS zastosowano metod indeksacji
muzycznej:
wykorzystuje si fakt wystpowania we frazach
muzycznych tematw powtarzajcych si zestawie nut
pozycje tematw zapamitywane s w postaci indeksw
parametryzacja w postaci acuchw tekstowych
indeksy tematw i ich pozycje czasowe
powtarzalno sekwencji muzycznych badana jest
za pomoc algorytmw statystycznych
klasyfikacja motywu jako tematu muzycznego
algorytmy sztucznej inteligencji
redukcja redundancji oraz usunicie informacji, ktre nie
s uyteczne z punktu widzenia wyszukiwania obiektw
OMRAS Wyszukiwanie
Wyszukiwanie danych w systemie OMRAS:
podanie przykadu (QBE) w jednym z akceptowanych
formatw (MIDI, WAV)
modu konwersji przetwarza zapytanie do formatw:
macierzy score-matrix (czaswysoko)
cigu indeksw tematw muzycznych
wyszukiwanie polega na dopasowywaniu wzorca
z zapytania do obiekw (indeksw, macierzy)
zapisanych w bazie
wyniki zwracane wg miary podobiestwa
System CubyHum
CubyHum to system oparty na Query by Humming.
Schemat dziaania systemu:
zapytanie przez nucenie melodii
estymacja wysokoci nut algorytm SHS
estymacja czasu trwania nut wykrywanie zdarze
(pocztek i koniec nuty), kwantyzacja
kodowanie konturu melodycznego (wysokoci nut) za
pomoc 9 klas interwaw muzycznych
wyszukiwanie danych dopasowywanie wzorca do
obiektw w bazie danych; wyszukiwanie przyblione
uwzgldnienie znieksztace
CubyHum wykorzystanie
Zaoenia: wykorzystanie systemu CubyHum w domowej
stacji muzycznej Easy Access.
Dodatkowe funkcje:
identyfikacja mwcy (preferencje)
ukadanie list odtwarzania (playlists), rwnie za
pomoc gosu i gestykulacji
rekomendacja muzyki
informacje zwrotne
synteza mowy
System Orpheus
System Orpheus:
Wykorzystuje mechanizm wyszukiwania melodii
w oparciu o tzw. odlego od odniesienia (EMD)
Zapytanie poprzez nucenie (QBH), przykad (QBE)
lub plik MIDI
Baza zawiera ok. 500 000 fragmentw utworw,
zawierajcych ok. 20 pocztkowych nut
Adres systemu: http://teuge.labs.cs.uu.nl/Ruu/?id=5
Orpheus - EMD
System Orpheus wykorzystuje mechanizm wyszukiwania
melodii w oparciu o tzw. odlego od odniesienia
(EMD, Earth Movers Distance):
Umoliwia ocen podobiestwa dwch melodii.
EMD midzy dwoma waonymi punktami okrela
minimaln liczb operacji niezbdn do transformacji
jednego punktu na paszczynie czaswysoko
w drugi, poprzez zmiany wagi punktu.
Modyfikacja EMD proporcjonalna odlego transportowa
(PTD Proportional Transportation Distance)
oparta jest na takim transporcie wagi, e jej pewna
nadwyka lub niedobr pomidzy dwoma waonymi
punktami uwzgldniane s w obliczeniu odlegoci.
Orpheus wyszukiwanie
Baza jest zorganizowana w taki sposb, e z n obiektw
w bazie wybiera si losowo k obiekw i oblicza si
odlego transportow midzy kad par (k, n).
Z fragmentu muzycznego podanego w zapytaniu
uzyskuje si sygnatur (zbir parametrw).
Najpierw szuka si w bazie obiektu z tak sam
sygnatur.
Jeeli nie ma tej sygnatury w bazie, oblicza si
odlego transportow PTD midzy sygnatur
zapytania a punktami k w bazie.
Nastpnie wybiera si obiekty z bazy najblisze
wybranemu punktowi k i oblicza si PTD midzy
sygnatur zapytania a wybranymi obiektami z bazy.
System SOMeJB
SOMeJB The SOM-enhanced JukeBox
Projekt majcy na celu opracowanie systemu
rozpoznawania muzyki na podstawie plikw audio (PCM).
Wykorzystuje algorytmy SOM samoorganizujce si
mapy (self-organizing maps) algorytmy sztucznej
inteligencji (sieci neuronowe Kohonena).
Obecnie system jest ukierunkowany na wykrywanie
podobiestwa nagra muzycznych (np. dla systemu
rekomendujcego muzyk).
Strona projektu: http://www.ifs.tuwien.ac.at/~andi/
somejb/
Systemy audentify!/notify!
Systemy opracowywane na Uniwersytecie w Bonn
notify! system QBH, zapytanie poprzez zagwizdanie
melodii, wyszukiwanie w zapisie nutowym
audentify! system wyszukiwania w nagraniach audio
(PCM), zapytanie przez przykad (QBE) plik audio,
wyszukiwanie w bazie sygnatur plikw audio
audentify!-live modyfikacja dostosowana do
wyszukiwania danych w strumieniu audio
(np. audycje radiowe)
audentify!-mobile modyfikacja do przesyania
zapyta za pomoc telefonw komrkowych
uwzgldnienie duego poziomu szumw w nagraniu
System CUIDADO
System CUIDADO opracowywany jest przez Sony France.
Metadane:
edytorskie tekstowe
akustyczne parametryzacja:
rytm (g. dwiki perkusyjne)
energia (muzyka dynamiczna, spokojna, itp.)
brzmienie rozkad wspczynnikw
mel-cepstralnych
nagranie wokalne/instrumentalne (detekcja piewu)
Wyszukiwanie na zasadzie obliczania miar podobiestwa.
Gwnie mechanizm znajd podobne nagrania.
System Shazam
Shazam komercyjny system Query by Mobile Phone,
opracowany przez firm Shazam Entertainment.
Rozpoznawanie utworw przesyanych za pomoc telefonu
komrkowego (zadzwo na 2580).
System zamknity brak informacji na temat struktury
i sposobu dziaania systemu. Baza zawiera ok. 1,6 mln
utworw.
Wymagane jest przesanie 30 sekund utworu.
Informacja zwrotna: wykonawca i tytu, ew. dodatkowe
informacje (np. o moliwoci pobrania dzwonka).
Adres systemu Shazam: http://www.shazam.com
Adres polskiej wersji Muzyczna Linia (nr 7254)
http://www.muzycznalinia.pl/
MusicBrainz / TRM
MusicBrainz system internetowy sucy do identyfikacji
plikw MP3 i edycji ich znacznikw (ID3 tags).
System posiada struktur klient-serwer
Do parametryzacji i wyszukiwania nagra wykorzystywana
jest komercyjna technika TRM firmy Relatable.
Algorytmy parametryzacji i wyszukiwania nie s znane
(czarna skrzynka).
Adres systemu MusicBrainz:
http://www.musicbrainz.org/
MusicBrainz / TRM
Schemat dziaania systemu:
Uytkownik wczytuje do programu klienta MusicBrainz
plik MP3.
Program oblicza sygnatur audio pliku i przesya j
do serwera.
Serwer na podstawie sygnatury oblicza identyfikator
pliku (TRMID) i odsya go do klienta.
Przykad: 0e2c91c2-bff9-4105-a48c-f0e687643d9a
Klient moe wysa do serwera danie wyszukania
informacji o pliku opisanym przez dany TRMID.
Zwrcone przez serwer informacje mog zosta
wykorzystane do zapisania znacznikw w MP3.
Wydajno bazy TRM: ponad 5000 dopasowa na sekund.
Wicej informacji
Dodatkowe informacje o systemach MIR
(Music Information Retrieval):
Indeks systemw MIR
http://mirsystems.info/
Materiay z konferencji ISMIR
http://www.ismir.net/