You are on page 1of 4

SAKLI MARKOV MODEL TABANLI SES VE GRNT BLGS KULLANARAK DALOG SAHNES TESPT

A. Aydn Alatan Elektrik-Elektronik Mhendislii Blm Ortadou Teknik niversitesi Balgat, 06531 Ankara
aalatan@metu.edu.tr

zete
okluortam bilgilerinin dnya zerinde her geen gn oalmas arivleme iin ok hzl ve insan kullanm gerektirmeyen endeksleme algoritmalarna duyulan ihtiyac beraberinde getirmektedir. Bu almada film ve TV dizilerinde yeralan dialog sahnelerinin ses ve grnt bilgileri birarada kullanlarak sakl Markov modeli (SMM) yardmyla ayrlp, analiz edilmesi hedeflenmitir. Bunun iin ses bilgisi mzik, sessizlik ve konuma ksmlarna, grnt bilgisi ise insan yz ieren ve iermeyen blgelere ayrtrlmtr. Ayrtrlan bu ksmlar SMM iine beraberce beslenerek, modelin nceden tanmlanm farkl durumlara (state) gemesine ve bu durumlardan biri olarak tanmlanm dialog sahne/durum tespitine sebep olmaktadr. Deneysel sonular otomatik bir sistemin baaryla tespitinin gerekletirildiini gstermektedir.

1 Giri
Video endeksleme (indexing) konusunda varolan algoritmalar renk, ekil gibi temel zellikleri otomatik karabilirken [1], bu temel kavramlar anlamsal (sematic) sonulara ulatran yol ise hala belirsiz durumdadr. Anlamsal sonular insan hayatnn kolaylatrlmas ve ekonomik girdi salayacak zmler retilmesinin ilk artn oluturmaktadr. Bu sebeple, film ve TV dizisi gibi ieriini arlkl olarak karlkl insan konumalarnn oluturduu verilerin endekslenmesi ve zetlenmesi iin dialog sahnelerinin ayrtrlmas arttr. nerilen metodlar ayrtrma problemini ounlukla arka arkaya gelen kamera ekimlerini (video shot) tespit edip, gruplayarak, zetleme problemini ise her bir ekim iin bir zkare (key-frame) ile kullanarak zme yoluna gitmilerdir [2]. Ekleme (editing) safhasnda her bir dialog sahnesinin bu tip onlarca ekimin birlemesiyle elde edildigi dldnde bu yolun fazla verimli olmad hemen gzkmektedir. Dialog sahnelerindeki konuma uzunluklarnn toplam sreye oran veya konumalarn kiiler arasndaki dalmlar gibi dier otomatik llebilen zelliklerinin de incelenmesiyle filmlerin tipi (genre) hakknda bile fikir sahibi olunabilecei dnlrse, dialog analizi probleminin nemi bir kez daha ortaya kar.

2 Sahne Analizi
Kamera ile tek bir seferde yaplan grnt dizisi kaytlar kamera ekimi (video shot) tanmlanr. Arka arkaya gelen ve anlamsal bir btn oluturmas iin eklemeyle (editing) elde edilen kamera ekimlerinin btn ise sahne (scene) olarak isimlendirilir. Film ve TV dizilerinde bulunan tipik sahneler dialog, hareket, giri ve gei olarak saylabilir. Sahnelerin otomatik olarak bulunup, endeklenmesi tanmnda bulunan anlamsal btnlk kavram dikkate alnnca problemin zm olduka zor olmaktadr. Renk, ses, ekil gibi temel zelliklerden anlam gibi st seviye zelliklere ulamann tek yolu sistemi iyi bir ekilde modellemektir. Byle bir modelin baarl olmas iin ise temel ve st seviye zellikler arasnda basit ilikilerin bulunmas arttr. Dialog sahne analizi problemi bu tip zellikleri yapsnda barndrr.

2.1 Dialog Analizi


Dialog sahneleri ieriinde ounlukla insanlarn birbirleriyle konumalarn ieren ama anlamlar glendirmek amacyla konuma ve insan dnda da eitli ekimleri bulundurabilen grnt dizilerinin tamamdr. rnein, karlkl konuma srasnda sessizce konumay takip eden bir yz veya konuyla ilgili bir yerin ksa grnts dialog sahnesinin bir paras olabilir. Dialog sahnelerinin tespitinde oluan iki ana problemden ilki sahnelerin balang ve biti zamanlarnn hassas olarak bulunabilmesidir. Bir dier problem her sahnenin hatal olarak alt sahnelere blnmeden veya baka bir sahnenin iinde gsterilmeden bir btn olarak tespit edilebilmesidir. nsanlar, aralarndaki konumalar ve bulunduklar ortak mekan dialoglarn (farkl arla sahip) temel yap talarn oluturmaktadr. Bu temel talarn eldeki grsel ve iitsel veriden karlmas ilk problem olarak durmaktadr. nsan tespiti iin kabul gren bir yaklam yz tespiti ve tanmasdr [3]. Konumalar en iyi bulma yntemi ise ortamdaki ses bilgisinin analizine dayanr [4]. Konumalarn yapld ortak mekann tespiti hem zor hem de gereklilii tartlr olmakla beraber grntlerde arka fondan elde edilecek grsel ipularnn faydal olmas beklenebilir. Dialog sahnelerinin tespitinde genel olarak iki farkl yaklam bulunmaktadr. Farkllklar yaptklar modellemelerin rassal ve rassal olmamasna dayanan bu temel yaklamlardan, rassal olmayan yaklamlar dialog sahnelerinde bulunmas gereken temel zellikleri arka arkaya gelen video ekimleri iin kmeleyerek ayrtrmay gerekletirir [2,4]. Rassal metodlarn temel modelleme yntemi ise sakl Markov modelleridir (SMM) [5,6]. Bu tip bir yaklamda ekleme safhasnda dialog sahnesinin tasviri iin (sakl) bir model kullanld ve problemin iindeki belirsizlikler dnldnde bu modelin rassal olmas gerektii dnlr. Bu yaklamlarda SMMi tanmlayan durumlar (states) arasndaki geiler sahneler arasndaki geilere karlk gelmektedir.

3 Sakl Markov Modeli Kullanarak Dialog Analizi


Sakli Markov modeli (SMM) ses tanima problemine baaryla uygulanm bir yaklamdr [7]. Son dnemde video endeksleme problemiyle de ilgili olarak uygulama alanlar bulmaktadr [5,6]. Dialog analizine SMM dayal bir zm retmenin temelinde iki ana sebep bulunmaktadr. Bunlar problemin temelinde yatan rastgeleliin bir dizi kurallar konarak modellenememesi ve konuma ile grsel dil (sinema) arasndaki paralellie bal olarak temel yap talarnn (heceler ve kamera ekimleri) paralanarak (parsing) elde edilmeye uygun olmalardr. SMM kullanabilmek iin tasarm safhasnda cevap bekleyen temel problemler durum (state) balant yapsnn (topology) belirlenmesi, her bir durumun tek tek tanmlanmas ve bu sakl yapy izleyebilmemizi salayan kt sembollerinin tanmlanmasdr. Bu cevaplar belirlendikten sonra sistem parametrelerinin eitilmesi (Baum-Welch algoritmas [7]) ve girdi verilerine gre durum deiimlerinin belirlenmesi (Viterbi metodu [7]) kolayca baarlmaktadr. Daha nce denenmi eitli durum balant yaplar iinde en bilineni dairesel yapdr ve bu yap bir ok uygulama iin yeterli performans salayabilmektedir. Durumlar gzleyebilmemizi salayan her bir sakl durumun belirlenmesi srasnda izlenecek en doal yol ise, film ve dizilerde kullanlan sahne tiplerini (rn. giri sahnesi, hareket sahnesi, dialog sahnesi, v.b.) sakl durumlar olarak kullanmaktr. Her bir durum srasnda izlenecek olan ktlar ise dialog kavramnn temel talar olan insan ve konuma zerine kurulmaldr. Konumann gerekletii yerin deiim bilgisi de bu izlenen ktlar arasna katlabilir. Bu erevede insan kavramn tespit etmenin en kolay yolu yz tespiti, konumalar iin ise ses bilgisinin analiz edilmesidir.

3 nerilen Metod
nerilen metod ekil 1. de gsterilmitir. lemsel younluu en az tutmak amacyla SMM ile ilgili btn tasarm kararlarnda basitlik nplanda tutulmutur. Bu sebeple yalnzca iki durum ieren (dialog ve dialog olmama durumlar) dairesel bir SMM kullanlm, yz ve ses bilgisi yannda konum bilgisi de test edilmitir.

Metod okluortam verisinin grnt ve ses olarak ikiye ayrlmasyla balamaktadr. Grnt dizileri zerinde arka arkaya gelen ekimler arasndaki snrlar bulunarak, metodun birim yaps olan kamera ekimleri (shot) belirlenir. Her bir ekim iinde insan yzleri ilk olarak renk uzaynda bltleme [3] ve bu blgeler iin bir takm basit geometrik kurallarn deerlendirilmesiyle elde edilir (yz bulunan ekimler F ve yz bulunmayanlar N ile iaretlenir). Ses bilgisi ise her bir kamera ekimi iin enerjinin eiklenmesi, yksek enerjili blgelerde periyot analizi ve sfr geme oran (zero crossing rate) deerlerinin yardmyla sessizlik (S), mzik (M) ve konuma (T) olarak ayrtrlr [4]. Yer deiimleri (C/U) de grnt karelerinin histogram farklarna baklarak tespit edilebilir. Her bir kamera ekimi iin bir durum kts kullanlarak SMM nce eitilir, eitilmi sistem kullanlarak da test edilecek benzer ktlarn SMM durumlarn nasl deitirdii belirlenir.

4 Deneysel Sonular
Deneylerde MPEG-7 Test veri seti iinden bir film ve iki TV dizisi verileri kullanlmtr (CD-20,21,22). Performans lmlerinde iki ayr baar ltnden yararlanlmtr. Bunlardan R1 her bir kamera ekimi iin belirlenen sahne tipini mutlak doru (groundtruth) sonulara oranlayarak bulunur. R2 lt ise mutlak doru sonulara gre her bir sahnenin bir btn halinde (ba ve sonunda hatal ayrtrma yaplm olmas ihmal edilir) bulunmasn ler. Deneysel sonular iki aamada elde edilmitir. lk aamada btn temel bilgilerin (yz ve ses analizi) insan yardmyla hatasz olarak elde edildii varsaylp, deiik SMM yaplarnn ve farkl kt seimlerinin performanslar llmtr [5]. Bu aamada kan sonulara bal olarak SMM ile ilgili en iyi seenekler belirlenip, otomatik sistemin performans llmtr. lk aamann sonularna gre dairesel iki durum ieren yap yeterli baary salamakta, durum kts olarak yer bilgisinin gerekli katky salayamad ortaya kmaktadr [6]. Tablo 1 ikinci aamada otomatik olarak elde edilen deneysel sonular zetlemektedir. Yeterli sayda eitim verisi bulunmamasnn performans etkileyebilecei dnlerek sistem parametreleri ayrca tecrbeye dayal olarak da belirlenmitir. Nesnel olarak adlandrlan sonular durum deitirme olaslklarnn bir kereye mahsus yaklak olarak belirlenip, btn test verileri iin kullanlmas sonucu elde edilmilerdir. Tablo 1 deki sonular eitim verilerinin kstl sayda olmasnn sonularn ortaya koymaktadr. Buna ramen SMM yaklamnn problemi iyi modelledii anlalmaktadr. ekil 2 ise test verileri iinde yer alan CD-21 iin elle karlan ve otomatik sonular ayrntl olarak gstermektedir. Bu ekilde zamana gre dialog ve dialog olmayan sahnelerin deiimi sunulmutur. Alak seviye dialog olmayan, yksek seviye ise dialog sahneleri tanmlar. Mutlak doru sonulara bakldnda elle karlan sonularn beklenildii gibi daha baarl olduu gzkmektedir. Otomatik karlan sonular da byk lde ayrtrmay yapabilmektedir.

(R1+R2)/2 Eitilerek Nesnel nsan yardm ile 0.818 0.864 Otomatik metod 0.634 0.773 Tablo 1 : CD-20/21/22 iin deneysel sonular

5 Sonu
Grnt ve ses bilgileri iinde yer alan temel zellkler kullanlarak olaslk temelli bir model yardmyla anlamsal bilgilere ulamay hedefleyen bir metod sunulmutur. Deneysel sonular grnt dizilerinin otomatik olarak analizi yaplarak bu hedefin baarlabildiini gstermitir. Sonu olarak, endeksleme probleminde ihtiya duyulan birok anlamsal bilginin karm iin SMMnin ok iyi bir alternatif olarak durduu sylenebilir.

Kaynaka
[1] ISO/IEC JTC1/SC29/WG11/W3703 MPEG-7 Multimedia Content Description Interface Part 3 Visual, October 2000. [2] R.M. Bolle, B. -L.Yeo and M.M.Yeung, ``Video Query : Research Directions,'' IBM Journal of Research and Development}, vol. 42, pp.233--252, 1998. [3] M.H.Yang, D.Kreigman and N.Ahuja, ``Detecting Faces in Images : A survey,'' to be published in IEEE Trans. on PAMI. [4] C.Saraceno and R.Leonardi, ``Identification of Story Units in Audio-Visual Sequences by Joint Audio and Video Processing,'', Proceedings of ICIP'98, pp. 363--367, 1998. [5] A.A.Alatan, A.N.Akansu and W.Wolf, ``Multi-modal Dialogue Scene Detection using Hidden Markov Models for Content-based Multimedia Indexing, to appear in Int. Journal on Multimedia Tools and Applications, Kluwer Ac., June 2001. [6] A.A.Alatan, A.N.Akansu and W.Wolf, ``Comparative Analysis of Hidden Markov Models for Multimodal Dialogue Scene Indexing,'' Proceedings of ICASSP'2000, 2000. [7] L.R.Rabiner and B-H.Juang, Fundementals of Speech Recognition, Prentice Hall, Englewood Cliffs, NJ, USA, 1993.

You might also like