Professional Documents
Culture Documents
Sakli Markov Modeli Tabanli Ses Ve Görüntü Bilgisi Kullanarak Dialog Sahnesi Tespiti
Sakli Markov Modeli Tabanli Ses Ve Görüntü Bilgisi Kullanarak Dialog Sahnesi Tespiti
A. Aydn Alatan Elektrik-Elektronik Mhendislii Blm Ortadou Teknik niversitesi Balgat, 06531 Ankara
aalatan@metu.edu.tr
zete
okluortam bilgilerinin dnya zerinde her geen gn oalmas arivleme iin ok hzl ve insan kullanm gerektirmeyen endeksleme algoritmalarna duyulan ihtiyac beraberinde getirmektedir. Bu almada film ve TV dizilerinde yeralan dialog sahnelerinin ses ve grnt bilgileri birarada kullanlarak sakl Markov modeli (SMM) yardmyla ayrlp, analiz edilmesi hedeflenmitir. Bunun iin ses bilgisi mzik, sessizlik ve konuma ksmlarna, grnt bilgisi ise insan yz ieren ve iermeyen blgelere ayrtrlmtr. Ayrtrlan bu ksmlar SMM iine beraberce beslenerek, modelin nceden tanmlanm farkl durumlara (state) gemesine ve bu durumlardan biri olarak tanmlanm dialog sahne/durum tespitine sebep olmaktadr. Deneysel sonular otomatik bir sistemin baaryla tespitinin gerekletirildiini gstermektedir.
1 Giri
Video endeksleme (indexing) konusunda varolan algoritmalar renk, ekil gibi temel zellikleri otomatik karabilirken [1], bu temel kavramlar anlamsal (sematic) sonulara ulatran yol ise hala belirsiz durumdadr. Anlamsal sonular insan hayatnn kolaylatrlmas ve ekonomik girdi salayacak zmler retilmesinin ilk artn oluturmaktadr. Bu sebeple, film ve TV dizisi gibi ieriini arlkl olarak karlkl insan konumalarnn oluturduu verilerin endekslenmesi ve zetlenmesi iin dialog sahnelerinin ayrtrlmas arttr. nerilen metodlar ayrtrma problemini ounlukla arka arkaya gelen kamera ekimlerini (video shot) tespit edip, gruplayarak, zetleme problemini ise her bir ekim iin bir zkare (key-frame) ile kullanarak zme yoluna gitmilerdir [2]. Ekleme (editing) safhasnda her bir dialog sahnesinin bu tip onlarca ekimin birlemesiyle elde edildigi dldnde bu yolun fazla verimli olmad hemen gzkmektedir. Dialog sahnelerindeki konuma uzunluklarnn toplam sreye oran veya konumalarn kiiler arasndaki dalmlar gibi dier otomatik llebilen zelliklerinin de incelenmesiyle filmlerin tipi (genre) hakknda bile fikir sahibi olunabilecei dnlrse, dialog analizi probleminin nemi bir kez daha ortaya kar.
2 Sahne Analizi
Kamera ile tek bir seferde yaplan grnt dizisi kaytlar kamera ekimi (video shot) tanmlanr. Arka arkaya gelen ve anlamsal bir btn oluturmas iin eklemeyle (editing) elde edilen kamera ekimlerinin btn ise sahne (scene) olarak isimlendirilir. Film ve TV dizilerinde bulunan tipik sahneler dialog, hareket, giri ve gei olarak saylabilir. Sahnelerin otomatik olarak bulunup, endeklenmesi tanmnda bulunan anlamsal btnlk kavram dikkate alnnca problemin zm olduka zor olmaktadr. Renk, ses, ekil gibi temel zelliklerden anlam gibi st seviye zelliklere ulamann tek yolu sistemi iyi bir ekilde modellemektir. Byle bir modelin baarl olmas iin ise temel ve st seviye zellikler arasnda basit ilikilerin bulunmas arttr. Dialog sahne analizi problemi bu tip zellikleri yapsnda barndrr.
3 nerilen Metod
nerilen metod ekil 1. de gsterilmitir. lemsel younluu en az tutmak amacyla SMM ile ilgili btn tasarm kararlarnda basitlik nplanda tutulmutur. Bu sebeple yalnzca iki durum ieren (dialog ve dialog olmama durumlar) dairesel bir SMM kullanlm, yz ve ses bilgisi yannda konum bilgisi de test edilmitir.
Metod okluortam verisinin grnt ve ses olarak ikiye ayrlmasyla balamaktadr. Grnt dizileri zerinde arka arkaya gelen ekimler arasndaki snrlar bulunarak, metodun birim yaps olan kamera ekimleri (shot) belirlenir. Her bir ekim iinde insan yzleri ilk olarak renk uzaynda bltleme [3] ve bu blgeler iin bir takm basit geometrik kurallarn deerlendirilmesiyle elde edilir (yz bulunan ekimler F ve yz bulunmayanlar N ile iaretlenir). Ses bilgisi ise her bir kamera ekimi iin enerjinin eiklenmesi, yksek enerjili blgelerde periyot analizi ve sfr geme oran (zero crossing rate) deerlerinin yardmyla sessizlik (S), mzik (M) ve konuma (T) olarak ayrtrlr [4]. Yer deiimleri (C/U) de grnt karelerinin histogram farklarna baklarak tespit edilebilir. Her bir kamera ekimi iin bir durum kts kullanlarak SMM nce eitilir, eitilmi sistem kullanlarak da test edilecek benzer ktlarn SMM durumlarn nasl deitirdii belirlenir.
4 Deneysel Sonular
Deneylerde MPEG-7 Test veri seti iinden bir film ve iki TV dizisi verileri kullanlmtr (CD-20,21,22). Performans lmlerinde iki ayr baar ltnden yararlanlmtr. Bunlardan R1 her bir kamera ekimi iin belirlenen sahne tipini mutlak doru (groundtruth) sonulara oranlayarak bulunur. R2 lt ise mutlak doru sonulara gre her bir sahnenin bir btn halinde (ba ve sonunda hatal ayrtrma yaplm olmas ihmal edilir) bulunmasn ler. Deneysel sonular iki aamada elde edilmitir. lk aamada btn temel bilgilerin (yz ve ses analizi) insan yardmyla hatasz olarak elde edildii varsaylp, deiik SMM yaplarnn ve farkl kt seimlerinin performanslar llmtr [5]. Bu aamada kan sonulara bal olarak SMM ile ilgili en iyi seenekler belirlenip, otomatik sistemin performans llmtr. lk aamann sonularna gre dairesel iki durum ieren yap yeterli baary salamakta, durum kts olarak yer bilgisinin gerekli katky salayamad ortaya kmaktadr [6]. Tablo 1 ikinci aamada otomatik olarak elde edilen deneysel sonular zetlemektedir. Yeterli sayda eitim verisi bulunmamasnn performans etkileyebilecei dnlerek sistem parametreleri ayrca tecrbeye dayal olarak da belirlenmitir. Nesnel olarak adlandrlan sonular durum deitirme olaslklarnn bir kereye mahsus yaklak olarak belirlenip, btn test verileri iin kullanlmas sonucu elde edilmilerdir. Tablo 1 deki sonular eitim verilerinin kstl sayda olmasnn sonularn ortaya koymaktadr. Buna ramen SMM yaklamnn problemi iyi modelledii anlalmaktadr. ekil 2 ise test verileri iinde yer alan CD-21 iin elle karlan ve otomatik sonular ayrntl olarak gstermektedir. Bu ekilde zamana gre dialog ve dialog olmayan sahnelerin deiimi sunulmutur. Alak seviye dialog olmayan, yksek seviye ise dialog sahneleri tanmlar. Mutlak doru sonulara bakldnda elle karlan sonularn beklenildii gibi daha baarl olduu gzkmektedir. Otomatik karlan sonular da byk lde ayrtrmay yapabilmektedir.
(R1+R2)/2 Eitilerek Nesnel nsan yardm ile 0.818 0.864 Otomatik metod 0.634 0.773 Tablo 1 : CD-20/21/22 iin deneysel sonular
5 Sonu
Grnt ve ses bilgileri iinde yer alan temel zellkler kullanlarak olaslk temelli bir model yardmyla anlamsal bilgilere ulamay hedefleyen bir metod sunulmutur. Deneysel sonular grnt dizilerinin otomatik olarak analizi yaplarak bu hedefin baarlabildiini gstermitir. Sonu olarak, endeksleme probleminde ihtiya duyulan birok anlamsal bilginin karm iin SMMnin ok iyi bir alternatif olarak durduu sylenebilir.
Kaynaka
[1] ISO/IEC JTC1/SC29/WG11/W3703 MPEG-7 Multimedia Content Description Interface Part 3 Visual, October 2000. [2] R.M. Bolle, B. -L.Yeo and M.M.Yeung, ``Video Query : Research Directions,'' IBM Journal of Research and Development}, vol. 42, pp.233--252, 1998. [3] M.H.Yang, D.Kreigman and N.Ahuja, ``Detecting Faces in Images : A survey,'' to be published in IEEE Trans. on PAMI. [4] C.Saraceno and R.Leonardi, ``Identification of Story Units in Audio-Visual Sequences by Joint Audio and Video Processing,'', Proceedings of ICIP'98, pp. 363--367, 1998. [5] A.A.Alatan, A.N.Akansu and W.Wolf, ``Multi-modal Dialogue Scene Detection using Hidden Markov Models for Content-based Multimedia Indexing, to appear in Int. Journal on Multimedia Tools and Applications, Kluwer Ac., June 2001. [6] A.A.Alatan, A.N.Akansu and W.Wolf, ``Comparative Analysis of Hidden Markov Models for Multimodal Dialogue Scene Indexing,'' Proceedings of ICASSP'2000, 2000. [7] L.R.Rabiner and B-H.Juang, Fundementals of Speech Recognition, Prentice Hall, Englewood Cliffs, NJ, USA, 1993.