You are on page 1of 3

Dou Anadolu Blgesi Aratrmalar; 2007

Murat KZ ve dierleri

WAVELET (DALGACIK DNM) VE YAPAY SNR


AI KULLANARAK SES SNYALLERNDEN KONUMACI
TESPT
*Murat KZ, *Mehmet AKIN, *Bahattin KURT, *Hseyin ACAR
*Dicle niversitesi, Mhendislik Mimarlk Fak. Elektrik Elektronik Mhendislii Bl.-DYARBAKIR
ikizmurat@gmail.com , makin@dicle.edu.tr , bkurt@dicle.edu.tr, hacar@dicle.edu.tr
__________________________________________________________________________________________________________________________________________________

ZET
Bu almada amalanan, mikrofon yardm ile kayt edilen ses sinyallerinden wavelet dnm ve yapay
sinir a yardm ile konumac kimliinin tespit edilmesidir. Bu ama dorultusunda ses sinyalleri PC
ortamna mikrofon yardm ile alnd, n ileme ve grltden temizleme Wavepad ve Wave Flow programlar ile yapld. Matlab tabanl hazrlanan model yardm ile hazrlanan ses dosyalarndan veriler paracklara
ayrtrlmtr ve hazrlanan YSA program ile snflandrma ilemi gerekletirilmitir.
Anahtar Kelimeler : Wavelet, YSA, Konumac Tanma, Ses leme
__________________________________________________________________________________________________________________________________________________

RECOGNATION THE SPEAKER IDENTY BY MEANS OF


WAVELET ANALYSIS AND NEURAL NETWORK
ABSTRACT
The purpose of this project is to recognize the speaker identy by means of wavelet analysis and neural
network aproach. After sampling the voice signal generated from 10 different person (6 males and 4
females) , we use Waveflow and Wavepad shareware programs to denoise the signals. With the help of a
Matlab Simulink model we generated the useable data from this voice signals. We use this data as an input
signal for Matlab based neural network. The neural network classified the voice data for different speakers.
Keywords: Wavelet, Neural Network, Speaker Recognition, Voice Processing
__________________________________________________________________________________________________________________________________________________

1. GR
Konumann temeli ierdii sesli ifadelerdir.
Ancak sesli ifadenin etki snrlar ortamla kstl olduundan sesli ifadenin elektriksel sinyallere dntrlmesi gereklidir. Bu amaca ynelik ilk gerekletirim telefon ile salanmtr. Telefon seslerin
elektriksel sinyallere dntrlmesine dayanr. Telefonun icad iletiimin tarihsel geliimi iinde en
nemli admdr. Sesli ifade zerinde aratrmalar
telefonun icad ile balamtr. Bu aratrmalar sonucunda ilk sesli ifade kodlama teknii olarak 1938de
Genlik kodlamas modlasyon (PCM, Pulse Code
Modulation) teknii bulunmutur. Bu yntemle sesli
ifade rneksel olarak kodlanmaktadr. 1960dan
sonra saysal elektronik devrelerin ve bilgisayarlarn
gelimesiyle sesli ifadenin saysal olarak kodlanmas da mmkn olabilmitir. Sesli ifade tanma, bir
sesli ifade sinyalinin snrl sayda simgelerle ifade
edilmesi olarak tanmlanabilir. Ama ses sinyalinin
yazl edeerinin bulunmasdr. Sesli ifadenin yazl
karlnn bulunmas insan-bilgisayar aras iletiimi ok daha kolay bir hale getireceinden, bilgisayarn daha kullanl bir duruma gelmesini salar.
Yani insan-bilgisayar aras iletiim doal bir olay
haline gelir. Bu nedenle, bu konu ok rabet grmtr [4], [5], [8], [11], [12].
Tez almas konusu olarak ele alnan ses tanma, ses ilemenin bir alt basama olarak dn-

lebilir. Ses ileme ve ses tanma konularn dzenleyen tipik bir snflandrma ekil 1de verilmitir
[7], [8], [11].
nsanlarn ses retme ve sesi alglama sistemlerindeki organlarn yaplarndan kaynaklanan baz
snrlamalardan dolay, ses dalga eklinde deiime
sebep olan yaplarn pozisyonlarnn ksa zaman aralklarnda deimedii farz edilebilir [7]. Konuma
grtlan, titreen ses telleri tarafndan rettii hava
vurularyla tahrik edilmesi sonucu oluur. Ses telleri periyodik salnmlar oluturur ve bu salnmlarn
frekanslarna temel frekans ad verilir [1]. Konuma
reten ve kodlayan sistemler bu karakteristik modelleri gz nnde bulundurarak hazrlanrlar.

ekil 1. Ses lemenin Snflandrlmas


36

Dou Anadolu Blgesi Aratrmalar; 2007

Murat KZ ve dierleri
2.3.YSANIN ETLMES
Hata geri yaylml yapay sinir ann eitim
srecindeki renme iterasyonlarna gre sistem
hatasnn deiimi ekil 1.2de gsterilmitir. An
eitim sresince herhangi bir kararszlk ve prz
olmamtr.

2. YNTEM
2.1.SESLERN DOSYALARA KAYDEDLMES
Bilgisayar ve sound blaster pro 16 bit stereo
ses kart ve dinamik mikrofon yardm ile sesler mono olarak kaydedilmitir. Mono olarak kaydedilmesinin nedeni kayt dosyalarnn daha az yer tutmas
iindir. Kayt frekans 11025 Hz olarak kullanlmtr.
Wavepad ve Waveflow programlar yardm
ile ses dosyalar grltden temizlenmi ve kayt olmayan bo ksmlar kaytlardan karlmtr. Seslerin kayt ortam normal ev ortamdr. Tamamyla
olmasa bile bilgisayar fannn sesi hari sessiz kabul
edilebilir. Grltden arndrma ilemi esnasnda
%5 eik deeri kullanlmtr. %5 eik deeri denemeler sonunda yeterli olarak grlmtr.
Her konumacya ait ard arda seslendirilen 10
szck ieren esas ses kayd iin ses kaydnn ilk
harfinden itibaren ayrm iin gerekli olan kadar ve
seslendirilen szck kullanlarak ses dosyalarnn
adlar oluturulmutur. 10 adet szck ieren her bir
dosya tekrar 10 dosya olacak ekilde yine ayn
program yardm ile kesimlenmitir.
2.2. SES DOSYALARINDAN VER DOSYALARININ ELDE EDLMES :
Dosyalanm ve rneklenmi ses bilgisinin
YSA ile tanma ilemine geilebilmesi iin veri haline dntrlmesi gerekir[4]. Windows altnda kayt yaplan ses rnekleri .wav uzantl dosyalar haline gelmitir. Daha sonra bu dosyalar Matlab program yardm ile veri dosyalar haline dntrlmtr.
Veri gruplar oluturulmadan nce Matlab
Wavelet Toolbox yardm ile ses sinyalinde analiz
almalar yaplm ve orijinal sinyali en iyi temsil
eden sinyalin Db2 ve 10ncu seviye yaklam olduu grlmtr. Analiz almas esnasnda sesler
kiilere gre ve ayr gruplar halinde incelenmi ve
en uygun ayrtrma parametresi ve seviyesi tespit
edilmeye allmtr [13].
Ses rneklerine ait Db2 ve a10 (Level 10
Approximation) sinyalinin seslerin karakteristii tad ve konumac tanmada ses karakteristii olarak kullanlabileceini sylemek teorik olarak mmkn grlmtr. Bu n almalardan yola karak
tm ses rnekleri iin Db2 a10 sinyali ses rneklerinden elde edilmi, 2nci seviye ayrm ile 4 alt
bant elde edilmi ve bu 4 alt banda ayrtrlmtr.
Verinin son hali almada snflandrc olarak kullanlacak YSAnn giri sinyalleri olarak kullanlmtr.

ekil 2. 1770 Blt in Hata Karelerinin ve


renme Orannn Deiimi
Eitim Parametreleri aada olduu gibidir ;
df=100;
% tekrar sayisi
sse=0.005; % minimum hata
mitr=80000; % maksimum iterasyon
lr=0.05;
% grenme orani (0.01,....,1----- 0.005)
lr_inc=1.05; % grenme oraninin artirimi(1.05 )
lr_dec=0.005; % grenme oraninin azaltimi( 0.005)
mr=0.95;
% momentum katsayisi (0....1)
er=1.04; % hata orani -adaptif lr iin gerekli- 1.04

3. BULGULAR VE TARTIMA
Tablo 1. Test-1 Grubuna Ait Baar Yzdeleri

10 kiiye ait 10 farkl ses iaretleri YSAnn


eitimi iin giri olarak uygulanmtr. Bu grup iinden Test-1 grubundaki iaretler YSAya test iin
uygulanarak Tablo-1deki sonu elde edilmitir. Bu
sonular neticesinde YSAnn konumaclarn test
iin kullanlan gruptaki DENEME kelimesi temel
alnarak eitilmesi sonucunda, iaret baml bir
ortam baars % 99,30 olarak olutu.

37

Dou Anadolu Blgesi Aratrmalar; 2007

Murat KZ ve dierleri

Tablo 2. Test-2 Grubuna Ait Baar Yzdeleri

Hem eitime hem de test gruplarna katlmayan Konumac-1, Konumac-2,. Konumac-3den


DENEME kelimesini seslendirmeleri istenmitir. Bu
konumaclara ait ses rneklerinden elde edilen veriler YSAa giri olarak uygulanm ve sonular Tablo 3de verilmitir. Tablo 3den kan sonu; YSA
nn kii baml sistemler iin uygun sonular retebildiidir. Kii bamsz olarak deerlendirildiinde kan sonularn deerlendirilemeyecek seviyede
ktlar olduu gzlenmitir.

4. SONU
Tm bu almalar insan sesinin ses oluumunda etkin rol olan grtlak ve ses yolu yapsnn
farkl olduunu ve kii iin zaman zaman eitli nedenlerden dolay (hastalk gibi) yapsnda deiiklik
olsa bile esas itibar ile deimedii ve her kii iin
ifade edilebilecek bir karakter taddr.
Bu sonular neticesinde YSAnn, konumaclarn DENEME kelimesi temel alnarak eitilmesi
sonucunda, iarete baml bir ortam baars %
99,30 olarak olumutur. Kelimeden bamsz olarak YSAnn baar yzdesi % 85.41 olarak bulunmutur.
Tablo 3den kan sonu, almada kullanlan YSAnn kii baml sistemler iin uygun sonular retebildiidir. Kii bamsz olarak deerlendirildiinde kan sonularn deerlendirilemeyecek seviyede ktlar olduu gzlenmitir.
Yaplan bu alma ile olduka baarl bir
oranda Wavelet ve YSA kullanarak ses sinyallerinden konumac kimliinin tespit edilmesi salanmtr.

Kelimeden bamsz olarak YSAnn baar


yzdesinin test edilebilmesi iin oluturulan Test-2
grubu veri YSA nn giriine veri olarak uyguland.
Sonular Tablo 2de gsterilmitir. Tablo 2 esas alnarak kelimeden bamsz olarak YSAnn baar
yzdesi % 85.41 olarak bulunmutur.
Tablo 3. Test Veri Grubuna Dahil Olmayan in
YSAnn Baar Yzdeleri

5. KAYNAKLAR
1.

2.
3.

4.
5.

6.
7.

DEMR, H, 2000,Wavelet Dnm ve aret


leme Uygulamalar, Yksek Lisans Tezi, stanbul niversitesi.
ELMAS, ., 2003, Yapay Sinir Alar Kuram,
Mimari,Uygulama), Sekin Yaynlar.
ERDEM, T, Yapay Sinir Alar Kullanarak
Konumac Tanma Uygulamas, Yksek Lisans Tezi, Nide niversitesi.
FURUI, S., 1989. Digital Speech Processing,
Synthesis, and Recognition. Marcel Dekker Inc.
NAL, M, 2001, Yapay Sinir Alar Tabanl
Konumac Tanma, Doktora Tezi, Kocaeli
niversitesi.
KOHONEN, T., 1988. An introduction to neural
computing. Neural Networks, vol 1, pp.3-16
MENGOLU, E., 1999 Bir Tke Sesli
fade Tanma Sisteminin Kural Tabanl Tasarm ve Gerekletirimi, Master Tezi, Hacettepe
niversitesi.

8.

9.

10.

11.
12.

13.

14.

38

PICONE, J., W., 1993. Signal modelling


techniques in speech recognition. Proceedings
of the IEEE, vol. 81, no. 9, pp. 1215-1247.
RABINER, L., R,. Schafer, R., W., 1978. Digital processing of speech signals. Prentice Hall
Inc.
RABINER L. R., JUANG B. H., 1993, Fundamentals of Speech Recognition, Prentice Hall,
Englewood Cliffs.
ROBINSON, T., 1995. Speech Analysis. Lecture Notes.
SYDRAL A., BENNETT R., GREENSPAN S.,
1995, Applied Speech Technology, CRC
Press.
TEBELSKIS, J., 1995, Speech Recognition
Using Neural Networks, PhD. Thesis, Carnegie Mellon University, Pittsburgh Pennsylvania.
YCETRK, A. C., 2000, Yapay Sinir Alar
Kullanlarak rnt Snflandrma ve Tanma,
Doktora Tezi, Ege niversitesi.

You might also like