You are on page 1of 6

Farklı Optimizasyon Tekniklerinin Bağlantıcı

Zamansal Sınıflandırma Kullanılan Uçtan Uca Türkçe


Konuşma Tanıma Sistemlerine Etkisi
The Effect of Different Optimization Techniques on
End-to-End Turkish Speech Recognition Systems that
use Connectionist Temporal Classification
Recep Sinan ARSLAN ve Necaattin BARIŞÇI
Bilgisayar Mühendisliği
Gazi Üniversitesi
Gazi Üniversitesi Teknoloji Fakültesi Bilgisayar Mühendisliği Bölümü 06500 Teknikokullar Ankara-Türkiye
recep.sinan.arslan@gazi.edu.tr
nbarisci@gazi.edu.tr

Özetçe— Konuşma tanıma uygulamaları için Akustik Model(AM) Keywords — Acoustic Model(AM), Long Short Term
üretiminde Uzun Kısa Süreli Bellek(UKSB) tabanlı Tekrarlayan Sinir Memory(LSTM), Connectionist Temporal Classification(CTC),
Ağlarının kullanımı ile Gaussian Karışım Modeline (GKM) göre daha Recurrent Neural Network(RNN), Optimization Techniques
iyi sonuçlar alınmaya başlanılmıştır. GKM bazlı akustik modellerin
üretiminde hizalanmış Saklı Markov model(SMM) durumlarına I. GİRİŞ
ihtiyaç duyulması, derin öğrenme sürecini uzatmaktadır. Buna çözüm Konuşma tanıma insan bilgisayar etkileşiminin en önemli
olarak Bağlantıcı Zamansal Sınıflandırma(BZS) tabanlı akustik model alanlarından birisidir ve klavye, fare gibi farklı bilgi girdi
üretimi önerilmiştir. Bu çalışmada BZS tabanlı bir model araçlarının yerine ses ile bir çok farklı cihazın, servislerin
oluşturulmuştur. Farklı optimizasyon tekniklerinin sınıflandırma
kontrol edilmesine imkan tanımaktadır. Bu alanda birçok ticari
performansına etkisi karşılaştırmalı olarak yapılmıştır. Bu testler
Türkçe konuşma veri setlerine uygulanmış olup ses tanıma
uygulama bulunmakta olup, Apple Siri, Baidu, Google Speech
uygulamalarında kullanılacak en iyi optimizasyon tekniklerinin gibi kişisel destek asistanları insan hayatı içerisinde geniş yer
belirlenmesi hedeflenmiştir. Performans ölçütleri belirlenerek tutmaktadır [1].
sonuçlar değerlendirilmiştir. Buna göre GradientDescent, Ses tanıma teknolojilerinin temelinde, ses işaretinden kelime
ProximalGradientDescent ve RMSPROP optimizasyon tekniklerinin dizilerinin hesaplanması işlemi yatar ve bu hesaplama akustik
diğer algoritmalara göre daha iyi sonuçlar ürettiği gözlemlenmiştir. model ve dil modeli ile birlikte istatistiksel yaklaşımlarla
Anahtar Kelimeler — Akustik Model, Uzun Kısa Süreli Bellek, gerçekleştirilir.
Bağlantıcı Zamansal Sınıflandırma, Tekrarlayan Sinir Ağı,
Konuşma tanıma problemi, verilen bir akustik X dizisi için,
Optimizasyon
W kelime dizilerini bulmak için oluşturulmuştur. Konuşma
Abstract— In the production of acoustic models for speech cümleleri W = (w1, w2, .. ) şeklinde belirtilen kelimelerin dizisi
recognition applications, the use of Long Short Term Memory(LSTM) olarak gösterilir. Wt ayrık bir t zamanında söylenmiş belli bir
based Recurrent Neural Network(RNN) has begun to get better results kelimeyi temsil eder. Kelime dizisi söylenen sesli ifade ile
than the use of Gaussian Mixture Model(GMM). The creation of bağlantılıdır ve bu sesli ifade X olarak gösterilen akustik seslerin
GMM-based acoustic models is prolonging the deep learning process dizisidir [2].
due to the need for aligned Hidden Markov Model(HMM). As a
solution to this problem, another method to generate acoustic models Geniş sözcük dağarcıklı sürekli konuşma tanıma
is proposed that is based on Connectionist Temporal modellerinde standart yaklaşıma göre (1)’de verilmiş olan
Classification(CTC). In this study, a CTC based model is created and formül kullanılır.
the effect of different optimization techniques on the classification
performance is compared. These tests were applied on Turkish speech P(W/A) = arg max P (W/A) (1)
datasets to determine the best optimization techniques to be used in Buna göre, olası bir P(W|A) olasılıklı A sözcük dizisinin W
speech recognition applications. Our evaluation results showed that akustik gözlem dizisini ürettiği varsayılmaktadır. Sonrasında,
GradientDescent, ProximalGradientDescent and RMSPROP produce akustik gözlem sırasına bağlı olarak söylenmiş olan kelime
better results than other algorithms.
dizisinin çözülmesi ve maximum olasılıklı dizinin tanınmış

978-1-5386-4184-2/18/$31.00 ©2018 IEEE


sözcük olarak belirlenmesi yapılmaktadır. Bayes kuralına göre Bu problemleri çözebilmek için Bağlantıcı Zamansal
1 numaralı formül aşağıdaki şekilde düzenlenmektedir. Sınıflandırma(BZS) kullanılarak uçtan uça ( ses dizisinden –
metin dizisine doğrudan gidiş) ses tanıma metodolojisi
P(W|A) = P(A/W)P(W) / P(A) (2) önerilmiştir [7]. BZS derin öğrenme modellerinin çıkış
P(A), W’den bağımsız olarak alınırsa, Maximum Posteriori katmanındaki düğümlerde bulunan bir tür amaç fonksiyonudur
tahminine göre (2) numaralı formül çözümlenecek olursa, ve çözümün ne kadar iyi olduğunu gösteren değerleri üretir. BZS
sonuçta; algoritmasında, çıkış düğümleri hedef dile ait fonemlere veya
karakterlere eşlenir ve öğrenme sürecinde fonem veya karakter
W= argmax P(A/W)P(W) (3) dizilerinin tahmin edilmesine çalışılır [8].
formülü elde edilir. Ses analizinin teorik altyapısını açıklamada Bu çalışmada Uzun Kısa Süreli Bellek-Bağlantıcı Zamansal
kullanılan en yaygın matematik modeldir. Bu formül Sınıflandırma tabanlı uçtan uça ses tanıma uygulamaları için
incelendiğinde, P(A/W) olarak tanımlanan denklemin ilk kullanılabilecek optimizasyon teknikleri üzerine çalışılarak,
modeli, akustik model olarak isimlendirilir. Sözcük dizesine Türkçe konuşma setleri için en iyi optimizasyon teknikleri
göre düzenlenmiş akustik model dizisinin olasılığını ifade eder. hakkında deney sonuçları sunulmuştur. Küçük ölçekli bir veri
Büyük ölçekli konuşma tanıma sistemleri için, alt sözcük seti ile çalışılarak, performans ölçümleri ortaya koyulmuştur.
konuşma birimleri için istatistiksel modeller oluşturmak, bu alt Çalışmanın 2. bölümünde BZS algoritmasının kısa açıklaması
birimlerin bir araya getirilmesi ile kelimelerin oluşturulması ve verilmiştir. Devamında, 3. bölümde bu testleri yapabilmek üzere
kelimeleri bir araya getirerek istenilen sözcük dizilerinin oluşturulacak ortamda gereç duyulan araçlar, kütüphaneler ve
oluşturulması akustik model olasılıklarının değerlendirilmesi ile altyapılardan bahsedilmiştir. 4. bölümde deney sonuçları
yapılmaktadır. P(W) olarak tanımlanan ikincil terim dil modeli karşılaştırmalı olarak sunulmuş ve sonuçları değerlendirilmiştir.
adı verilir. Sözlü ifadeler dizisiyle ilgili olasılığı tanımlar. Bu tür Son olarak 5. bölümde, çalışmanın genel değerlendirmesi
dil modelleri dilin sözdizimsel ve semantik kısıtlamalarını yapılmıştır.
içerebilir [3].
(3) numaralı formülde ifade edilen Dil modelinin II. BAĞLANTICI ZAMANSAL SINIFLANDIRMA ALGORİTMASI
üretilmesinde N-gram tekniği yaygın bir yöntemdir. Bu teknik 1.bölümde bahsedilmiş olan hibrit modeller denetimli
bir sözlük içerisindeki kelime frekanslarını kullanarak sözcükler öğrenme kullandıkları için her bir akustik özellik için SMM
arasındaki ilişkileri modellemektedir. Aynı formülde bahsedilen durum dizisi gerektirmektedir. Bu yöntem aşağıdaki sorunlara
Akustik modelleme ise konuşma sinyalinden elde edilen sahiptir:
özelliklerden oluşturulan akustik vektörler yardımıyla yapılır.
Akustik modelleme için kullanılan en yaygın yaklaşım Gaussian  DSA-SMM tabanlı akustik model eğitimi öncesinde
karışım modeli ile Saklı Markov modelin birlikte kullanıldığı ve GKM-SMM tabanlı bir eğitim gereklidir ve bu uzun
eğitim durumundaki her bir gözlem olasılığının farklı bir saklı zaman alan bir süreçtir.
model ile olasılıklandırılmasına dayalıdır [4].  Verilerin hizalanmış olması beklenmektedir. Bu sebeple
Günümüzde, dil modeli ve akustik modellerin üretimi için verilerin istatistiksel olarak hizalaması yapılır. Bu işlem
derin öğrenme kullanan yöntemlerin daha yüksek performans yanlış hizalama yapılmasına neden olabilmektedir.
gösterdiği anlaşılmıştır. Tekrarlayan Sinir Ağı(TSA) kullanan Bu sorunları çözmek için [7] [8] numaralı çalışmalarda
ve her bir kelimeyi bir vektör ile temsil eden yöntemler N-gram akustik model eğitimi için GKM-SMM bazlı akustik model
modellemesine göre daha iyi performans göstermişlerdir [5]. eğitim aşaması yerine BZS tabanlı akustik özelliklerden fonem
Aynı şekilde, akustik modelleme için de Gaussian Karışım veya karakterlerin elde edilmesini mümkün kılan akustik model
modeli-Saklı Markov model kullanan teknikler yerine Derin eğitim yöntemi önerilmiştir. BZS derin öğrenme modelinin çıktı
öğrenme kullanılması ile daha yüksek performanslı sistemler katmanındaki her bir düğümde bulunur ve tanınan karakterleri
geliştirilmiştir. Üstelik Derin öğrenme algoritmalarının bir türü temsil eder. Derin öğrenme modelleri BZS ile eğitilirken,
olan Uzun Kısa Süreli Bellek(UKSB) türündeki TSA üretilen doğru sonuçlar fonemler veya karakterler olmaktadır.
kullanılarak hazırlanan Akustik modeller, klasik tipteki Derin Böylece GKM-SMM tabanlı sistemlerde kullanılan zorla
öğrenme – Saklı Markov modelli tekniklere göre de daha iyi hizalanmış verilere ihtiyaç duyulmaz.
sonuçlar ürettiği ortaya koyulmuştur [6].
Örneğin, eğitim setindeki etiketlerin sayısı K olsun. BZS
SMM olasılıklarını modelleyen UKSB TSA veya Derin kullanan derin öğrenme temelli akustik modelin çıkış katmanı
Sinir Ağı(DSA)-SMM yöntemleri gözetimli öğrenme K+1 çıkış düğümünden oluşur. Bir adet te boş etiket eklenir. Bu
türündedirler ve akustik modelleme için her bir vektörün etiket K adet etiketin hiçbirine uymayan durum için kullanılır.
üretilebilmesi için hizalanmış SMM durum dizisine ihtiyaç Bu yapıda, akustik özellik ve etiketleri çiftler halinde eğitilir.
duyarlar. Bu durumda Akustik eğitim öncesinde DSA-SMM
eğitimi öncesinde GKM-SMM temelli bir akustik model L* = arg maxP(L|X) (4)
üretilmesine ihtiyaç duyulur çünkü eğitim setlerinde sadece ses (4) numaralı formülde görüldüğü gibi, tahmin edilmesi
sinyali ve bunun metin karşılığı bulunur. Ayrıca, bu tarz ikili beklenen L dizisine en çok benzeyen L* dizisinin üretilmesinde
veya çok adımlı tekniklerde ciddi işlem gücüne ve zamana X akustik özellik dizisinin kullanılması fikrine dayalıdır.
ihtiyaç duyulur ve doğru hizalanmamış veri kullanılması halinde
istatiksel sonuçlarda ciddi düşüşler ile karşılaşılmaktadır.

978-1-5386-4184-2/18/$31.00 ©2018 IEEE


III. ARAÇLAR VE KÜTÜPHANELER açıklanmaktadır. Bölümün birinci kısmında deneysel ortam
Bu çalışmada Türkçe ses tanıma uygulamalarında hakkında bilgi verilmiş olup, devamında optimizasyon
kullanılabilecek bir takım optimizasyon tekniklerinin tekniklerinin sonuçları açıklanarak karşılaştırmalı performans
karşılaştırılmasının yapılması amaçlanmıştır. Bu değerlendirmesi yapılmıştır.
karşılaştırmaların yapılabilmesi için bir deney ortamının
yaratılması gerekmektedir. Bu ortam belirli altyapılara, Deney Ortamı
kütüphanelere, test veri setlerine ihtiyaç duymaktadır. Bu
TABLO 1
bölümde bu araçlardan bazıları açıklanmıştır.
MODELİN DENEY ORTAMI PARAMETRELERİ

Makine öğrenmesi ile ses tanıma uygulamalarında ses


sinyallerinden özelliklerin çıkarılabilmesi için birçok farklı Optimizer LR TVDS Stddev Epoch BS NOE Mean
algoritma bulunmaktadır. Bu çalışmada optimizasyon GradientDescent 0.01 0-10 0.1 5000 1 1 0
teknikleri karşılaştırması için en yaygın kullanılan özellik ProximalGradientdesc
çıkarma tekniklerinden birisi olan Mel Frekans Kepstral 0.01 0-10 0.1 5000 1 1 0
ent
Katsayıları(MFKK) kullanılmıştır. Bu yöntem, insanların RMSPropOptimizer 0.01 0-10 0.1 5000 1 1 0
işitsel sistemlerini taklit eden bir yapıdadır ancak ses sinyalleri
0.00
için seslerinin frekans algılanışına göre doğrusal bir yapıda MomentumOptimizer 0-10 0.01 5000 1 1 0
5
değildir. İnsan algısının belli frekans aralığında duyarlı olması AdadeltaOptimizer 10 0-10 0.1 5000 1 1 0
sebebiyle gerçek frekansın her bir tonu için Mel ölçeği ile öznel
bir adım ölçümü yapılır. İnsanların duyarlı olduğu statik ve AdagradOptimizer 0.1 0-10 0.1 5000 1 1 0
dinamik özelliklerden statik özelliklere odaklanılır ve her bir AdamOptimizer 0.01 0-10 0.1 5000 1 1 0
sinyal çerçevesindeki bilgiyi dinamik olarak takip etmek için FtrlOptimizer 0.01 0-10 0.1 5000 1 1 0
çerçeveler arası farklar alınarak özellik çıkarımı yapılır [9]. ProximalAdagradOpti
Oldukça yaygın kullanılan bu yöntem tercih edilerek 0.01 0-10 0.1 5000 1 1 0
mizer
optimizasyon tekniklerinin performans ölçümlerinde LR:Learning Rate, TVDS: Traning and Validation dataset, BS:
objektifliğin yakalanması amaçlanmıştır. BatchSize, NOE: Number of Examples

Optimizasyon tekniklerinin karşılaştırılması için yazılım Akustik model eğitimi için Tensorflow kütüphanesi
altyapısında Tensorflow kütüphanesinden yararlanılmıştır. kullanılmıştır. Python ile geliştirme yapmaya imkan tanıyan bu
Tensorflow, Apache 2.0 lisansı ile açık kaynak kodlu olarak kütüphane derin öğrenme tabanlı akustik model eğitimine ve
dağıtımı yapılmakta olup Google tarafından derin öğrenme Ağırlıklı Sonlu Durum Dönüştürücüsüne dayalı kod çözme
çalışmalarında kullanılmak üzere geliştirilmiştir. Çizelgelerin tekniklerini destekler. Bu eğitim için LDC üzerinde dağıtımı
düğümleri matematiksel işlemleri temsil ederken bağlantılar yapılan Metu 1.0 veriseti [12] kullanılmıştır.
tensör olarak isimlendirilen çok boyutlu dizilerden
oluşmaktadır. Python ile programlamaya oldukça uygun olup, Bu veriseti 2006 yılında Ortadoğu Teknik Üniversitesi
CPU ve GPU altyapısı ile paralel hesaplamalar yapmaya imkan Elektrik Elektronik Bölümü ile Colorado Üniversite
tanımaktadır. 2017 yılındaki bir araştırmada, Alexnet üzerinde ortaklığında “Spoken Language Research” projesi kapsamında
yapılan derin öğrenme kütüphaneleri karşılaştırmasında en kısa hazırlanmış olup, 120 konuşmacı (60 Erkek, 60 Kadın)
sürede sınıflandırma yapabilen kütüphanenin Tensorflow tarafından seslendirilmiş 2462 cümlenin bulunduğu bir veri
olduğu kanıtlanmıştır [10]. setidir. Her bir konuşmacı 40 adet cümle seslendirmiştir ve
toplamda 500 dakikalık ses verisi içermektedir. Tüm
Derin öğrenme çalışmalarında eğitim modelleri içerinde konuşmalar 16 Khz örnekleme frekansında 16 bit çözünürlükte
kullanılabilir birçok farklı optimizasyon algoritması kaydedilmiştir. Kaydın sessiz odada yapılması sebebiyle gürültü
bulunmaktadır. Bu araştırmada, [11] numaralı web sayfasında vb. seslerden arındırılmış kayıtlardır.
verilmiş olan Tensorflow kütüphanesinde bulunan
optimizasyon yöntemlerinden GradientDescent, Bu veriseti içerisinden bir kullanıcı seçilerek
ProximalGradientDescent, RMSPropOptimizer, konuşmacı bağımlı bir model oluşturulmuştur. BZS kullanılarak
MomentumOptimizer, AdadeltaOptimizer, AdagradOptimizer, UKSB TSA tabanlı Akustik model üretilmiştir. Bu model
AdamOptimizer ve FtrlOptimizer algoritmalarının performans üretiminde MFCC tabanlı özellik çıkarım metodu kullanılmıştır.
karşılaştırması yapılmıştır. 13 adet özellik seçilerek deney ortamı kurgulanmıştır.

Performans Değerlendirmesi
IV. DENEY VE DEĞERLENDİRME
Bu bölümde küçük ölçekli bir Türkçe eğitim seti kullanılarak Türkçe konuşma tanıma sistemleri için UKSB BZS tabanlı
BZS ve Derin öğrenme temelli bir akustik modelin kullanıldığı uçtan uca modelleme yapmak için kullanılabilir farklı
UKSB TSA tabanlı sistemin tasarımında farklı optimizasyon optimizasyon tekniklerinin performans değerlendirmesi
tekniklerinin kullanımı ve bunun performans sonuçlarına etkisi

978-1-5386-4184-2/18/$31.00 ©2018 IEEE


yapılmıştır. Bu işlem için bir önceki bölümde verilmiş olan
ortam kullanılmış olup, sonuçlar aşağıda gösterilmiştir. Eğitim ve Doğrulama Hata
Oranları
Tensorflow kütüphanesinin sahip olduğu 9 adet
optimizasyon tekniği için Tablo-1’de gösterilmiş olan topoloji 1.8
hazırlanmış ve [13] numaralı web sayfasında tartışılmış olan 1.6
eğitim değerleri dahilinde en iyi çalışma aralıklarına uygun 1.4
parametreler belirlenmiştir. Optimizasyon teknikleri farklı test 1.2
1
ortamlarında ciddi şekilde farklı performanslar gösterebilmekte 0.8
olup, en iyi çalışma ortamlarının oluşturulması oldukça 0.6
önemlidir. 0.4
0.2
Oluşturulan yaklaşık 50 test ortamı sonucunda her bir 0
optimizasyon tekniği için en iyi performanslarının seçildiği liste
performanslarına göre sıralı olarak Tablo-2’de liste ve Şekil-
1’de grafik halinde verilmiştir.

TABLO 1
OPTİMİZASYON TENİKLERİ PERFORMANS TEST
SONUÇLARI
average train_ler average validation_ler
TLER TLER VLER VLER
Optimizer ATLER AVLER
<50 % = 0 % <50 % = 0 %
Şekil 1 Eğitim ve Doğrulama Hata Oranları
GradientDescent 0.9458 0.5234 0.9368 0.3446 0.069117 0.091203
ProximalGradie Şekil-1 incelendiğinde, hem eğitim hem de doğrulama hata
ntdescent 0.9238 0.5186 0.9136 0.3644 0.08813 0.102717 değerleri için en iyi sonuçların klasik tipteki GradientDescent
RMSPropOptim yöntemi ile elde edildiği gözlemlenmiştir. Ancak
izer 0.957 0.4692 0.9524 0.1248 0.06259 0.102793 ProximalGradientDescent ve RMSPropOptimizer tekniklerinde
MomentumOpti de yaklaşık sonuçların elde edildiği, aynı testlerin benzer
mizer 0.8772 0.4686 0.8676 0.3512 0.135143 0.14953 şartlarda tekrarlanması halinde ilk üç sıradaki optimizasyon
AdadeltaOptimi tekniklerinde sıranın değişebildiği gözlemlenmiştir. Ayrıca
zer 0.9002 0.3954 0.8914 0.1198 0.122551 0.164146
5000 epoch içerisinde en az %50 ve altında hata oranı ile çalışma
AdagradOptimiz
oranı birçok teknik için %90 üzerinde iken 0 hata ile tam doğru
er 0.9134 0.3084 0.9016 0.0198 0.109114 0.180349
sınıflandırma oranı %52 seviyelerinde kalmıştır. Tablo-2’de
AdamOptimizer 0.8484 0.3958 0.8426 0.0444 0.16545 0.225922 verilmiş olan değerler incelendiğinde ise, bazı optimizasyon
FtrlOptimizer 0.1198 0 0.0766 0 0.739715 0.756674 tekniklerinin 0 hata oranı ile tanıma yaptığı değerler 0 olarak
ProximalAdagra bulunmuştur. Bu göstermektedir ki, optimizasyon tekniklerinin
dOptimizer 0.0862 0 0.049 0 0.75492 0.775987 öğrenme katsayıları doğru seçilmediği takdirde öğrenme
TLER: Training Learning Error Rate, VLER: Validation gerçekleşememekte ve sonuçta performanslarda ciddi düşüşler
Learning Error Rate, ATLER: Average Training LER, AVLER: yaşanabilmektedir.
Average Validation LER Seçilen 10 adet veri için kişi bağımlı testlerde doğruluk
seviyesinin yükselmesinin, Tablo-3’te gözlemlendiği gibi
Epoch sayısındaki artış ile mümkün olabildiği görülmüştür.
TABLO 2
EPOCH SAYISININ PERFORMANSA ETKİSİ

TLER TLER VLER VLER


Optimizer Epoch ATLER AVLER
<50 % =0 % <50% = 0 %
ProximalGradi
entDescent 20000 0.9807 0.5695 0.9789 0.4061 0.032003 0.042267
GradientDesce
nt
10000 0.9648 0.5561 0.9613 0.4085 0.047548 0.056826
GradientDesce
nt
20000 0.9771 0.5759 0.9754 0.1214 0.034652 0.087925
GradientDesce
nt 5000 0.9458 0.5234 0.9368 0.3446 0.069117 0.091203

978-1-5386-4184-2/18/$31.00 ©2018 IEEE


ProximalGradi sabit tutularak modelin gizli düğüm sayısı değiştirildiğinde bu
entdescent 5000 0.9238 0.5186 0.9136 0.3644 0.08813 0.102717 sayıda da optimum değerin bulunması gerektiği modelin çok
TLER: Training Learning Error Rate, VLER: Validation sade veya çok karmaşık olmasının hata oranına olumsuz yönde
Learning Error Rate, ATLER: Average Training LER, AVLER: etki ettiği gözlenmiştir. Bu etkinin hem eğitim hem de
Average Validation LER doğrulama hata oranlarında gözlemlenmesi ve benzer etkiler
göstermesi dikkat çekicidir (Şekil-3).
Tablo-3’te 5000 Epoch için en iyi sonuçların alınabildiği 2
adet optimizasyon tekniği için Epoch sayısındaki artışın
ortalama hata oranındaki ciddi etkisi gösterilmektedir.
ProximalGradientDescent tekniği için %90 olan performans Gizli Katman Sayısının Hata
Epoch sayısının 20000’e çıkarılması halinde %96 seviyelerine
yükselmektedir. Bu durumda, işlem gücünün yüksek olduğu
Oranına Etkisi
sistemlerde çalışılarak eğitim gerçekleştirilir ve öğrenme 1
katsayıları küçültülerek Epoch sayıları yükseltilir ise doğru
sınıflandırma performansında ciddi artışların olabileceği
değerlendirilmiştir. 0.5

Ayrıca en iyi performans değerinin elde edildiği,


0
ProximalGradientDescent yöntemi için Epoch sayısı değişken
olarak verildiğinde aşağıdaki grafikteki gibi sonuç elde 0 100 200 300 400
edilmiştir. Epoch sayısındaki artış beraberinde hata oranlarında average train_ler average validation_ler
düşüşü getirmektedir. Ancak eğitim katsayının sabit tutularak
Epoch sayısının çok artırılması halinde Şekil-2’de görüleceği
üzere hata oranında tekrar bir sapma ile karşılaşılmaktadır ve bu Şekil 3 Gizli Katman Sayısının Hata Oranına Etkisi
durum sınıflandırma performansını ciddi olarak düşürmektedir.
V. SONUÇLAR
Uçtan uca derin öğrenme veri ve hesaplama imkânlarındaki
Epoch Sayısının Değişimin artış ile birlikte konuşma tanıma uygulamalarında ciddi
performans artışlarını yakalamak için iyi fırsatlar sunmaktadır.
1.2 Sınıflandırma Performansına Etkisi Birçok farklı dile hızlı bir şekilde uygulanabilmekte ve sonuçlar
etkili bir şekilde alınabilmektedir.
1 Bu çalışmada, Türkçe konuşma tanıma sistemlerinde akustik
model üretimi için derin öğrenme temelli UKSB BZS tabanlı
uçtan uca konuşma tanıma sistemi tasarımında farklı
0.8 optimizasyon tekniklerinin performansa etkisi tartışılmış,
yapılan test sonuçları ortaya konulmuştur. Bu testleri LDC
üzerinden dağıtımı yapılan Metu 1.0 Türkçe veri tabanından
0.6 seçilen bir bölüm kullanılmıştır.
Klasik tipteki UKSB yapısı Derin Öğrenme ve Tekrarlayan
0.4 Sinir Ağları, aktivasyon fonksiyonlarının ürettiği değerin sıfıra
yakınsaması problemine bir çözüm olarak önerilmiştir. Ancak
bu model uzun eğitim süreçlerini yönetmeyi de beraberinde
0.2 getirmiştir. BZS algoritması bu problemi çözmek üzere
önerilmiştir. Algoritma Türkçe veri setlerine uygulanarak
sonuçları değerlendirildi ve iyi bir optimizasyon tekniği
0
seçmenin sonuçlara doğrudan etki ettiği gösterilmiştir.
0 10000 20000 30000 40000 50000
Sonuçta ProximalGradientDescent, GradientDescent ve
TLER<50 % TLER=0 % VLER <50% RMSProp optimizasyon tekniklerinin aynı veri setinde daha iyi
sonuçlar ürettiği gösterilmiştir. Geliştirilecek olan uçtan uca
VLER = 0 % ATLER AVLER konuşma tanıma araştırmalarında bu algoritmaların
kullanılmasının faydalı olacağı değerlendirilmektedir.
TLER: Training Learning Error Rate, VLER: Validation
Learning Error Rate, ATLER: Average Training LER, AVLER: KAYNAKLAR
Average Validation LER [1] Donghyun, L., Minkyu L., Hosung P., Yoseb K., Jeong-Sik P., Gil-Jin J.
Ve Ji-Hwan K., “Long Short-Term Memory Recurrent Neural Network-
Şekil 2 Epoch Sayısının Sınıflandırma Performansına Etkisi Based Acoustic Model Using Connectionist Temporal Classification on a
Large-Scale Training Corpus”, Recent Development of Speech And
Bunun yanında gizli düğüm sayısındaki değişkenliğin hata Audio Signal Processing in Network Communication, 14(6): 23-31, 2017
oranlarına etkisi de bu çalışmada değerlendirilmiştir. Buna göre, [2] Nursal, Y., “Konuşma Tanıma Teorisi ve Teknikleri”, Kastamonu Eğitim
en iyi sonuçların alındığı GradientDescent optimizasyon tekniği Dergisi, 249-266,2008

978-1-5386-4184-2/18/$31.00 ©2018 IEEE


[3] Anusuya, M.A. ve Katti S.K., “Speech Recognition by Machine: A
Review”, International Journal of Computer Science and Information
Securiy, 181-205, 2009
[4] Dan S., Xihong W., Lei X., “GMM-HMM Acoustic Model Training by a
Two Level Procedure With Gaussian Components Determined by
Automatic Model Selection, IEEE International Conference on Acoustics,
Speech and Signal Processing, 2010
[5] Mikolov, T., Karafiat M., Burget L., Cernocky H., Khudanpur S.,
“Recurrent Neural Network Based Language Model”, 11th Conference of
International Speech Communication Association, 2010
[6] Hinton G., Deng, L., Dong, Y., George D., Abdel-rahman M., Navdeep
J., Andrew S., Vincent V., Nguyen P., Sainath T. ve Kingsbury B., “Deep
Neural Networks for Acoustic Modelling in Speech Recognition, IEEE
Signal Processing Maganize, 29(6):82-97,2012
[7] Graves, A., Fernandez S., Gomes F. ve Schmidhuber J., “Connectionist
Temporal Classification: Labelling Unsegmented Sequence Data with
Recurrent Neural Networks”, Internaional Conference on Machine
Learning,369-376, 2006
[8] Graves, A. ve Jaitly Navdeep, “Towards End to End Speech Recognition
with Recurrent Neural Networks”, ICML 14 – 31st International
Conference on Machine Learning, 32:1764-1772,2014
[9] Tiwari, V., “MFCC and its applications in speaker recognition”,
International Journal of Emerging Technologies, 19-22, 2010
[10] Altuğ, Y., “İş Süreçlerinde İnsan Görüsünün Derin Öğrenme ile
Destekleme”, Y. Lisans Tezi, Trakya Üniversitesi Fen Bilimleri Ens.
[11] Optimizers,
https://www.tensorflow.org/api_docs/python/tf/train/Optimizer, Erişim
Tarihi:28/05/2018
[12] Metu 1.0 Türkçe Veriseti, https://catalog.ldc.upenn.edu/LDC2006S33,
Erişim Tarihi:28/05/2018
[13] Optimizer Learning Rate, https://medium.com/octavian-ai/which-
optimizer-and-learning-rate-should-i-use-for-deep-learning-
5acb418f9b2, Erişim Tarihi:28/05/2018

978-1-5386-4184-2/18/$31.00 ©2018 IEEE

You might also like