Professional Documents
Culture Documents
Ars Lan 2018
Ars Lan 2018
Özetçe— Konuşma tanıma uygulamaları için Akustik Model(AM) Keywords — Acoustic Model(AM), Long Short Term
üretiminde Uzun Kısa Süreli Bellek(UKSB) tabanlı Tekrarlayan Sinir Memory(LSTM), Connectionist Temporal Classification(CTC),
Ağlarının kullanımı ile Gaussian Karışım Modeline (GKM) göre daha Recurrent Neural Network(RNN), Optimization Techniques
iyi sonuçlar alınmaya başlanılmıştır. GKM bazlı akustik modellerin
üretiminde hizalanmış Saklı Markov model(SMM) durumlarına I. GİRİŞ
ihtiyaç duyulması, derin öğrenme sürecini uzatmaktadır. Buna çözüm Konuşma tanıma insan bilgisayar etkileşiminin en önemli
olarak Bağlantıcı Zamansal Sınıflandırma(BZS) tabanlı akustik model alanlarından birisidir ve klavye, fare gibi farklı bilgi girdi
üretimi önerilmiştir. Bu çalışmada BZS tabanlı bir model araçlarının yerine ses ile bir çok farklı cihazın, servislerin
oluşturulmuştur. Farklı optimizasyon tekniklerinin sınıflandırma
kontrol edilmesine imkan tanımaktadır. Bu alanda birçok ticari
performansına etkisi karşılaştırmalı olarak yapılmıştır. Bu testler
Türkçe konuşma veri setlerine uygulanmış olup ses tanıma
uygulama bulunmakta olup, Apple Siri, Baidu, Google Speech
uygulamalarında kullanılacak en iyi optimizasyon tekniklerinin gibi kişisel destek asistanları insan hayatı içerisinde geniş yer
belirlenmesi hedeflenmiştir. Performans ölçütleri belirlenerek tutmaktadır [1].
sonuçlar değerlendirilmiştir. Buna göre GradientDescent, Ses tanıma teknolojilerinin temelinde, ses işaretinden kelime
ProximalGradientDescent ve RMSPROP optimizasyon tekniklerinin dizilerinin hesaplanması işlemi yatar ve bu hesaplama akustik
diğer algoritmalara göre daha iyi sonuçlar ürettiği gözlemlenmiştir. model ve dil modeli ile birlikte istatistiksel yaklaşımlarla
Anahtar Kelimeler — Akustik Model, Uzun Kısa Süreli Bellek, gerçekleştirilir.
Bağlantıcı Zamansal Sınıflandırma, Tekrarlayan Sinir Ağı,
Konuşma tanıma problemi, verilen bir akustik X dizisi için,
Optimizasyon
W kelime dizilerini bulmak için oluşturulmuştur. Konuşma
Abstract— In the production of acoustic models for speech cümleleri W = (w1, w2, .. ) şeklinde belirtilen kelimelerin dizisi
recognition applications, the use of Long Short Term Memory(LSTM) olarak gösterilir. Wt ayrık bir t zamanında söylenmiş belli bir
based Recurrent Neural Network(RNN) has begun to get better results kelimeyi temsil eder. Kelime dizisi söylenen sesli ifade ile
than the use of Gaussian Mixture Model(GMM). The creation of bağlantılıdır ve bu sesli ifade X olarak gösterilen akustik seslerin
GMM-based acoustic models is prolonging the deep learning process dizisidir [2].
due to the need for aligned Hidden Markov Model(HMM). As a
solution to this problem, another method to generate acoustic models Geniş sözcük dağarcıklı sürekli konuşma tanıma
is proposed that is based on Connectionist Temporal modellerinde standart yaklaşıma göre (1)’de verilmiş olan
Classification(CTC). In this study, a CTC based model is created and formül kullanılır.
the effect of different optimization techniques on the classification
performance is compared. These tests were applied on Turkish speech P(W/A) = arg max P (W/A) (1)
datasets to determine the best optimization techniques to be used in Buna göre, olası bir P(W|A) olasılıklı A sözcük dizisinin W
speech recognition applications. Our evaluation results showed that akustik gözlem dizisini ürettiği varsayılmaktadır. Sonrasında,
GradientDescent, ProximalGradientDescent and RMSPROP produce akustik gözlem sırasına bağlı olarak söylenmiş olan kelime
better results than other algorithms.
dizisinin çözülmesi ve maximum olasılıklı dizinin tanınmış
Optimizasyon tekniklerinin karşılaştırılması için yazılım Akustik model eğitimi için Tensorflow kütüphanesi
altyapısında Tensorflow kütüphanesinden yararlanılmıştır. kullanılmıştır. Python ile geliştirme yapmaya imkan tanıyan bu
Tensorflow, Apache 2.0 lisansı ile açık kaynak kodlu olarak kütüphane derin öğrenme tabanlı akustik model eğitimine ve
dağıtımı yapılmakta olup Google tarafından derin öğrenme Ağırlıklı Sonlu Durum Dönüştürücüsüne dayalı kod çözme
çalışmalarında kullanılmak üzere geliştirilmiştir. Çizelgelerin tekniklerini destekler. Bu eğitim için LDC üzerinde dağıtımı
düğümleri matematiksel işlemleri temsil ederken bağlantılar yapılan Metu 1.0 veriseti [12] kullanılmıştır.
tensör olarak isimlendirilen çok boyutlu dizilerden
oluşmaktadır. Python ile programlamaya oldukça uygun olup, Bu veriseti 2006 yılında Ortadoğu Teknik Üniversitesi
CPU ve GPU altyapısı ile paralel hesaplamalar yapmaya imkan Elektrik Elektronik Bölümü ile Colorado Üniversite
tanımaktadır. 2017 yılındaki bir araştırmada, Alexnet üzerinde ortaklığında “Spoken Language Research” projesi kapsamında
yapılan derin öğrenme kütüphaneleri karşılaştırmasında en kısa hazırlanmış olup, 120 konuşmacı (60 Erkek, 60 Kadın)
sürede sınıflandırma yapabilen kütüphanenin Tensorflow tarafından seslendirilmiş 2462 cümlenin bulunduğu bir veri
olduğu kanıtlanmıştır [10]. setidir. Her bir konuşmacı 40 adet cümle seslendirmiştir ve
toplamda 500 dakikalık ses verisi içermektedir. Tüm
Derin öğrenme çalışmalarında eğitim modelleri içerinde konuşmalar 16 Khz örnekleme frekansında 16 bit çözünürlükte
kullanılabilir birçok farklı optimizasyon algoritması kaydedilmiştir. Kaydın sessiz odada yapılması sebebiyle gürültü
bulunmaktadır. Bu araştırmada, [11] numaralı web sayfasında vb. seslerden arındırılmış kayıtlardır.
verilmiş olan Tensorflow kütüphanesinde bulunan
optimizasyon yöntemlerinden GradientDescent, Bu veriseti içerisinden bir kullanıcı seçilerek
ProximalGradientDescent, RMSPropOptimizer, konuşmacı bağımlı bir model oluşturulmuştur. BZS kullanılarak
MomentumOptimizer, AdadeltaOptimizer, AdagradOptimizer, UKSB TSA tabanlı Akustik model üretilmiştir. Bu model
AdamOptimizer ve FtrlOptimizer algoritmalarının performans üretiminde MFCC tabanlı özellik çıkarım metodu kullanılmıştır.
karşılaştırması yapılmıştır. 13 adet özellik seçilerek deney ortamı kurgulanmıştır.
Performans Değerlendirmesi
IV. DENEY VE DEĞERLENDİRME
Bu bölümde küçük ölçekli bir Türkçe eğitim seti kullanılarak Türkçe konuşma tanıma sistemleri için UKSB BZS tabanlı
BZS ve Derin öğrenme temelli bir akustik modelin kullanıldığı uçtan uca modelleme yapmak için kullanılabilir farklı
UKSB TSA tabanlı sistemin tasarımında farklı optimizasyon optimizasyon tekniklerinin performans değerlendirmesi
tekniklerinin kullanımı ve bunun performans sonuçlarına etkisi
TABLO 1
OPTİMİZASYON TENİKLERİ PERFORMANS TEST
SONUÇLARI
average train_ler average validation_ler
TLER TLER VLER VLER
Optimizer ATLER AVLER
<50 % = 0 % <50 % = 0 %
Şekil 1 Eğitim ve Doğrulama Hata Oranları
GradientDescent 0.9458 0.5234 0.9368 0.3446 0.069117 0.091203
ProximalGradie Şekil-1 incelendiğinde, hem eğitim hem de doğrulama hata
ntdescent 0.9238 0.5186 0.9136 0.3644 0.08813 0.102717 değerleri için en iyi sonuçların klasik tipteki GradientDescent
RMSPropOptim yöntemi ile elde edildiği gözlemlenmiştir. Ancak
izer 0.957 0.4692 0.9524 0.1248 0.06259 0.102793 ProximalGradientDescent ve RMSPropOptimizer tekniklerinde
MomentumOpti de yaklaşık sonuçların elde edildiği, aynı testlerin benzer
mizer 0.8772 0.4686 0.8676 0.3512 0.135143 0.14953 şartlarda tekrarlanması halinde ilk üç sıradaki optimizasyon
AdadeltaOptimi tekniklerinde sıranın değişebildiği gözlemlenmiştir. Ayrıca
zer 0.9002 0.3954 0.8914 0.1198 0.122551 0.164146
5000 epoch içerisinde en az %50 ve altında hata oranı ile çalışma
AdagradOptimiz
oranı birçok teknik için %90 üzerinde iken 0 hata ile tam doğru
er 0.9134 0.3084 0.9016 0.0198 0.109114 0.180349
sınıflandırma oranı %52 seviyelerinde kalmıştır. Tablo-2’de
AdamOptimizer 0.8484 0.3958 0.8426 0.0444 0.16545 0.225922 verilmiş olan değerler incelendiğinde ise, bazı optimizasyon
FtrlOptimizer 0.1198 0 0.0766 0 0.739715 0.756674 tekniklerinin 0 hata oranı ile tanıma yaptığı değerler 0 olarak
ProximalAdagra bulunmuştur. Bu göstermektedir ki, optimizasyon tekniklerinin
dOptimizer 0.0862 0 0.049 0 0.75492 0.775987 öğrenme katsayıları doğru seçilmediği takdirde öğrenme
TLER: Training Learning Error Rate, VLER: Validation gerçekleşememekte ve sonuçta performanslarda ciddi düşüşler
Learning Error Rate, ATLER: Average Training LER, AVLER: yaşanabilmektedir.
Average Validation LER Seçilen 10 adet veri için kişi bağımlı testlerde doğruluk
seviyesinin yükselmesinin, Tablo-3’te gözlemlendiği gibi
Epoch sayısındaki artış ile mümkün olabildiği görülmüştür.
TABLO 2
EPOCH SAYISININ PERFORMANSA ETKİSİ