Jenis-jenis Speech Recognition

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 (lima) jenis pengenalan kata, yaitu: a. b. c. Kata-kata yang terisolasi, yaitu proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata. Kata-kata yang berhubungan, yaitu proses pengidentifikasian kata yang mirip dengan katakata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat. Kata-kata yang berkelanjutan, yaitu proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural. Kata-kata spontan, yaitu proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata. Verifikasi atau identifikasi suara, yaitu proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

d. e.

Tahapan Proses Speech Recognition Salah satu aplikasi speech recognition open source yang terkenal adalah Sphink-4. Konfigurasi aplikasi Sphinx-4 terlihat pada gambar diatas. Dari konfigurasi tersebut terlihat bahwa Sphinx mempunyai tiga komponen yaitu front end (berfungsi untuk antarmuka dari voice input), decoder (komponen yang berfungsi untuk memberikan score), dan linguist (yang menghasilkan grafik pencarian di database suara). Komponen-komponen ini pada gilirannya akan membangun sub komponen mereka sendiri. Sebagai contoh, linguist akan membangun acoustic model, dictionary, dan language model. Linguist ini akan menggunakan pengetahuan dari tiga komponen untuk membangun sebuah grafik pencarian yang sesuai. Decoder akan membangun pengaturan pencarian, yang pada gilirannya membangun score, pruner, dan active list.

sourceforge. Hal untuk mengumpulkan database suara. Konfigurasi Aplikasi Sphinx-41 Ketika terdapat input suara melalui front end. Tahapan yang dibuat dalam speech recognition adalah sebagai berikut: a. 100 orang perempuan). Ruangan kedap suara ini harus mempunyai karakteristik sebagai berikut: 1) Sound insulation level: 30 dB 2) Background noise level: 22 dB 3) Reverberation time : 0.Gambar 1. Merekam sumber suara misal dari 200 orang (100 orang laki-laki.15 detik. Dalam perekaman ini diperlukan suatu ruangan kedap suara seperti terlihat pada gambar 13. Score tertinggi akan di tampilkan sebagi hasil dari speech recognition ke aplikasi melalui front end. 1 Http://cmusphinx. decoder akan memberikan score berdasarkan komponen linguist.net/sphinx4/javadoc/ .

Speech Identification adalah proses pelatihan seseorang atau huruf yang diucapkan ke pengenalan suara dengan cara mendaftarkan pembicara dari ucapan yang diberikan. c. Proses Pengenalan Suara secara Identifikasi dan Verifikasi Proses pengenalan suara terbagi menjadi Verification dan Identification. Contoh Sinyal Suara Pembangunan lexicon Proses ini berupa pengumpulan teks–teks yang nantinya akan dikenali oleh engine speech recognition. Language model Adalah model yang akan digunakan untuk membuat representasi statistik suara yang membentuk setiap kata. b. Untuk membuat acoustic model diperlukan file wav (hasil rekaman) dan daftar alamat penempatan file wav itu di dalam suatu direktori. Dari hasil perekaman sumber suara tersebut akan diolah untuk menghasilkan acoustic modelling. d. Speech Verification adalah proses penentuan . Acoustic model Adalah suatu model yang merepresentasikan statistik dari suara setiap kata yang diucapkan. Ruangan Kedap Suara Dibawah ini merupakan contoh hasil perekaman: Gambar 3.Gambar 2.

klasifikasi. Speaking Mode. sedangkan continous speech tidak. model pengucapan isolated word artinya pembicara memerlukan jeda untuk pengucapan antara satu kata dengan kata yang lain.ia n k d e e r p a t a ) di n se i lt t ae i n g g i t s e a m c o p n a . Umumnya pengenalan suara memiliki tahap pelatihan/identifikasi dan verifikasi. Proses pengenalan suara offline maupun online terdapat proses identifikasi namun terdapat perbedaan pada proses verifikasi. Hal ini dapat membedakan keberhasilan antara satu aplikasi dengan yang lain. b. Sedangkan sistem online adalah sistem yang menghasilkan output tanpa bantuan proses secara manual oleh user. Beberapa parameter yang paling penting terdapat pada tabel 2 berikut: Tabel 1. ekstraksi ciri. pembicara berbicara dengan cara spontan atau dengan persiapan.identitas pembicara atau arti dari suara yang diucapkan oleh pembicara yang dibandingkan dengan data yang telah tersimpan pada sistem. Pada proses identifikasi memiliki tahap normalisasi. pada pengenalan suara secara offline verifikasi dilakukan dengan cara suara yang akan dikenali direkam terlebih dahulu sebelum memulai proses pengenalan suara sedangkan jika pada proses secara online verifikasi dilakukan dengan dinamis yaitu menggunakan pengucapan suara langsung tanpa melalui proses perekaman terlebih dahulu.s t i e nx ts i t i v e ( > p 3 0 a d m B ) i k s a m r o p o p n a i R s a m e n p d a h a i u ( < 1 0 a n a n a d c a p c a p Parameter tersebut adalah: a. Perbedaan proses verifikasi suara pada proses Offline dan Online Parameter Pengenalan Suara Aplikasi pengenalan suara dibatasi berdasarkan parameter pengenalan suara yang digunakan. Proses Pengenalan Suara Offline dan Online Sistem offline adalah suatu sistem yang menghasilkan output dengan bantuan proses secara manual oleh user. Tabel Parameter Pengenalan Suara P S S E V L S T p p n o a N r a e a e a r o c a n R n s d u c e r g a r a m k i n k i n l l m b u u a g g g e n l a e S t r y M e t e r M o I d s eo t y Rl e e a S S Fo T U p e d l a d i k R a n u n g o e o e u u s s e n s a m s p s p d p e e c h e e c h e n a i t B a n y a k ( > t e s d a m c opo r an d i t si n w ss ap me s ep p c o a h ni t a i t ( < 2 0 k e . Keberhasilan aplikasi dengan parameter tertentu belum tentu dapat diaplikasikan dalam aplikasi lain dengan parameter berbeda. Gambar 4. seperti kasus pengucapan pidato atau orang yang berbicara secara langsung.da ek pe re ns a d m e S n p t ea . Speaking Style. Orang yang berbicara .

mood dan lain-lain. adalah ratio perbandingan daya sinyal dengan daya background noise. Miyatake 1990. g. maksudnya bahwa range suku kata yang diucapkan jika lebih kecil dari 20 kata disebut Small Vocabulary dan jika lebih dari 20. mendaftarkan sumber suara dari pembicara. Namun hal ini dapat memiliki hasil berbeda jika memiliki kata yang berbunyi sama. gaya suara. 7% atau 45 % (Itakura 1975. f. h. e. hal ini biasanya penggunaan media dalam pengaturan frekuensi sampling. yaitu: finite state artinya model bahasa terbatas sedangkan context-sensitive dapat mengenali berbagai model bahasa. seperti pada kasus pengenalan 26 huruf bahasa Inggris sulit membedakan kata yang berbunyi bersetE.secara langsung lebih sulit dikenali dari pada orang berpidato. T. speaker dependent artinya sistem digunakan hanya untuk mengenali satu orang pembicara sedangkan speaker independent artinya sistem dapat digunakan bebas untuk pembicara mana pun.000 kata disebut Large Vocabulary. Vocabulary. tetapi jika ukuran vocabulary 200. Enrollment. atau 10. P. d. artinya proses perubahan besaran suara dari sinyal analog ke sinyal digital. hal ini berkaitan dengan tingkat Vocabulary yang digunakan misalnya penelitian 10 digit suara “Zero” sampai “Nine” dapat dikenali dengan baik (Doddington 1989).000 memiliki rata-rata error 3%. . E. V. maksudnya tingkat error pengenalan pengucapan pada kata yang berbunyi sama (sulit menentukan maksud huruf/kata yang diucapkan). Transducer. dan sebagainya. disebut SNR tinggi di lingkungan jika di atas 30 dB dan disebut SNR rendah jika kurang dari 30dB. Kimura 1990). 500. SNR (Signal to Noise Ratio). Language Model adalah proses pengenalan suara model bahasa yang digunakan seperti. c. Hal ini terbagi dua. Tingkat SNR menunjukkan apakah noise berpengaruh pada kejelasan sinyal sehingga jika SNR yang tinggi maka dihasilkan informasi yang semakin banyak untuk diperoleh dan pengenalan semakin tinggi sedangkan jika pada SNR rendah maka proses pengenalan suara memiliki keberhasilan yang lebih sedikit. Z dalam hal ini jika dihasilkan error 8 % sudah termasuk bagus (Hild & Waibel 1993). Hal ini berbeda sekali jika menggunakan mikropon yang suara disekat-sekat dengan menggunakan telepon yang memiliki karakteristik alat berbeda dimana mikropon biasanya memiliki frekuensi sampling 16 KHz dan telepon 8 KHz. D. filter noise. C. begitu pula tingkat noise yang perlu diredam. G. seperti huruf B. Perplexity.