Proposal ResearchGrant UUL

Proposal Research Grant – TPSDP Tahun Ke-4 – Dirjen DIKTI Depdiknas Republik Indonesia
1. JUDUL PROYEK PENELITIAN
ADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM

PENGENALAN UCAPAN BAHASA INDONESIA BAKU MENGGUNAKAN
PENDEKATAN BOOTSTRAPPING TERMODIFIKASI
ADAPTING ENGLISH SPEECH RECOGNITION SYSTEM INTO INDONESIAN

STANDARD LANGUAGE SPEECH RECOGNITION SYSTEM USING MODIFIED
BOOTSTRAPPING APPROACH
2. PENDAHULUAN
Sistem pengenalan ucapan pada dasarnya merupakan sistem yang mendengarkan ucapan
seseorang dan membandingkan ucapan tersebut dengan data kata-kata atau frase yang telah
disiapkan sebelumnya agar diperoleh data kata yang paling mendekati tepat dengan ucapan
yang diterima. Kedengarannya memang mudah, namun banyak hal yang perlu disesuaikan
dengan budaya bahasa manusia, sehingga muncul banyak tantangan yang dihadapi agar
sistem pengenalan ucapan memberikan kinerja yang baik, terutama pengolahan data yang
cepat dan akurat. Kecepatan dan keakuratan sistem pengenalan ucapan seharusnya mampu
menyesuaikan diri dan membentuk interaksi manusia dan komputer seperti layaknya
percakapan alamiah sesama manusia [1].
Didalam dunia bahasa, banyak terdapat kasus-kasus ambiguitas yang masih sulit diproses
oleh komputer. Ambiguitas tersebut muncul pada tingkat yang berbeda-beda, mulai dari
simbol (misalnya simbol titik), kata, frasa, bahkan kalimat. Beberapa penelitian telah
berusaha memecahkan masalah bahasa ini. Penelitian tersebut mencoba dari berbagai sudut
pandang atau gabungannya.
Para peneliti telah mencoba memecahkan masalah-masalah bahasa pada penerapannya di

sistem pengenalan ucapan. Pemecahan dilakukan dengan sudut pandang global, seperti
pengembangan sistem pengenalan multi-bahasa yang diharapkan mampu memecahkan
masalah semua bahasa. Hal ini telah dilakukan oleh [2,3,4,5,6,7]. Telah diteliti pula
penerapan sistem pengenalan ucapan pada FPGA [8], yang sangat mungkin dibangun pada
sistem tertanam (Embedded System). Bahkan beberapa peneliti mencoba mengadopsi data
fonem satu bahasa ke bahasa lain dikarenakan belum tersedianya data fonem pada bahasa
yang bersangkutan. Diantara para peneliti ini adalah Kumar [9] yang mengembangkan
pengenalan ucapan Bahasa India dan Yuen [10] yang mengembangkan pengenalan ucapan
Bahasa Cina. Kedua peneliti menggunakan pendekatan bootstrapping dalam membuat data
fonem baru untuk bahasa yang belum memiliki atau belum lengkap data fonem dan data
pelatihannya. Keduanya mempunyai maksud yang sama yaitu mempercepat pengembangan
sistem pengenalan ucapan, tanpa direpotkan dengan pelatihan data kosakata yang begitu
besar jumlahnya.
Sementara itu, bahasa Indonesia sampai saat ini belum diimplementasikan ke dalam sistem
pengenalan ucapan, tidak seperti bahasa negara maju. Ketertinggalan ini dapat dimengerti
karena memang tingkat kesulitannya tinggi, baik dalam pengembangan sistem pengenalan
ucapan maupun ketersediaan data dan struktur bahasa itu sendiri. Walaupun demikian,
Tim Pengusul : Lintang Yuniar Banowosari, Nurul Huda, Wahyu Kusuma Raharja Hal 1 dari 17
tidaklah perlu berpangku tangan, berbagai langkah untuk pengembangan sekecil apapun
dalam upaya meningkatkan kualitas bahasa akan berdampak positif secara luas pada bidang
lain.
Oleh karena itu, peneliti mulai menerapkan wacana penelitian di bidang sistem pengenalan
ucapan bahasa Indonesia dimulai dari titik awal dengan melihat aspek pemetaan fonem
seperti yang dilakukan oleh Kumar dengan memodifikasi pendekatan bootstrapping.
Disamping itu, hal ini sangat sesuai dengan kondisi bahasa Indonesia yang belum
menyiapkan data fonem dan data pelatihan khusus untuk sistem pengenalan ucapan bahasa
Indonesia.
2.1 Perumusan Masalah
Penelitian ini termasuk pada Kelompok Penelitian Intelijensi Buatan dan Sistem Pakar.
Bidang ilmu yang erat terkait pada penelitian ini diantaranya adalah Pengolahan Sinyal
Digital, Sistem Kendali, Statistika dan Linguistik.
Penelitian ini akan mengkaji masalah-masalah yang berhubungan dengan pengembangan

sistem pengenalan ucapan dengan obyek Bahasa Indonesia menggunakan pendekatan
bootstrapping. Masalah-masalah tersebut adalah sebagai berikut :
1. Bagaimana mengembangkan secara cepat prototipe suatu sistem pengenalan ucapan
Bahasa Indonesia dengan memanfaatkan sistem pengenalan ucapan Bahasa Inggris
yang sudah ada.
2. Bagaimana merancang pemetaan antara fonem Bahasa Indonesia dengan fonem
Bahasa Inggris.
3. Bagaimana merancang algoritma penyesuaian akibat perbedaan fonem Bahasa
Indonesia dan Bahasa Inggris untuk membangun notasi fonem Bahasa Indonesia.
2.2 Tujuan Penelitian
Penelitian ini mempunyai tujuan sebagai berikut :

1. Agar terbangunnya prototipe sistem pengenalan ucapan bahasa Indonesia
menggunakan pendekatan bootstrapping yang dimodifikasi untuk penyesuaian
pemetaan antara fonem Bahasa Indonesia dengan fonem Bahasa Inggris.
2. Tercapainya hasil pengujian yang memenuhi kriteria “baik” terhadap algoritma
penyesuaian untuk menyelaraskan notasi fonem hasil pemetaan menjadi notasi
fonem Bahasa Indonesia baku.
2.3 Batasan Penelitian
Penelitian ini dibatasi pada beberapa spesifikasi yang dijekaskan berikut ini.
1. Sistem pengenalan ucapan Bahasa Inggris yang diadaptasikan berupa paket program
berbasiskan open source.
2. Pengembangan sistem pengenalan ucapan Bahasa Indonesia mengacu pada kaidah
Bahasa Indonesia baku.
3. Fonem Bahasa Indonesia mengacu pada kamus Bahasa Indonesia dan kamus
terjemahan Bahasa Indonesia – Inggris.
4. Fonem Bahasa Inggris mengacu pada International Phonetic Alphabet (IPA).

5. Prototipe sistem pengenalan ucapan yang dibangun hanya ditujukan sampai pada
notasi fonem Bahasa Indonesia.
3. TINJAUAN PUSTAKA
Bagian ini menjelaskan tentang konsep sistem pengenalan ucapan, beberapa masalah
penting pada pengenalan ucapan dan penelitian pengembangan sistem pengenalan ucapan
yang dijadikan sebagai acuan untuk penelitian ini.
3.1 Konsep Sistem Pengenalan Ucapan
Pengenalan Ucapan yang dimaksudkan disini dalam istilah bahasa Inggris adalah Speech
Recognition. Pengenalan Ucapan merupakan suatu proses dimana suatu komputer atau suatu
jenis mesin mampu mengidentifikasi kata yang diucapkan seseorang. Gambaran mudahnya,
seperti layaknya seseorang berbicara dengan komputer dan komputer mampu mengenali
apa yang sedang dikatakannya.
Pada umumnya, Sistem Pengenalan dan Sintesis Ucapan dibentuk dengan proses
seperti tampak pada Gambar 1 berikut ini [11].
Gambar 1. Model Sistem Pengenalan dan Sintesis Ucapan

Gambar disadur dari [11]
Gambar 1 menjelaskan adanya hubungan antara dua entitas yaitu manusia dan komputer.
Manusia mengucapkan suatu kata, kemudian dilakukan proses Recognition. Proses
Recognition mengubah ucapan manusia, dalam hal ini Speech, menjadi bentuk yang
dimengerti oleh komputer dan menghasilkan suatu data berupa Text. Text ini belum
memberikan pengertian sehingga diperlukan proses berikutnya yaitu Understanding. Proses
inilah yang menganalisis Text menjadi sesuatu yang memiliki arti secara simantik.
Proses Synthesis membangkitkan suara sintetik hasil dari pengolahan komputer. Proses ini
memerlukan bahan Text yang biasanya hasil pengembangan dari pengetahuan, dalam hal ini
Meaning, yang telah disiapkan sebelumnya oleh manusia. Proses Synthesis pada umumnya
lebih mudah dibanding proses Recognition. Seperti yang diungkapkan [1,12].
Lebih mendalam, proses Pengenalan Ucapan diselesaikan melalui beberapa tahap seperti
tampak pada Gambar 2 berikut ini [11].
Gambar 2. Proses Pengenalan Ucapan

Pada Gambar 2, Speech Signal direkam oleh komputer. Hasil rekaman sinyal ini dianalisis
oleh proses Representation. Analisis representasi disesuaikan dengan data referensi yang
telah disiapkan sebelumnya pada Training Data. Penyesuaian ini dilakukan dengan
berbagai metode normalisasi dan filter agar dapat diperoleh hasil yang mempunyai format
yang sama dengan Training Data. Hasil Representasi kemudian dibandingkan pada proses
Search dengan data dari Training Data dengan menerapkan beberapa model, baik hanya
satu model atau gabungan beberapa model dari Acustic, Lexical atau Language Model.
Proses perbandingan ini ditujukan untuk memilih “Kata” yang paling mendekati tepat
(Recognized Words). Keseluruhan proses pada Gambar 2 tersebut akan diulang untuk
mengolah ucapan berikutnya.
Khusus pada bagian Training Data, data perlu disiapkan sebelum adanya implementasi dari
Sistem Pengenalan Ucapan. Proses yang digunakan untuk menyediakan data dilakukan
dengan pengumpulan data. Tidak sekedar dikumpulkan saja, namun juga dilakukan proses
pelatihan agar didapat pengolahan data yang cepat dalam pencariannya. Pelatihan
dilakukan dengan menerapkan Jaringan Syaraf Tiruan.
Secara teknis, Sistem Pengenalan Ucapan dapat dijabarkan menggunakan contoh seperti
pada Gambar 3 berikut [11].
Gambar 3. Contoh Penjabaran Teknis Sistem Pengenalan Ucapan

Sumber sinyal yang berasal dari ucapan seseorang, dinyatakan sebagai Speech Waveform
pada Gambar 3. Sumber sinyal ini kemudian dicari ciri pentingnya yang dapat membedakan
antara satu sinyal dengan sinyal lain. Pengungkapan ciri dilakukan dengan pengolahan
sinyal.
Terdapat banyak cara dalam melakukan pengolahan sinyal untuk pengungkapan ciri,
diantara yang terkenal adalah :
 Mel Frequency Cepstral Coefficients (MFCC). Analisis Transformasi Fourier
menghasilkan frekuensi diskrit terhadap waktu dan dapat ditampilkan gambarnya.
Biasanya nilai frekuensi dinyatakan menggunakan skala Mel, dimana skala skala ini
linier untuk rentang dibagian yang rendah dan berbentuk logaritmik pada rentang
bagian tinggi. Hal ini sesuai dengan karakteristik pendengaran manusia. Koefisien
Sepstral frekuensi-Mel inilah yang dijadikan ciri.
 Linear Predictive Coding (LPC). Cara ini menghasilkan koefisien dari persamaan linier
yang memperkirakan nilai data ucapan beberapa saat terakhir. Vektor koefisien inilah
yang dijadikan ciri.
Hasil dari pengolahan dan analisis sinyal adalah deretan vektor ciri ucapan, dinyatakan
sebagai spectral feature vector pada Gambar 3. Vektor-vektor ini dilatih menggunakan
Jaringan Syaraf Tiruan. Pelatihan dimaksudkan agar pemrosesan vektor dapat dilakukan
dengan cepat. Hasil dari pelatihan berupa deretan fonem-fonem yang membentuk data
ucapan. Pemodelan fonem ini menggunakan model akustik Hidden Markov Model (HMM).
Proses pencarian kesamaan data fonem dilakukan dengan menggunakan Grammar N-Gram
dan dikodekan kembali menggunakan algoritma Viterbi. Proses ini melihat nilai total
penjajaran terbaik. Dari penjajaran ini diperoleh deretan kata yang terpilih dan diasumsikan
yang paling benar, tampak hasil “I need a” pada Gambar 3.
3.2 Masalah-Masalah Penting Pada Sistem Pengenalan Ucapan
Pada kenyataannya, Sistem Pengenalan Ucapan sampai saat ini masih perlu meningkatkan
beberapa hal guna memperbaiki kinerjanya, terutama masalah akurasi. Dalam thesis [13]
disebutkan beberapa masalah mengapa sulit menigkatkan akurasi. Masalah tersebut
dijelaskan sebagai berikut.
1. Semakin besar ukuran kosakata, semakin tinggi kesalahan dalam pengenalan

ucapan. Sebagai contoh, 10 digit dari “nol” sampai “sembilan” dapat dengan mudah
dikenali [14]. Tetapi dengan meningkatnya ukuran vocabulary menjadi 200, 5000, atau
100000 maka bisa terjadi rata-rata kesalahan 3%, 7%, atau 45% [15,16,17]. Sementara
itu, setiap bahasa mempunyai huruf ketika diucapkan sulit untuk dibedakan. Sebagai
contoh huruf C, D, J dalam kasus Bahasa Indonesia.
2. Tingkat ketergantungan kepada pembicara. Sistem pengenalan ucapan Speaker
Dependence hanya ditujukan untuk pembicara tunggal. Sedangkan Speaker
Independence ditujukan untuk siapapun. Jenis Speaker Independence sulit untuk
dilakukan karena parameter suatu sistem pengenalan ucapan biasanya dilatih
menggunakan Speaker tertentu, yang sangat spesifik ucapannya. Hasil penelitian [18]
menunjukkan bahwa Speaker Independence mempunyai kesalahan rata-rata 3 sampai 5
kali lebih besar dibanding Speaker Dependence.
3. Penggalan ucapan. Isolated Speech berarti ucapan kata tunggal. Discontinuous Speech
berarti satu kalimat penuh tetapi kata dipilah berdasarkan keadaan diam (silence).
Continuous Speech berarti ucapan kalimat secara alamiah. Isolated dan Discontinuous
Speech relatif lebih mudah karena penggalan kata dapat dikenali dan kata per kata
dapat diucapkan lebih “bersih”. Sedangkan Continuous Speech lebih sulit dilakukan
karena tidak diketahui penggalan kata dan juga dipengaruhi oleh artikulasi
gabungan kata.
4. Persyaratan bahasa. Berbagai pekerjaan sulit untuk dilakukan bilamana tidak
memenuhi syarat-syarat penggunaan bahasa. Termasuk didalamnya adalah Sintaks,
Simantik dan Grammarnya. Sebagai contoh, query terhadap jasa penerbangan dengan
pernyataan ‘Pesawat itu berwarna merah’, diterima oleh Sintaks, Simantik maupun
Grammar. Sedangkan pernyataan ‘Pesawat itu sedang marah’, diterima Sintaks dan
Grammar tetapi ditolak oleh Simantik. Sehingga, semua struktur bahasa perlu
ditinjau dalam membangun sistem pengenalan ucapan.
5. Ucapan Spontanitas. Sistem pengenalan ucapan dapat ditinjau dari pembicara yang
sedang membaca skrip atau berbicara secara spontan. Pembicaraan spontan seperti
emm, uh, e dan lain-lain, lebih sulit dikenali.
6. Kondisi lingkungan. Kinerja sistem pengenalan ucapan dapat juga diuji melalui
lingkungan alamiah yang terdapat banyak interferensi, derau dan lain-lain. Sehingga
usaha untuk dapat mengenali ucapan dari pembicara yang dimaksudkan dengan
suara bersih telah banyak diteliti dengan berbagai metode. Diantaranya,
penghilangan derau, penggandaan mikrofon, pembatasan lebar pita frekuensi, dan
perubahan gaya ucapan.
Bahkan [19] menyebutkan kelemahan Sistem Pengenalan Ucapan yang mendasar, yaitu
bahasa pembicaraan akan lebih efektif bila digunakan antar manusia dan akan mempunyai
banyak kekurangan bila diterapkan pada interaksi antara manusia dengan komputer. Hal ini
diakibatkan oleh lambatnya komputer merepresentasikan informasi dan sulitnya melakukan
review dan edit. Sehingga perancangan Sistem Pengenalan Ucapan harus mengerti tentang
acustic memory dan prosody.
3.3 Penelitian Acuan
Penelitian yang akan dilakukan penulis mengacu pada metode pengembangan sistem
pengenalan ucapan standar yang secara umum banyak digunakan pada berbagai penelitian
sebelumnya, seperti telah dijelaskan pada Subbab 3.1. Tahap pertama adalah penyediaan
Data Terlatih yang dijadikan referensi untuk proses perbandingan sesuai dengan Model Data
yang digunakan. Tahap kedua adalah penentuan Model Akustik, Model Bahasa dan Model
Lainnya yang digunakan dalam persyaratan bahasa. Tahap ketiga adalah proses
perbandingan antara ucapan yang diolah terhadap Data referensi menggunakan ciri-ciri
Model yang diterapkan. Hasil yang diharapkan adalah kata yang diucapkan seseorang dapat
dikenali dengan benar berdasarkan Data referensi yang ada.
Penelitian yang akan penulis lakukan menggunakan teknik-teknik yang dilakukan pada
penelitian Kumar. Kumar bersama dua rekannya meneliti tentang pengembangan Large
Vocabulary Continuous Speech Recognition System (LVCSR) untuk bahasa India [9]. Para
peneliti ini mempunyai kerangka penelitian sebagai berikut :
 Pemodelan Akustik dilakukan dengan mengadopsi data Phone Set bahasa Inggris
yang terdapat di International Phonetic Alphabet (IPA) untuk pemodelan Phone Set
bahasa India menggunakan pendekatan Bootstrapping.
o Bootstrapping dilakukan dengan penjajaran data ucapan bahasa tujuan.
Ide baru yang dimunculkan berbentuk modifikasi Bootstrapping, yaitu
dilakukan dengan menambahkan lexeme context comparator dengan tujuan
supaya data ucapan bahasa tujuan yang mempunyai fonem yang mirip dan
mempunyai arti berbeda dapat diketahui bedanya dengan jelas. Konsep ini
tampak pada Gambar 4.
Gambar 4. Penjajaran Data Bahasa Tujuan

o Pemetaan fonem didefinisikan menggunakan pengetahuan linguistik dari

kedua bahasa. Pemetaan ini dibagi ke dalam 3 kategori. Kategori pertama,
Pemetaan Tepat (exact mapping) untuk kondisi kedua bahasa mempunyai
fonem yang benar-benar sama. Kategori kedua, Penggabungan (Merging)
untuk kondisi beberapa fonem bahasa tujuan mempunyai suara berasal dari
beberapa fonem bahasa sumber. Kategori ketiga, Aproksimasi untuk kondisi
beberapa fonem bahasa tujuan sama sekali tidak terdapat didalam fonem
bahasa sumber.
Peningkatan kinerja pemetaan dilakukan dengan metode pengukuran
kesamaan fonetik. Hal ini dilakukan dengan mengukur jarak diantara fonem-
fonem yang terdapat didalam domain MFCC dengan rumus sebagai berikut.
dimana vi menyatakan vektor MFCC 24-Dimensi yang dimiliki oleh  dan m

adalah rata-rata vektor yang bersesuaian dengan Lihat Gambar 4 untuk
mengetahui arti simbol-simbol pada rumus ini.
 Pemodelan Bahasa dilakukan dengan membuat Bentuk Dasar bahasa (Baseform)
dengan teknik pendekatan Hybrid yang menggabungkan pendekatan Basis Aturan
(Rule-Based) dan pendekatan Statistik.
o Pendekatan Berbasis-Aturan digunakan untuk membuat semua kemungkinan
Bentuk Dasar kata. Penelitian ini menerapkannya pada kasus aturan yang
sederhana dan mudah diturunkan tanpa pengetahuan linguistik yang
mendalam.
o Pendekatan Statistik digunakan untuk menyelesaikan kasus aturan yang
kompleks dan kasus yang terdapat keraguan didalamnya.
 Percobaan dilakukan dengan beberapa parameter sebagai berikut.
o 24-Dimensi MFCC sebagai vektor ciri dari data ucapan. 4 vektor sebelum dan
sesudah vektor MFCC digabungkan dan vektor yang digabungkan ini
dianalisis menggunakan Linear Discriminant Analysis (LDA) agar dimensi
vektor ciri dapat diturunkan dari 24x9 menjadi 60 dimensi.
o Model akustik diterapkan menggunakan Hidden Markov Model (HMM).
o Model akustik telah dilatih selama lebih dari 200 jam dan menggunakan data
ucapan lebih dari 500 pembicara.
o Sistem pengenal ucapan yang digunakan adalah ViaVoice dari IBM.
o 12350 kata dibuat oleh ahli bahasa. Sebanyak 11510 kata digunakan untuk
pelatihan dan 840 kata untuk pengujian sistem.
Hasil yang diperoleh dari penelitian tersebut adalah sebagai berikut :

 Pemetaan yang telah dimodifikasi menghasilkan peningkatan relatif 13% pada
kecepatan klasifikasi.
 Penambahan Lexeme-Context Comparator mempercepat pembuatan data label untuk
bahasa tujuan. Dibuktikan hasilnya dengan peningkatan rata-rata klasifikasi sebesar
23,82% dibanding tanpa Lexeme-Context Comparator.
 Pada pembuatan Bentuk Dasar, pendekatan statistik (85,38%) memberikan
peningkatan lebih besar dibanding pendekatan Berbasis-Aturan (68,51%).
Salah satu kelebihan utama yang dihasilkannya sesuai dengan arah penelitian ini adalah
peningkatan kecepatan dalam penyediaan model fonem, yang dilakukan dengan modifikasi
pendekatan Bootstrapping. Hal ini sangat sesuai untuk bahasa-bahasa baru yang belum
mempunyai Training Data dan data Fonem khusus untuk sistem pengenalan ucapan,
termasuk bahasa Indonesia.
Melihat kenyataan bahwa hasil penelitian tersebut memberikan peningkatan kinerja sistem
pengenalan ucapan, maka penulis mengadopsi teknik-teknik yang digunakan sesuai dengan
Batasan Penelitian yang dijelaskan pada Subbab 2.3.
4. METODE PENELITIAN
Pada bab ini akan dijelaskan tentang kerangka penelitian, modifikasi bootstrapping yang
diajukan, metodologi penelitian dan penurunan topik penelitian strata satu yang akan
digunakan.
4.1 Kerangka Penelitian
Kerangka penelitian yang akan penulis gunakan disesuaikan dengan metode penelitian
acuan. Perbedaan yang ada tampak pada Gambar 5 berikut.
Gambar 5. Perbedaan Kerangka Penelitian
Pada Gambar 5, kolom kiri merupakan rangkuman dari kerangka penelitian Kumar yang
dijadikan sebagai acuan untuk penelitian penulis. Kolom tengah merepresentasikan kembali
metodologi pengenalan ucapan yang umum banyak digunakan oleh para peneliti. Kolom
kanan merupakan kerangka rencana penelitian yang akan penulis lakukan.
Gambar 5 menjelaskan bahwa perbedaan kerangka penelitian terjadi pada bagian Ucapan,
Data Pelatihan dan Bootstrapping. Ketiga bagian ini menerapkan obyek bahasa yang
berbeda. Penelitian acuan menerapkan bahasa India, sedangkan penelitian yang diajukan
penulis menggunakan obyek bahasa Indonesia. Disamping itu, penulis menyederhanakan
kerangka penelitian yang akan dilakukan, dengan menghilangkan tahap Model Bahasa,
dengan asumsi bahwa sistem pengenalan ucapan berbahasa Indonesia relatif belum ada,
sehingga berbagai data pendukung pengenalan ucapan sangatlah terbatas. Hal ini dapat
diperkirakan bahwa pengadaan data pendukung menjadikan perjalanan penelitian ini
sangat panjang waktunya jika dilakukan semua tahapan yang ada.
4.2 Modifikasi Bootstrapping
Kontribusi yang dijadikan ide baru untuk penelitian ini, yang akan penulis ajukan,
mengarah pada modifikasi pendekatan bootstrapping dengan penjajaran notasi fonem Bahasa
Indonesia. Bentuk modifikasi ini tampak pada Gambar 6 berikut.
Gambar 6. Modifikasi Pendekatan Bootstrapping
Gambar 6 menjelaskan bahwa kosakata Bahasa Indonesia yang perlu disiapkan sebelumnya
akan dilakukan pemetaan. Pemetaan didasarkan pada unit bunyi pengucapan terkecil yaitu
fonem. Pemetaan ini dilakukan dengan melihat hubungan fonem satu-satu dan satu-banyak
antara fonem Bahasa Indonesia ke Bahasa Inggris. Hasil pemetaan digunakan sistem
pengenalan ucapan untuk diolah menggunakan produk pengenal ucapan Bahasa Inggris
yang sudah ada di pasaran global berbasiskan open source.
Selanjutnya, Ucapan Bahasa Indonesia yang dikeluarkan oleh mulut manusia akan diolah
bersama data pemetaan oleh Sistem Pengenal Ucapan Bahasa Inggris. Hasil dari Sistem
Pengenal Ucapan Bahasa Inggris berupa data notasi fonem terjajar Bahasa Indonesia. Jika
terdapat data terjajar yang mempunyai keraguan, baik pengucapan sama tetapi label
berbeda maupun pengucapan berbeda tetapi label sama, maka diolah oleh bagian
Klasifikasi. Bagian ini mengidentifikasi perlu tidaknya label dipilih sesuai dengan konteks
kata yang diucapkan. Proses klasifikasi dilakukan dengan pendekatan statistik. Peluang
terbesar kemunculan data terjajar yang terpilih, akan memperoleh prioritas utama. Informasi
peluang diambil dari Data Klasifikasi. Data klasifikasi diperlukan untuk menampung secara
historis data terjajar yang terpilih.
4.3 Metodologi Penelitian
Secara khusus, metodologi penelitian yang diterapkan pada penelitian ini ditampilkan pada
Gambar 7 berikut ini.
Gambar 7. Metodologi Penelitian
Tahap Identifikasi digunakan untuk mengumpulkan data dan menentukan kriterianya.

Tahap ini dilakukan dengan melakukan eksplorasi beberapa hal sebagai berikut :
 Standar Fonem Bahasa Inggris yang ada, termasuk International Phonetic Alphabet
(IPA) dan WordNet yang mengacu pada karakter ASCII.
 Standar Fonem bahasa Indonesia berdasarkan beberapa jenis kamus bahasa
Indonesia dan sumber informasi dari Masyarakat Linguistik Indonesia (Linguistic
Indonesian Society).
 Sistem Pengenalan Ucapan berbasis open-source. Saat ini, sistem yang akan digunakan
telah diprioritaskan pada produk Pengenal Ucapan, yaitu CMU Sphinx Versi 3.5 dari
Carnegie Mellon University.
 Sumber data ucapan. Variasi data menggunakan kriteria umur dan jenis kelamin.
Disamping itu, data ucapan juga direncanakan akan diambil dari rekaman berita
radio dan televisi yang memenuhi pengucapan kata yang baik. Pemilihan berita
disesuaikan dengan topik domain sederhana yang akan ditentukan kemudian.
Tahap Klasifikasi digunakan untuk menentukan “kelas” fonem Bahasa Indonesia dengan
pendekatan statistik. Kelas fonem ini akan digunakan untuk mengelompokkan jenis-jenis
fonem berdasarkan artikulasinya, yaitu konsonan, vokal, harakat dan gaya pengucapan
(narasi). Pengelompokan ini juga dilakukan untuk fonem Bahasa Inggris berdasarkan jenis
kelompok dari pemetaan. Tahap ini juga digunakan untuk merancang Data Klasifikasi awal
yang digunakan pada modifikasi Bootstrapping proses penjajaran bagian Klasifikasi dari
Gambar 7.
Tahap Pemetaan Fonem melakukan pembuatan peta fonem bahasa Indonesia ke fonem
bahasa Inggris. Pada tahap ini, akan dicari keterhubungan setiap fonem yang ada, baik
hubungan satu-satu dan satu-banyak. Metode yang digunakan untuk melakukan pemetaan
mengacu pada metode pemetaan penelitian acuan, yaitu Pemetaan Tepat, Penggabungan
dan Aproksimasi. Pemetaan Tepat diterapkan bila terdapat fonem yang sama persis dari
kedua bahasa Inggris dan Indonesia. Penggabungan diterapkan bila fonem Bahasa Indonesia
berasal dari gabungan beberapa fonem Bahasa Inggris. Aproksimasi diterapkan bila fonem
Bahasa Indonesia tidak terdapat pada fonem Bahasa Inggris.
Tahap Penyesuaian diperlukan untuk melihat kembali apakah hasil Pemetaan Fonem sudah
memenuhi kriteria yang diharapkan. Jika ditemukan kekurangan, maka perlu diubah
kembali dan disesuaikan dengan klasifikasi yang ditentukan pada tahap sebelumnya dari
proses Klasifikasi kemudian dipetakan kembali pada proses Pemetaan Fonem.
Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian akan memerlukan bantuan tenaga ahli
bidang Ilmu Linguistik yang mempunyai kompetensi bidang Bahasa Indonesia skala
nasional. Keterlibatan tenaga ahli ini sangat diperlukan terutama pada kegiatan perancangan
fonem Bahasa Indonesia. Sampai saat ini belum ditemukan tenaga ahli yang bersedia secara
intensif membantu penelitian ini.
Tahap Pengujian melakukan beberapa hal sebagai berikut :

1. Ujicoba terhadap hasil pemetaan dengan melihat tingkat kemiripannya. Tingkat
kemiripan diukur dengan Teknik Pengukuran-Jarak antar fonem yang dibandingkan
pada domain MFCC. Teknik pengukuran ini mengadopsi cara yang digunakan pada
penelitian acuan menggunakan Rumus Jarak yang dijelaskan pada Subbab 3.3.
2. Penerapan pemetaan fonem yang dihasilkan pada penelitian ini akan diujicobakan ke
sistem pengenalan ucapan berbasis open-source untuk melihat apakah hasil penelitian
ini memberikan kontribusi yang memadai atau tidak, terutama dalam hal
peningkatan akurasi.
3. Melibatkan pihak sumber data kosakata, terutama pembicara. Direncanakan pada
penelitian ini akan menyewa tenaga pengucap kosakata sebanyak 20 orang dari
berbagai tingkat usia dan jenis kelamin yang berbeda. Juga, akan diujicobakan
dengan menggunakan sumber data kosakata dari pembawa berita hasil rekaman
media elektronik.
4. Menerapkan pelatihan data dengan menggunakan jaringan syaraf tiruan.
5. Ujicoba terhadap metode yang diajukan pada modifikasi pendekatan bootstrapping,
baik menggunakan proses Klasifikasi maupun tidak dengan tujuan agar diperoleh
hasil apakah modifikasi yang diajukan memberikan penjajaran yang lebih baik atau
tidak.
Hasil pengujian menentukan apakah perlu atau tidak melakukan perbaikan terhadap
rancangan pemetaan yang telah dilakukan. Jika tidak terdapat peningkatan kinerja, maka
akan dicari dimana letak kekurangannya, sehingga perlu melihat kembali Tahap Klasifikasi,
Pemetaan Fonem dan Penyesuaian untuk dilakukan perbaikan.
4.4 Topik Penelitian Strata Satu
Bersumber pada metodologi penelitian yang akan dilakukan, dapat diturunkan beberapa
topik penelitian untuk memberikan peluang bagi mahasiswa Strata Satu Jurusan Sistem
Komputer yang dapat digunakan sebagai topik skripsi. Hasil penurunan topik ini tercantum
pada tabel berikut.
Tabel 1. Topik Penelitian S1
No Bagian Metodologi Topik Penelitian

1 Klasifikasi Karakterisasi Akustik Fonem Bahasa Indonesia Baku
2 Pemetaan Fonem Algoritma Penjajaran pada Pendekatan Bootstrapping Termodifikasi
3 Pemetaan Fonem Pengukuran Beda-Jarak Akustik pada Pemetaan Fonem Bahasa
Indonesia Baku ke Fonem Bahasa Inggris
4 Pengujian Pengukuran Kecepatan Pengolahan Fonem Menggunakan Jaringan
Syaraf Tiruan
Sebenarnya, penurunan metodologi penelitian dapat dilakukan secara menyeluruh, tetapi

akan muncul ketidak-sesuaian terhadap bidang ilmu Sistem Komputer, seperti bagian
Identifikasi yang berkonsentrasi pada bidang Ilmu Linguistik. Masalah ketidak-sesuaian ini
akan ditangani secara langsung oleh Tim Peneliti bersama tenaga ahli bidang Ilmu
Linguistik dan tidak disediakan untuk penelitian Mahasiswa S1 Jurusan Sistem Komputer.
5. INDIKATOR KINERJA
Indikator keberhasilan dari penelitian ini dilihat dari dua hal sebagai berikut :
1. Seberapa dekatnya jarak akustik fonem yang dipetakan dari fonem Bahasa Indonesia
ke fonem Bahasa Inggris. Rumus jarak yang digunakan sama dengan rumus yang
dijelaskan pada Subbab 3.3.
2. Seberapa tingginya peningkatan kecepatan relatif proses pemetaan, baik
menggunakan tambahan proses hasil modifikasi yang diajukan (proses Klasifikasi
pada Gambar 6) maupun tidak.
6. KONSIDERAN PERCOBAAN
Konsideran percobaan yang akan digunakan untuk penelitian ini adalah sebagai berikut.
1. Data ucapan diperoleh dari 20 orang dengan variasi umur antara 20 sampai 55 Tahun
dan variasi jenis kelamin, pria dan wanita.
2. Ciri fonem diungkapkan dengan mengambil besaran MFCC 24-dimensi.
3. Pelatihan data menerapkan Jaringan Syaraf Tiruan.
4. Kemiripan dan Perbedaan antar fonem dilihat menggunakan Rumus Jarak pada
domain frekuensi.
5. Sistem Pengenalan Ucapan bahasa Inggris yang akan digunakan adalah CMU Sphinx
Versi 3.5 dari Carnegie Mellon University dengan tingkat akurasi diatas 90%.
6. Perancangan fonem Bahasa Indonesia dan pemetaannya ke Bahasa Inggris
melibatkan tenaga ahli bidang Linguistik yang memiliki kompetensi skala nasional.
7. Pengembangan data klasifikasi berdasarkan domain sistem pengenal ucapan.
Domain yang akan digunakan adalah Teknologi Informasi.
8. Proses klasifikasi diterapkan menggunakan pendekatan statistik dengan melihat

bobot probabilitas kata yang diucapkan pada domain Teknologi Informasi.
7. JADUAL KEGIATAN
Waktu pelaksanaan penelitian disesuaikan dengan persyaratan yang ditetapkan oleh TPSDP.
Tahap pelaksanaan kegiatan penelitian dirinci pada diagram berikut.
Gambar 8. Diagram Jadual Kegiatan Penelitian
8. TIM PENGUSUL
Ketua Peneliti
Nama : Lintang Yuniar Banowosari, Skom., MSc.
Tanggal Lahir : 3 Juni 1968
Jabatan Struktural : Staf Pengajar
Jabatan Fungsional : Lektor
Jurusan : Sistem Komputer
Fakultas : Ilmu Komputer
Alamat Kantor : Jl. Margonda Raya No.100 Depok 16424
Telp Kantor : 021-78881112 ext 309/477
Email : lintang@staff.gunadarma.ac.id
Alamat Rumah : Perumahan Taman Puspa Kav.72 Pasir Gunung Selatan
Cimanggis Depok 16951
Anggota Peneliti 1
Nama : Nurul Huda, Skom., MT.
Tanggal Lahir : 21 Februari 1969
Jabatan Struktural : Kepala Laboratorium Menengah
Jabatan Fungsional : Asisten Ahli
Jurusan : Sistem Komputer
Alamat Kantor : Jl. Margonda Raya No.100 Depok 16424
Telp Kantor : 021-78881112 ext 477
Email : huda@staff.gunadarma.ac.id
Alamat Rumah : Jl. Pancoran Barat VII No.34 Rt 8 Rw 6 Durentiga Jakarta Selatan
Anggota Peneliti 2
Nama : Wahyu Kusuma Raharja, ST., MT.
Tanggal Lahir : 12 April 1973
Jabatan Struktural : Wakil Kepala Laboratorium Menengah
Jabatan Fungsional : Asisten Ahli
Jurusan : Sistem Informasi
Alamat Kantor : Jl. Akses UI Kelapa Dua Depok
Telp Kantor : 021-8727541 ext 505
Email : wahyukr@staff.gunadarma.ac.id
Alamat Rumah : Puri Bojong Lestari Blok CR 12 Bojong Gede Bogor 16921
9. RANCANGAN BIAYA
Penelitian ini memerlukan dana sebesar Rp. 29.700.000,- dengan jumlah biaya setiap
komponen sebagai berikut :
1. Honor Peneliti Rp. 8.700.000,- 29.29 %
2. Peralatan dan Bahan Rp. 14.870.000,- 50.00 %
3. Survei dan Studi Pustaka Rp. 1.840.000,- 6.19 %
4. Laporan Rp. 2.030.000,- 6.84 %
5. Seminar Rp. 2.260.000,- 7.61 %
Rincian biaya secara lengkap dijelaskan pada tabel berikut.
Tabel 2. Rincian Biaya Penelitian
Jumlah Harga Jumlah Sub-

No Uraian Satuan Satuan Satuan Harga Total
(Rupiah) (Rupiah) (Rupiah)
A Honor Peneliti
1 Ketua Peneliti Bulan 12 275.000 3.300.000
2 Anggota Peneliti 1 Bulan 12 225.000 2.700.000
3 Anggota Peneliti 2 Bulan 12 225.000 2.700.000
8.700.000
B Peralatan dan Bahan
4 Pengadaan Data Set 20 150.000 3.000.000
5 Komputer Personal Set 1 4.500.000 4.500.000
6 Sistem Pengenal Ucapan Paket 1 2.500.000 2.500.000
Bahasa Inggris Acuan

7 Kartu Pengolah Sinyal Set 1 2.500.000 2.500.000
Digital
8 Mikrofon Pengenal Set 1 450.000 450.000
Ucapan
9 ATK Paket 1 250.000 250.000
10 CDRom Kosong Keping 50 4.000 200.000
11 Toner Printer Set 1 750.000 750.000
12 Kertas Rim 9 30.000 270.000
13 Transparansi Lembar 200 2.250 450.000
14.870.000
C Survei dan Studi Pustaka
14 Transportasi Trip 7 150.000 1.050.000
15 Komunikasi Paket 3 100.000 300.000
16 Konsumsi Trip 7 70.000 490.000
1.840.000
D Laporan
17 Pengolahan Data Set 20 20.000 400.000
18 Pencetakan Dokumen Eks. 20 40.000 800.000
Skripsi
19 Pencetakan Slide Eks. 60 3.000 180.000
Dokumen Skripsi
20 Laporan Kemajuan Eks. 10 25.000 250.000
21 Laporan Akhir Eks. 10 40.000 400.000
2.030.000
E Seminar
22 Sewa Komputer Unit 1 100.000 100.000
23 Sewa Proyektor Unit 1 300.000 300.000
Komputer
24 Sewa Ruang Unit 1 400.000 400.000
25 Konsumsi Orang 100 5.000 500.000
26 Penggandaan Makalah Eks. 120 8.000 960.000
2.260.000
Jumlah Total 29.700.000
10. DAFTAR PUSTAKA
[1] Blade Kotelly, The Art and Business of Speech Recognition: Creating the Noble Voice,
Addison Wesley, 2003.
[2] Asela Gunawardana, Alex Acero, Adapting Acoustic Models to New Domains and
Conditions Using Untranscribed Data, [Ref. 2002].
[3] Diego Giuliani, Marcello Federico, Unsupervised Language and Acoustic Model Adaptation
for Cross Domain Portability, [Ref. 2001].
[4] T. Schultz, A. Waibel, Experiments on Cross-Language Acoustic Modeling, [Ref. 2000].
[5] Tanja Schultz, Alex Waibel, Language Independent and Language Adaptive Acoustic
Modeling for Speech Recognition, [Ref. 2000].
[6] J. Kohler, Multi-Lingual Phoneme Recognition Exploiting Acoustic–Phonetic Similarities of
Sounds, Proceedings of the International Conference on Spoken Language Processing,
Atlanta, 1996, pp. 2195–2198.
[7] Klaus Ruggenmann and Iryna Gurevych, Assigning Domains to Speech Recognition
Hypotheses, 2004.
[8] S J Melnikoff, S F Quigley & M J Russell, Implementing a Simple Continuous Speech

Recognition System on an FPGA, Proceedings of the 10 th Annual IEEE Symposium on
Field-Programmable Custom Computing Machines (FCCM’02), 2002.
[9] M. Kumar, N. Rajput, A. Verma, A Large-Vocabulary Continuous Speech Recognition
System for Hindi, IBM Journal. Resource & Development. Volume. 48 No. 5/6
September/November 2004.
[10] M. C. Yuen and P. Fung, Adapting English Phoneme Models for Chinese Speech Recognition,
Proceedings of the International Conference on Spoken Language Processing, Sydney,
Australia, 1998, pp. 80 – 82.
[11] MIT Lecture Notes : Introduction to Automatic Speech Recognition, Lecture #1, Session
2003.
[12] Stephen Cook, Speech Recognition HOWTO, Rev 2.0, April 2002.
[13] Joe Tebelskis, Speech Recognition using Neural Networks, School of Computer Science
Carnegie Mellon University, May 1995.
[14] Doddington, G. Phonetically Sensitive Discriminants for Improved Speech Recognition. In
Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1989.
[15] Itakura, F. Minimum Prediction Residual Principle Applied to Speech Recognition. IEEE
Trans. on Acoustics, Speech, and Signal Processing, 23(1):67-72, February 1975.
Reprinted in Waibel and Lee 1990.
[16] Miyatake, M., Sawai, H., and Shikano, K. Integrated Training for Spotting Japanese
Phonemes Using Large Phonemic Time-Delay Neural Networks. In Proc. IEEE International
Conference on Acoustics, Speech, and Signal Processing, 1990.
[17] Kimura, S. 100,000-Word Recognition Using Acoustic-Segment Networks. In Proc. IEEE
International Conference on Acoustics, Speech, and Signal Processing, 1990.
[18] Lee, K.F. Large Vocabulary Speaker-Independent Continuous Speech Recognition: The
SPHINX System. PhD Thesis, Carnegie Mellon University. 1988.
[19] Ben Shneiderman, the Limits of Speech Recognition, Communication Of The ACM
September 2000/Vol. 43, No. 9, 2000.

Proposal ResearchGrant UUL

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Proposal ResearchGrant UUL

Uploaded by

Copyright:

Available Formats

Proposal Research Grant – TPSDP Tahun Ke-4 – Dirjen DIKTI Depdiknas Republik Indonesia

1. JUDUL PROYEK PENELITIAN

ADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM

ADAPTING ENGLISH SPEECH RECOGNITION SYSTEM INTO INDONESIAN

Para peneliti telah mencoba memecahkan masalah-masalah bahasa pada penerapannya di

2.1 Perumusan Masalah

Penelitian ini akan mengkaji masalah-masalah yang berhubungan dengan pengembangan

2.2 Tujuan Penelitian

Penelitian ini mempunyai tujuan sebagai berikut :

2.3 Batasan Penelitian

4. Fonem Bahasa Inggris mengacu pada International Phonetic Alphabet (IPA).

3.1 Konsep Sistem Pengenalan Ucapan

Gambar 1. Model Sistem Pengenalan dan Sintesis Ucapan

Gambar 2. Proses Pengenalan Ucapan

Gambar 3. Contoh Penjabaran Teknis Sistem Pengenalan Ucapan

3.2 Masalah-Masalah Penting Pada Sistem Pengenalan Ucapan

1. Semakin besar ukuran kosakata, semakin tinggi kesalahan dalam pengenalan

3.3 Penelitian Acuan

Gambar 4. Penjajaran Data Bahasa Tujuan

o Pemetaan fonem didefinisikan menggunakan pengetahuan linguistik dari

dimana vi menyatakan vektor MFCC 24-Dimensi yang dimiliki oleh  dan m

Hasil yang diperoleh dari penelitian tersebut adalah sebagai berikut :

4.1 Kerangka Penelitian

Gambar 5. Perbedaan Kerangka Penelitian

4.2 Modifikasi Bootstrapping

Gambar 6. Modifikasi Pendekatan Bootstrapping

4.3 Metodologi Penelitian

Gambar 7. Metodologi Penelitian

Tahap Identifikasi digunakan untuk mengumpulkan data dan menentukan kriterianya.

Tahap Pengujian melakukan beberapa hal sebagai berikut :

4.4 Topik Penelitian Strata Satu

Tabel 1. Topik Penelitian S1

No Bagian Metodologi Topik Penelitian

Sebenarnya, penurunan metodologi penelitian dapat dilakukan secara menyeluruh, tetapi

8. Proses klasifikasi diterapkan menggunakan pendekatan statistik dengan melihat

Gambar 8. Diagram Jadual Kegiatan Penelitian

Tabel 2. Rincian Biaya Penelitian

Jumlah Harga Jumlah Sub-

Bahasa Inggris Acuan

Jumlah Total 29.700.000

10. DAFTAR PUSTAKA

[8] S J Melnikoff, S F Quigley & M J Russell, Implementing a Simple Continuous Speech

You might also like