Proses Pembentukan dan Karakteristik Sinyal Ucapan

Oleh : Arry Akhmad Arman Dosen dan Peneliti di Departemen Teknik Elektro ITB email : aa@lss.ee.itb.ac.id, aa_arman@rocketmail.com

2.5.1 Sistem Pembentukan Ucapan
Ucapan manusia dihasilkan oleh suatu sistem produksi ucapan yang dibentuk oleh alatalat ucap manusia. Proses tersebut dimulai dengan formulasi pesan dalam otak pembicara. Pesan tersebut akan diubah menjadi perintah-perintah yang diberikan kepada alat-alat ucap manusia, sehingga akhirnya dihasilkan ucapan yang sesuai dengan pesan yang ingin diucapkan.

Gambar 2.11. Foto Sinar X Penampang Alat-Alat Ucap Manusia [Rab93]

Gambar 2.11 memperlihatkan foto sinar X penampang alat-alat ucap manusia. Vocal tract pada gambar tersebut ditandai oleh garis putus-putus, dimulai dari vocal cords atau glottis, dan berakhir pada mulut. Vocal tract terdiri dari pharynx (koneksi antara esophagus dengan mulut) dan mulut. Panjang vocal tract pria pada umumnya sekitar 17 cm. Daerah pertemuan vocal tract ditentukan oleh lidah, bibir, rahang, dan bagian

12 memperlihatkan model sistem produksi ucapan manusia yang disederhanakan. . sehingga menghasilkan suara yang dikenal sebagai unvoiced sound. Setiap komponen bunyi yang berbeda dibentuk oleh perbedaan posisi. Gambar 2. Cara kerjanya mirip seperti piston atau pompa yang ditekan untuk menghasilkan tekanan udara.12. Nasal tract mulai dari bagian belakang langit-langit dan berakhir pada nostrils. serta ukuran dari alat-alat ucap manusia yang berubah-ubah selamat terjadinya proses produksi ucapan. Pembentukan ucapan dimulai dengan adanya hembusan udara yang dihasilkan oleh paru-paru. aliran udara akan melalui daerah yang sempit pada vocal tract dan menyebabkan terjadinya turbulensi.belakang langit-langit. bentuk. suara nasal akan dikeluarkan melalui rongga ini. Pada saat vocal cord berada dalam keadaan tegang. Pada keadaan tertentu. aliran udara akan menyebabkan terjadinya vibrasi pada vocal cord dan menghasilkan bunyi ucapan yang disebut voiced speech sound. luasnya berkisar antara 20 cm2 sampai dengan mendekati nol. Gambar 2. Pada saat vocal cord berada dalam keadaan lemas. Model Sistem Produksi Ucapan Manusia [Rab93] Ucapan dihasilkan sebagai rangkaian atau urutan komponen-komponen bunyi-bunyi pembentuknya.

5. Gambar 2. keadaan pada saat vocal cord tidak melakukan vibrasi. karakteristiknya praktis bersifat tetap.2. Setiap baris pada gambar tersebut memperlihatkan potongan sinyal selama 100 mili detik. tetapi jika diamati pada selang waktu yang lebih panjang karakteristiknya terlihat berubah-ubah sesuai dengan kalimat yang sedang diucapkan. . Gambar 2.13 memperlihatkan contoh sinyal ucapan dari suatu kalimat bahasa Inggris “It’s time” yang diucapkan oleh seorang pria. yaitu (1) silence (S). (2) unvoiced (U). Jika diamati pada selang waktu yang pendek (antara 5 sampai dengan 100 mili detik). keadaan pada saat tidak ada ucapan yang diucapkan. sehingga seluruh gambar tersebut memperlihatkan sinyal ucapan sepanjang 500 mili detik. Contoh Sinyal Ucapan “It’s time” [Rab93] Ada berbagai cara untuk mengklasifikasikan bagian-bagian atau komponen sinyal ucapan. sehingga suara yang dihasilkan bersifat tidak periodic atau bersifat random.2 Representasi Sinyal Ucapan Sinyal ucapan merupakan sinyal yang berubah terhadap waktu dengan kecepatan perubahan yang relatif lambat. keadaan pada saat terjadinya vibrasi pada vocal cord. (3) voiced (V). sehingga menghasilkan suara yang bersifat kuasi periodik.13. Salah satu cara yang sederhana adalah dengan cara mengklasifikasikannya menjadi tiga keadaan yang berbeda.

. Segmen ucapan yang bentuknya mirip pada domain waktu lebih mudah dibedakan pada spektogram dengan cara melihat perbedaan komponen frekuensinya. Salah satu penyebabnya adalah perubahan dari keadaan-keadaan alat ucap manusia yang tidak bersifat diskrit dari satu keadaan ke keadaan lainnya. sehingga bunyi transisi dari satu segmen ke segmen lainnya menghasilkan bentuk yang tidak mudah ditentukan.Pada gambar 2. Dari contoh tersebut jelas bahwa segmentasi ucapan menjadi S. dan seterusnya.13 di atas sudah tercantum label-label S. Selanjutnya diikuti oleh daerah voiced (V) yang cukup panjang. lebih sering digunakan representasi spektral menggunakan spektogram seperti terlihat pada Gambar 2. Amplituda kecil yang tampak pada perioda tersebut merupakan noise latar belakang yang ikut terekam. Untuk melakukan analisis sinyal ucapan. Berikutnya diikuti oleh daerah unvoiced (U) yang merepresentasikan daerah pelemahan pengucapan “i”. ada segmen-segmen ucapan yang mirip atau bahkan mengandung silence didalamnya. Selain itu. Setelah itu diikuti oleh silence (S) yang merupakan bagian dari fonem “t”.14. U dan V yang dapat mempermudah untuk mengamati perbedaan keadaan-keadaan tersebut. artinya bagian tersebut merepresentasikan keadaan diam dimana pembicara belum mengucapkan apapun. merepresentasikan vokal “i”. Representasi sinyal dalam diagram waktu terhadap amplituda seperti gambar sebelumnya seringkali tidak cukup untuk mendapatkan besaran-besaran kuantitatif yang efektif untuk melakukan analisis dari suatu ucapan. U dan V tidak bersifat eksak. artinya ada daerah-daerah yang tidak dapat dikategorikan dengan tegas ke dalam salah satu dari tiga kategori tersebut. Dengan menggunakan spektogram. dapat diidentifikasikan komponenkomponen frekuensi dari suatu segmen ucapan. Baris pertama serta awal baris kedua ditandai dengan S. Suatu perioda singkat unvoiced (U) tampak mendahului vocal pertama dalam kata “It”.

Spektogram pita lebar adalah analisis spectral pada suatu interval sepanjang 15 mili detik menggunakan filter dengan lebar pita 125 Hz serta analisis detail yang dilakukan setiap 1 mili detik.14 tersebut. Spektogram pita sempit adalah analisis spectral pada suatu interval sepanjang 50 mili detik menggunakan filter dengan lebar pita 40 Hz serta analisis detail yang dilakukan setiap 1 mili detik.14. indetifikasi . Untuk melihat komponen-komponen frekuensi yang lebih rinci dilakukan menggunakan spektogram pita sempit. seperti yang terlihat pada gambar kedua dari atas pada Gambar 2. analisis spektral diantaranya digunakan untuk melakukan segmentasi komponen-komponen sinyal ucapan. Spektogram Pita Lebar. Spektogram Pita Sempit dan Amplituda Ucapan dari kalimat “Every Salt Breeze Comes From Sea” [Rab93] Spektogram dibedakan menjadi spektogram pita lebar (wideband spectogram) dan spektogram pita sempit (narrowband spectogram).14 Dalam kegiatan penelitian dan pengembangan sistem TTS. Sebagian komponen frekuensi yang tidak dominan menjadi tidak terlihat pada spektogram pita lebar.Gambar 2. seperti terlihat pada gambar paling atas dari gambar 2. Spektogram pita lebar dapat digunakan untuk melihat komponen-komponen frekuensi utama dari suatu ucapan dengan jelas.

1 memperlihatkan daftar fonem bahasa Inggris-Amerika serta representasinya dalam simbol-simbol IPA serta ARPABET. Tabel 2.5. (2) ARPABET. Setiap fonem disimbolkan dengan suatu simbol yang unik. didasarkan pada huruf Latin dengan berbagai tambahan [Yus98] .1 Fonem-fonem Bahasa Inggris-Amerika dalam standar IPA dan ARPABET [Rab93] 1 Sistem abjad yang disusun oleh l’Association Phonetique Internationale pada 1897 atas prakarsa Otto Jespersen. Tabel 2. dengan tujuan supaya orang dapat belajar dan merekam lafal perbagai bahasa secara cermat dan menghindari ketikakonsistenan. Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihat sebagai urutan fonem. Saat ini ada beberapa standar cara penamaan fonem yang berlaku [Rab93].3 Karakteristik Sinyal Ucapan Unit bunyi terkecil yang dapat dibedakan oleh manusia disebut fonem. serta analisis frekuensi dasar yang diperlukan untuk analisis intonasi ucapan.komponen frekuensi segmen ucapan. 2. serta (3) SAMPA. Himpunan fonem yang ada dalam suatu bahasa berbeda-beda. diantaranya adalah standar (1) IPA (International Phonetic Alphabet)1.

15 memperlihatkan daftar fonem serta pengkalisifikasiannya untuk bahasa Inggris-Amerika. Gambar 2.15. Daftar dan Klasifikasi Fonem Bahasa Inggris-Amerika [Rab93] . Gambar 2.Setiap fonem memiliki ciri-ciri yang berbeda.

Bentuk Sinyal Ucapan Vokal Bahasa Inggris [Rab93] .3. /IH/.2. Fonem vokal Bahasa Inggris mencakup fonem-fonem /IY/. Gambar 2.16. /EH/.1 Vokal Sinyal ucapan vokal memiliki bentuk kuasi periodik seperti terlihat pada Gambar 2. /AA/. /AX/.5.17. /UW/.16. Penelitian untuk mengidentifikasikan karakteristik fonem-fonem vokal Bahasa Indonesia pernah dilakukan dan dipublikasikan oleh Arry Akhmad Arman pada tahun 1999 [Arm99]. /AE/. Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan karakter satu fonem vokal dengan fonem vokal lainnya. /ER/. /UH/. /AO/. seperti terlihat pada spektogram Gambar 2. dan /OW/. /AH/.

2 Diftong Diftong pada prinsipnya adalah dua fonem vokal yang berurutan dan diucapkan tanpa jeda.18. dan /EY/. /OY/. Karakteristik diftong mirip dengan karakteristik fonem-fonem vokal pembentuknya disertasi bentuk transisinya. /AW/.Gambar 2.3. Fonem diftong Bahasa Inggris mencakup /AY/.5. Spektogram Sinyal Ucapan Diftong Bahasa Inggris [Rab93] .17 Spektogram Sinyal Ucapan Vokal Bahasa Inggris [Rab93] 2. Gambar 2.

Bagian belakang langit-langit merendah. sedangkan yang termasuk frikatif voiced adalah /V/.19.20. /N/. Fonem Bahasa Inggris yang termasuk frikatif unvoiced adalah /F/. sehingga menyebabkan turbulensi di daerah yang mengkerut dalam vocal tract. /Z/.5.3. Sumber eksitasi lainnya adalah glotis. Frikatif voiced agak berbeda dengan frikatif unvoiced.5. Gambar 2. Contoh Sinyal dan Spektogram Konsonan Frikatif Bahasa Inggris [Rab93] . /S/. dan /NX/.3 Konsonan Nasal Konsonan nasal dibangkitkan dengan eksitasi glotal dan vocal tract mengerut total pada beberapa titik tertentu sepanjang lintasan pengucapan. Pada frikatif voiced. Frikatif unvoiced dibentuk dengan suatu eksitasi terhadap vocal tract dengan suatu aliran udara yang tetap.19. 2. Contoh Sinyal dan Spektogram Konsonan Nasal Bahasa Inggris [Rab93] 2. sehingga udara mengalir melalui nasal tract dengan suara yang dipancarkan melalui lubang hidung. Konsonan nasal Bahasa Inggris adalah /M/.Gambar 2.4 Konsonan Frikatif Konsonen frikatif pada prinsipnya dapat dibedakan menjadi frikatif unvoiced serta voiced. /TH/. dan /ZH/. Contoh bentuk sinyal ucapan serta spektogramnya dapat dilihat pada Gambar 2. suara dihasilkan oleh dua sumber eksitasi.3. dan /SH/.

/D/. Selama perioda total pengerutan terjadi. sehingga fonem ini selalu mengandung bagian yang menyerupai silence.2. dan segera diikuti dengan pelemasan. Konsonan stop memiliki bentuk yang berbeda dengan konsonankonsonan lainnya. tidak ada suara yang dikeluarkan dari mulut. dan /G/. Konsonan ini memperlihatkan pola transient dan tidak kontinyu.21. Gambar 2. Untuk fonem /B/ pengerutan terjadi di bibir. sedangkan yang termasuk konsonan stop voiced adalah /B/. konsonen stop dapat dibedakan menjadi konsonan stop unvoiced serta voiced. Konsonan ini dibentuk dengan cara memberikan tekanan pada kondisi pengerutan total di bagian rongga mulut tertentu. Fonem Bahasa Inggris yang termasuk konsonan stop unvoiced adalah /P/. untuk fonem /D/ pengerutan terjadi di belakang gigi depan.3. sedangkan untuk fonem /G/ pengerutan terjadi di sekitar bagian belakang langit-langit.5 Konsonan Stop Seperti konsonan frikatif. /T/. dan /K/. Contoh Sinyal dan Spektogram Konsonan Stop Bahasa Inggris [Rab93] .5.