Prosiding Simposium Penyelidikan Korpus Ke 5 (MCRS2022)

eISSN: 022473 Simposium Penyelidikan Korpus Malaysia ke-5 (MCRS2022) | Malaysian 5th Corpus Research Symposium (MCRS2022)
28-29 September 2022

Prosiding Simposium Penyelidikan Korpus Malaysia ke-5

(MCRS2022)
Proceeding of the 5th Malaysian Corpus Research Symposium

(MCRS2022)
Disunting oleh/ Edited by:
Anis Nadiah Che Abdul Rahman
Imran Ho Abdullah
Nor Diyana Saupi

PASUKAN EDITOR/ EDITORIAL BOARD
Ketua Editor/ Editor In Chief

Dr. Anis Nadiah Che Abdul Rahman – Pusat Kajian Bahasa dan Linguistik, Fakulti Sains Sosial dan
Kemanusiaan, Universiti Kebangsaan Malaysia / Centre for Research in Language and Linguistics,
Faculty of Social Sciences and Humanities, Universiti Kebangsaan Malaysia
Editor bersekutu/ Associate Editor

Prof. Dato Dr. Imran Ho Abdullah – Pusat Kajian Bahasa dan Linguistik, Fakulti Sains Sosial dan
Editor Manuskrip/ Manuscript Editor

Nor Diyana Saupi – Akademi Pengajian Bahasa, UiTM Shah Alam/ Academy of Language Studies,
UiTM Shah Alam
Editor Laman Sesawang / Web Editor

Prof. Dato Dr. Imran Ho Abdullah – Pusat Kajian Bahasa dan Linguistik, Fakulti Sains Sosial dan
Prosiding Simposium Linguistik Korpus ini mula diterbitkan pada tahun 2022 sempena penganjuran
Simposium Penyelidikan Linguistik Korpus Ke-5.
Cetakan Pertama 2022
ãAnis Nadiah Che Abdul Rahman, Imran Ho Abdullah dan Nor Diyana Saupi, 2023
Hak Cipta Terpelihara. Tidak dibenarkan mengeluar ulang mana-mana bahagian data, artikel, ilustrasi,
dan isi kandungan prosiding ini dalam apa juga bentuk dan dengan cara apa jua sama ada secara
elektronik, fotokopi, mekanik, rakaman atau cara lain sebelum mendapat izin bertulis daripada Ketua
Kumpulan Kluster Digital Humanities Research Group UKM, Pusat Kajian Bahasa dan Linguistik,
Fakulti Sains Sosial dan Kemanusiaan, Universiti Kebangsaan Malaysia, 43600 UKM Bangi, Selangor
Darul Ehsan, Malaysia.
Perpustakaan Negara Malaysia Data Pengkatalogan-dalam-Penerbitan
Prosiding Simposium Linguistik Korpus ke-5 (MCRS2022) / Anis Nadiah Che Abdul Rahman… [et
al.]. Ed. 1
Diterbitkan oleh
Digital Humanities Research Group UKM,
Pusat Kajian Bahasa dan Linguistik,
Fakulti Sains Sosial dan Kemanusiaan,
Universiti Kebangsaan Malaysia,
43600 UKM Bangi,
Selangor Darul Ehsan, Malaysia.
Kata Alu-aluan
YBhg. Prof. Dato Dr. Imran Ho Abdullah
Pengerusi Simposium Penyelidikan Korpus Malaysia 2022
Sekalung tahniah dan syabas saya ucapkan kepada Jawatankuasa Penganjur Simposium
Penyelidikan Korpus Malaysia 2022 atas usaha untuk menjayakan simposium dan menerbitkan
prosiding ini. Simposium dengan tema Penerokaan/ Penerapan Linguistik Korpus untuk
Kemanusiaan Digital/ Corpus Linguistics for Digital Humanities ini memberi tumpuan
terhadap penyelidikan mengenai kemanusiaan digital dan sains data dalam pelbagai bidang,
terutamanya bidang Linguistik Korpus.
Penganjuran simposium pada kali ini adalah satu kesinambungan kepada simposium-
simposium lalu. Minat terhadap penyelidikan empirikal berasaskan dan berpandukan korpus
semakin meningkat di Malaysia. Menyedari perkembangan ini, sekumpulan penyelidik korpus
telah berbincang untuk menganjurkan persidangan watan tentang kajian korpus. Maka lahirlah
Simposium Penyelidikan Korpus Malaysia yang bermula di USM pada tahun 2012 sebagai
Malaysia Corpus Research Colloquium dan seterusnya telah dianjurkan oleh (UPM) 2015,
(UTM) 2018 (UiTM) 2020 di bawah tajuk Malaysia Corpus Research Symposium.
Bagi pihak penganjur, kami mengucapkan terima kasih kepada kesemua pembentang kertas
kerja jemputan khas serta semua pembentang kertas kerja. Kita percaya simposium ini akan
mencapai objektif menjadi wadah untuk pertukaran idea serta membina rangkaian antara
penyelidik berasas / berpandu korpus.
Akhir kata, terima kasih kepada rakan Kerjasama iaitu MCRN, DBP dan Gale atas sokongan
padu menjayakan simposium ini. Sekalung penghargaan kepada pihak Dekan dan Pengerusi
Pusat Kajian atas kepercayaan dan sokongan. Juga kepada semua sukarelawan dan ahli
jawatankuasa, kami ucapkan terima kasih menjayakan penerbitan prosiding simposium ini.
Selamat Maju Jaya.
Prof. Dato Dr. Imran Ho Abdullah

Pengerusi Simposium Penyelidikan Korpus Malaysia 2022 (MCRS2022)
Universiti Kebangsaan Malaysia
Prakata
Dr. Anis Nadiah Che Abdul Rahman
Ketua Editor Prosiding Simposium Penyelidikan Korpus Malaysia ke-5 (MCRS2022)
Pasukan editorial mengucapkan selamat datang ke Prosiding Simposium Penyelidikan Korpus

Malaysia ke-5 (MCRS2022) yang telah diadakan pada 28 dan 29 September 2022 di Bangi
Resort Hotel, Bangi, Selangor. Simposium Penyelidikan Korpus Malaysia 2022 dengan tema
Penerokaan/ Penerapan Linguistik Korpus untuk Kemanusiaan Digital/ Corpus Linguistics for
Digital Humanities telah berjaya diadakan dan kertas-kertas terpilih berjaya dihimpunkan
untuk diterbitkan di dalam prosiding ini. Simposium ini telah memberi tumpuan terhadap
penyelidikan mengenai kemanusiaan digital dan juga sains data dalam pelbagai bidang,
terutamanya bidang Linguistik Korpus.
Tahniah dan setinggi penghargaa diucapkan kepada semua pembentang yang berjaya
menghantar makalah dan berkongsi kepakaran menerusi pandangan yang kolektif hasil
cerminan setiap penulisan masing-masing. Penerbitan ini juga menjadi bukti sokongan para
penulis terhadap kemampanan bidang linguistik korpus di Malaysia.
Sebagai satu kesinambungan kepada simposium dan kolokium lalu hasil usaha untuk
memekarkan lagi bidang linguistik korpus di Malaysia, penerbitan pprosiding ini amatlah
bersesuaian. Walaupun telah dijalankan sebanyak empat kali, namun tiada penerbitan dalam
bentuk prosiding yang pernah dibuat. Oleh itu, pihak Digital Humanities Resaecrh Group
mengambil kesempatan ini untuk menerbitkan Prosiding Simposium Penyelidikan Korpus
Malaysia yang telah dialankan buat kali ke-5 ini. Semoga penerbitan ini dapat disambung oleh
penganjur yang seterusnya.
Selamat maju jaya.
Dr. Anis Nadiah Che Abdul Rahman

Ketua Editor
ProsidingSimposium Penyelidikan Korpus Malaysia ke-5 (MCRS2022)
Isi Kandungan/ Table of Content
KATA ALU-ALUAN V
PRAKATA VI
ISI KANDUNGAN/ TABLE OF CONTENT VII
PEMILIHAN KATA DI FACEBOOK: KESAN EMOSI DAN TEKANAN SEMASA

PERINTAH KAWALAN PERGERAKAN (PKP) 1
SEMANTIK PREFERENS : ANALISIS BERASASKAN KORPUS TENTANG

PERUBAHAN IKLIM DALAM KORPUS HANSARD MALAYSIA 8
PROSODI SEMANTIK ‘WANITA’ DALAM KORPUS HANSARD MALAYSIA 18
THE DESIGN AND DEVELOPMENT OF MUET CORPUS 22
UNDERSTANDING LEXICAL VARIATION AND CHANGE IN MALAYSIAN TWITTER

33
Pemilihan Kata di Facebook: Kesan Emosi dan Tekanan Semasa Perintah Kawalan
Pergerakan (PKP)
Hishamudin Isam
Pusat Pengajian Bahasa, Tamadun dan Falsafah
Universiti Utara Malaysia
din@uum.edu.my
ABSTRAK
Perubahan hidup yang berlaku semasa Perintah Kawalan Pergerakan (PKP) yang berulang dari
2020 hingga 2021 telah memberi implikasi besar kepada penduduk dunia sehingga
menyebabkan masalah gangguan emosi dan tekanan jiwa. Sebagai jalan keluar, ramai dalam
kalangan mereka yang terkesan menjadikan laman media sosial sebagai tempat untuk
meluahkan emosi demi meredakan tekanan yang dihadapi. Bertitik tolak daripada hal tersebut,
kertas kerja ini bertujuan meneliti pemilihan kata, kesan emosi dan tekanan jiwa dalam
kalangan pengguna media sosial Facebook (Fb). Dengan memanfaatkan kaedah Operasi
Pengiklanan Maya (OPM) sebagai operasi standard untuk memperoleh data daripada
pangkalan data raya yang bersifat umum dan terbuka seperti Fb, seramai 120 orang pemilik
akaun yang mengaku mengalami gangguan emosi dan tekanan jiwa telah dipilih sebagai
responden. Dapatan daripada keseluruhan data yang berjumlah 3,456,162 (token) dan 469,350
(type) menunjukkan, terdapat tiga (3) kata yang paling kerap diulang-ulang penggunaannya
dalam status siaran dan komen balas iaitu kata takut dengan jumlah sebanyak 18,792
(frequency), diikuti dengan kata marah (16, 569) dan kata sedih (13,801). Perilaku semantik
bagi ketiga-tiga kata tersebut yang dianalisis menggunakan teori prosodi semantik
membayangkan penuturnya sedang bergolak dengan gangguan emosi dan tekanan jiwa yang
dahsyat, yang jika tidak dirawat segera, boleh mengakibatkan kesan yang lebih parah seperti
amuk atau kehilangan nyawa. Kajian-kajian seperti ini wajar digiatkan untuk memastikan
kluster bidang kemanusiaan digital pengkhususan linguistik dapat dimanfaatkan untuk
membantu bidang-bidang ilmu lain. Hal ini selari dengan matlamat Revolusi Industri 4.0 yang
berhasrat untuk menaik taraf semua bidang penyelidikan, agar sinergi ilmu antara bidang dapat
direalisasikan dengan jayanya.
Kata Kunci: PKP, emosi, takut, marah, sedih
1
PENGENALAN
Perubahan hidup yang berlaku semasa Perintah Kawalan Pergerakan (PKP) yang berulang dari
2020 hingga 2021 telah memberi implikasi besar kepada penduduk dunia sehingga
menyebabkan masalah gangguan emosi dan tekanan jiwa. Sebagai jalan keluar, ramai dalam
kalangan mereka yang terkesan menjadikan laman media sosial sebagai tempat untuk
meluahkan emosi demi meredakan tekanan yang dihadapi. Pelbagai aplikasi media sosial telah
dibangunkan dengan pelbagai cabang kelebihan dan keperluan. Dari aplikasi media sosial
untuk berkomunikasi seperti Fb, Twitter dan Instagram, aplikasi media sosial untuk berhibur
seperti smule, hinggalah kepada aplikasi media sosial yang dibangunkan untuk berkongsi tips
dan informasi seperti tiktok.
Kesemua aplikasi media sosial ini telah menyebabkan hubungan antara bahasa dan
ekspresi emosi untuk meredakan tekanan dalam kalangan komuniti digital menjadi semakin
rencam sehingga membentuk konsep emosi digital dalam dunia siber (Collin, 2019). Sebagai
jalan keluar daripada pelbagai kemelut yang melanda sepanjang tempoh PKP, didapati ramai
pengguna menjadikan laman media sosial sebagai tempat untuk meluahkan emosi demi
meredakan tekanan yang dihadapi. Bertitik tolak daripada hal tersebut, kertas kerja ini
bertujuan meneliti pemilihan kata, kesan emosi dan tekanan jiwa dalam kalangan pengguna
media sosial Facebook (Fb).
METODOLOGI
Kajian ini dijalankan dengan berpandukan Operasi Pengiklanan Maya (OPM) (Nor Fazilah
Noor Din dan Hishamudin Isam, 2020), suatu kaedah asas dalam memperoleh data dari sumber
terbuka seperti Fb. Proses mengumpul data dijalankan selama setahun, bermula pada bulan
Januari hingga Disember 2020, melibatkan 120 orang pengguna media sosial telah bersetuju
data dari setiap siaran (hantaran dan komen balas) di Facebook (Fb) milik mereka dijalankan
data kajian. Proses pengesanan kata dijalankan dengan meneliti kata kunci bersifat emosi yang
paling kerap digunakan oleh responden. Pemilihan kata kunci yang tepat amat penting
bersandarkan kepada fahaman dalam bidang linguistik kognitif yang menyatakan, sesuatu kata
yang dominan digunakan dalam ayat dapat menjelaskan kefahaman keseluruhan teks tersebut
(Winters & Nathans, 2020). Hasil pemerolehan data adalah seperti berikut:
Jadual 1. Kata Bersifat Emosi dengan Bilangan Kekerapan Penggunaan Tertinggi
Kata Kekerapan Penggunaan

takut 18,792
marah 16,569
sedih 13,801
risau 10,611
sakit hati 8,864
mengamuk 8,082
bimbang 7,944
menyampah 7,613
terbakar 7,141
gelisah 6,089
2
Proses penganalisisan data dijalankan dengan melakukan proses pengklasifikasian tema.

Setiap data yang telah dikenal pasti, diklasifikasikan secara manual kepada dua kategori yang
dibina berdasarkan prinsip kognitif (Taylor 1995) dengan meneliti ciri-ciri persamaan bentuk
penggunaan atau kesepunyaan seperti persamaan bentuk, saiz, dan bahan, serta aspek atribut
atau sifat sesuatu objek. Seterusnya dijalankan proses pengesanan maklumat teks bagi kata
[keluarga] bersandarkan kepada teori prosodi semantik (Stewart, 2010). Menerusi teori ini,
proses lekapan sesuatu kata telah menyebabkan wujudnya unsur pemindahan makna yang
dijelaskan sebagai “… meanings are ‘attached, taken on, or acquired’ would suggest that they
have arrived from elsewhere, and there is no doubt that the idea of semantic transfer is crucial
to a great many descriptions of semantic prosody” (Stewart, 2010, h.42).
DAPATAN DAN PERBINCANGAN

Perilaku semantik bagi ketiga-tiga kata tersebut yang dianalisis menggunakan teori prosodi
semantik membayangkan penuturnya sedang bergolak dengan gangguan emosi dan tekanan
jiwa yang dahsyat, yang jika tidak dirawat segera, boleh mengakibatkan kesan yang lebih parah
seperti amuk atau kehilangan nyawa.
Takut (18,792)
Hasil analisis memperlihatkan, emosi dengan kata [takut] paling kerap berkolokasi secara
hampir dengan 15 kata yang melibatkan tiga (3) golongan kata iaitu kata nama, kata kerja dan
kata adjektif. Kata [hilang] daripada golongan kata nama mencatat kekerapan berkolokasi
paling tinggi dengan jumlah sebanyak 1132, manakala kata [hadap] dari golongan kata kerja
dengan jumlah 1017 dan kata [gila] dari golongan kata adjektif dengan jumlah 1002 mencatat
kekerapan berkolokasi paling tinggi dengan kata [takut].
Jadual 2. Kata, Golongan Kata dan Jumlah Kekerapan Berkolokasi Setiap Kata dengan Kata [takut]
Kata Nama Jumlah Kata Kerja Jumlah Kata Adjektif Jumlah

Kekerapan Kekerapan Kekerapan
hilang 1132 hadap 1017 gila 1002
perasaan 1019 jumpa 891 kelam 681
masa (depan) 951 dijangkiti 882 gentar 668
virus 929 menebal 701 risau 591
penyakit 899 merebak 699 seram 459
1. Sapa yang tak ***takut*** hilang segala yang ada sekelip mata . Takdak apa yang tinggal.
2. Aku ***takut*** hilang semua yang aku miliki selama ini. Isteri, anak-anak, rumah kami, dan
segalanya yang kami ada .
3. Yang aku paling ***takut***, hilang arah dan pedoman. Mengamuk dan tentu pasal yang
boleh menyebabkan kehilangan segalanya yang aku sayang
4. Memang aku yakin ketentuannya, tapi aku tetap ***takut*** hilang mereka yang aku sayangi
. Mak aku mati. Pak aku mati. Mereka kekuatan aku.
3
5. ***Takut*** hilang semuanya sekelip mata . Sedangkan untuk boleh berada seperti
sekarang, aku perlukan masa yang sangat lama.
6. Serius, aku ***takut*** nak hadap masa depan yang kelam bila semua yang kau ada
sebelumnya gone mcam tu je. Tak nampak lagi penghujungnya.
7. Korang berani? Aku ***takut*** nak hadap semuanya. Even nak hadap muka anak aku pun
tak berani. Takut-takut mereka mintak kfc pun aku tak mampu nak bagi.
8. Gile tak ***takut*** nak hadap benda benda macam ni. Masa depan kot. Kelam je
aku nampak.
9. Semua ada. Paling terteruk sebab tertekan sebab ***takut*** nak hadap kenyataan hidup yang
kita terpaksa juga lalui.
10. ***Takut*** yakmat nak hadap perkara-perkara macam ni. Serius, aku tak
bersedia lagi.
11. Aku ***takut*** aku gila bila kenang apa yang aku bakal hadapi. Stress tahap melampau.
12. Kandang ***takut** yang datang buat aku gila dengan semua hal .
13. Lama-lama ***takut*** buat aku gila yang akhirnya merosakkan diri aku sendiri.
14. Dah lama rasa ***takut*** ni jadik kan aku gila yang boleh binasakan diri aku sendiri kau
tau.
15. Aku tau rasa ***takut*** ni bikin aku gila segilanya, meradang tak tentu pasal. Depress.
Marah (16, 569)

Selain kata dengan emosi [takut], dapatan dari data juga menunjukkan pengguna media sosial
yang bersetuju menjadi responden sering mengekspresikan emosi melalui penggunaan kata
[marah] semasa tempoh kajian ini dijalankan (bulan Januari hingga Disember 2020). Jadual 3
di bawah memperlihatkan penggunaan kata dengan emosi [marah] yang paling kerap
berkolokasi dengan 15 kata lain, sehingga membentuk pemahaman makna yang tersendiri yang
boleh dibantu penjelasannya melalui penerapan teori prosodi semantik.
Jadual 3. Kata, Golongan Kata dan Jumlah Kekerapan Berkolokasi Setiap Kata dengan Kata [marah]

sikap 6290 mengamuk 5119 geram 2923
keadaan 5329 hamun 3005 bising 1119
hidup 3424 membebel 2774 benci 891
pemimpin 3211 memekak 2019 kecewa 838
kerajaan 2991 terdesak 992 pasrah 527
16. Sapa yang tak stress dan ***marah*** dengan sikap segelintir mangkak yang suka hati
rentas sana sini.
17. Padan kena haruk dengan Diva AA, dengan aku sekali ***marah*** sikap geng bebal
yang amik kesempatan p sana sini konon mereka geng kayangan.
18. Sikap depa nilah buat aku ***marah*** sangat sangat sampai tempiasnya kena kat kita
semua . suka hati bejalan sana sini macam jalan ni korang punya.
4
19. Korang taudak sikap koranglah buat aku ***marah*** sangat sangat sampai rasa stress nak
mengamuk . ikut suka pale makpak korang je
20. Pakat ***marah*** dengan sikap geng kayangan yang bebas buat apa yang mereka suka.
21. End up ***marah*** ni mesti rasa nak mengamuk, tak tahan
dengan segala tekanan. dengan bos tak behati perot, dengan tuan rumah yang keje call banyak
kali mintak sewa. Barang dapo semua habis, susu anak habis. lelame aku gila
22. Dapat bos gila kejam, pakej sekali, ***marah*** dan mengamuk . tak pasal pasal elaun semua
takdak. Dah la gaji ciput, ko nak suruh aku anak bini makan apa?
. pigi mamfoss la semua
23. Dia punya rasa nak ***marah*** dan mengamuk ni,
semacam kita rasa kita boleh buat apa je kalau dah terdesak. duit di mana kau duittttttt
24. Aku kalau ***marah*** memang pakej mengamuk sekali, lebih
lebih lagi bila ingat mana nak cekau duit. waktu waktu ni la, bos kau kata tak payah kerja dulu
pun takpe.
25. Mau tak ***marah*** plus mengamuk sekali,
diorang buat peraturan macammmm perghhhh hanat. Bulan ni tiada overtime. keja 3 jam,
seminggu 3 kali, giliran dan gaji ikut jam. Mereput bai.
26. Mula tu geram, lelame ***marah*** pulak sebab dia macam berangkai, kes by kes, nonstop
tak berenti. Ni semua punca geng berlagak kayangan la ni
27. Kalau tak geram kendian ***marah,*** memang kau ni hati lembu la, takde perasaan.
Boleh tengok je binawei kayangan tu buat suka hati.
28. Bukan takat geram, ni dah ***marah*** pulak dah ni wei kat geng kayangan. Orang
kata sarang tabuan jangan dijolok
29. Yang buat nurtizen geram pastu ***marah*** , panas, sakit hati dan semacam lagi semua
tu pasai golongan kayangan ni berleluasa buat suka hati makpak depa la.
30. Geram satu pasal, ***marah*** satu pasal lain. Dari baik baik cuma geram saja tengok kelaku
mereka geng kayangan ni, timbul pulak rasa nak marah. Kang terkeluar cakap yang bukan bukan
kang, korang kata kami jahat pulak.
Sedih (13,801)
Golongan kata adjektif turut sering digunakan oleh pengguna media sosial semasa
mengekspresikan emosi mereka. Penggunaan kata [sedih] misalnya paling kerap berkolokasi
secara hampir dengan kata nama [kehilangan], dengan jumlah kekerapan sebanyak 1012,
diikuti kata kerja [menyesal] berkolokasi paling tinggi dengan 993 kekerapan, dan terakhir
dengan golongan kata adjektif [rindu], berjumlah 3013 kekerapan.
Jadual 4: Kata, Golongan Kata dan Jumlah Kekerapan Berkolokasi Setiap Kata dengan Kata [sedih]

kehilangan 1012 menyesal 993 rindu 3013
family 591 kantoi 807 gelojoh 877
perangai 348 menangis 655 tamak 721
peristiwa 311 tergamak 329 malu 391
kematian 273 tengok 103 susah 257
5
31. Kami semua ***sedih*** kehilangan ayah tersayang semasa PKP pertama dulu, tambah
lagi teringat tak dapat tengok buat kali terakhir. Boleh dengar khabar je dari adik beradik yang
dok kampong.
32. Stress dan down kerana terlampau ***sedih*** kehilangan mak semasa PKP baru ni tak
habis lagi, bila ayah pulak pergi meninggalkan kami mengikut jejak mak. Masa mak tak dapat
rentas balik, masa tu peraturan masih sangat ketat. Mujur masa ayah boleh dah.
33. Masa pkp tujam, mak nyang la yang paling ***sedih*** selepas kehilangan miah. satu-satunya
anak dia, walau anak bela. sebab dia ingat dia yang akan pegi dulu. Mujur masa tu, miah memang
dah balik dok kampung, urusan semua kat kampung saja la.
34. ***Sedih*** kehilangan insan tersayang masa PKP ari tu. Mula dengan tok, pastu wan, pastu
sepupu. Kebetulan mereka memang tak sihat. Ni yang sihat kemain, tiba-tiba p dulu. Abg mat
laki kak norian, che taip ndaksyon. Selang hari tak lama, chu li anak ngah timah. serius masih
terkesan lagi hingga sekarang. Al fatihah untuk mereka. Walau satu daerah, tapi tak boleh p
tengok jugak sebab masa tu semua urusan pihak hospital.
35. Tak dapat tak, rasa ***sedih*** kehilangan kakak aku tu bukan saja dirasai oleh anak
anak dia. Kami yang adik beradik ni pun terasa sama. Dia kebumi pun kami yang jauh ni dapat
tengok dari video call je
36. Nak ***sedih*** dan menyesal pun tak guna dah, benda dah jadi . Yang pergi dah tak kan
dapat kembali. Aku yang bakal gila.
37. ***Sedih,*** menyesal semua ada , bercampur baur. Kalau la aku tau, tapi nak cakap benda
dah lepas ni tak guna dah. Gila dibuatnya sampai rasa nak mati.
38. Rasa ***sedih***, menyesal ni memang tak ada kesudahan. Kalau diikutkan hati, boleh
jadi gila meroyan.
39. Tak dapat digambarkan rasa ***sedih*** dan menyesal dengan semua yang terjadi. Semua
yang dikumpul hilang sekelip mata masa PKP ni. Rasa nak terjun lombong.
40. Bukan setakat ***sedih*** dan menyesal , rasa nak b&%$nuh diri pun ada ni bila kenang
semua yang berlaku.
41. Rindu sangat, ***sedih*** tak dapat jumpa dan kumpul kumpul macam dulu dulu terutama
masa raya baru ni . Mereka semua di kampung, aku sorang sorang kat kl ni
42. Rasa rindu ditambah ***sedih*** tu tak bleh nak describe macammana . Orang
yang tanggung je boleh faham. Jarak memisahkan kita
43. Untong anak anak yang duduk dekat mak, family mereka, aku yang dok jauh ni, rindu,
***sedih*** tak dapat jumpa dah dekat setahun ni . Doa banyak banyak.
44. Selain ***sedih***, rindu tu tak dapat nak bendung. Sebak tahan rasa. Kita jauhhhhhhh
45. Call mak di kampung, dia kata rindu , ***sedih***, dah lama tak jumpa anak cucu. Aku
dengar pun rasa nak teriak , cuma aku tahan sangat sangat tamau mak teriak sama.
46.
KESIMPULAN
Kajian-kajian seperti ini wajar digiatkan untuk memastikan kluster bidang kemanusiaan digital
pengkhususan linguistik dapat dimanfaatkan untuk membantu bidang-bidang ilmu lain. Hal ini
selari dengan matlamat Revolusi Industri 4.0 yang berhasrat untuk menaik taraf semua bidang
penyelidikan, agar sinergi ilmu antara bidang dapat direalisasikan dengan jayanya.
PENGHARGAAN
Kertas kerja ini adalah sebahagian daripada penyelidikan Geran Universiti (SLCP) dengan kod
S/O 21180
RUJUKAN
6
Chaplin, T. M., & Aldao, A. (2013). Gender differences in emotion expression in children: A
meta-analytic review. Psychological Bulletin, 139(4), 735-765.
Coles, N. A., Larsen, J. T., & Lench, H. C. (2019). A meta-analysis of the facial feedback
literature: Effects of facial feedback on emotional experience are small and variable.
Psychological Bulletin, 145(6), 610–651.
Collin, L.C. (2019). Corpus linguistics for online communication: A guide for research. New
York: Routledge.
Barrett, L.F. (2012). Emotions are real. Emotion, 12, 413-429.
Ekman, P., & Cordaro, D. (2011). What is meant by calling emotions basic. Emotion Review,
3(4), 364-370.
Evans, V. (2017). The emoji code: How thumbs-ups, smiley faces and hearts shape our
language. New York: Michael O’Mara Books Limited.
Hai Wang & Zeshui Xu. (2019). Theory and approaches of group decision making with
uncertain linguistic expressions. Springer: Singapore.
Hanks, P. & Wulin Ma. (2021). Meaning and grammar in the light of corpus pattern analysis
get access arrow. International Journal of Lexicography, 34(1), 135–149.
Kövecses, Z. (2007). Where metaphors come from: Reconsidering context in – metaphor.
Oxford: Oxford University Press.
Nor ‘Asyikin Mat Hayin. (2021). Mengurus emosi, mental ketika PKP. Dari
https://www.hmetro.com.my/
Nor Fazilah Noor Din, & Hishamudin Isam. 2020. Data acquisition via advertising operations
(VAO) in Fb. International Journal of Innovation, Creativiti and Change, 14(3), 822-
847.
Ptaszynski, M., Masui, F., & Ishii, N. (2020). A method for automatic estimation of meaning
ambiguity of emoticons based on their linguistic expressibility. Cognitive Systems
Research, 59, 103-113.
Ridauddin Daud. (2021). Rentas negeri: Kini semua terletak pada anda, rakyat Malaysia –
Khairy. Dari https://www.astroawani.com/berita-malaysia
Stewart, D. (2010). Semantic prosody: A critical evalution. New York: Routledge Pub.
Taylor, J. R. (1995). Linguistics categorization prototypes in linguistics theory. Oxford:
Clarendon Press.
West, S. M. (2019). Data capitalism: Redefining the logics of surveillance and privacy.
Business and Society, 58(1), 20–41.
Winters, M. E., & Nathans, G. S. (2020). Cognitive linguistics for linguist. Cham: Springer.
Yatimin Abdullah. (2021). Golongan ‘kayangan’ patut jadi teladan, bukan bangga langgar
SOP. Dari https://www.utusan.com.my/
7
Semantik Preferens : Analisis berasaskan Korpus tentang Perubahan Iklim dalam

Korpus Hansard Malaysia
Muhammad Zakwan Mohd Izam

Centre for Foundation Studies, International Islamic University of Malaysia (CFSIIUM)
International Islamic University Malaysia (IIUM)
zakwan@iium.edu.my
Azhar Jaludin
Pusat Kajian Bahasa dan Linguistik
Fakulti Sains Sosial dan Kemanusiaan
Imran-Ho Abdullah

ABSTRAK
Perubahan iklim merupakan fenomena dan isu global yang tidak asing lagi di mata dunia
sehinggakan isu ini acapkali menjadi salah satu topik yang dibincangkan oleh ahli-ahli politik.
Namun, kajian-kajian lepas mengenai perubahan iklim sering dibincangkan dalam ruang
lingkup sains sahaja. Walau bagaimanapun, perbincangan tentang perubahan iklim sudah mula
berkembang daripada kajian fenomena saintifik kepada kajian yang bercirikan social, etika,
budaya, komunikasi dan politik (Hulme 2009, 2013; Giddens 2009; Malone 2009). Bekas
presiden Amerika Syarikat, Al Gore, ada menyatakan dalam artikel beliau dalam akhbar New
York Times berjudul “We Can't Wish Away Climate Change'' tentang bagaimana pemimpin-
pemimpin dunia hanya sekadar bersikap `ambil tahu’ terhadap isu perubahan iklim. Lantaran
itu, makalah ini meneliti semantik preferens yang terdapat dalam isu perubahan iklim dalam
Korpus Hansard Malaysia dari Parlimen 1 hingga Parlimen 14. Pendekatan berpandukan
korpus telah digunakan bagi mendapatkan kolokat-kolokat yang berkolokasi dengan perubahan
iklim. Dengan itu, kajian ini mampu memperlihatkan tren perbincangan perubahan iklim dalam
dan kolokat-kolokat berkaitan. Kajian ini dijangka daan diharapkan mampu memberikan
gambaran yang lebih jelas tentang perbincangan perubahan iklim di parlimen Malaysia.
Kata Kunci: perubahan iklim (climate change); Korpus Hansard Malaysia; semantik
preferens; kolokasi
8
PENGENALAN
Isu-isu perubahan iklim semakin mendapat perhatian daripada pelbagai golongan manusia
termasuklah pemimpin-pemimpin dunia, pakar-pakar ekonomi, sukarelawan-sukarelawan,
aktivis-aktivis, ahli-ahli politik, ahli-ahli media dan kumpulan masyarakat umum. Meskipun
terdapat pelbagai usaha yang dilakukan oleh pihak kerajaan dalam menangani masalah ini,
tidak banyak fokus ditumpukan terhadap perubahan iklim yang dibincangkan oleh pemimpin-
pemimpin dan ahli-ahli politik negara khususnya ahli-ahli parlimen. Memandangkan
perubahan iklim memainkan peranan yang sangat penting dalam pembangunan sesebuah
negara, maka pengkaji merasakan adalah wajar bagi kajian seperti ini dijalankan.
Parlimen dan Hansard
Parlimen secara umumnya adalah badan perundangan sesebuah kerajaan. Parlimen di Malaysia
adalah badan perundangan yang pada mulanya telah dibangunkan pada tahun 1959 melalui
sistem Westminster yang merupakan sistem parlimen kerajaan yang dibangunkan di United
Kingdom Parlimen di Malaysia terbahagi kepada tiga bahagian termasuklah Dewan Rakyat,
Dewan Negara dan Yang di-Pertuan Agong. Dewan Rakyat terdiri daripada 222 ahli yang
dipilih daripada pilihanraya umum yang diadakan pada setiap 5 tahun. Setiap ahli parlimen
mewakili sesebuah kawasan parlimen. Secara keseluruhannya, parlimen berperanan dalam
mewakili badan pengundi, memeriksa rang undang-undang dan memasukkannya ke dalam
undang-undang dan dasar, meminda undang-undang dan dasar, dan mentadbir kerajaan.
Semantik Preferens
Menurut Sinclair (2004) semantik preferens merujuk kepada “the restriction of regular co-
occurrence to items which share a semantic feature” (p. 142). Merupakan sejenis corak
semantik di mana nod subjek berkolokasi dengan perkataan-perkataan yang mempunyai
hubung kait secara semantik. Misalnya, dalam kajian oleh Partington (1998)’s mengenai sheer,
didapati bahawa `sheer’ berkolokasi dengan 'isipadu', 'saiz' dan 'berat' menunjukkan bahawa ia
mempunyai keutamaan atau semantik preferens untuk perkataan yang berkongsi ciri kebiasaan
semantik bagi 'magnitud'. Kepentingan untuk mengenal pasti kumpulan-kumpulan semantik
ini adalah kita dapat menonjolkan perbezaan deria atau ciri sesuatu nod yang seterusnya dapat
menjelaskan profil semantik (Hunston 2002); memberikan bukti yang boleh diperhatikan
tentang sesuatu ciri topik pada keseluruhan teks (Stubbs 2009, p. 125); memberikan bukti ciri
sesuatu topik keseluruhan teks yang boleh diperhatikan dan mendedahkan makna sikap yang
dikaitkan dengan item nod (Hunston 2007). Terdapat perdebatan mengenai definisi semantik
prosodi dan semantik preferens. Namun beberapa kajian memerihalkan beberapa garis panduan
iaitu semantik preferens hanya direalisasikan pada tahap semantik sahaja manakala semantik
prosodi direalisasikan bukan sahaja pada tahap semantik malah juga pada teks. Dalam kata
lain, semantik preferens memberi penekanan terhadap kolokasi nod manakala semantik prosodi
mengfokuskan kolokasi nod dan turut mengambil kira ciri nod tersebut. Dalam kajian ini, fokus
diberikan terhadap semantik preferens
9
METODOLOGI KAJIAN
Rajah 1 yang menunjukkan langkah-langkah yang dilakukan untuk memenuhi kaedah kajian
ini:
Mengenal pasti kekerapan `Perubahan Iklim'
Menjana tren `Perubahan Iklim'
Meneliti Kolokat `Perubahan Iklim'
Analisis Semantik Preferens
Korpus linguistik adalah kajian bahasa berdasarkan contoh penggunaan bahasa yang sebenar
dalam kehidupan seharian (McEnery dan Wilson 2001). Selain merupakan salah satu bidang
linguistik yang tidak lagi asing, linguistik korpus juga digunakan sebagai salah satu kaedah
yang digunakan bagi memenuhi objektif kajian ini iaitu pendekatan kajian berpacukan korpus.
Kaedah seperti ini dapat membina aspek linguistik hasil daripada analisis data korpus ( Imran,
2022).
Alatan korpus yang digunakan dalam menjalankan kajian ini ialah Antconc 3.5.9. Alatan
korpus ini dipilih kerana kemampuan untuk mengenal pasti perkataan serta menjana kekerapan
kata dalam data bahasa yang besar. Dalam kajian ini, kekerapan kata bagi `Perubahan Iklim’
dan `Climate Change’ dalam teks perbahasan Dewan Rakyat bagi Parlimen 1 hingga ke
Parlimen 14 telah dikenal pasti. Kekerapan kata ini direkod bagi mengetahui dengan pasti
kekerapan `Perubahan Iklim’ atau `Climate Change’ dibincangkan di parlimen.
Seterusnya, trend `Perubahan Iklim’ atau `Climate Change’ telah dijana bagi Parlimen 1 hingga
ke Parlimen 13 iaitu pada tahun 1959 hingga ke tahun 2018. Trend ini dijana bagi melihat
sebarang peningkatan, penurunan serta perubahan yang terdapat pada kekerapan perbahasan
yang berkaitan dengan perubahan iklim di parlimen sepanjang tempoh kajian.
Selepas itu, pengkaji telah meneliti kolokat-kolakat `Perubahan Iklim’ dan `Climate Change’.
Menurut Nikolaos dan George (2014), kolokasi adalah fitur bahasa yang menekankan
keterlibatan satu perkataan dengan perkataan lain selain daripada faktor tatabahasa. Kolokat-
kolokat ini akan dijana menggunakan alatan kolokasi yang merupakan salah satu alatan korpus
yang terdapat dalam perisian Antconc 3.5.9. Sementara itu, kajian ini Kaedah kualitatif dan
kuantitatif.
10
DAPATAN KAJIAN
Kekerapan Perubahan Iklim dan Climate Change
Rajah 1 menunjukkan kekerapan bagi Perubahan Iklim dan Climate Change dalam korpus
Hansard Malaysia dalam Parlimen 1 hingga Parlimen 13 iaitu dari tahun 1959 hingga tahun
2018.
Rajah 1 : Kekerapan Perubahan Iklim dan Climate Change
Jadual 1 menunjukkan kekerapan bagi Perubahan Iklim dan Climate Change dalam korpus
Hansard Malaysia dalam Parlimen 1 hingga Parlimen 13 iaitu dari tahun 1959 hingga tahun
2018 dalam bentuk jadual.
Jadual 1. Kekerapan Perubahan Iklim dan Climate Change
Parlimen 1 2 3 4 5 6 7 8 9 10 11 12 13
Climate 0 0 0 0 0 0 0 9 1 7 41 75 115
Change
Perubahan 0 0 0 0 0 2 6 22 0 10 96 213 170
Iklim
Berdasarkan Rajah 1 dan Jadual 1, terdapat peningkatan yang mendadak bagi kekerapan
Perubahan Iklim dalam P10 hingga P12 iaitu dari 10 hingga ke 213. Walau bagaimanapun,
kekerapan ini mengalami penurunan dari P12 iaitu daripada 213 kepada 170 pada P13.
Kekerapan bagi Climate Change pula mencatatkan peningkatan secara beransur-ansur iaitu
daripada 10 di P10 hingga ke 213 di P12. Walau bagaimanapun, kekerapan bagi Climate
Change mencatatkan penurunan kecil iaitu daripada 213 di P12 ke 170 di P13.
11
Kolokasi dan Statistik Perubahan Iklim dan Climate Change
Pengkaji telah memilih dan menjalankan analisis kolokasi dan statistik terhadap Perubahan
Iklim dan Climate Change dalam Parlimen 6 hingga Parlimen 13. Justifikasi pemilihan
Parlimen 6 hingga Parlimen 13 adalah berdasarkan kekerapan perubahan iklim dan climate
change yang pertama kalinya hadir dalam sidang Parlimen 6 dan kemudiannya terus meningkat
hingga ke parlimen 13.
Isu Perubahan Iklim atau Climate Change
Isu perubahan iklim merupakan isu yang tidak lagi asing dalam parlimen Malaysia hari ini.
Pada tahun 2008, parlimen telah membahaskan untuk mengkaji semula Penilaian Impak Alam
Sekitar (EIA) Empangan Kelau (Santiago 2008). Hal ini adalah kerana impak negatif
perubahan iklim akibat pembinaan empangan ini ke atas corak penurunan hujan, suhu dan lain-
lain akibat. Selain itu, kerajaan juga membincangkan isu perubahan iklim iaitu fenomena banjir
seperti yang berlaku di Sungai Johor dan di lain-lain tempat (Malaysiakini 2011). Berdasarkan
isu-isu seperti ini, pengkaji akan menghuraikan tren perubahan iklim menggunakan Korpus
Hansard Malaysia.
Perubahan Iklim atau Climate Change dalam Parlimen 12 (2008 – 2012)
Dalam parlimen 12, antara isu perubahan iklim yang acapkali dibincangkan adalah pembinaan
Empangan Kelau di Raub, Pahang. Selain memberikan kesan kepada alam sekitar seperti corak
penurunan suhu dan kualiti air hujan. Selain itu, masalah banjir, yang mempunyai kekerapan
sebanyak 3789, turut menjadi salah satu fokus perbincangan dalam parlimen ini. Justifikasi
pemilihan parlimen ini oleh pengkaji adalah berdasarkan jumlah kekerapan tertinggi bagi kata
perubahan iklim dan kedua tertinggi bagi climate change dalam parlimen ini iaitu sebanyak
213 dan 75. Lantaran itu, penggunaan perkataan ini secara kontektual akan diperlihatkan
melalui alatan konkordans daripada perisian Antconc 3.5.9.
12
Jadual 2. Kolokat Perubahan Iklim dan Climate Change dalam Parlimen 12
No. Perubahan Iklim Climate Change

Kolokat Kekerapan Statistik Kolokat Kekerapan Statistik
1 Iklim 217 11.93861 Change 77 16.27446
2 Pemanasan 22 10.28492 Iklim 14 13.05351
3 Impak 24 7.04565 Framework 5 12.65463
4 Climate 11 9.72304 Nations 4 11.37201
5 Copenhagen 4 9.10232 Convention 4 11.12703
6 Change 12 8.52354 Perubahan 14 10.07096
7 Fenomena 17 7.77909 United 5 9.90377
8 Impak 24 7.04565 Impak 4 9.52979
9 Cuaca 6 6.74027 Global 7 9.45884
10 Global 31 6.53658 Dunia 5 7.07891
11 Rangka 4 5.70737 Izin 9 6.86670
12 Persidangan 8 5.48535 Masalah 10 6.14705
13 Menangani 17 5.25860 Mengenai 4 5.41211
14 Akibat 11 5.21303 Sebab 4 4.57616
15 Kesan 19 4.95860 Malaysia 4 4.06131
16 Hijau 10 4.95414 Tahun 4 4.05300
17 Bersatu 4 4.67864 Satu 5 3.48609
18 Negatif 4 4.42664 Kita 14 3.44040
19 Perubahan 7 4.00186 Saya 4 1.41431
20 Dasar 27 3.93594 - - -
Semantik Preferens
Menurut Sinclair (2004) semantik preferens merujuk kepada “the restriction of regular co-
occurrence to items which share a semantic feature” (h. 142). Dalam kata lain, semantik
preferens merupakan sejenis corak semantik di mana nod subjek berkolokasi dengan perkataan-
perkataan yang mempunyai hubung kait secara semantik. Misalnya, dalam kajian oleh
Partington (1998)’s mengenai sheer, didapati bahawa `sheer’ berkolokasi dengan 'isipadu',
'saiz' dan 'berat' menunjukkan bahawa ia mempunyai keutamaan atau semantik preferens untuk
perkataan yang berkongsi ciri kebiasaan semantik bagi 'magnitud'. Kepentingan untuk
mengenal pasti kumpulan-kumpulan semantik ini adalah kita dapat menonjolkan perbezaan
deria atau ciri sesuatu nod yang seterusnya dapat menjelaskan profil semantik (Hunston 2002);
memberikan bukti yang boleh diperhatikan tentang sesuatu ciri topik pada keseluruhan teks
(Stubbs 2009, h. 125); memberikan bukti ciri sesuatu topik keseluruhan teks yang boleh
diperhatikan dan mendedahkan makna sikap yang dikaitkan dengan item nod (Hunston 2007).
Perbincangan Perubahan Iklim dan Climate Change dalam Parlimen 12
Berdasarkan analisis kajian, kolokat-kolokat ini telah dikategorikan mengikut ciri sepunya
semantik seperti dalam Rajah 2 yang berikut:
13
Akibat, Impak
Persidangan
dan Kesan
Jalan Pemanasan
Penyelesaian Global
Rajah 2. Pengkategorian Kolokasi Perubahan Iklim dan Climate Change mengikut Ciri Sepunya
Semantik
Pertama, pengkaji mendapati perubahan iklim dan climate change dalam Parlimen 12
berkolokasi serta mempunyai hubungan yang signifikan dengan impak, kesan dan akibat.
Antara isu yang dibincangkan termasuklah kesan-kesan pembinaan empangan Kelau di Pahang
yang akan mengakibatkan perubahan iklim. Ahli-ahli parlimen telah bersetuju untuk
melakukan kajian impak terhadap pembinaan empangan tersebut. Selain itu, impak dan kesan
banjir turut menjadi salah satu isu yang diolah secara bersama dengan perubahan iklim dan
climate change. Isu ini mendapat perhatian di kawasan-kawasan seperti Arau, Jengka, Ipoh,
Segambut, Lenggong, Kuala Lumpur, Johor Bharu, Kelantan, Sarawak dan lain-lain lagi.
Konkordans 1:
Akibat, Impak dan Kesan
5 November 2012
“Antara program-program yang kita jalankan adalah, kita pun telah berbincang sekarang untuk
mengatur satu, untuk meneliti secara terperinci impak perubahan iklim, sama ada mengenai jumlah
hujan yang jatuh ataupun di negara kita. Oleh yang demikian, maka kita juga menentukan apakan
tindakan-tindakan adaptasi yang harus kita ambil kerana seperti mana yang disebutkan tadi kita
mempunyai beberapa empangan. Satu masalah-masalah yang kita hadapi adalah banjir dan
sebagainya”.
14
Konkordans 2 :
Persidangan
21 Oktober 2010
“Tuan Yang di-Pertua, fokus terhadap teknologi hijau memang merupakan satu inisiatif yang bijak, kita
tidak boleh menafikan bahawa pertukaran iklim atau climate change merupakan antara cabaran terbesar
untuk generasi kita dan generasi yang akan datang. Semasa Persidangan Perubahan Iklim di
Copenhagen, Denmark, Yang Amat Berhormat Perdana Menteri telah komited akan mengurangkan
intensiti karbon dioksida sebanyak 40% menjelang tahun 2020.”
Seterusnya, kolokat yang berkolokasi secara signifikan dengan perubahan iklim dan climate
change adalah persidangan. Persidangan yang dimaksudkan di sini ialah persidangan
antarabangsa mengenai perubahan iklim anjuran United Nation atau lebih dikenali sebagai
2009 United Nations Climate Change Conference atau Copenhagen Summit. Persidangan ini
telah mencapai persetujuan mengenai langkah-langkah mitigasi bagi menangani isu perubahan
iklim bagi negara-negara terlibat.
Konkordans 3 :
Pemanasan Global
21 Mei 2008
“Untuk makluman Yang Berhormat, kerajaan memandang serius dan peka dengan fenomena perubahan
iklim dan pemanasan global ini. Persiapan dan tindakan kerajaan bagi menangani perubahan iklim dan
impak daripadanya terbahagi kepada dua pendekatan iaitu pendekatan metigasi dan adaptasi.”
Pemanasan global atau global warming merupakan kolokat yang signifikan kepada perubahan
iklim. Pemanasan global digunakan secara bersama serta rapat dan dihubungkan dengan kata
hubung dan. Menurut dokumen mesyuarat di atas, ahli-ahli parlimen sedang membincangkan
tentang kesan-kesan pembinaan Lapangan Terbang Pulau Tioman terhadap alam sekitar.
15
Persetujuan telah dicapai untuk memastikan kesan terhadap alam sekitar adalah pada tahap
yang minimum.
Konkordans 3:
Jalan Penyelesaian
21 Mei 2008
“Persiapan dan tindakan kerajaan bagi menangani perubahan iklim dan impak daripadanya terbahagi
kepada dua pendekatan iaitu pendekatan metigasi dan adaptasi. Pendekatan metigasi adalah langkah-
langkah yang diambil bagi mengurangkan pelepasan gas rumah hijau, karbon dioksida, metanol,
manakala pendekatan adaptasi adalah langkah-langkah yang diambil bagi mengurangkan kesan
perubahan iklim kepada manusia dan alam sekitar.”
Antara kolokat yang turut hadir secara bersama dengan perubahan iklim adalah kolokat yang
bercirikan dan berbentuk jalan penyelesaian. Kata kerja seperti menangani dan merangka
digunakan oleh ahli-ahli parlimen bagi membincangkan jalan-jalan penyelesaian bagi
menyelesaikan masalah-masalah berkaitan perubahan iklim. Selain itu, kolokat lain seperti kata
nama dasar dan kata adjektif hijau turut dihimpunkan pengkaji di bawah kelompok jalan
penyelesaian memandangkan kolokat-kolokat ini menjelaskan inisiatif-inisiatif baik pulih
kerajaan dalam menghadapi perubahan iklim.
KESIMPULAN
Kajian ini sedikit sebanyak telah menjelaskan hala tuju perbincangan ahli-ahli parlimen dalam
mendepani isu perubahan iklim di Malaysia. Dengan menggunakan analisis semantik
preferens. pengkaji dapat mengenal pasti, mengelompokkan dan seterusnya menjelaskan ciri-
ciri semantik serta hubungan, secara statistik, kolokat-kolokat dengan ‘perubahan iklim’ dan
‘climate change’ dalam teks perbahasan parlimen 12 yang berlangsung pada tahun 2008 hingga
tahun 2012. Dengan menggunakan kaedah berpandukan korpus, pengkaji dapat melihat tren
perbincangan perubahan iklim sepanjang 5 tahun tersebut. Misalnya, isu pembuangan bahan
buangan terjadual bateri asid yang berlaku di Kuching telah Berjaya mendapat perhatian
kerajaan. Berikutan itu, pada bulan Januari 2008 dua orang telah didakwa di Mahkamah
Seksyen Kuching di bawah seksyen 34(b) Akta Kualiti Alam Sekeliling 1974, atas kesalahan
mengangkut bahan buangan terjadual iaitu buangan bateri asid dan kedua-dua pesalah telah
mendapat hukuman penjara selama 5 tahun.
16
Selain itu, pemanfaatan data Korpus Hansard Malaysia (MHC) telah membuka banyak peluang
serta ruang dalam bidang penyelidikan. Korpus parlimen adalah sumber bahasa pelbagai
disiplin (CLARIN 2019). Hal ini adalah kerana isu-isu yang dibincangkan di parlimen
merangkumi pelbagai aspek kehidupan. Sebagai sumber bahasa yang merangkumi pelbagai
disiplin, MHC bukan sahaja boleh digunakan bagi tujuan penyelidikan bagi bidang bahasa,
namun MHC juga boleh digunakan bagi mengkaji bidang politik, bidang sosial dan juga bidang
ekonomi. Begitu juga dengan kertas kajian ini mempu menjelaskan tren serta isu-isu yang
berkait rapat dengan perubahan iklim atau climate change menggunakan data MHC
berdasarkan kerangka semantik preferens.
RUJUKAN
Abdullah, I. H., Jamaluddin, N., Jaludin, A., & Ramli, N. I. (2022). Glosari Linguistik
Korpus. Dewan Bahasa dan Pustaka.
http://linguistikkorpus.dbp.gov.my/pg_glosari.aspx
Banjir: Lebih 45,000 dipindah, teramai di Johor. (2011, Februari 1). Malaysiakini. Diakses
Disember 15, 2022 daripada https://www.malaysiakini.com/news/155095
CLARIN. (2019). Parliamentary corpora. Retrieved 1 March, 2019 from

https://www.clarin.eu/resource-families/parliamentary-corpora
McEnery, A.M., Wilson, A. (2001). Corpus Linguistics. Edinburgh: Edinburgh University

Press.
Nikolaos K Anagnostou & George R S Weir. (2014). From Corpus-Based Collocation

Frequencies to Readability Measure. Department of Computer and Information
Sciences University of Strathclyde Glasgow G1 1XH.
Stubbs, Michael (2009): ―The search for units of meaning: Sinclair on empirical semantics.ǁ
Applied Linguistics 30.1: 115–137.
Tan, K. H. & Woods, P. (2008). Media-related or generic-related features in electronic
dictionaries: Learners‟ perception and preferences. GEMA Online® Journal of
Language Studies. Vol 8(2), 1-17
Imran Ho Abdullah, Anis Nadiah Che Abdul Rahman & Azhar Jaludin. (2017). The
Malaysian Hansard Corpus. Culturomics Workshop UKM. 27 April 2017.
Santiago, C. (2008, July 17). Parliament Q&A : Kelau Dam – EIA. Retrieved December 14,
2022, from https://votecharles.wordpress.com/2008/07/17/parliament-qa-kelau-dam-
eia/
Sinclair, J. (2004). Trust the Text. London: Routledge.
Partington, A. (1998). Patterns and Meanings: Using Corpora for English Language Research
and Teaching. Amsterdam: John Benjamins Publishing.
17
Hunston, S. (2007). Semantic prosody revisited. International Journal of Corpus Linguistics.

12(2), 249-268.
Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.
Prosodi Semantik ‘Wanita’ dalam Korpus Hansard Malaysia

P87706@siswa.ukm.edu.my
Imran Ho Abdullah
imranho@ukm.edu.my
Intan Safinaz Zainudin

intansz@ukm.edu.my
ABSTRAK
Wacana yang berkisarkan wanita telah menjadi subjek di dalam pelbagai kajian linguistik. Isu
berkaitan wanita juga kian menarik perhatian terutamanya dalam kalangan ahli parlimen.
Secara umumnya, penglibatan wanita di parlimen dapat membantu untuk membentuk identiti
mereka dan menyumbang kepada dasar dan pelan tindakan kerajaan. Walau bagaimanapun,
penyelidikan mengenai pandangan anggota parlimen Malaysia mengenai isu-isu wanita di
dalam parlimen adalah terhad. Justeru, peralatan korpus digunakan di dalam penyelidikan ini
untuk menganalisis pola pandangan penggubal undang-udang melalui data raya untuk melihat
ciri-ciri isu wanita dalam parlimen Malaysia. Kajian ini menggunakan analisis berpandukan
korpus untuk meneroka corak perwakilan perkataan ‘wanita’ dalam korpus Hansard yang
bersaiz 164 juta perkataan iaitu perbahasan parlimen Malaysia dari Parlimen 1 sehingga
Parlimen 14. Korpus Hansard Malaysia ini dianalisis menggunakan WordSmith Tools 7.0
dengan memanipulasi senarai kekerapan kata, kolokasi kata nama dan kata kunci dalam
konteks untuk mengenal pasti pola prosodi semantik perkataan ‘wanita.’ Kajian ini
menggunakan teori prosodi semantik untuk mengkategorikan makna yang berkisarkan
perkataan ‘wanita’. Dapatan kajian menunjukkan bahawa isu wanita dibincangkan dengan
lebih positif di dalam Parlimen Malaysia 1 hingga 14. Menariknya, kolokasi yang kelihatan
ketara sifat negatifnya seperti ‘pelacuran’ dan ‘dadah’ pula berkemungkinan untuk mempunyai
konteks yang positif dalam perbahasan parlimen Malaysia dari perspektif perundangan. Secara
keseluruhan, penemuan ini membantu pembinaan satu kerangka untuk memahami isu-isu
wanita melalui perwakilan semantiknya dalam perbahasan parlimen Malaysia.
Kata Kunci: prosodi semantik, Malaysian Hansard Corpus, wanita, wacana parlimen
18
PENGENALAN
Wanita secara umumnya, mempunyai kedudukan yang tersendiri dalam sesebuah masyarakat.
Wanita turut memainkan peranan yang penting dalam aspek yang melibatkan jaminan
kemakmuran, kemajuan dan kestabilan negara yang berterusan dalam jangka panjang. Di
kebanyakan tempat di dunia ini, wanita secara tipikalnya diandaikan untuk melaksanakan tugas
atau tanggungjawab sosial sebagai seorang suri rumah ataupun bertanggungjawab dalam hal-
hal yang melibatkan tugas rumah tangga seperti mendidik anak dan memasak, manakala lelaki
pula mengambil peranan yang lebih aktif dalam menyediakan sokongan kewangan dan
keselamatan fizikal untuk sesebuah unit keluarga.
Dalam masyarakat hari ini, peranan seorang wanita bukan lagi terhad seperti pada zaman
terdahulu. Kedudukan tradisional wanita dalam masyarakat secara beransur-ansurya telah
beralih ke arah yang lebih baik di mana wanita kini turut berkerja dan dapat menyumbang dari
segi kewangan kepada keluarga mereka. Pada masa yang sama, terdapat juga lelaki yang
memainkan peranan tradisional wanita dalam menjaga kesejahteraan keluarga. Hal ini
dilaksanakan dengan melakukan perkara asas yang selalunya dilakukan oleh wanita seperti
memasak dan membersihkan rumah. Seiring dengan peredaran masa, terdapat beberapa
kemajuan yang telah dicapai dari segi penglibatan wanita terutamanya dalam bidang politik,
sama ada sebagai wakil rakyat mahupun sebagai ahli parlimen. Penyertaan wanita dalam
parlimen juga dilihat lebih menyerlah berbanding dahulu, di mana wanita kini terlibat sebagai
pembuat dasar dan pembuat keputusan untuk pelbagai isu penting sesebuah negara. Isu-isu ini
mesti memberi kesan yang besar bukan sahaja kepada wanita, tetapi juga kepada kerajaan.
Walaupun begitu, kebanyakan kajian mengenai wanita dan parlimen yang telah dijalankan
adalah berkisarkan subjek perwakilan wanita di parlimen dalam bentuk deskriptif. Kajian-
kajian tersebut kebanyakannya menyiasat bilangan wanita yang dipilih untuk jawatan dalam
parlimen atau faktor yang menyumbang kepada kehadiran wanita dalam parlimen. Perwakilan
wanita di parlimen juga boleh dikaitkan dengan perwakilan perkataan ‘wanita’ itu sendiri, dan
kajian perwakilan wanita boleh menilai sejauh mana pelbagai tema yang berkaitan dengan
wanita telah dibahaskan dalam wacana politik yang berlaku di parlimen. Secara umumnya,
kajian ini menyisaat tentang penilaian berkenaan perkataan “wanita” dalam wacana parlimen
berlandaskan kaca mata Ahli Parlimen Malaysia di medium Perdebatan Parlimen Malaysia.
Kajian ini bertujuan untuk menyiasat pola prosodi semantik bagi perkataan ‘wanita’ dari
Parlimen 1 sehingga Parlimen 14.
Representasi Wanita
Dalam beberapa tahun kebelakangan ini, kajian yang berkisarkan tentang representasi wanita
telah banyak dijalankan oleh pelbagai penyelidik berbeza. Kajian-kajian lepas lebih banyak
memberi tumpuan kepada representasi wanita di dalam media semata-mata. Namun, terdapat
kelompongan kajian berkenaan wanita dan isu-isu berkaitan dengan di dalam parlimen.
19
Kebanyakan kajian lalu berkenaan wanita di dalam parlimen adalah berkisarkan kepada
penyertaan wanita sebagai satu jantina di dalam parlimen seperti isu yang menghalang dan
memangkin penglibatan wanita di dalam parlimen. Sebagai contohnya kajian oleh Paxton dan
Kunovich (2003), Ray (2010), Bush (2011), Bawa dan Sanyare (2013), Ndlovu dan Mutale
(2013), Moses dan Marin (2017) dan Kelly (2019).
Kajian-kajian lampau seperti Pearce (2008), Ndambuki dan Janks (2010), Debbagh (2012),
Ponterotto (2014), Mustafa-Awad dan Kirner-Ludwig (2017), Neelam (2017), Oumlil (2017)
dan Bouferrouk dan Dendane (2018) yang telah mengkaji representasi wanita secara umumnya
mendapati bahawa kebanyakan representasi wanita lebih menjurus ke arah negatif. Kajian-
kajian lepas bertumpu kepada representasi wanita sebagai satu jantina dan wanita masih
terkurung di dalam stereotaipnya tersendiri. Wanita kerap digambarkan dan
dikonsepsualisasikan secara berbeza di dalam medium yang berlainan seperti media dan
politik.
Di Malaysia, wanita tidak terlepas dari streotaipnya yang tersendiri. Wanita terperangkap
dengan tugas untuk mengimbangi antara rumah tangga, kerjaya, dan stereotaip jantina
merupakan satu isu yang besar. Menurut Kalthom, Noor dan Wok (2008), peranan wanita di
Malaysia adalah lebih berorientasikan kepada masalah keluarga berbanding dengan kepuasan
diri dan wanita selalunya akan memilih dan mengutamakan keluarga berbanding dengan
kerjaya mereka. Melalui peranan ini juga, wanita Melayu terperangkap dalam dilema antara
cabaran kehidupan dan juga tradisi moden. Walaupun ramai wanita yang kini bekerja, mereka
masih dijangka bertanggungjawab terhadap keluarga dan mengekalkan persepsi tradisional
terhadap seorang wanita.
Prosodi Semantik
Konsep prosodi semantik mula diperkenalkan pada tahun 1993 oleh Louw yang
mendefinasikan prosodi semantik sebagai satu aura makna yang konsisten di mana item
leksikalnya berkait rapat dengan kolokasi perkataan tersebut. Prosodi semantik menurut
Partington, 198, h.68) pula, merupakan “the spreading of connotational colouring beyond
single word boundaries” di mana prosodi semantik disifatkan sebagai satu warna kepada
konotasi makna yang melangkaui satu unit perkataan semata-mata.
Kajian-kajian berkenaan prosodi semantik boleh disimpulkan di dalam Jadual 1 berikut.
Jadual 1. Ringkasan Kajian Prosodi Semantik yang Lalu
Sarjana Leksis Prosodi Semantik
20
Stubbs (1995) cause Kurang digemari

Hajar (2005) Perempuan, wanita Positif dan digemari
Nelson (2006) Global, send, people, package positif
Hardy & Colombini (2010) risk Negatif, positif (minimum)
Hishamudin & Norsimah positif
(2012) setia positif
Siti Zubaidah & Hajar (2016) Islam Negatif dan positif
Nor Fariza et al. (2019) Ekonomi Positif dan neutral
Li (2019) Preserve, conserve Asosiasi yang kurang
Chang & Hajar (2021) Covid-19 menyenangkan
KAEDAH KAJIAN
Kajian ini menggunakan pendekatan korpus bagi menyiasat pola prosodi semantik ‘wanita’
dalam Korpus Hansard Malaysia dari Parlimen 1 (tahun 1959) hingga Parlimen 14 (tahun
2020). Analisis kuantitatif bagi kajian ini mengambil pendekatan berpandukan korpus dalam
menganalisis pola penggunaan perkataan ‘wanita’ dalam MHC. Seterusnya, analisis kualitatif
pula digunakan terutamanya dalam menyoroti dan membuat introspeksi terhadap konkordans
bagi meneliti dan menganalisis konteks penggunaan perkataan ‘wanita’ dari Parlimen 1 hingga
Parlimen 14 dalam MHC dengan menggunakan teori prosodi semantik. Kaedah kajian ini dapat
divisualisasikan di dalam Rajah 1 berikut.
RUJUKAN
Imran, H.A, Anis Nadiah, C.A.R. & Azhar, J. (2018). The Malaysian Hansard
Corpus.Culturomics Workshop UKM. 27 April 2017. unpublished.
Louw, B. (2000). ‘Contextual prosodic theory: Bringing semantic prosodies to life’ in

C.Heffer, H. Sauntson, and G. Fox (eds): Words in Context: A Tribute to John Sinclair
on his Retirement, 58.
Mc Enery, T. & Hardie, A. (2012). Corpus Linguistics: Method, Theory and

Practice.Cambridge University Press.
Partington, A. (2004). "Utterly content in each other's company": Semantic prosody and
semantic preference. International Journal of Corpus Linguistics 9(1): 131–
156,https://doi.org/10.1075/ijcl.9.1.07par
21
The Design and Development of MUET Corpus
Noorli Khamis
Sustainable Industrial Community (SiCOMM)
Centre for Language Learning (CeLL)
Universiti Teknikal Malaysia Melaka (UTeM)
noorli@utem.edu.my
Mohd Hariz Naim

Biomedical Computing and Engineering Technologies
Faculty of information and communication technology
Universiti Teknikal Malaysia Melaka (UTeM)
mohdhariz@utem.edu.my
ABSTRACT
The Malaysian University English Test (MUET) has been used as the benchmark to determine
the English language proficiency of students for admission to public universities and colleges
22
in Malaysia. Recent proactive efforts, taken by the administrator of MUET, the Malaysian
Examination Council (MEC), promise a rise in the demand for the test. One of the efforts is
the alignment of MUET syllabus to the Common European Framework Reference (CEFR).
With the recognition from the Cambridge English Language Assessment (CELA), MUET now
sets out to be an internationally accepted qualification for university entry. The introduction of
the computer-based test version of MUET, i.e. MUET on Demand (MoD), has also boosted the
demand for the test. Therefore, as an attempt to cater to the growing demand, both locally and
internationally, this paper introduces MUET Corpus as a resource for MUET-related activities
such as research, teaching, and learning. Corpus-based approach has been regarded as a useful
method in extracting valuable input for language description and language learning. MUET
Corpus is a collaborative project between UTeM and the MEC. The corpus contains written
texts of the test papers for all the skills – Reading, Listening, Writing, and Speaking. Being an
open corpus, MUET Corpus currently collects test papers from 1999 until 2020. This paper
reports on the design and development of the corpus. The discussion includes the challenges
faced in the development of the corpus, which provides critical considerations on corpus
construction issues.
Keywords: MUET, MUET Corpus, written texts, corpus design, corpus construction
INTRODUCTION
The Malaysian University English Test (MUET) was first administered in 1999, and the
Malaysian Examination Council (MEC) is the authorised body in managing the test nationwide.
The test has been used as the benchmark to determine the English language proficiency of
students for admission to public universities and colleges in Malaysia. Therefore, the MUET
syllabus is designed to address the language needs of students from secondary education as a
preparation for their academic requirements at tertiary level education (Rethinasamy & Chuah,
2011). In addition, MUET also serves as an assessment for adult learners of English, including
teachers and those who use English in the education context (Malaysian Examination Council,
2021).
In line with the aspiration of the Malaysia Education Blueprint (MEB) 2013-2025, the English
Language Teaching in Malaysia has seen the implementation of the Common European
Framework of References (CEFR) as the standard for describing the language performance of
the learners at all levels (Marzaini & Yusoff, 2022; MOE, 2015). The MEC has also taken a
proactive step by aligning the MUET syllabus to the CEFR, and measuring the language
proficiency level of the candidates with reference to the CEFR descriptors. With the
recognition from the Cambridge English Language Assessment (CELA), MUET now sets out
23
to be an internationally accepted qualification for university entry (Sani, 2018). As such, the
demand for MUET as an English proficiency level test has also seen a rise. The introduction
of the computer-based test version of MUET, i.e. MUET on Demand (MoD), has also boosted
the demand for the test. Therefore, as an attempt to cater to the growing demand, both locally
and internationally, this paper introduces MUET Corpus as a resource for MUET-related
activities such as research, teaching, and learning. Corpus-based approach has been regarded
as a useful method in extracting valuable input for language description and language learning.
MUET Corpus is a collaborative project between UTeM and the MEC (UTeM, 2021) The
initial discussion of the project took place in 2016, and the corpus is one of the expected output
of the collaboration. At the end of November 2021, the MUET Corpus was deployed and
available online as a web-based corpus software, and the access to corpus can be obtained by
purchasing the site license.
This paper reports on the design and development of the MUET Corpus. The discussion
includes the challenges faced in the development of the corpus, which provides critical
considerations on corpus construction issues.
THE DESIGN OF MUET CORPUS
MUET Corpus comprises written texts of MUET papers from 1999 to 2020. The collection
includes the Reading, Listening, Writing, and Speaking papers. Because it represents
specialised text type (i.e. question papers), aimed to sample a sub-language (i.e. language used
in the MUET papers) for language observations of teaching conditions, MUET Corpus is
considered as a specialised corpus. This corpus is built with the intention to be extended
continuously in the future, for as long as MUET is being administered. As such, the MUET
Corpus is an open corpus, which allows the addition of texts to account for the influence of
time on the language use. This feature is especially useful to observe the language use in the
papers in cases of revamping and upgrading of the MUET syllabus over the years.
Because the MUET Corpus collects only the MUET papers, the selection of texts is
straightforward. All the test papers for all the skills are retrieved with permission from the
owner of MUET papers, the Malaysian Examination Council (MEC). Thus, the MUET Corpus
is a collaborative project between the researcher’s university, UTeM, and MEC. The
distribution of the test papers in the corpus is shown in Table 1. In total, MUET Corpus
currently has approximately 2 million words.
Table 1. The distribution of test papers in MUET Corpus
Papers File Size Tokens Types

Listening 143,917 21,075 3,763
Speaking 16,163 2,701 196
Reading 1,489,717 241,709 16,032
Writing 117,630 18,427 3,227
3.0 Constructing the MUET Corpus
24
Generally, the corpus construction involves several phases – converting and cleaning the texts,
tagging the texts, arranging and naming the folders, developing the website of the corpus, beta-
testing, improving the website, deploying the corpus website on the server. Figure 1 presents
the workflow of the corpus construction.
Figure 1. Workflow of MUET Corpus Construction
Converting and cleaning the texts

The test papers received from the MEC are in softcopy files of the Portable Document Format
(PDF). Because a corpus requires the plain text format (.txt) to operate, all the PDF files are
converted into plain text using a PDF to Text converter program.
Next, the post editing stage is required to get the clean texts. Several parts are removed, for
example the cover page of the test paper, illustrations, tables, or diagrams, leaving only the
instructions, passages, questions, and options for the corpus.
Tagging the texts

The MUET Corpus offers two versions of text - raw texts and tagged texts. The tagged version
of the corpus employs the CLAWS7 tagsets. Therefore, all the files are tagged using the
CLAWS tagger.
Arranging and naming the folders

Both types of files (raw and tagged) are arranged according to test papers (Listening, Speaking,
Reading, and Writing), followed by years, months and sessions accordingly. The files are
labelled in a systematic format to be used for the development of the website algorithms.
Developing the website of the corpus

The development of the corpus website is carried out by the technical team from the university,
with the advice of the project leader, especially on the functionality, usability, and interface of
the website. The initial website development took almost 9 months, and the process included
several vetting sessions and improvements of the website.
Beta-testing
Once the corpus website was ready for beta testing, six experienced corpus users from other
universities in Malaysia were invited to review the website. They were given two weeks for
25
the review, and they were required to sign a Non-Disclosure Agreement (NDA) if they agreed
to carry out with the task.
Improving the website

Based on the feedback received, the research team reviewed the corpus website, and made
several improvements to it.
Deploying the corpus website on the server

The MUET Corpus was deployed on UTeM server at the end of November 2021 with the
assistance of the UTeM Computer Service Centre. The link to the landing page of the website
is https://muetcorpus.utem.edu.my/.
THE MUET CORPUS WEBSITE
This section presents the highlights from the MUET Corpus website.
The landing page

The link directs the users to the landing page of the MUET Corpus. Figure 2 shows the excerpt
of the upper part of the landing page.
Figure 2. The upper part of the landing page of MUET Corpus
The landing page also provides the details of the corpus features, overview of screenshots,
other related MUET-based product, details of copyright, and form for contact details. To obtain
access to the MUET Corpus, users need to click the Get Started button on the landing page to
provide details for purchasing and make payment for the licence. The corpus offers single-user
and multiple-user licences.
The home page

The corpus user is provided with the password via email after they have made their purchase.
Figure 3 displays the home page of the MUET Corpus website, featuring the tools available –
Frequency, Concordance, and Search.
26
Figure 3. The main page of MUET Corpus

The tools
Frequency – The Frequency tool generates the frequency of a search word in the MUET papers
according to the tests. For example, in Figure 4, the word Malaysia is found 594
times in the MUET Speaking papers, and only three in the MUET Writing papers.
The total frequency of the search word in the documents it occurs is also provided,
for example, in Figure 4, the word Malaysia occurs 30 times in the MUET
Speaking paper of the second session (Q2) in 2010, and 32 times in the same
paper of the second session in 2013. This initial result suggests that the contexts
of the MUET Speaking test papers evolve around Malaysia issues.
Figure 4. The Frequency tool page
27
Concordance – The Concordance tool displays a search word in the contexts it appears in the
MUET papers. Figure 5 displays the concordance lines of the word Malaysia.
The left and right words can be extended to a maximum of 15 words (15 words
to the left, and 15 words to the right). The documents from which the lines are
taken are also displayed.
This tool also offers the tagged version of the text. By clicking the POS box,
the tagged concordance lines are displayed.
FIGURE 5. The Concordance tool page
Figure 5. The Concordance tool page
28
Search – The Search tool offers a more advanced search of a word according to years and
types of document (Reading, Writing, Speaking and Listening). Figure 6 displays
the options by years and documents.
Figure 6. The advanced Search page
CHALLENGES IN CONSTRUCTING THE MUET CORPUS
Given the fact that this corpus is a collaborative project between UTeM and MEC, there are
several challenges faced by the researchers throughout its construction. Because the MUET
Corpus is a specialised corpus, issues in developing this web-based software is not as great as
handling the collaborative project. The discussion on the challenges will be helpful to users
and researchers on understanding some limitations present in the MUET Corpus. Some of the
major challenges are:
1. Obtaining copyright clearance

Although MUET Corpus is owned by both the university and MEC, the MUET papers are
owned by only the MEC. Therefore, an agreement (Memorandum of Agreement - MoA)
with the agency is made on obtaining the copyright for all the papers. The copyright
permission expires once the agreement ends. After that, researchers will have to seek
permission from the MEC regularly according to the duration agreed by the agency.
29
Another issue related to copyright is the clearance to use the full texts of the MUET papers.
Earlier, the MEC has given the clearance to publish the complete set of the papers for
commercialization purposes to a local publisher. Therefore, subject to the agreement made
between the MEC and the local publisher, technically, the publisher also holds the rights
to the full texts. This results in the limited access to the full texts for MUET Corpus in
providing the contexts to a search word, which mainly affects the functionality of the
Concordance tool. As such, language investigations are limited to a span of words in a
concordance line.
2. Adhering to policies and procedures for the collaborative effort

Because both the university and MEC are government statutory bodies, several policies
and procedures apply; thus the whole effort of developing, maintaining, and
commercializing the corpus are taking a very long time. The effort for this collaboration
began in 2016. The project involves the commercialisation of the corpus as a product.
Therefore, legal aspects, such as copyright ownership, roles and responsibilities, profit
sharing, etc. have been a great concern by both parties. There have been numerous
meetings and presentations at the university levels, as well as with the MEC to finalize all
the results and decision making.
3. Communicating with the IT (technical) team

Compiling the texts for the corpus may not pose a great challenge. However, developing
the web-based corpus software to be deployed and accessed online by users requires the
assistance of the IT experts. Unlike most commercial and non-commercial web-based
corpus software, the MUET Corpus is developed by two teams – the language and IT
academics. The language team works on determining and arranging the contents for the
corpus, and the IT team works on developing the web-based software. Communicating
ideas and concepts of corpus-based language investigations such as concordancing,
collocations, KWIC, etc. can be a challenge due to the different backgrounds. The IT team
often need to redo their work to suit the required design of a web-based corpus software,
as being advised by the language team. Despite the exciting experiences, the process can
be time-consuming.
4. Addressing technical requirements in deploying the corpus for commercialisation

Another critical issue related to the governance structure of the university is the use of the
university server to deploy the corpus for commercialisation. The deployment of the
corpus does not only require the technical support from the university, but also involve the
financial management of the bursary. Because the MUET Corpus is subject to the
university property, payments for the purchase can only be made through the bursary of
the university. Technical requirements such as creating payment gateway, account
management, money transfer, etc. have to be made clear. The whole procedures involve a
complex hierarchy.
CONCLUSION
The MUET Corpus is constructed with the intention to assist many MUET-related users,
namely researchers, language instructors, course developers, book writers, and possibly the
30
MUET candidates in examining and exploring the MUET papers. The corpus offers systematic
analyses of the MUET papers to answer questions regarding the linguistic profiles of the papers
based on skills tested, such as the words and their contextual meanings for the MUET
candidates to master or the genres in the passages or texts for them to be familiar with. The
insights important in designing effective exercise, materials and courses especially for the
MUET candidates. The open corpus feature is also useful to examine the changes in the MUET
papers over time, especially with the implementation of the CEFR-aligned syllabus. Therefore,
the development the MUET Corpus is relevant as a resource in facilitating MUET-related
teaching and learning purposes and contributing to more corpora constructions in Malaysia for
corpus-based/driven language investigations (Rahim, Hasan, Hong, & Joharry, 2021; Ho
Abdullah, Rahman, & Jaludin, 2021)
ACKNOWLEDGEMENT
We would like to thank Centre for Technopreneurship Development (CTeD), UTeM and
Malaysian Examination Council (MEC) in providing the grant and support for this project -
GLuar/MPM/2017/PBPI-CTED/I00028 and MTUNC/2019/PBPI-C-TED/MC0008.
31
REFERENCES
Ho Abdullah, I., Rahman, C. A., & Jaludin, A. (2021). The Development of the Malaysian
Hansard Corpus: A Corpus of Parliamentary Debates 1959-2020. Jurnal Linguistik,
25(1), 66-79. Retrieved from https://www.researchgate.net/publication/351934907_
The_Development_of_the_Malaysian_Hansard_Corpus_A_Corpus_of_Parliamentary
_Debates_1959-2020/stats
Malaysian Examination Council. (2021). 800 Malaysian University Engliosh Test (MUET).
Batu Caves: MEC.
Marzaini, A. F., & Yusoff, S. M. (2022). Assessing CEFR-Readiness Test in Malaysian ESL
Classroom: An Insight from English Language Teachers in Pulau Pinang. Asian
Journal of Assessment in Teaching and Learning, 12(1), 1-9.
doi:https://doi.org/10.37134/ajatel.vol12.1.1.2022
MOE, M. o. (2015). Executive Summary Malaysia Education Blueprint 2013-2025 (Preschool
to Post-Secondary Education). [online]. Retrieved from Ministry of Education. 2015.
Executive Summary Malaysia Education Blueprint 2013-2025 (Preschool to Post-
Secondary Education). [online] Available at: <http://www.moe.gov.my/cms/upload
_files/articlefile/2013/articlefile_file_003114.pdf>
Rahim, H. A., Hasan, R. A., Hong, A. L., & Joharry, S. A. (2021). The Diachronic Malaysian
English Corpus (DMEC): Design, Development and ChallengeS. GEMA Online®
Journal of Language StudieS, 21(4), 88-109. Retrieved from
file:///C:/Users/01000/Downloads/48420-172399-1-PB%20(2).pdf
Rethinasamy, S., & Chuah, K. M. (2011). The Malaysian University English Test (MUET) and
its Use for Placement Purposes: A Predictive Validity Study. Electronic Journal of
Foreign Language Teaching, 8(2), 234–245. Retrieved from
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2146007
Sani, R. (2018, March 14). MUET Score and Loadings Hour : An Analysis On The Relationship
Towards Academic Performance. Retrieved from New Straits Times:
https://www.nst.com.my/education/2018/03/344982/producing-internationally-
recognised-english-qualification
UTeM. (2021, November). MUET Corpus Retrieved from https://muetcorpus.utem.edu.my/
32
Understanding Lexical Variation and Change in Malaysian Twitter
Noraishah Gulnazir
p110855@siswa.ukm.edu.my
Centre for Research in Language and Linguistics,
Faculty of Social Sciences and Humanities,
Universiti Kebangsaan Malaysia, Malaysia
Khazriyati Salehuddin
khazudin@ukm.edu.my
Centre for Research in Language and Linguistics,
Faculty of Social Sciences and Humanities,
Universiti Kebangsaan Malaysia, Malaysia
ABSTRACT
American English is regarded as the hub for global English in Mair’s theory of The World
System of Englishes. As American English is deemed as a hyper-central language, naturally,
the American lexical items are expected to be prevalent in other varieties of English in the
world. The advent of social media networks such as Twitter has proliferated the frequency and
speed at which lexical items spread among global Internet users. Interestingly, despite adopting
British English in the national education system, American English is gaining prominence
among Malaysians due to the global spread of American English through the media. In spite
of the massive influence of American English, there is a dearth of research on how American
English is affecting other varieties of English, especially Malaysian English. There is a need to
examine the role of American English in leading global language variation and change. The
current research aims to understand the influence of American English on Malaysian English,
in terms of lexical items on Twitter. To achieve this, the emerging American lexical items lit
and on fleek will be investigated in terms of its trend of frequency and patterns of usage in
Malaysian Twitter using a corpus-driven analysis. Concordance and n-gram analysis in corpus
analysis toolkits will be utilised. Results from this study could reveal the extent to which
Malaysian English is influenced by American English in terms of lexical units on Twitter,
shedding light on the global transformation of the English language.
Keywords: Lexical variation; lexical change; language variation; language change; Twitter
33
INTRODUCTION
Due to the widespread use of English online, language is undergoing changes by the day.
Phonological, morphological, semantic, and pragmatic aspects of the English language are
changing rapidly. As a result, the use of lexical items, especially on social media is also
transforming. One of the online platforms which have propelled language variation and change
is Twitter. Founded in 2006, Twitter is a microblogging site which connects users through
blogging and instant messages called tweets. Twitter has changed and is still changing the
social landscape through online communication. Recent studies have begun using Twitter in
exploring language change and variation, particularly in understanding lexis on Twitter (Huang
et. al, 2016; Grieve et al., 2017; Grieve et al, 2018; Grieve et. al, 2019; Würschinger, 2021).
The emergence of social media such as Twitter has allowed researchers to have a greater
understanding of spontaneous, real-life language change, especially in written communication.
Personal emails, chat rooms, online forums, instant text messaging applications with their
unique appeals have enabled the global speech community to connect and express themselves
via words. Graddol (2000, p. 51) stated that the Internet “has given the shift of control to
ordinary users”. The power of traditional media such as printing and broadcasting which were
once the gatekeepers to promote standard language have shifted to the Internet. As a result, the
Internet, especially social media, is “contributing to the fluidity and promotion of vernacular,
or in-group, language” (Battarcharjee, 2009, p. 49). With such extensive and collective power
belonging to social media users worldwide, the role of propelling linguistic transformation now
lies with them. Language change in social media is now driven by a global network of users.
The world is now witnessing the birth of global lexical items, shared by global citizens.
Globalisation has enabled linguistics to be observed beyond traditional constructs and barriers,
addressing burgeoning ideas which are defining the society. Blommaert (2010) referred to this
as ‘sociolinguistics of globalisation’. Tseng and Hinrichs (2020) expanded on the notion of
‘language mobility’, in which the English language is considered to be traversing all around
the world through various processes. According to Androutsopoulos (2011), global circulations
are conceptualised at two main levels. The first takes place when new genres or discourse
patterns emerge on a larger scale, such as in news reporting, businesses, or popular music. The
second level is when linguistic features, particularly lexical items, spread across dialects or
languages.
The global spread of English has resulted in numerous varieties of English over the globe,
including Malaysian English. The development of the Malaysian variety of English is
influenced by historical, linguistic, cultural, and political aspects (Hashim, 2020). More
recently, the variety seems to have evolved, especially on social media. With digital
communication playing such a pivotal role in language use and development as well as
contributing to linguistic identities, ideally, the Malaysian variety of English should be
understood by those who speak this variety of English. However, in reality, some features in
the Malaysian English are unintelligible to some people, especially with the recent linguistic
innovations in the variety because Malaysian English has emerged as a unique variety of
English in its lexical usage not only through the infusion of local traits and characteristics
(Bolton, Botha & Kirkpatrick, 2020), but also through the impact of global influences and
trends (Moody, 2020).
34
In Mair’s theory of The World System of Englishes (2013), American English is regarded as
the hub for global English and the key indicator of the influence of American English is when
lexical units from American English spread into other varieties of English. This means that
lexical units from American English (hyper-central variety) are more likely to spread into
Malaysian English which is lower in hierarchy (super-central variety). Thus, based on this
theory, this study is proposed to investigate how the global widespread and pervasiveness of
American English is transforming and influencing Malaysian English on Twitter, especially in
terms of lexical units.
Investigating Lit and On Fleek In Malaysian Twitter

The proposed study will investigate two lexical items - lit and on fleek - which emerged in
American Twitter since 2013 (Grieve et al., 2017). These lexical items will be investigated in
Malaysian Twitter from the year 2013 until 2021 in terms of frequency distribution, the usage
of these lexical items as well as the phraseological units formed from these lexical items.
Trends of frequency enable researchers to gain a comprehensive understanding of how lexical
items are distributed in a corpus and draw conclusions from them. In this study, tweets with
the terms lit and on fleek will be investigated for its distribution of usage from the year 2013
until 2021, since these word forms emerged in American Twitter from the year 2013 onwards
(Grieve et al., 2017). Frequency will be used to observe the progression of these terms over the
years, and to achieve this, absolute frequency (the number of times a lexical item occurs in the
corpus) as well as relative frequency (the number of times a lexical item occurs in the corpus
in relation to the total number of words i.e., tokens in the corpus) will be calculated. After the
calculations are performed, the data will then be visualised using a line chart. This methodology
would reveal the trends of usage of these lexical items over the years in Malaysian Twitter.
In this research, apart from the aforementioned frequency distribution analysis, Google Trends
will also be utilised to complement results from frequency distribution (Grieve et al., 2017) to
further understand the earliest occurrence of lit and on fleek in Malaysia. Google Trends has
been utilised as a platform Google Trends is used to trace specific search words or phrases
either synchronically or diachronically. For example, by searching the term lit, the platform
reveals numerical and graphical data regarding lit which can be tailored to researchers’ desired
region, country, categories, and duration. The numerical breakdown of the usage of lit can be
downloaded for further analysis. Google Trends also allows the generation of the geographic
maps for the term lit to illustrate where exactly is the word most prevalent in Malaysia.
To understand the meaning and context of usage of new word forms, researchers have made
use of available tools, such as concordancer in corpus analysis toolkits. Therefore, tweets with
the lexical units lit and on fleek will be analysed using the concordancer in AntConc version
4.1.1 to analyse the usage of these word forms in Malaysian Twitter. Additionally, Urban
Dictionary will be used to verify and compare the usage of lexical items lit and on fleek in
Malaysian Twitter with the meanings in American English. This would demonstrate whether
Twitter users in Malaysia use these lexical terms similarly to American Twitter users and are
referring to the same meanings when they do. Additionally, to ensure the accuracy of meaning
of the lexical items found online, Urban Dictionary will also be utilised (Grieve et al., 2017).
The lexical items lit and on fleek are not used in isolation. Lexical units, despite its ability to
stand on its own, are mostly used with other lexical units to form multi-word combinations or
35
recurrent word sequences, with phrases consisting of at least two words or more (McEnery &
Hardie, 2012). For instance, in American English, on fleek is often accompanied by eyebrows
to form eyebrows on fleek. Due to this, this study will identify the common phraseological units
of lit and on fleek in Malaysian Twitter and compare its usage with phraseological units in
American English, which can be found on Urban Dictionary. To identify the use of these
phraseological units, the n-gram feature in corpus tools will be utilised. AntConc version 4.1.1
allows for the common patterns of word sequences and its frequency to be revealed through its
n-gram/cluster feature. For instance, by keying in the term on fleek, with the minimum
phraseological units accepted to be two or more words as per Harris (2006) and McEnery
(2011), the corpus tool would reveal the existence of one of the common phrases in American
English that is eyebrows on fleek in Malaysian Twitter. The phraseological units found will
then be classified according to Fiedler’s (2007) classification of phraseological units.
It is important to note that the English language use in Malaysia is rife with code-switching,
whereby language users alternate between two or more languages at once. Being a multilingual
nation, there are sequences of words adopted from other local languages in Malaysia included
while practising the English language, and this phenomenon is apparent on social media
platforms such as Twitter. This study strictly focuses on the usage of lit and on fleek in the
English language in Malaysian Twitter, with tweets being fully in English language. This
means that if Malaysian Twitter users use your kening is on fleek, with kening referring to
eyebrows, replacing the common phraseological unit eyebrows on fleek, it would not be
included in the main analysis. Nevertheless, considering the uniqueness of code-switching
among Malaysians, this aspect would still be taken into account in the analysis and discussion
to show the localised features in Malaysian English but only as additional findings, and not as
the main results of the study.
CONCLUSION
This study is proposed to investigate lexical variation and change in Malaysian English on
Twitter. The present study has briefly illuminated the current understanding regarding lexical
variation and change and propounded relevant methodologies to investigate global lexical
items which have influenced other varieties of English. Analysing new lexical items in
Malaysian English as well as observing it with regards to globalisation could lead to theoretical
contributions by illuminating the dynamics of English language variation and change at large.
Apart from that, this study could also point out the creativity and speed with which speakers of
English have reacted linguistically to the change of language on social media. This study could
help researchers understand the changing realities of communication, particularly on social
media. It is hoped that this paper has amplified current research in lexical variation and change
on Twitter and will encourage more incoming research in investigating English lexical
variation and change in different varieties of English.
REFERENCES
36
Androutsopoulos, J. (2011). Language change and digital media: a review of conceptions and
evidence. Standard languages and language standards in a changing Europe, 1, 145-159.
Battarcharjee, D. S. (2009.) Lexical Innovation on the Internet-Neologisms in Blogs (Doctoral

dissertation, University of Zurich, Poland).
Blommaert, J. (2010). The sociolinguistics of globalization. Cambridge: Cambridge University

Press.
Bolton, K., Botha, W., & Kirkpatrick, A. (Eds.). (2020). The Handbook of Asian Englishes.
USA: John Wiley & Sons Inc.
Fiedler, S. (2017). Phraseological borrowing from English into German: Cultural and
pragmatic implications. Journal of Pragmatics, 113, 89-102.
https://doi.org/10.1016/j.pragma.2017.03.002
Graddol, D. (2000) The Future of English. A guide to forecasting the popularity of the English
language in the 21st century. (2nd ed.). London: The British Council.
Grieve, J., Montgomery, C., Nini, A., Murakami, A & Guo, D. (2018). Mapping Lexical
Dialect Variation in British English Using Twitter. Frontiers in Artificial Intelligence 2,
1-18.
Grieve, J., Nini, A. & Guo, D. (2017). Analyzing lexical emergence in Modern American
English online. English Language and Linguistics 21(1): 99–127.
https://doi.org/10.1017/S1360674316000113
Grieve, J., Nini, A. & Guo, D. (2018). Mapping Lexical Innovation on American Social Media.
Journal of English Linguistics 46(4): 293–319.
Harris, A. (2006). Revisiting anaphoric islands. Language 82(1): 114–30.
Hashim, A. (2020). Malaysian English. In Bolton, K., Botha, W., & Kirkpatrick, A. (Eds.). The
Handbook of Asian Englishes, (p.373-397.) USA: John Wiley & Sons Inc.
Huang, Y., Guo, D., Kasakoff, A., & Grieve, J. (2016). Understanding US regional linguistic
variation with Twitter data analysis. Computers, environment and urban systems, 59, 244-
255.
Mair, C. (2013). The World System of Englishes: Accounting for the transnational importance
of mobile and mediated vernaculars. English World-Wide, 34(3): 253–278.
https://doi.org/10.1075/eww.34.3.01mai
McEnery, T., & Hardie, A. (2011). Corpus linguistics: Method, theory and practice.
Cambridge: Cambridge University Press.
McEnery, T., & Hardie, A. (2013). The history of corpus linguistics. In Keith Allan (ed.), The
Oxford handbook of the history of linguistics (pp. 727–745). Oxford: Oxford University
Press.
37
Moody, A. (2021). The authority and authenticity of performative Englishes in popular

culture. World Englishes, 40(3), 459-479.
Tseng, A., & Hinrichs, L. (2020). Mobility and the English Language. In The Handbook of
English Linguistics, (pp. 637-652). John Wiley & Sons Ltd.
Würschinger, Q. (2021). Social Networks of Lexical Innovation. Investigating the Social

Dynamics of Diffusion of Neologisms on Twitter. Front. Artif. Intell.
https://doi.org/10.3389/frai.2021.648583
38

Prosiding Simposium Penyelidikan Korpus Ke 5 (MCRS2022)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Prosiding Simposium Penyelidikan Korpus Ke 5 (MCRS2022)

Uploaded by

Copyright:

Available Formats

eISSN: 022473 Simposium Penyelidikan Korpus Malaysia ke-5 (MCRS2022) | Malaysian 5th Corpus Research Symposium (MCRS2022)

28-29 September 2022

Prosiding Simposium Penyelidikan Korpus Malaysia ke-5

Proceeding of the 5th Malaysian Corpus Research Symposium

Disunting oleh/ Edited by:

Anis Nadiah Che Abdul Rahman

Nor Diyana Saupi

PASUKAN EDITOR/ EDITORIAL BOARD

Ketua Editor/ Editor In Chief

Editor bersekutu/ Associate Editor

Editor Manuskrip/ Manuscript Editor

Editor Laman Sesawang / Web Editor

Cetakan Pertama 2022

Perpustakaan Negara Malaysia Data Pengkatalogan-dalam-Penerbitan

Selamat Maju Jaya.

Prof. Dato Dr. Imran Ho Abdullah

Pasukan editorial mengucapkan selamat datang ke Prosiding Simposium Penyelidikan Korpus

Selamat maju jaya.

Dr. Anis Nadiah Che Abdul Rahman

Isi Kandungan/ Table of Content

ISI KANDUNGAN/ TABLE OF CONTENT VII

PEMILIHAN KATA DI FACEBOOK: KESAN EMOSI DAN TEKANAN SEMASA

SEMANTIK PREFERENS : ANALISIS BERASASKAN KORPUS TENTANG

PROSODI SEMANTIK ‘WANITA’ DALAM KORPUS HANSARD MALAYSIA 18

THE DESIGN AND DEVELOPMENT OF MUET CORPUS 22

UNDERSTANDING LEXICAL VARIATION AND CHANGE IN MALAYSIAN TWITTER

Kata Kunci: PKP, emosi, takut, marah, sedih

Kata Kekerapan Penggunaan

Proses penganalisisan data dijalankan dengan melakukan proses pengklasifikasian tema.

DAPATAN DAN PERBINCANGAN

Kata Nama Jumlah Kata Kerja Jumlah Kata Adjektif Jumlah

Marah (16, 569)

Kata Nama Jumlah Kata Kerja Jumlah Kata Adjektif Jumlah

Kata Nama Jumlah Kata Kerja Jumlah Kata Adjektif Jumlah

Semantik Preferens : Analisis berasaskan Korpus tentang Perubahan Iklim dalam

Muhammad Zakwan Mohd Izam

Anis Nadiah Che Abdul Rahman

Parlimen dan Hansard

Mengenal pasti kekerapan `Perubahan Iklim'

Menjana tren `Perubahan Iklim'

Meneliti Kolokat `Perubahan Iklim'

Analisis Semantik Preferens

Kekerapan Perubahan Iklim dan Climate Change

Rajah 1 : Kekerapan Perubahan Iklim dan Climate Change

Jadual 1. Kekerapan Perubahan Iklim dan Climate Change

Kolokasi dan Statistik Perubahan Iklim dan Climate Change

Isu Perubahan Iklim atau Climate Change

Perubahan Iklim atau Climate Change dalam Parlimen 12 (2008 – 2012)

Jadual 2. Kolokat Perubahan Iklim dan Climate Change dalam Parlimen 12

No. Perubahan Iklim Climate Change

Perbincangan Perubahan Iklim dan Climate Change dalam Parlimen 12

Akibat, Impak dan Kesan

CLARIN. (2019). Parliamentary corpora. Retrieved 1 March, 2019 from

McEnery, A.M., Wilson, A. (2001). Corpus Linguistics. Edinburgh: Edinburgh University

Nikolaos K Anagnostou & George R S Weir. (2014). From Corpus-Based Collocation

Sinclair, J. (2004). Trust the Text. London: Routledge.

Hunston, S. (2007). Semantic prosody revisited. International Journal of Corpus Linguistics.

Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Prosodi Semantik ‘Wanita’ dalam Korpus Hansard Malaysia

Intan Safinaz Zainudin

Kajian-kajian berkenaan prosodi semantik boleh disimpulkan di dalam Jadual 1 berikut.

Jadual 1. Ringkasan Kajian Prosodi Semantik yang Lalu

Sarjana Leksis Prosodi Semantik

Stubbs (1995) cause Kurang digemari