You are on page 1of 16

KORPUS BAHASA

Kamus Dewan Edisi Ketiga 1994 - korpus boleh ditakrifkan


sebagai himpunan makalah (tulisan dsb) mengenai sesuatu
perkara tertentu atau kumpulan bahan untuk kajian.
Linguistik Moden - korpus ialah himpunan data-data mentah

yang bakal digunakan untuk kajian lingustik. Contohnya adalah


seperti himpunan manuskrip dan teks bertulis yang lain.

KORPUS BAHASA

Pangkalan Data

Pengumpulan dan
Pengelasan Kata
Kata dan
Pengkomputeran

PANGKALAN DATA
Pangkalan Data Korpus (PDK) merupakan sebuah pangkalan
data yang dibangunkan hasil daripada kerjasama antara Dewan
Bahasa dan Pustaka dengan Universiti Sains Malaysia (PDK DBPUSM) pada tahun 1993.
PDK DBP-USM merupakan satu-satunya pangkalan data korpus
bahasa Melayu yang terdapat di Malaysia yang menyimpan data
korpus bahasa Melayu dalam bentuk digital. PDK DBP-USM
terdiri daripada Sistem Korpus dan Data Korpus.

Data korpus bersumberkan bentuk tulisan atau lisan. Bagaimanapun,


usaha semasa program ini masih tertumpu pada bahan tulisan daripada
buku, majalah, surat khabar, monograf, dokumen, kertas kerja, surat,
risalah dan sebagainya.
Setiap jenis wacana ini dikumpulkan dalam subkorpus yang
berasingan.
Saiz mutakhir (sehingga 25 November 2008) Pangkalan Data Korpus
adalah lebih kurang 135 juta perkataan yang terkandung dalam sepuluh
subkorpus seperti yang berikut:

Bil Subkorpus
1.
2.

Buku
Majalah

Jumlah Semasa
31,580,305

Jenis Bahan
novel, buku ilmiah, buku umum, buku teks

14,406,888

umum meliputi pelbagai bidang

3.

Akhbar

80,029,347

harian, tabloid,mingguan

4.

Terjemahan
(buku)

2,021,191

buku ilmiah, buku umum

5.

Efemeral

290,207

risalah, brosur, iklan

6.

Drama

404,176

drama yang dibukukan

7.

Puisi

116,428

puisi yang dibukukan

8.

Kad Bahan

9.

Teks Tradisional

10.

Buku Teks

3,130,641
2,825,329
1,095,726

kad kutipan untuk penyusunan Kamus


Dewan
Teks lama dalam bentuk hikayat, cerita
rakyat
Buku Teks Peringkat Rendah dan Menengah

Pangkalan Data ini dibina dengan tujuan untuk


menyediakan

data

penyelidikan

yang

dapat

dimanfaatkan untuk penyusunan kamus, penyelidikan


tatabahasa, dan bentuk-bentuk kajian kebahasaan yang
lain.

PENGUMPULAN DAN PENGELASAN KATA

Selepas selesai pengumpulan data, penyusun kamus haruslah


menjalankan kerja pengisihan dan pengabjadan data.

Dalam prosedur ini, setiap kata yang telah dirakam akan disusun
mengikut abjad.

Ini boleh dilakukan secara manual atau dengan penggunaan


komputer. Data ini akan disimpan dalam bank data untuk
digunakan sebagai rujukan kelak.

Setelah selesai pengisihan entri, penyusun kamus akan bergerak


kepada prosedur seterusnya, iaitu pengolahan data.

Pada peringkat ini penyusun kamus akan mengklasifikasikan


kepada yang ditemui ke dalam kata baharu, kata yang lewah, kata
yang jarang digunakan (neologisme) dan kata yang mengalami
perubahan makna.
Kata lewah akan dibuang dengan menggunakan pendekatan
semantik dan pragmatik, mendokumentasikan kata neologisme,
dan seterusnya mengambil kata-kata baru dan kata-kata yang
mengalami perubahan makna pada peringkat pemerian makna.

Selepas itu penyusun akan membuang kata-kata


lewah,mendokumentasikan neologisme dan mengambil

kata-kata baharu.
Pemberian makna ialah proses menjelaskan makna
sesuatu

perkataan.

Penyusun

kamus

boleh

menggunakan pelbagai bahan rujukan yang sedia ada

seperti daftar istilah dan sebagainya untuk mencari


maksud sesuatu kata.

Pembutiran setiap medan maklumat secara relatifnya


berbeza antara satu kamus dengan yang lain bergantung

kepada tujuan kamus dihasilkan.


Medan maklumat bagi sebuah ekabahasa ialah entri (kata

masukan utama atau kata dasar), subentri (kata terbitan),


entri varian, subentri varian,sebutan, etimologi, kelas kata,
takrif, contoh penggunaan, homonim,sinonim, antonim,

frasa dan ungkapan, simpulan bahasa dan peribahasa,nama


saintifik, label, angka penanda, dan rujuk silang.

KATA DAN PENGKOMPUTERAN


Perancangan bahasa Melayu sebagai bahasa moden diseiringkan

juga dengan pemanfaatan teknologi canggih, melalui program


pengkomputeran.

Dua bentuk program yang dilaksanakan oleh Dewan Bahasa dan


Pustaka. Yang pertama ialah pembinaan prasarana atau sistem
untuk penyelidikan bahasa Melayu, sementara yang kedua ialah
penyelidikan dalam bidang linguistik korpus dan linguistik
komputeran.

Setakat ini sebuah korpus bahasa Melayu dengan saiz 70 juta


patah kata daripada pelbagai teks (akhbar, buku, novel, majalah)
telah dibina untuk kegunaan penyelidik bahasa di dalam dan di

luar negara.
Di peringkat kerjasama serantau, melalui MABBIM, telah mula

diusahakan pembinaan Gerbang Bahasa Melayu/Indonesia pada


WWW. Gerbang atau portal tersebut akan menjadi wadah bagi
segala kemudahan untuk pengajaran, pemelajaran, penyebaran
dan penelitian bahasa Melayu.

Di

peringkat antarabangsa, Dewan Bahasa dan

Pustaka telah mula menyertai projek Universal


Networking Language Pertubuhan Bangsa Bersatu.
Projek ini tertumpu pada usaha menakrifkan suatu
bahasa interlingua yang dapat digunakan untuk
mengekodkan teks dalam sesuatu bahasa supaya teks
tersebut dapat dibaca dalam pelbagai bahasa di

Internet. Dijangka bahawa projek ini dapat meluaskan


penyebaran bahasa Melayu di mata dunia.

Pemanfaatan Teknologi Maklumat dan Komunikasi telah


dimulakan dengan Projek Karya Net, penerbitan pelbagai karya
ilmu, pedoman bahasa dan karya kreatif dalam bentuk digital

dan pengajaran bahasa dan persuratan Melayu melalui talian


(Internet).

Dewan Bahasa dan Pustaka dengan kerjasama pelbagai pihak


sedang memperbanyak perisian komputer dan karya dalam
bentuk digital dan elektronik dalam bahasa Melayu untuk
membantu pencapaian misi negara dalam mengejar kemajuan
pada era globalisasi.

SEKIAN,
TERIMA KASIH ATAS
PERHATIAN ANDA
SEMUA

You might also like