You are on page 1of 6

Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)

Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

PEMILAHAN ARTIKEL BERITA DENGAN TEXT MINING


1
Arrummaisha Adrifina
2
Juwita Utami Putri
3
I Wayan Simri W

1
arroem@student.gunadarma.ac.id
2
nony_juwita@student.gunadarma.ac.id
3
iwayan@staff.gunadarma.ac.id

ABSTRAK

Seiring pesatnya perkembangan internet, semakin banyak pula bermunculan


situs atau blog yang menyediakan berbagai macam artikel berita secara online.
Sebuah artikel, sebelum dapat diterbitkan, awalnya dikirim oleh wartawan ke
editor untuk dipilah. Pemilahan jenis berita relatif mudah dilakukan oleh
manusia, tetapi jika kasus ini dibawa ke level pemilahan secara otomasi dengan
komputer akan membawa permasalahan tersendiri, walaupun untuk berita yang
lebih pendek. Text mining adalah salah satu cara yang diharapkan dapat
mengatasi permasalahan di atas. Dengan text mining, dapat dicari kata-kata
yang dapat mewakili isi dari artikel berita, lalu ditentukan kategorinya
berdasarkan frekuensi kata-kata yang terdapat di dalamnya. Tahapan yang
penulis lakukan pada penelitian ini adalah: (i) pembuatan database vector untuk
keyword, (ii) pemilahan sumber berita berdasarkan database dari langkah (i).
Paper ini diharapkan dapat membantu sistem redaksi elektronik untuk dapat
memilah atau mengetahui kategori dari sebuah artikel berita tanpa memerlukan
seorang editor sehingga menghemat waktu dan biaya dalam menjalankan bisnis
pada model kantor berita elektronik on-line berbasis internet.

Kata Kunci: clustering, data mining, text mining.

1. PENDAHULUAN Sebuah artikel, sebelum dapat


diterbitkan di sebuah koran, majalah, atau
Pada akhir-akhir ini, berbagai website tertentu, artikel tersebut terlebih
perkembangan yang terjadi memang dahulu di edit kembali oleh seorang editor,
cukup menakjubkan, khususnya dalam lalu berita yang akan diterbitkan dipilah
bidang teknologi informasi dan serta dikategorikan. Dengan berkembang
komunikasi. Salah satu teknologi pesatnya teknologi, proses yang biasanya
informasi dan komunikasi yang dilakukan oleh editor tersebut, dapat
berkembang pesat adalah internet. dilakukan oleh komputer. Bila proses
Internet saat ini menjadi kebutuhan bagi tersebut dilakukan oleh manusia, bukanlah
banyak orang karena dengan internet hal yang sulit. Tetapi apabila dilakukan
kita bisa mengakses dan menemukan oleh sebuah komputer, akan terdapat
segala informasi di seluruh dunia sebuah masalah baru, dapatkah komputer
dengan cepat dan mudah, karena banyak menetukan kategori artikel tersebut?
situs-situs di internet yang menyediakan
informasi yang kita butuhkan, baik Text mining adalah salah satu cara
berupa dokumen, maupun artikel berita. yang diharapkan dapat mengatasi

176 Pemilihan Artikel Berita


(Arrummaisha Adrifina)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

permasalahan di atas. Text mining atau tentang text mining adalah sebuah paper
sering disebut text data mining [3] yang berjudul “Text Mining – Knowdlege
merupakan proses pengambilan data- Extraction From Unstructured Textual
data berupa teks dari sebuah sumber. Data”. Martin Rajman dan teamnya
Dengan text mining, dapat dicari kata- melakukan proses ekstraksi kata dari
kata yang dapat mewakili isi dari artikel sebuah kumpulan data mereka yang tidak
berita, lalu dianalisis apakah artikel terstruktur dengan menggunakan teori
berita tersebut tersebut termasuk ke probabilitas frekuensi kemunculan kata
dalam kategori olah raga, kesehatan, kunci.
selebriti, kriminal, ekonomi, politik atau Pada paper ini penulis mencoba
yang lain, dicocokkan dengan database sebuah metode yang serupa dengan metode
kata kunci yang sebelumnya telah yang dilakukan oleh Martin Rajman, yaitu
dibuat. Sehingga diharapkan dapat menggunakan keyword atau kata kunci.
membantu sistem redaksi elektronik Tetapi kata kunci yang digunakan penulis
untuk dapat memilah atau mengetahui pada penelitian ini didapat dari melakukan
kategori dari sebuah artikel berita tanpa ekstraksi dari beberapa artikel yang
memerlukan seorang editor. Hal ini temanya sudah diketahui.
akan menghemat waktu dan biaya
dalam menjalankan bisnis pada model
kantor berita elektronik on-line berbasis
internet. 3. METODE PENELITIAN

Proses pemilahan berita yang penulis


2. TINJAUAN PUSTAKA lakukan terdiri dari beberapa proses, yaitu:

Pada tinjauan pustaka yang kami 1. Pembuatan Database


lakukan, ternyata banyak sekali Pembuatan database merupakan
penelitian-penelitian tentang data tahap awal dari proses text mining
mining dan text mining. Diantaranya yang akan dilakukan, database ini
paper berjudul “Applying data mining akan menentukan keakuratan
technique in text Analysis” yang ditulis pemilahan berita yang dilakukan
Helena Ahonen, Oskari Heinonen, Mika pada proses akhir. Proses
Klemettinen, dan A. Inkeri Verkamo. pembuatan database yang penulis
Paper ini menjelaskan pengaplikasian lakukan adalah seperti gambar
teknik data mining dalam proses text berikut:
analisis [1]. Paper lain yang membahas

Pemilihan Artikel Berita 177


(Arrummaisha Adrifina)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

Filtering
Tokenizing dan Insert Kata
word counting kunci

Artikel sumber Database

Gambar 1. Proses pembuatan database

Pada artikel sumber yang telah menghemat tempat penyimpanan database.


diketahui kategorinya pertama-tama Setelah proses filtering selesai
dilakukan proses tokenizing dan word maka akan didapat kumpulan kata kunci,
counting. Proses ini berguna untuk lalu akan disimpan ke dalam database.
memecah kata-kata yang terdapat pada Kata kunci ini akan digunakan pada
artikel sekaligus dilakukan perhitungan langkah III.
frekuensi dari setiap kata. Proses ini Pada penelitian ini pemilahan berita
dilakukan pada setiap artikel sumber dibatasi pada 4 kategori, yaitu: ekonomi,
dari masing-masing kategori. olah raga, kesehatan, dan entertainment.
Setelah kata-kata tersebut telah Pada pembuatan database vector kata
terpecah menjadi token-token, kunci digunakan 15 artikel berita untuk
selanjutnya dilakukan proses filtering setiap kategori. Artikel-artikel berita yang
atau proses penghapusan kata-kata. digunakan diambil dari beberapa situs
Kata-kata yang dihapus adalah kata-kata berita di internet. Serta digunakan
yang tidak memiliki arti yang penting, beberapa kriteria, yaitu: panjang artikel
seperti: kata hubung, kata sambung, berkisar antara 200-300 kata, penggunaan
kata depan, serta nama-nama hari dan kata-kata pada artikel sesuai kaedah bahasa
bulan. Proses ini dilakukan untuk Indonesia yang baik dan benar, dan artikel
mengurangi jumlah kata-kata karena termasuk ke dalam salah satu tema dari 4
selain tidak memiliki arti yang tema yang telah ditetapkan. Pembuatan
berpengaruh pada kategori berita, database hanya dilakukan sekali saja.
penghapusan kata-kata ini juga

178 Pemilihan Artikel Berita


(Arrummaisha Adrifina)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

2. Pemilahan Berita

Untuk mengetahui kategori dari sebuah artikel berita, dilakukan proses seperti
gambar 2.

Matching

Filtering Database
Tokenizing dan
word counting

Hasil

Artikel sumber

Gambar 2. Proses pemilahan berita

Proses tokenizing dan filtering dengan kategori kesehatan. Pada


yang dilakukan ini pada saat dicocokan, nilai counter
dasarnya sama seperti proses kategori kesehatan akan bertambah
tokenizing dan filtering pada 1. Kategori dengan nilai counter
pembuatan database, hanya saja tertinggi akan ditentukan sebagai
proses tokenizing dan filtering kategori artikel berita tersebut.
sekarang dilakukan pada artikel
yang akan dicari tahu kategori
beritanya. Selanjutnya dilakukan 4. HASIL DAN
pencocokan kata-kata hasil PEMBAHASAN
filtering dengan kata-kata yang
tersedia pada database yang Sumber berita yang diuji coba
telah dibuat pada langkah I. Bila adalah artikel berita yang diambil secara
ada kata yang sama antara acak dari internet sebanyak 20 berita. Lalu
artikel dengan database, nilai dibandingkan dengan hasil bila dilakukan
counter setiap kategori akan secara manual. Penulis melakukan
bertambah. Misalnya terdapat beberapa percobaan dengan menentukan
kata pasien dalam artikel. nilai batasan kecocokan kata dalam artikel
Sebelumnya, kata pasien telah dengan database, yaitu sebesar 3, 5 dan 10
dimasukkan dalam database, kata yang sama dalam satu kategori.

Pemilihan Artikel Berita 179


(Arrummaisha Adrifina)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

Namun hasil terbaik yang didapat Berikut adalah hasil percobaan yang
adalah dengan nilai batasan minimum 5 dilakukan dengan batasan kecocokan 5
kata yang sama dalam satu kategori. kata .

Tabel 1. Hasil Percobaan

Berita Dengan Tools Manual


1 Ekonomi Ekonomi
2 Ekonomi Ekonomi
3 Ekonomi Ekonomi
4 Ekonomi Ekonomi
5 Tidak ada dalam database Agama
6 Tidak ada dalam database Politik
7 Tidak ada dalam database Kriminal
8 Tidak ada dalam database Politik
9 Kesehatan Kesehatan
10 Kesehatan Kesehatan
11 Ekonomi Pendidikan
12 Ekonomi Olahraga
13 Entertainment Entertainment
14 Tidak ada dalam database Teknologi
15 Tidak ada dalam database Psikologi
16 Entertainment Entertainment
17 Entertainment Entertainment
18 Olahraga Olahraga
19 Kesehatan Kesehatan
20 Olahraga Olahraga

Dari tabel hasil percobaan di atas dapat


diketahui bahwa proses text mining
yang dilakukan oleh komputer hasilnya 5. KESIMPULAN DAN
sebagian besar sama dengan yang SARAN
dilakukan secara manual (dengan
membaca artikel tersebut terlebih dulu). Dari hasil percobaan yang kami
Namun ada beberapa artikel yang tidak lakukan, dapat disimpulkan bahwa
diketahui kategorinya (artikel 5, 6, 7, 8, pemilahan berita dapat dilakukan dengan
14, 15) karena memang penulis menggunakan pendekatan kata kunci.
membatasi kategori yang dapat Dengan metode kata kunci proses text
ditentukan hanya 4 buah ketegori, yaitu mining dapat dilakukan dengan baik,
ekonomi, kesehatan, olahraga, dan hanya tingkat keakuratan dari proses text
entertainment, sehingga artikel tentang mining ditentukan oleh database vektor
kategori lain belum dapat ditentukan. yang menjadi acuan. Apabila database
Ada juga 2 buah artikel yang hasilnya vector kata kunci tidak akurat, maka hasil
tidak sesuai (artikel 11 dan 12), karena yang didapat pun tidak akan akurat, begitu
saat dicocokkan dengan database, pula sebaliknya.
terdapat lebih dari 5 kata pada artikel Untuk pengembangan penelitian
yang termasuk dalam bidang ekonomi. berikutnya, kami menyarankan

180 Pemilihan Artikel Berita


(Arrummaisha Adrifina)
Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2008)
Auditorium Universitas Gunadarma, Depok, 20-21 Agustus 2008 ISSN : 1411-6286

penggunaan lebih banyak artikel


sebagai sumber pembuatan vektor
database kata kunci dan penambahan
kategori-kategori berita sehingga hasil
yang didapat akan lebih akurat.
Pendekatan yang digunakan pada
penelitian dapat pula diganti dengan
pendekatan latent semantic. Yaitu
membandingkan langsung suatu
dokumen artikel dengan dokumen lain
yang sudah diketahui kategorinya.

6. DAFTAR PUSTAKA

Ahonen, Helena, O. Heinonen, M.


Klemettinen, dan A. I. Verkamo.
1997. Applying Data Mining
Techniques in Text Analysis.
Technical Report C-1997-23,
University of Helsinki, Department
of Computer Science.
Harlian, Milkha. 2006. Text Mining.
Lecture Notes. http://lecturer.eepis-
its.edu/~iwanarif/
kuliah/dm/6Text%20Mining.pdf.
Akses Mei 2008.
Hearst, M. A. 1997. Text data mining:
Issues, techniques, and the
relationship to information access.
Presentation notes for UW/MS
workshop on data mining, July
1997.
Rajman, Martin dan R. Besancon. 1998.
Text mining - knowledge extraction
from unstructured textual data. In
Proceedings of the 6th Conference
of International Federation of
Classification Societies.
Schütze, Hinrich. 2003. Open Source
Text Mining. Keynote on SIAM
International Conference on Data
Mining.

Pemilihan Artikel Berita 181


(Arrummaisha Adrifina)

You might also like