Professional Documents
Culture Documents
Teknik Informatika, Program Teknologi Informasi dan Ilmu Komputer, Universitas Brawijaya
Jl. Veteran No.8 Malang, Informatika, Gedung A PTIIK UB
Email :
danny_sszz@yahoo.com1,dwiariess@yahoo.co.id1,maliek_cool@yahoo.com1,wahyudihatiyanto@yahoo.com1
ABSTRAK
Dengan semakin berkembangangnya teknologi banyak orang mulai beralih untuk beriklan dari media
cetak menjadi media online yang dirasa sangat efektif dan dapat menjangkau semua orang bahkan di seluruh
dunia karena dengan mengiklankan produk mereka secara online, produk mereka bisa diakses oleh semua
orang dari berbagai daerah tanpa harus mengeluarkan biaya untuk memasang iklan karena sudah banyak
website yang menyediakan wadah untuk menampung iklan - iklan jual beli online. Namun masih banyak sekali
orang - orang yang secara sengaja maupun tidak sengaja untuk memasang iklan tidak pada kategori
sebenarnya. Hal ini terjadi karena proses pengklasifikasian iklan yang ada saat ini masih harus di inputkan
manual oleh sang pembuat iklan. Oleh karena itu kami membuat penelitian untuk membantu pengklasifikasian
iklan secara otomatis berdasarkan judul dan kata - kata yang ada pada iklan tersebut untuk meminimalisir
salah kategori dan agar website penyedia jasa pemasangan iklan bisa terlihat lebih rapi dan mudah untuk
melakukan pencarian iklan yang diinginkan.Penelitian ini dilakukan dengan menggunakan algoritma Nave
Bayes Classifier untuk klasifikasi. Pada algoritma Nave Bayes sendiri, data latih dan efisiensi sistem sangat
mempengaruhi nilai efisiensi yang dihasilkan. Sehingga penggunaan algoritma tersebut dimaksudkan untuk
mendapatkan nilai akurasi yang lebih maksimal dalam klasifikasi.
Kata Kunci : Jual Beli Online,Website,Naive Bayes Classifier
1. PENDAHULUAN
2.
3.
Online shop akhir - akhir ini
sangat digemari dari berbagai kalangan baik anak
muda maupun orang dewasa.Online shop
memberikan kemudahan bagi para customer untuk
menawarkan barang atau produk yang dimiliki oleh
customer baik dalam kondisi baru atau
bekas.Dengan kemudahan yang ditawarkan ini
customer semakin tertarik untuk mengiklankan
barang atau produk yang dimilikinya.
4.
Untuk mengelola informasi dari
kumpulan iklan yang jumlahnya sangat banyak
tentunya bukan pekerjaan yang mudah.Oleh karena
itu diperlukan sebuah metode yang dapat
mengorganisir dan mengklasifikasi iklan secara
otomatis,sehingga dapat mempermudah dalam
pencarian yang sesuai dengan keinginan.Tujuan
dilakukannya penelitian ini untuk membantu
pengklasifikasian iklan secara otomatis berdasarkan
judul dan kata - kata yang ada pada iklan tersebut
untuk meminimalisir kesalahan kategori dan agar
website penyedia jasa pemasangan iklan bisa
terlihat lebih rapi dan mudah untuk melakukan
pencarian iklan yang diinginkan.
5.
Bidang yang mempelajari teknik
- teknik untuk pengorganisasian dokumen teks
secara umum dibagi menjadi dua kelompok,yaitu
classification
dan
clustering.Menurut
Pramudiono,classification adalah proses untuk
menemukan model yang membedakan konsep atau
kelas
data,dengan
tujuan
untuk
dapat
memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui.Sedangkan clustering
digunakan untuk melakukan pengelompokan data
tanpa berdasarkan kelas data tertentu dan dapat
digunakan untuk memberikan label pada kelas data
yang belum diketahui [7].
6.
Metode Nave Bayes dikenal
dengan algoritma klasifikasi simple
Bayesian. Algoritma ini banyak digunakan
karena terbukti efektif untuk kategorisasi
teks, sederhana, cepat dan akurasi tinggi
[11].Metode Nave Bayes atau Nave
Bayes Classifier (NBC) adalah salah satu
metode yang digunakan untuk klasifikasi
teks.NBC menggunakan teori probabilitas
sebagai dasar teori.Dalam bukunya,Han, J.
dan Kamber, M. menyatakan bahwa
Bayesian classifiers mempunyai tingkat
kecepatan dan akurasi yang tinggi ketika
diaplikasikan dalam database yang besar
[3].
7.
Data yang digunakan untuk
penelitian kali ini adalah data iklan yang kami
ambil
dari
www.tokobagus.com
dan
www.berniaga.com yang merupakan tempat
layanan
[2].
Berdasarkan
hal
tersebut,timbul pemikiran bahwa metode
Six Sigma pun dapat diterapkan pada
bisnis online shop, dimana kualitas jasa /
layanan yang diberikan merupakan faktor
yang sangat penting, di samping kualitas
dan harga produk yang kompetitif.
17.
17.1Teks Preprosessing
Text Preprocessing adalah suatu
proses pengubahan bentuk data belum
terstruktur menjadi data yang terstruktur
sesuai kebutuhannya untuk proses dalam
data mining. Tujuan dilakukan preprocessing adalah memilih setiap kata dari
dokumen dan merubahnya menjadi kata
dasar yang memiliki arti sempit dan proses
teks mining akan memberikan hasil yang
lebih
memuaskan.
Tahapan
text
preprocessing menurut Mooney terbagi
menjadi lima tahap, yaitu tokenizing,
filtering,
stemming,
tagging,
dan
analyzing [6]. Dalam klasifikasi iklan
pada online shop, kami memodifikasi
tahapan text preprocessing menjadi seperti
pada Gambar 1 dibawah ini.
19.
20.
21. TOKENIZING
22.
23.
24. FILTERING
25.
26.
27. STEMMING
28.
29.
Gambar 1. Tahap
Preprocessing
30.
31.
Stemming
merupakan
suatu
proses yang terdapat dalam sistem IR yang
mentransformasikan kata - kata yang
terdapat dalam suatu dokumen ke kata kata akarnya (root word) dengan
menggunakan aturan - aturan tertentu.
Sebagai
contoh,
kata
bersama,
kebersamaan, menyamai, akan distem ke
root wordnya yaitu sama.
32.
Stemming Bahasa Indonesia
dengan
Algoritma
Nazief
dan
Andriani.Algoritma
stemming
untuk
bahasa yang satu berbeda dengan
algoritma stemming untuk bahasa lainnya.
Sebagai contoh bahasa Inggris memiliki
morfologi yang berbeda dengan bahasa
Indonesia sehingga algoritma stemming
untuk kedua bahasa tersebut juga berbeda.
Proses stemming pada teks berbahasa
Indonesia lebih rumit/kompleks karena
35.
18.
1.
Aw
alan
39.
41.
43.
45.
bedikeme
-
38.
-an
47.
se48.
-i,-kan
49.
te50.
-an
51. Tabel 1. Kombinasi Awalan Akhiran
yang Tidak Diijinkan
b.
53.
At
54. Format
Kata
55. Pemengg
alan
56.
1
59.
2
57. berV...
60. berCA
P
62.
3
63. berCA
erV
65.
4
68.
5
66. belajar
58. ber-V...|
ber-rV...
61. berCAP...di
manaC!
=r&P!
=er
64. BerCaerV...d
imana C!
=r
67. bel-ajar
71.
6
74.
7
72. terV
77.
8
80.
9
83.
10
86.
11
89.
12
69.
beC1er
C2
75. terCer
V...
78. terCP
81. teC1er
C2
84. me{l|r|
w|
y}V...
87. mem{b
|f|v}...
90. mempe
{r|l}...
70. beC1erC2...
dimana
C1!
={r|l}
73. ter-V...|
te-rV...
76. terCerV...di
mana C!
=r
79. terCP...dim
ana C!
=r dan
P!=er
82. teC1erC2...
dimana
C1!=r
85. me-{l|r|
w|y}V...
88. mem-{b|
f|v}...
91. mempe...
92.
13
93. mem{r
V|V}...
95.
14
98.
15
101.
16
96. men{c|
d|j|z}...
99. menV...
104.
17
102.meng{
g|h|
q}...
105.mengV.
..
107.
18
110.
19
108.menyV.
..
111. memp
V...
113.
20
116.
21
119.
22
114.pe{w|
y}V...
117.perV...
120.perCA
P
122.
23
123.perCA
erV...
125.
24
128.
25
126.pem{b|
f|V}...
129.pem{r
V|V}...
131.
26
134.
27
137.
28
140.
29
132.pen{c|
d|j|z}...
135.penV...
138.peng{g
|h|q}...
141.pengV..
.
143.
30
146.
144.penyV..
.
147.pelV...
94. mem{rV|
V}...|mep{rV|
V}...
97. men-{c|
d|j|z}...
100.me-nV...|
me-tV
103.meng-{g|
h|q}...
106.mengV...|
mengkV...
109.menysV...
112.mempV...dim
ana V!
=e
115.pe-{w|
y}V...
118.per-V...|
pe-rV...
121.perCAP...di
mana C!
=r dan
P!=er
124.perCaerV...d
imana C!
=r
127.pem-{b|f|
V}...
130.pe-m{rV|
V}...|pep{rV|
V}...
133.pen-{c|d|
j|z}...
136.pe-nV...|
pe-tV...
139.peng-{g|
h|q}...
142.pengV...|
pengkV...
145.penysV...
148.pe-
31
lV...kecu
ali
pelajar
yang
menghas
ilkan
ajar
149.
150.peCerV
151.per32
...
erV...dim
ana C!
={r|w|y|l|
m|n}
152.
153.peCP...
154.pe33
CP...dim
ana C!
={r|w|y|l|
m|n} dan
P!=er
155.Tabel 2. Aturan Pemenggalan Awalan
Stemmer Nazief dan Adriani
163.f
(w k , j ) pada kategori
164.f
165.
162.Dimana :
|b|
ci
yang digunakan
166.
167.
Dimana
variabel
C
merepresentasikan
kelas,
sementara
variabel F1, Fn merepresentasikan
karakteristik - karakteristik petunjuk yang
dibutuhkan untuk melakukan klasifikasi.
Maka rumus tersebut menjelaskan bahwa
peluang masuknya sampel dengan
karakteristik tertentu dalam kelas C
(posterior) adalah peluang munculnya
kelas C (sebelum masuknya sampel
tersebut, seringkali disebut prior), dikali
dengan peluang kemunculan karakteristik
sampel pada kelas C (disebut juga
likelihood), dibagi dengan peluang
kemunculan karakteristik - karakteristik
sampel secara global (disebut juga
evidence) [5].
168.
169.
P(C | F1 ...Fn )
P (C )
P( Fi | C )
Z i 1
170.
f ( wkj , ci ) 1
f (ci ) | W |
160.
161.
ci
pada kategori
p ( wkj | ci )
225.
226.
Skenario 1
102%
100%
98%
96%
94%
92%
174.
4. HASIL UJI COBA
175.
176.
177.
dtBenar x100%
Dt
178.
Akurasi
179.
Kita dapat menentukan akurasi
dari total data testing yang diuji dengan :
dtBenar
180.
Dt
181.
Skenario 2
102%
100%
98%
96%
94%
92%
182.
197. 70:30,
186. perc
obaa
n1
192. 100
%
198. 100
%
203. 60:40,
204. 95%
209. 40 : 60,
210. 91%
215. 20 : 80,
216. 83%
183. Skenario
191. 80:20,
221.
236.
Skenario 3
102%
100%
98%
96%
94%
92%
Skenario 4
98%
96%
94%
92%
90%
88%
Skenario 5
85%
80%
75%
70%
65%
77%
40::60
94%
60::40
97%
70::30
98%
80::20
98%
0%
50%
100%
150%
6. DAFTAR PUSTAKA
278.
279. [1] Agusta, L.2009. Perbandingan Algoritma
Stemming Porter Dengan Algoritma Nazief
dan Adriani Untuk Stemming Dokumen Teks
Bahasa Indonesia. Konferensi Nasional
Sistem dan Informatika 2009.
280.
281. [2] Antony, J. (2006), Six Sigma for Service
Processes,Business Process Management
Journal,Vol.12, 234-248.
282.
283. [3] Han, J. & Kamber, M.2001. Data
Mining : Concepts and Techniques. San
Francisco: Morgan Kaufmann.
284.
285. [4] Mahendra,K.,2008,
Penggunaan
Algoritma Semut dan Confix Stripping
Stemmer untuk Klasifikasi Dokumen Berita
Berbahasa Indonesia,Tugas Akhir,Institut
Teknologi Sepuluh November, Surabaya.
286.
287. [5] Marmudi.2007.Tentang Nave Bayes
Classifier.Andi,Yogyakarta.
288.
289. [6] Mooney, Raymond J. 2006. Mining Text
Mining with Information Extraction. Austin :
University of Texas.
290.
291. [7] Pramudiono,Iko.2003.Pengantar
Data
Mining : Menambang Permata Pengetahuan di
Gunung Data.http://ilmukomputer.com.
292.
293. [8] Pyzdek, T. 2003. The Six Sigma
Handbook: A Complete Guide for Green
Belts, Black Belts,and Managers at All
Levels.
Revised
and
Expanded.The
McGraw-Hill Companies, Inc.,United States
of America.
294.
295. [9] Sektor Riil : 36 Juta Jiwa Aktif
Menggunakan
296.
Bisnis Online [online].http://
economy.
okezone.com/read/2013/04/01/320/784483/re
direct.html, diakses 24 Juni 2013.
297.
298. [10]
Suyanto, M. 2003. Strategi
Periklanan pada Ecommerce Perusahaan Top
Dunia. Andi, Yogyakarta.
299.
300. [11]
Wenyuan
Dai,
et
all.1997.Transferring
Nave
Bayes
Classifiers for Text Classifications.
301.
302.
303.
304.
305. Danny
Septiawan.
Lahir di Surabaya pada
tanggal 7 September
1991. Peneliti telah
menyelesaikan
pendidikan SMK di
SMK Farmasi Sekesal
Surabaya
2006-2009.
Saat ini peneliti aktif
sebagai mahasiswa di
jurusan
Teknik
Informatika
Program
Teknologi dan Ilmu Komputer (PTIIK) Universitas
Brawijaya (UB) Malang Angkatan 2010.
Motto : Hidup adalah pilihan.
306.
307. Dwi
Aries
Suprayogi. Lahir
di Surabaya pada
tanggal 19 April
1992.
Peneliti
telah
menyelesaikan
pendidikan SMA
di SMA N 8
Surabaya 2007-2010. Saat ini peneliti aktif sebagai
mahasiswa di jurusan Teknik Informatika Program
Teknologi dan Ilmu Komputer (PTIIK) Universitas
Brawijaya (UB) Malang Angkatan 2010.
308.
Motto : Just luck and the power of
Allah that could beat me.
309. Abdul Malik Mukhtar. Lahir di Pancor pada
tanggal 27 November 1991. Peneliti telah
menyelesaikan pendidikan SMA di MAN 1 Selong
2007-2010. Saat ini peneliti aktif sebagai mahasiswa
di jurusan Teknik Informatika Program Teknologi
dan Ilmu Komputer (PTIIK) Universitas Brawijaya
(UB) Malang Angkatan 2010.
313.
314.
315.