2012-1-00314-SI Bab2001

8
BAB 2
LANDASAN TEORI
2.1 Database
Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian
umpulan data yang be!isi se"a!a logia, dan ete!angan da!i masing-masing
data yang didesain untu mendapatan in#o!masi yang dibutuhan sebuah
o!ganisasi$ Database system adalah umpulan p!og!am apliasi yang
be!inte!asi dengan basis data be!sama dengan Database Management System
(%B&') dan basis data itu sendi!i, sedangan Database Management System
(%B&') adalah me!upaan sistem pe!angat luna yang memunginan
pengguna untu mende#inisian, membuat, memeliha!a dan ont!ol e ases
database$
Database (&"leod, 200( : 124), adalah umpulan da!i semua data
be!basis ompute! pada suatu pe!usahaan$
%a!i teo!i-teo!i te!sebut dapat disimpulan bah)a Database adalah
se*umlah data yang te!o!ganisasi dengan record dan field-nya yang te!st!ut!u!
dan saling te!hubung untu menyediaan in#o!masi yang dibutuhan oleh
pe!usahaan$
+
2.2 Data Mining
2.2.1 Definisi Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu p!oses
est!asi atau penggalian data yang belum dietahui sebelumnya,
namun dapat dipahami dan be!guna da!i database yang besa! se!ta
digunaan untu membuat suatu eputusan bisnis yang sangat penting$
Data mining ('egall et$all, 2008) biasa *uga disebut dengan
,%ata atau knowledge discovery- atau menemuan pola te!sembunyi
pada data. Data mining adalah p!oses da!i menganalisa data da!i
p!espeti# yang be!beda dan menyimpulannya e dalam in#o!masi
yang be!guna$
Data mining (.an dan /ambe!, 2006 : 5) dide#inisian sebagai
p!oses mengest!a atau menambang pengetahuan yang dibutuhan
da!i se*umlah data besa!$
0ada p!osesnya data mining aan mengest!a in#o!masi yang
be!ha!ga dengan "a!a menganalisis adanya pola-pola ataupun
hubungan ete!aitan te!tentu da!i data-data yang be!uu!an besa!$
Data mining be!aitan dengan bidang ilmu-ilmu lain, sepe!ti
Database System, Data Warehousing, Statistic, Machine Learning,
Information Retrieval, dan /omputasi 1ingat 1inggi$ 'elain itu data
mining diduung oleh ilmu lain sepe!ti eural etwork, 0engenalan
0ola, S!atial Data "nalysis, Image Database, Signal #rocessing$
10
Bebe!apa survey tentang p!oses pemodelan dan metodologi
menyataan bah)a, ,Data mining digunaan sebagai penun*u,
dimana data mining menya*ian intisa!i atas se*a!ah, des!ipsi dan
sebagai standa! petun*u mengenai masa depan da!i sebuah p!oses
model data mining-(&a!is"al, &a!ba2n dan 3e!na2ndes, 2010)
/a!ate!isti data mining sebagai be!iut:
a. Data mining be!hubungan dengan penemuan sesuatu yang
te!sembunyi dan pola data te!tentu yang tida dietahui
sebelumnya$
b. Data mining biasa menggunaan data yang sangat besa!$
Biasanya data yang besa! digunaan untu membuat hasil lebih
dapat dipe!"aya$
c. Data mining be!guna untu membuat eputusan !itis$
Be!dasa!an bebe!apa penge!tian te!sebut dapat dita!i
esimpulan bah)a Data Mining adalah suatu teni menggali
in#o!masi be!ha!ga yang te!pendam atau te!sembunyi pada suatu
olesi data (database) yang sangat besa! sehingga ditemuan suatu
pola yang mena!i yang sebelumnya tida dietahui$
2.2.2 Fungsi Data Mining
1eni 4 teni data mining telah digunaan untu menemuan pola
yang te!sembunyi dan mep!edisi t!en masa depan$ %an euntungan ompetiti#
da!i data mining te!masu dengan meningatnya pendapatan, be!u!angnya
pengelua!an, dan emampuan pemasa!an yang meningat$ (0u*a!i et$ 5ll,
2012)
Data mining dibagi men*adi dua atego!i utama (.an dan /ambe!,
2006 : 21- 2+) yaitu:
5$ 0!editi#
11
1u*uan da!i tugas p!editi# adalah untu memp!edisi nilai da!i
at!ibut te!tentu be!dasa!an pada nilai at!ibut-at!ibut lain$ 5t!ibut yang
dip!edisi umumnya dienal sebagai ta!get atau 6a!iable ta bebas,
sedangan at!ibut-at!ibut yang digunaan untu membuat p!edisi
dienal sebagai e$!lanatory atau variable bebas$
B$ %es!ipti#
1u*uan da!i tugas des!ipti# adalah untu menu!unan pola-pola
(o!elasi, trend, cluster, te!ito!i, dan anomali) yang me!ingas
hubungan yang poo dalam data$ 1ugas data mining des!ipti# se!ing
me!upaan penyelidian dan se!ingali meme!luan teni !ost%
!rocessing untu 6alidasi dan pen*elasan hasil$
3ungsi da!i data mining *uga ada dalam dunia esehatan,
dimana data mining telah digunaan untu untu meningatan
diagnosis dan pengobatan atau lebih menge!ti pe!ilau da!i pasien$
('and!a et all, 200+)
Data mining *uga memilii bebe!apa #ungsionalitas yaitu
&once!t'&lass Descri!tion: &haracteri(ation and Discrimination,
Mining )re*uent #atterns, "ssociations, and &orrelations,
&lassification and #rediction, &luster "nalysis, +utlier analysis, dan
,volution analysis$ (.an dan /ambe!, 2006 : 21 4 2()
Be!iut adalah pen*elasan da!i masing-masing #ungsi diatas:
1$ &once!t'&lass Descri!tion: &haracteri(ation
and Discrimination
Data characteri(ation adalah !ingasan da!i
semua a!ate!isti atau #itu! da!i data yang telah
dipe!oleh da!i ta!get elas$ %ata yang sesuai dengan
elas yang telah ditentuan oleh pengguna biasanya
diumpulan di dalam database$ &isalnya, untu
mempela*a!i a!ate!isti p!odu pe!angat luna
12
dimana pada tahun lalu selu!uh pen*ualan telah
meningat sebesa! 107, data yang te!ait dengan
p!odu-p!odu te!sebut dapat diumpulan dengan
men*alanan sebuah *uery S-L$ 'edangan, data
discrimination adalah pe!bandingan anta!a #itu! umum
ob*e data ta!get elas dengan #itu! umum ob*e da!i
satu atau satu set elas lainnya$ ta!get diambil melalui
*uery database$ &isalnya, pengguna mungin ingin
membandingan #itu! umum da!i p!odu pe!angat
luna yang pada tahun lalu pen*ualannya meningat
sebesa! 107 tetapi selama pe!iode yang sama selu!uh
pen*ualan *uga menu!un setidanya 807$
.. Mining )re*uent #atterns, "ssociations, and
&orrelations
)re*uent #atterns adalah pola yang se!ing
te!*adi di dalam data$ 5da banya *enis da!i fre*uent
!atterns, te!masu di dalamnya pola, seelompo item
set, sub%se*uence, dan sub-st!utu!$ 'ebuah fre*uent
!atterns biasanya menga"u pada satu set item yang
se!ing mun"ul be!sama-sama dalam suatu umpulan
data t!ansasional, misalnya sepe!ti susu dan !oti$
"ssociations "nalysis adalah pen"a!ian atu!an-
atu!an asosiasi yang menun*uan ondisi-ondisi nilai
at!ibut yang se!ing te!*adi be!sama-sama dalam
seumpulan data$ 5nalisis asosiasi se!ing digunaan
untu menganalisa Market /asket "nalysis dan data
t!ansasi$
18
0. &lassification and #rediction
/lasi#iasi adalah p!oses untu menemuan
model atau #ungsi yang menggamba!an dan
membedaan elas data atau onsep dengan tu*uan
memp!edisian elas untu data yang tida dietahui
elasnya$ &odel yang ditu!unan didasa!an pada
analisis da!i t!aining data (yaitu ob*e data yang
memilii label elas yang dietahui)$ &odel yang
ditu!unan dapat di!ep!esentasian dalam be!bagai
bentu sepe!ti If%then lasi#iasi, decision tree, dan
sebagainya$
1eni classification bee!*a dengan
mengelompoan data be!dasa!an data training dan
nilai at!ibut lasi#iasi$ 5tu!an pengelompoan te!sebut
aan digunaan untu lasi#iasi data ba!u e dalam
elompo yang ada$ &lassification dapat
di!ep!esentasian dalam bentu pohon eputusan
(decision tree)$ 'etiap node dalam pohon eputusan
menyataan suatu tes te!hadap at!ibut dataset,
sedangan setiap "abang menyataan hasil da!i tes
te!sebut$ 0ohon eputusan yang te!bentu dapat
dite!*emahan men*adi seumpulan atu!an dalam
bentu I) condition 12, outcome$ (&e)ati 5yub,
200( : ()$
%alam banya asus, pengguna ingin
memp!edisian nilai-nilai data yang tida te!sedia
atau hilang (buan label da!i elas)$ %alam asus ini
14
nilai data yang aan dip!edisi me!upaan data
numeric$ %isamping itu, p!edisi lebih meneanan
pada identi#iasi trend da!i dist!ibusi be!dasa!an data
yang te!sedia$
3. &luster "nalysis
&luster adalah umpulan ob*e data yang mi!ip
satu sama lain dalam elompo yang sama dan be!beda
dengan ob*e data di elompo lain$ 'edangan,
&lustering atau 5nalisis &uster adalah p!oses
pengelompoan satu set benda-benda #isi atau
abst!a edalam elas ob*e yang sama$ 1u*uannya
adalah untu menghasilan pengelompoan ob*e yang
mi!ip satu sama lain dalam elompo-elompo$
'emain besa! emi!ipan ob*e dalam suatu cluster
dan semain besa! pe!bedaan tiap cluster maa ualitas
analisis cluster semain bai$
%a!i tugas 4 tugas data mining yang telah di *elasan ,
pe!bandingan anta!a &lassification dan &lustering menu!ut .an dan
/ambe! (2006) lebih spesi#i digamba!an sebagai be!iut :
Tabel 2.1 Perbandingan Classification dan Clustering
lassifi!ati"n lustering
1$ &enganalisis label elas da!i
data ob*e$
1$ menganalisis data ob*e tanpa
ada label elas$
2$ 9abel elas ada atau te!lihat
*elas pada t!aining data$
2$label elas tida ada atau tida
te!lihat pada t!aining data$
15
8$ Be!tu*uan untu
mengelompoan pada elas 4
elas yang telah ditentuan$
8$be!tu*uan untu
mengelompoan dan
menentuan label elas da!i tiap
"luste! yang telah te!bentu
4. 0!oses lasi#iasi be!dasa!an
pada menemuan sebuah model
atau #ungsi yang
menggamba!an dan
membedaan data elas atau
onsep, dengan tu*uan untu
dapat menggunaan model
untu memp!edisi ob*e elas
yang elas label nya blm
dietahui$ &odel te!sebut
be!dasa!an pada analisis da!i
training data (data ob*e yang
elas label nya telah dietahui$)
4$ 0!oses Cluste!ing be!dasa!an
pada p!insip: ob*e yang ada di
dalam satu "luste! memilii
emi!ipan yang tinggi da!i pada
yang lainnya, tetapi sangat
be!beda dengan ob*e yang ada
pada "luste! lainnya$
4. +utlier analysis
+utlier me!upaan ob*e data yang tida
mengiuti pe!ilau umum da!i data$ +utlier dianggap
sebagai noise atau penge"ualian$ 5nalisis data outlier
dapat dianggap sebagai noise atau penge"ualian$
5nalisis data outlier dinamaan +utlier Mining$
1eni ini be!guna dalam fraud detection dan rare
events analysis$
5. ,volution analysis
5nalisis e6olusi data men*elasan dan
memodelan trend da!i ob*e yang memilii pe!ilau
yang be!ubah setiap )atu$ 1eni ini dapat meliputi
a!ate!isasi, dis!iminasi, asosiasi, lasi#iasi, atau
clustering da!i data yang be!aitan dengan )atu$
16
2.2.# Tu$uan Data Mining
1u*uan da!i data mining (.o##e!, 0!es"ott, dan &"3adden, 200()
adalah:
6. ,$!lanatory
:ntu men*elasan bebe!apa ondisi penelitian, sepe!ti
mengapa pen*ualan t!u !ick%u! meningat di Colo!ado$
.. &onfirmatory
:ntu mempe!tegas hipotesis, sepe!ti halnya dua ali
pendapatan elua!ga lebih sua dipaai untu membeli
pe!alatan elua!ga dibandingan dengan satu ali pendapatan
elua!ga$
0. ,$!loratory
:ntu menganalisa data yang memilii hubungan yang ba!u$
&isalnya, pola apa yang "o"o untu asus penggelapan a!tu
!edit$
2.2.% Arsite&tur Data Mining
Data mining me!upaan p!oses pen"a!ian pengetahuan yang
mena!i da!i data be!uu!an besa! yang disimpan dalam basis data,
data warehouse atau tempat penyimpanan in#o!masi lainnya$ %engan
demiian a!sitetu! sistem data mining memilii omponen-omponen
utama (.an dan /ambe!, 2006) yaitu:
a$ Database, data warehouse, World Wide Web, atau tempat
penyimpanan in#o!masi lainnya: bisa be!bentu satu atau
banya database, data warehouse, s!readsheet, ataupun
tempat penyimpanan in#o!masi lainnya$ Data &leaning, Data
1(
Integration dan Data Selection dapat di*alanan pada data
te!sebut$
b$ Database dan data warehouse server$ /omponen ini
be!tanggung *a)ab dalam pengambilan data yang !ele6an,
be!dasa!an pe!mintaan pengguna$
"$ 7nowledge /ased$ /omponen ini me!upaan domain
knowledge yang digunaan untu memandu pen"a!ian atau
menge6aluasi pola-pola yang dihasilan$ 0engetahuan te!sebut
meliput hi!a!i onsep yang digunaan untu
mengo!ganisasian at!ibut atau nilai at!ibut edalam le6el
abst!asi yang be!beda$ 0engetahuan te!sebut *uga dapat
be!upa epe!"ayaan pengguna (user belief), yang dapat
digunaan untu menentuan emena!ian pola yang
dipe!oleh$
d$ Data mining engine$ Bagian ini me!upaan omponen penting
dalam a!sitetu! sistem data mining$ /omponen ini te!di!i da!i
modul-modul #ungsional sepe!ti a!ate!isasi, asosiasi,
lasi#iasi, dan analisis cluster$
e$ 8hra!ical user interface (;:<)$ &odul ini be!omuniasi
dengan pengguna dan data mining$ &elalui omponen ini,
pengguna be!inte!asi dengan sistem menggunaan *uery$
18
'a(bar 2.1Arsite&tur siste( data mining
2.2.) *lasifi&asi Siste( Data Mining
%ata &ining (.an dan /ambe!, 2006 : 2+) me!upaan suatu
pendeatan dalam peme"ahan masalah dengan menggunaan tin*auan
be!bagai sudut pandang ilmu se"a!a te!padu yaitu, database system,
statistics, machine learning, visuali(ation, dan information system.
(;amba! 2$2)
1+
'a(bar 2.2 Data mining (eru+a&an irisan dari berbagai disi+lin
2.2., *n"-ledge Dis!".er/ In Databases
.an dan /ambe! (2006 : (), lebih spesi#i menyataan istilah
Data Mining dan 7nowledge Discovery in Databases (/%%) se"a!a
be!gantian untu men*elasan p!oses penggalian in#o!masi te!sembunyi
dalam suatu umpulan data yang besa!$ 5an tetapi edua istilah
te!sebut memilii onsep yang be!beda, tetapi be!aitan satu sama lain
dan salah satu tahap dalam p!oses /%% adalah data mining$
Data mining adalah salah satu langah dalam p!oses /%%
se"a!a eselu!uhan$ 'e"a!a umum, data mining digunaan oleh banya
peneliti sebagai sinonim da!i p!oses /%%$ 5hi!-ahi! ini, data mining
dan knowledge discovery telah diusulan sebagai nama yang paling
memadai untu eselu!uhan p!oses /%%$ 7nowledge Discovery in
Databases be!aitan dengan p!oses penemuan pengetahuan yang
dite!apan pada database$ .al ini *uga dide#inisian sebagai p!oses
non%trivial untu identi#iasi data yang 6alid, ba!u, be!potensi
be!man#aat, dan ahi!nya memilii pola yang dapat dimenge!ti$
(/u!gan dan &usile, 2006)
20
7nowledge discovery se!ing te!halang a!ena tantangan dalam
integ!asi dan na6igasi da!i data yang be!beda$ 'elain itu, a!ena *umlah
dimensi di dalam data meningat, pendeatan ba!u untu penemuan
pola sangat dipe!luan$ (=hiyuan Chen, 200()$
Be!dasa!an penge!tian bebe!apa penge!tian te!sebut dapat
dita!i esimpulan bah)a 7nowledge Discovery in Database (/%%)
adalah p!oses yang be!tu*uan untu menggali dan menganalisis
se*umlah besa! himpunan data dan mengest!a in#o!masi se!ta
pengetahuan yang be!guna$
9angah penting dalam p!oses /%% dapat dilihat pada gamba! 2$8
yang te!di!i da!i tahapan-tahapan sebagai be!iut:
69 Data cleaning
Data cleaning me!upaan p!oses membuang dupliasi
data, meme!isa data yang tida onsisten, dan mempe!baii
esalahan pada data, sepe!ti esalahan penulisan$ 0ada
umumnya data yang dipe!oleh bai da!i database suatu
pe!usahaan maupun hasil espe!imen, memilii isi yang tida
sempu!na sepe!ti data yang hilang, data yang tida 6alid atau
*uga hanya seeda! salah eti$ 'elain itu, ada *uga at!ibut-
at!ibut data yang tida !ele6an dengan hipotesa data mining
yang dimilii$ Data cleaning *uga aan mempenga!uhi hasil
in#o!masi da!i teni data mining a!ena data yang ditangani
aan be!u!ang *umlah dan omplesitasnya$
.9 Data integration
0!oses menambah data yang sudah ada dengan data atau
in#o!masi lain yang !ele6an atau bisa disebut *uga me!upaan
21
penggabungan data da!i be!bagai database edalam satu
database ba!u yang dibutuhan oleh /%%$
1ahapan cleaning dan integration pada /%%
mengasumsian bah)a integ!ato! data ha!us menghapus noise
da!i data a)al se"a!a pa!alel dengan menginteg!asian
bebe!apa data set$ (&$ B!ian Blae, 200+)
'a(bar 2.# Data mining sebagai ta0a+an dala( +r"ses
KDD
09 Data selection
0emilihan data yang !ele6an dan dapat dilauan analisis
da!i data ope!asional$ %ata hasil pemilihan disimpan dalam
database yang te!pisah$
39 Data transformation
0!oses t!an#o!masi data edalam bentu #o!mat te!tentu
sehingga data te!sebut sesuai untu p!oses data mining$
'ebagai "ontoh bebe!apa metode standa! sepe!ti analisis
22
asosiasi dan clustering hanya bisa mene!ima input data
atego!ial$
49 Data mining
0!oses men"a!i pola atau in#o!masi mena!i dengan
menggunaan teni, metode atau algo!itma te!tentu$
59 #attern evaluation
&engidenti#iasi pola-pola yang bena!-bena! mena!i da!i
hasil data mining$ %alam tahap ini hasil da!i teni data
mining be!upa pola-pola yang has maupun model p!edisi
die6aluasi untu menilai apaah hipotesa yang ada memang
te!"apai atau tida$
:9 7nowledge !resentation
&enampilan pola in#o!masi yang dihasilan da!i p!oses
data mining, 6isualisasi ini membantu mengomuniasian
hasil data mining dalam bentu yang mudah dimenge!ti$
2.2.1 Te"ri *0usus 2 lassifi!ati"n and Predi!ti"n
&lassification (.an dan /ambe!, 2006 : 285) adalah sebuah
model dalam data mining dimana, classifier dionst!usi untu
memp!edisi categorical label, sepe!ti ,aman - atau ,be!esio- untu
data apliasi pemin*aman uang> ,ya- atau ,tida - untu data
marketing> atau ,treatment 5-, ,treatment B- atau ,treatment C-
untu data medis$ /atego!i te!sebut dapat di!ep!esentasian dengan
nilai yang sesuai dengan ebutuhannya, dimana pengatu!an da!i nilai
te!sbut tida memilii a!ti te!tentu$
&lassification dan "ssociation rule discovery me!upaan tugas
yang sama dalam data mining, dengan penge"ualian bah)a tu*uan
utama da!i lasi#iasi adalah p!edisi label elas, sedangan asosiasi
28
atu!an penemuan menggamba!an o!elasi anta!a item dalam
database t!ansasional$ (3adi 1habtah, 200()
0!oses data lasi#iasi memilii dua tahapan, yang pe!tama
adalah Learning: dimana training data dianalisa dengan
menggunaan sebuah algo!itma lasi#iasi$ %an yang edua adalah
&lassification; dimana pada tahap ini test data digunaan untu
mengestimasi etepatan da!i classification rules$ ?ia eau!atan yang
diondisian dan yang dipe!i!aan dapat dite!ima, rule te!sebut
dapat diapliasian pada lasi#iasi lainya da!i tuple data yang ba!u$
@ladimi! Aiulin (2008) lebih spesi#i mengataan bah)a,
classification hanya bisa dite!apan pada data training yang sangat
uat di mana diasumsian bah)a elas Bpositi#B sudah me)aili
mino!itas tanpa ehilangan at!ibut umum$
/lasi#iasi dalam data mining memilii 8 (tiga) metode yaitu,
&lassification by decision tree induction, /ayes &lassification, dan
Rule%based &lassification.
1. Classification by Decision Tree Induction
Decision 1ree Induction adalah pengetahuan dalam bentu
pohon eputusan yang training tu!le nya telah dibe!i label elas$
Decision 1ree bisa disebut *uga alat non-pa!amet!i analisis
dis!iminan, yang di!an"ang untu me)aili atu!an eputusan
dalam bentu yang disebut pohon bine! (@ladimi! Aiulin, 2008)$
'ebuah Decision 1ree sepe!ti sebuah flowchart dengan be!st!utu!
pohon, dimana setiap internal node (non%leaf node)
mendenotasian sebuah tes pada sebuah at!ibut, setiap "abang
me!ep!esentasian sebuah hasil da!i tes, dan setiap leaf node (atau
terminal node) memegang sebuah label elas$
24
Aamsi dan Cli6ia (2008) lebih spesi#i mengataan bah)a,
Decision tree adalah st!utu! !eu!si# sede!hana untu me)aili
p!osedu! eputusan di mana sebuah instan"e ditugasan untu
salah satu da!i se!angaian elas hasil yang telah ditentuan
sebelumnya$
Attribute Selection Measures
'ebuah attribute selection measure adalah sebuah heu!istis
untu memilih da!i pembelahan !ite!ia yang te!bai dipisahan
dengan menggunaan data !artition, %, da!i training tu!le yang
elas-nya telah dibe!i label e dalam elas indi6idual$
Information Gain
Information 8ain digunakan sebagai atribut !emilih ukuran.
5t!ibut dengan information gain te!tinggi dipilih sebagai at!ibut
pemisah untu node A$ 5t!ibut ini meminimalisasi in#o!masi yang
dibutuhan untu menglasi#iasi tuple dalam membe!ian hasil
pembelahan dan men!e#lesian nilai a"a yang paling sedit
,esalahannya- pada elas pa!tisi te!sebut$
%an !umus pe"a!ian in#o!mation gain adalah:
%imana <n#o % adalah:
<n#o!masi yang dipe!i!aan (entro!y) yang dibutuhan
untu menglasi#iasian sebuah tuple pada %$
%an <n#o 5 adalah:
<n#o!masi yang dibutuan (setelah menggunaan 5 untu
membagi % edalam pa!tisi @) untu menglasi#iasi %$
'ain Rati"
<D9 Info Info<D9 8ain<"9
"
=
) ( log ) (
2
1
i
m
i
i
! ! D Info

=
=
) (
D D
D D
) (
1
=
v
=
=
"
D I
D
D
D Info =
=
25
0enguu!an Information 8ain be!at sebelah te!hadap tes
dengan be!bagai hasil$ 'ehinga hasilnya lebih memilih at!ibut
yang memilii sebuah anga dengan nilai besa!$
2. Bayesian Classification
/ayesian &lassifier adalah penglasi#iasi statisti$ /ayesian
&lassfier dapat mempe!i!aan p!obabilitas eanggotaan elas,
sepe!ti emunginan bah)a sebuah tuple yang dibe!ian telah
dimilii oleh sebuah elas te!tentu lainnya$
a!"e Bayesian Classification
a>ve /ayesian classifer, atau Sim!le /ayesian classifier, bee!*a
sepe!ti diba)ah:
1$ Bia!an E men*adi sampel data (BbutiB): label elas tida
dietahui
2$ Bia!an . men*adi hipotesis bah)a E mili elas C
8$ /lasi#iasi adalah untu menentuan 0 (. D E), (poste!io!i
p!obabilitas), p!obabilitas bah)a hipotesis memegang data
sampel yang dibe!ian dan diamati E
4$ 0 (.) (!rior), p!obabilitas a)al
a$ &isalnya, E aan membeli ompute!, tanpa memandang
usia dan pendapatan
5$ 0 (E): p!obabilitas bah)a data sampel yang diamati
6$ 0 (E D .) (elemahan be!upa), p!obabilitas mengamati sampel
E, membe!ian data yang dipegang hipotesis
a$ &isalnya, &engingat bah)a E aan membeli ompute!,
p!obabilitas bah)a E adalah 81 $$ 40, pendapatan menengah
($ %ata pelatihan yang dibe!ian E, poste!io!i p!obabilitas
hipotesis ., 0 (. D E), mengiuti teo!ema Bayes
8$ 'e"a!a in#o!mal, hal ini dapat ditulis sebagai
poste!io!i F emunginan G sebelum H buti
)
D D
D D
( log
D D
D D
) (
2
1
D
D
D
D
D S!litInfo
=
v
=
=
"
=

=
) (
) ( ) D (
) D (
3
3
3
#
2 # 2 #
2 # =
26
+$ 0!edisi E mili C2 <33 p!obabilitas 0 (Ci D E) adalah yang
te!tinggi di anta!a semua 0 (C D E) untu semua elas /
10$ /esulitan p!atis: meme!luan pengetahuan a)al dengan
p!obabilitas yang banya, biaya omputasi yang signi#ian$
#. $ule%Based Classfication
Mengguna&an IF4T5EN Rules untu& *lasifi&asi
'ebuah rule%based classifier digunaan sebagai seumpulan
da!i !ule <3-1.IA untu lasi#iasi$ 'ebuah atu!an <3-1.IA
dengan #o!m,
<3 kondisi 1.IA hasil.
Contoh da!i Jule <3-1.IA (J1)$
J1: <3 umu! F muda 5A% pela*a! F ya 1.IA beliKompute!
F ya$
a$ 5ssessment da!i sebuah !ule: coverage and accuracy
4 n
"o6e!s
F L tuple yang di-cover oleh J
4 n
"o!!e"t
F L tuple yang se"a!a tepat dilasi#iasian oleh
J
coverage(J) F n
"o6e!s
HD%D HM %: umpulan t!aining data MH
accuracy(J) F n
"o!!e"t
H n
"o6e!s
ope!ato! logia (5A%), (CJ), (AC1)$
b$ ?ia lebih da!i satu atu!an yang dipi"u, maa dipe!luan
sebuah !esolusi on#li
"$ :u!an pemesanan: menetapan p!io!itas te!tinggi dengan
atu!an memi"u yang memilii Bte!be!atB pe!sya!atan (yaitu,
dengan tes at!ibut yang paling)
d$ /elas be!basis memesan: u!utan penu!unan biaya !revalensi
atau kesalahan klasifikasi !er kelas
0e!atu!an-be!basis memesan (da#ta! eputusan67 atu!an
aan disusun dalam satu da#ta! p!io!itas *anga, menu!ut
bebe!apa uu!an ualitas pe!atu!an atau oleh pa!a ahli$
2.# lassifier A!!ura!/ Measurables
&lassifier "ccuracy Measures (.an dan /ambe!, 2006 : 860) adalah
metode lasi#iasi yang dilauan be!dasa!an tingat au!asi model dalam
2(
melauan p!edisi$ .al ini dilauan a!ena eau!atan dalam mengolah data
me!upaan salah satu hal yang penting$
&etode yang digunaan untu mengu*i tingat au!asi model lasi#iasi
ini adalah metode hold out$ %alam metode ini, data asli dipa!tisi men*adi dua
himpunan yang saling te!pisah yang dinamaan training set dan test set$ &odel
lasi#iasi emudian dibangun be!dasa!an training set dan hasilnya emudian
die6aluasi dengan menggunaan testing set$ 5u!asi da!i masing-masing metode
lasi#iasi dapat diestimasi be!dasa!an au!asi yang dipe!oleh da!i test set$
0!opo!si anta!a training set dan test set tida mengiat tetapi aga! 6a!iansi dalam
model tida te!lalu besa! maa dapat ditentuan bah)a p!opo!si training set
lebih besa! da!ipada test set-nya$ Biasanya 2H8 da!i data di*adian training set
dan 1H8 lagi di*adian testing set$
:u!an da!i tingat au!asi sebuah classifier dapat ditentuan dengan
menggunaan pe!hitungan-pe!hitungan &lassifier "ccuracy Measurables, yaitu
sebagai be!iut:
Sensivity =
Specifcity =
Precision =
Accuracy = sensivity + specifty
28
tKpos adalah *umlah true !ositive yaitu *umlah data yang be!hasil di
p!edisi oleh classifier dengan bena! (misalan *umlah data elas ,yes- da!i
sampel yang se"a!a bena! dapat di p!edisi sebagaimana mestinya oleh model
lasi#iasi), pos adalah *umlah sampel data !ositives (,yes-), tKneg adalah
*umlah true negatives yaitu adalah ebalian da!i true !ositive (misalan *umlah
data elas ,no- da!i sampel yang bena! dapat dip!edisi sebagaimana mestinya
oleh model lasi#iasi), neg adalah *umlah total sampel negatives (,no- ), dan
#Kpos adalah false !ositives yaitu *umlah data yang salah di p!edisi oleh
classifier (,no- dip!edisi sebagai ,yes-)$
Sensivity adalah uu!an tingatan de!a*at classifier dapat mengenal
!ositives sam!les (,yes-) be!dasa!an *umlah true !ositives yang dapat
dip!edisi se"a!a bena! *ia yang dibe!ian adalah sampel !ositives$
S!ecificity adalah uu!an tingatan de!a*at classifier dapat mengenal
negatives sam!les (,no-) be!dasa!an true negatives yang dapat dip!edisi
se"a!a bena! *ia yang dibe!ian adalah sampel negatives$
#recision adalah besa!nya p!esentase classifier dalam meneba dengan
tepat elas true !ositives (,yes-) dengan melihat pe!bandingan true !ositive
yang dapat dip!edisi dengan pen*umlahan true !ositive dan false !ositive$
5""u!a"y adalah de!a*at uu!an yang me!upaan #ungsi da!i 'ensi6ity
dan 'pe"i#i"ity model lasi#iasi dalam melauan p!edisi$
2+

2012-1-00314-SI Bab2001

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2012-1-00314-SI Bab2001

Uploaded by

Copyright:

Available Formats

8

You might also like