You are on page 1of 7

ORBITH VOL. 9 NO.

2 JULI 2013 : 62 – 68

PERBANDINGAN KINERJA EUCLIDEAN DAN MAHALANOBIS


DISTANCE CLASSIFIER UNTUK KLASIFIKASI CITRA MAMOGRAFI

Oleh: Indah Susilawati


Staf Pengajar Program Studi Teknik Informatika Universitas Mercu Buana Yogyakarta
Jl. Wates Km. 10 Yogyakarta Telp. (0274) 6498211, 6498212 Fax. (0274) 6498213

Abstrak

Terdapat beberapa jenis abnormalitas pada jaringan payudara yang dapat diketahui dengan cara
analisis citra rekam medis mamografi. Salah satu jenis abnormalitas tersebut adalah keberadaan
mikrokalsifikasi pada jaringan payudara. Mikrokalsifikasi merupakan timbunan kalsium pada jaringan
dan dapat merupakan gejala awal perubahan ke arah kanker. Berbagai algoritma yang kompleks telah
digunakan oleh para peneliti untuk mengklasifikasikan citra mamografi untuk mengenali keberadaan
mikrokalsifikasi. Algoritma yang sering digunakan misalnya jaringan saraf tiruan, Support Vector
Machine, dan lain-lain. Tujuan utama penelitian ini adalah melakukan pengenalan pola citra normal dan
citra bermikrokalsifikasi pada citra mamografi digital menggunakan pengklasifikasi berdasarkan teori
Bayes, yaitu Euclidean dan Mahalanobis Classifier, kemudian membandingkan kinerja yang diperoleh.
Dalam penelitian ini, pengenalan citra normal dan citra bermikrokalsifikasi pada citra mamografi digital
dirancang sebagai suatu proses klasifikasi dengan 6 input ciri. Proses klasifikasi dilakukan dalam tiga
tahap. Pertama, tahap pra-pengolahan, dan kedua tahap ekstraksi ciri-ciri citra berdasarkan nilai piksel
citra. Ketiga, dilakukan klasifikasi untuk mengelompokkan citra normal dan citra bermikrokalsifikasi.
Penelitian menggunakan total 140 sampel; 100 sampel untuk pelatihan dan 40 sampel untuk pengujian
yang terdiri atas 20 citra normal dan 20 citra bermikrokalsifikasi. Hasil penelitian menunjukkan
bahwa Euclidean Distance Classifier menghasilkan kinerja klasifikasi setinggi 52,5% dan error sebesar
47,5%, sedangkan Mahalanobis Distance Classifier menghasilkan kinerja klasifikasi setinggi 87,5% dan
error sebesar 12,5%; atau dikatakan terjadi peningkatan kinerja dan penurunan tingkat error sebesar
35% saat digunakan Mahalanobis Distance Classifier.
Kata kunci: mamografi, mikrokalsifikasi, Euclidean, Mahalanobis, ciri

1. Pendahuluan perubahan ke arah kanker yang disebut


Mamografi adalah pencitraan menggunakan mikrokalsifikasi,
sinar X untuk pengujian (examination) c. distorsi arsitektur dari pola jaringan
jaringan payudara. Mamografi terutama normal yang disebabkan oleh kanker,
digunakan untuk deteksi dan diagnosa dan
kanker payudara, juga digunakan untuk d. asimetri antara citra payudara kanan
keperluan pra-operasi, yaitu untuk dan kiri.
menentukan lokasi yang dicurigai dan
untuk mengarahkan biopsi. Berbagai algoritma yang kompleks telah
diguna-kan oleh para peneliti untuk
Saat ini mamografi merupakan cara paling mengklasifikasikan citra mamografi untuk
efektif untuk mendeteksi kanker payudara mengenali beberapa jenis abnormalitas
stadium dini. Hal ini dapat dilakukan baik yang mungkin terjadi pada jaringan
untuk pasien yang memiliki gejala-gejala payudara seperti mikrokalsifikasi, massa,
kanker (symptomatic patient) maupun dan lessi. Algoritma yang sering digunakan
untuk skrining bagi wanita-wanita tanpa misalnya jaringan saraf tiruan dan Support
gejala kanker (asymptomatic patient). Vector Machine.
Kanker payudara dideteksi berdasar empat
tipe tanda-tanda pada citra mamografi, yaitu Pada penelitian ini dilakukan klasifikasi
: citra mamografi menjadi dua kelas, yaitu
a. karakteristik morfologi massa tumor, citra normal dan citra bermikrokalsifikasi
b. keberadaan deposit atau timbunan (citra yang mengandung mikrokalsifikasi).
kalsium pada jaringan payudara dan Pengklasifikasi (classifier) yang digunakan
biasanya menjadi tanda-tanda awal adalah pengklasifikasi berdasar jarak

62
Perbandingan Kinerja Euclidean Dan Mahalanobis Distance Classifie..........Indah Susilawati

minimum yaitu Euclidean dan aras keabuan 8 bit berukuran 1024 x 1024
Mahalanobis Distance Classifier. piksel dengan ukuran piksel 200 mikron.
Euclidean Distance Classifier adalah
pengklasifikasi berdasar jarak euclidean 2.2. Metodologi
minimum dengan beberapa asumsi sebagai Langkah-langkah yang dilakukan dalam
berikut. penelitian ini diperlihatkan dengan diagram
a. Semua kelas mempunyai probabilitas alir pada Gambar 1.
yang sama (equiprobable),
b. Semua data dalam semua kelas Mulai

mempunyai distribusi normal atau


Gaussian, Citra mamografi
c. Semua kelas mempunyai matriks
kovarian yang sama,
d. Matriks kovarian berbentuk matriks Pra-pengolahan
diagonal dan semua elemen
diagonalnya sama besar, yaitu S = σ2 I
Ekstraksi Ciri
dengan I adalah matriks identitas.

Sedangkan Mahalanobis Distance Klasifikasi


Classifier adalah pengklasifikasi berdasar
jarak minimum untuk kondisi dimana
asumsi terakhir pada Euclidean Distance Analisis Hasil dan
Perbandingan
Classifier tidak terpenuhi atau dengan kata
lain matriks kovarian tidak berbentuk
matriks diagonal dan semua elemen
Selesai
diagonalnya tidak sama besar. Asumsi-
asumsi yang digunakan oleh dua Gambar 1. Diagram alir langkah penelitian
pengklasifikasi ini menjadikan algoritma
implementasinya tidak rumit sebagaimana Pada tahap pra-pengolahan dilakukan
pengklasifikasi jenis lain, seperti jaringan cropping citra mamografi untuk
saraf tiruan dan Support Vector Machine. memperoleh sampel citra normal dan
sampel citra bermikrokalsifikasi dengan
Pada penelitian ini akan dibandingkan ukuran sampel 40x40 piksel. Sampling
kinerja Euclidean dan Mahalanobis untuk memperoleh citra normal dilakukan
Distance Classifier dalam dengan mengambil sampel secara acak pada
mengklasifikasikan citra mamografi citra mamografi normal. Sedangkan untuk
menjadi dua kelas, yaitu citra normal dan memperoleh sampel citra
citra bermikrokalsifikasi. Dengan demikian
bermikrokalsifikasi dilakukan dengan
pada akhirnya dapat diketahui jenis
memilih posisi dimana terdapat
pengklasifikasi yang mempunyai kinerja
mikrokalsifikasi sesuai informasi dari basis
yang lebih baik diantara keduanya untuk
data MIAS. Gambar 2 memperlihatkan
selanjutnya dapat digunakan dalam proses
proses cropping untuk memperoleh citra
deteksi mikrokalsifikasi pada citra sampel.
mamografi.
Pada penelitian ini digunakan total 140
sampel yang terdiri atas 70 sampel citra
2. Metode Penelitian mamografi normal (50 sampel untuk
2.1. Bahan Penelitian pelatihan dan 20 sampel untuk pengujian)
Bahan penelitian diperoleh dari basis data dan 70 citra mamografi bermikrokalsifikasi
MIAS (Mammographic Image Analysis (50 sampel untuk pelatihan dan 20 sampel
Society). Citra yang tersedia berupa citra untuk pengujian).

63
ORBITH VOL. 9 NO. 2 JULI 2013 : 62 – 68

Selanjutnya dilakukan ekstraksi ciri dari bermikrokalsifikasi dikelompokkan dalam


semua citra sampel. Ada enam ciri yang kelas 2. Pada penelitian ini digunakan dua
diekstrak yaitu rerata, varians, standar jenis pengklasifikasi berdasarkan jarak
deviasi (std), entropi, beda nilai maksimum minimum, yaitu Euclidean dan
dan minimum piksel (bedaan1), serta beda Mahalanobis Distance Classifier.
nilai maksimum piksel dari reratanya
(bedaan2). Ekstraksi dilakukan Mulai
menggunakan persamaan-persamaan
berikut.
Baca Citra

Vektorisasi

Hitung rerata, varians, std, entropi,


bedaan1, bedaan2

Susun vektor ciri

Selesai

Gambar 3. Diagram alir proses ekstraksi


Gambar 2. Cropping untuk memperoleh ciri
citra sampel
Euclidean dan Mahalanobis Distance
1 (1) Classifier merupakan jenis pengklasifikasi
rerata =
N
∑ u (m, n) yang bekerja berdasar jarak minimum,
1 (2) dengan beberapa asumsi untuk kepentingan
varians =
N
∑ [u (m, n) − rerata]2 penyederhanaan yaitu (1) semua kelas
1 mempunyai probabilitas sama atau
standar deviasi =
N
∑ [u (m, n) − rerata ] 2 (3)
equiprobable, (2) semua data dalam semua
L −1 kelas mempunyai distribusi normal, (3)
entropi = E[− log 2 pu ] = −∑ pu ( x) log 2 pu ( x) (4 semua kelas mempunyai matriks kovarian
x =0

) yang sama, dan (4) matriks kovarian


berbentuk matriks diagonal dan semua
bedaan1 = max[u (m, n)] − min[u (m, n)] (5)
elemen diagonalnya sama besar, yaitu S =
bedaan2 = max[u (m, n)] − rerata (6)
σ2 I dengan I adalah matriks identitas.
Dengan u (m,n) adalah nilai piksel citra
Euclidean Distance Classifier akan
pada baris ke-m kolom ke-n, N adalah
mengklasifikasikan suatu pola x ke dalam
jumlah piksel dalam citra yang
kelas ωi jika
bersangkutan, p u (x) adalah probabilitas
kemunculan nilai piksel sama dengan x atau x − mi ≡ ( x − mi ) T ( x − mi ) < x − m j
u(m,n) = x. Gambar 3 memperlihatkan (7)
diagram alir proses ekstraksi ciri. untuk ∀i ≠ j
dengan S adalah matriks kovarian dan m i
Pada tahap klasifikasi dilakukan klasifikasi adalah rerata kelas i.
untuk membedakan citra normal dan citra Jika asumsi terakhir tidak terpenuhi
bermikrokalsifikasi. Citra normal (matriks kovarian tidak berbentuk matriks
dikelompokkan dalam kelas 1 dan citra

64
Perbandingan Kinerja Euclidean Dan Mahalanobis Distance Classifie..........Indah Susilawati

diagonal dan semua elemen diagonalnya ciri = [rerata varians std entropi bedaan1
tidak sama besar), maka harus digunakan bedaan2]
Mahalanobis Distance Classifier. Suatu
pola x akan dimasukkan ke dalam kelas ωi Untuk tiga sampel citra normal yang
jika diperlihatkan pada Gambar 4 diperoleh
( x − mi ) T S −1 ( x − mi ) < ( x − m j ) T S −1 ( x − m j ) vektor ciri sebagai berikut.
(8)
N 1 = [141 31,2 5,59 4,5 34 20,6]
untuk ∀j ≠ i
N 2 = [220 10,5 3,24 3,67 19 6,4]
Untuk mengetahui matriks kovarian dari N 3 = [89,5 16,6 4,07 4,01 23 10,5]
data, digunakan teknik maximum likelihood
untuk estimasi fungsi PDF. Dengan asumsi Untuk tiga sampel citra bermikrokalsifikasi
bahwa PDF terdistribusi normal dan yang diperlihatkan pada Gambar 5
terdapat N data dengan x i ∈ Rℓ, I = diperoleh vektor ciri sebagai berikut.
1,2,…,N, maka nilai rerata (m) dan matriks
kovarian (S) dapat dicari dengan C 1 = [124 232 15,2 5,84 94 54,6]
1 N
C 2 = [146 195 14,0 5,69 76 42,7]
m ML =
N
∑x
i =1
i
(9)
C 3 = [181 94,2 9,7 5,22 59 37,9]
1 N
S ML =
N
∑ (x
i =1
i − m ML )( xi − m ML ) T (10) Nilai rerata ciri untuk kelas 1 dan kelas 2
diperoleh dari data pelatihan dan
Kinerja yang dicapai oleh masing-masing dinyatakan sebagai matriks M berikut;
pengklasifikasi kemudian akan kolom 1 adalah nilai rerata ciri untuk kelas
dibandingkan. 1 dan kolom 2 adalah nilai rerata ciri untuk
kelas 2.
3. Hasil dan Pembahasan 144,6123 147,6324
351,3899 158,7820
3.1. Hasil Penelitian  
Gambar 4 memperlihatkan hasil pra-  15,6554 11,8479 
M = 
pengolahan berupa sampel citra normal  5,4296 5,3752 
(kelas 1) dan Gambar 5 memperlihatkan  69,84 71,16 
 
sampel citra bermikrokalsifikasi (kelas 2).  31,1877 42,4276 

Rerata ciri masing-masing kelas akan


digunakan sebagai pusat dari kelas yang
bersangkutan. Berdasarkan letak pusat kelas
inilah, Euclidean Distance Classifier akan
Gambar 4. Hasil sampling citra normal
mengklasifikasikan sebuah data baru yaitu
berdasarkan jarak Euclidean terpendek
(minimum). Hasil klasifikasi menggunakan
40 data pengujian menunjukkan kinerja
Euclidean Distance Classifier setinggi 52,5
Gambar 5. Hasil sampling citra % atau kesalahan klasifikasi sebesar
bermikrokalsifikasi 47,5%.

Hasil ekstraksi ciri untuk setiap sampel Untuk keperluan klasifikasi menggunakan
citra disusun menjadi vektor ciri (sesuai Mahalanobis Distance Classifier,
diagram alir pada Gambar 3) sebagai dibutuhkan rerata ciri kedua kelas dan
berikut: matriks kovarians dari data pelatihan.
Matriks kovarians diperoleh menggunakan

65
ORBITH VOL. 9 NO. 2 JULI 2013 : 62 – 68

teknik maximum likelihood, dan hasilnya mempunyai probabilitas yang sama


dinyatakan dalam matriks S M berikut. (equiprobable) dan mempunyai distribusi
normal, serta semua kelas mempunyai
 0.0147 − 0.0184 − 0.0005 0 − 0.0015 − 0.0012
− 0.0184 1.1595 0.0265 0.0019 0.0810 0.0250  matriks kovarian yang sama. Di samping itu

SM
 − 0.0005 0.0265
= 1.0e + 05
0.0007 0.0001 0.0021 0.0007 

matriks kovarian diasumsikan berupa
 0 0.0019
 − 0.0015 0.0810
0.0001
0.0021
0 0.0002
0.0002 0.0084
0.0001 
0.0034 
matriks diagonal dengan semua elemen

− 0.0012 0.0250 0.0007 0.0001 0.0034

0.0021  diagonal sama besar, yaitu S = σ2 I. Dengan
Mahalanobis Distance Classifier asumsi ini maka Euclidean Distance
melakukan klasifikasi untuk data baru Classifier menganggap bahwa matriks
berdasarkan asumsi yang sama dengan kovarian dari data pelatihan adalah matriks
Euclidean Distance Classifier kecuali S E sebagai berikut:
asumsi yang terakhir. Hasil klasifikasi
2.76e + 04 0 0 0 0 0 
menggunakan 40 data pengujian  0 2.76e + 04 0 0 0 0 
 
menunjukkan kinerja Mahalanobis 
SE = 
0 0 2.76e + 04 0 0 0 

Distance Classifier mencapai 87,5% atau 

0
0
0
0
0
0
2.76e + 04
0
0
2.76e + 04
0
0


kesalahan klasifikasi sebesar 12,5%. 
 0 0 0 0 0

2.76e + 04

3.2 Pembahasan Elemen diagonal pada matriks kovarian S E


Perbandingan kinerja dan error atau adalah nilai varians dari data pelatihan. Jika
kesalahan klasifikasi menggunakan dibandingkan dengan matriks kovarian
Euclidean dan Mahalanobis Distance yang sebenarnya yang diperoleh dari data
Classifier diperlihatkan secara grafis pada pelatihan (yaitu S M ), maka dapat diketahui
Gambar 6. perbedaan yang signifikan antara kenyataan
dan asumsi yang digunakan dalam
Euclidean Distance Classifier. Hal ini dapat
menjelaskan mengapa kinerja klasifikasi
yang dicapai cukup rendah atau error
klasifikasinya tinggi.

Pada saat digunakan Mahalanobis Distance


Classifier, penyederhanaan kondisi hanya
Gambar 6. Perbandingan kinerja dan error dilakukan pada tiga hal yang pertama.
dari Euclidean dan Mahalanobis Distance Asumsi ke-4 pada Euclidean Distance
Classifier Classifier tidak digunakan lagi dalam
algoritma Mahalanobis Distance Classifier,
Euclidean dan Mahalanobis Distance sehingga pada proses klasifikasi harus
Classifier menunjukkan kinerja yang diketahui terlebih dahulu matriks kovarian
berbeda dalam melakukan klasifikasi citra dari data yang digunakan. Dengan kata lain,
mamografi. Peningkatan kinerja sebesar Mahalanobis Distance Classifier
35% diperoleh saat menggunakan mengguna-kan matriks kovarian yang
Mahalanobis Distance Classifier, demikian sesungguhnya dari data pelatihan yaitu
juga diperoleh penurunan 35% untuk matriks S M (bukan menggunakan asumsi
kesalahan atau error klasifikasinya. bahwa matriks kovarian dari data pelatihan
adalah berupa matriks diagonal dengan
Rendahnya kinerja Euclidean Distance semua elemen diagonal sama besar, yaitu S
Classifier dikarenakan oleh = σ2 I, seperti pada algoritma Euclidean
penyederhanaan kondisi melalui asumsi- Distance Classifier). Oleh karena asumsi
asumsi yang cukup banyak yang tercermin atau penyederhanaan kondisi yang lebih
dalam algoritma pengklasifikasi itu sendiri sedikit dibandingkan asumsi yang
yang mengasumsi-kan semua kelas digunakan dalam algoritma Euclidean

66
Perbandingan Kinerja Euclidean Dan Mahalanobis Distance Classifie..........Indah Susilawati

Distance Classifier, maka hal tersebut kinerja klasifikasi setinggi 87,5% dan
berarti bahwa pengklasifikasi Mahalanobis error sebesar 12,5%; atau dikatakan
Distance Classifier ‘melihat’ kondisi data terjadi peningkatan kinerja dan
secara lebih nyata. Hal inilah yang penurunan tingkat error sebesar 35%
menjadikan Mahalanobis Distance saat digunakan Mahalanobis Distance
Classifier menunjukkan kinerja klasifikasi Classifier.
yang lebih tinggi dan error klasifikasi yang
lebih rendah dari pada Euclidean Distance 4.2. Saran
Classifier. Berdasarkan hasil penelitian dan
Pada penelitian ini digunakan 100 data pembahasan serta simpulan, maka dapat
pelatihan dan 40 data pengujian; disarankan untuk pengembangan penelitian
penggunaan data pelatihan yang jauh lebih ini.
banyak kemungkinan akan menghasilkan a. Penggunaan data pelatihan yang jauh
kinerja yang lebih tinggi dan error yang lebih banyak sehingga asumsi yang
lebih rendah baik untuk Euclidean maupun kedua, yaitu bahwa semua data dalam
Mahalanobis Distance Classifier, karena semua kelas diasumsikan mempunyai
asumsi pertama dan kedua, yaitu bahwa distribusi normal, menjadi terpenuhi.
semua data dalam semua kelas mempunyai Dengan demikian diharapkan akan
probabilitas yang sama dan terdistribusi menghasilkan kinerja yang lebih tinggi
secara normal, menjadi lebih mendekati dan error yang lebih rendah baik untuk
kenyataan. Euclidean maupun Mahalanobis
Distance Classifier.
4. Simpulan dan Saran b. Selain hal tersebut, penggunaan
4.1. Simpulan pengklasifikasi yang memfasilitasi
Berdasarkan hasil penelitian dan kenyataan bahwa data pada semua
pembahasan pada bab sebelumnya, dapat kelas tidak selalu mempunyai
ditarik beberapa kesimpulan sebagai probabilitas yang sama (equiprobable),
berikut. dapat meningkatkan kinerja klasifikasi.
a. Dua pengklasifikasi berdasar jarak Hal ini didasari kenyataan bahwa
minimum, yaitu Euclidean dan probabilitas kejadian munculnya citra
Mahalanobis Distance Classifier, dapat normal dan citra bermikrokalsifikasi
digunakan untuk mengklasifikasikan kemungkinan tidak sama besar.
citra normal dan citra
bermikrokalsifikasi pada citra DAFTAR PUSTAKA
mamografi digital, dengan masukan Babiloni, Fabio., dkk, 2001, Mahalanobis
berupa ciri-ciri yang diekstrak Distance-Based Classifiers are Able
berdasarkan nilai piksel citra yaitu to Recognize EEG Pattern by Using
rerata, varians, standar deviasi, entropi, Few EEG Electrodes, Proceeding 23rd
beda nilai piksel minimum dan Annual Conference – IEEE/EMBS
maksimum, serta beda nilai piksel Oct 25-28 2001, Istanbul, Turkey.
maksimum dengan reratanya. Duda, R.O., Harl, P.E., Stork, D.G., Pattern
b. Mahalanobis Distance Classifier Classification, Second Edition, John
menghasilkan kinerja klasifikasi yang Wiley & Sons, Inc.
lebih baik dari pada Euclidean El-Naqa, Issam, dkk, Support Vector
Distance Classifier. Pada penelitian ini, Machine Learning for Detection of
Euclidean Distance Classifier Microcalcifications in Mammograms,
menghasilkan kinerja klasifikasi Dept. Of Electrical and Computer
setinggi 52,5% dan error sebesar Engineering, Illinois Institute of
47,5%, sedangkan Mahalanobis Technology.
Distance Classifier menghasilkan

67
ORBITH VOL. 9 NO. 2 JULI 2013 : 62 – 68

Fessant dkk, 2001, Comparison of


supervised Self Organizing Maps
Using Euclidean or Mahalanobis
Distance in Classification Context, 6th
International Work Conference on
Artificial and Natural Neural
Networks (IWANN2001), Granada,
June 13-15 2001.
Garcia, Arnaud., dkk, 2008, Multivariate
Mathematical Morphology and
Bayesian Classifier Application to
Colour and Medical Images,
Proceedings of SPIE-IS&T Vol. 6812
681203-1, 2008.
Jain, Anil K., 1989, Fundamental of Digital
Image Processing, Prentice Hall
International, Inc. Singapore.
Karande dan Talbar, Independent
Component Analysis of Edge
Information for Face Recognition,
International Journal of Image
Processing (IJIP) Volume 3: Issue 3.
Liu, Sheng., Babbs, Charles F., dan Delp,
Edward J., Normal Mammogram
Analysis and Recognition, Purdue
University, Indiana.
Maged Marghany dan Mazlan Hashim,
2011, Mahalanobis Classification and
Neural Network for Oil Spill
Detection Using RADARSAT-1 SAR
Data, INSTEG UTM, Malaysia.
Munir, R., 2004, Pengolahan Citra Digital
dengan Pendekatan Algoritmik,
Informatika Bandung.
Sheshadri, H.S. dan Kandaswamy, A.,
2006, Computer Aided Decision
System for Early Detection of Breast
Cancer, Indian J Med Res 124, pp
149 – 154.
Yaffe, Martin J,. 1995, Mammography,
Biomedical Engineering Handbook,
IEEE Press.

68

You might also like