Professional Documents
Culture Documents
Data Mining P9-SVM
Data Mining P9-SVM
Statistika
CART SVR
Association Rule K-Nearest Neighbor
Bayes
DATA Preprocessing Data
Clustering
MINING K-Means
K-Medoids
C45
Support Vector Machine
Outline
• Pengantar SVM
• Histori dan aplikasi SVM
• Ide SVM
• Formulasi matematis
• Metode kernel
• Algoritma SVM untuk Klasifikasi
• SVM dengan R
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Pengantar SVM
• Support vector machine (SVM) adalah suatu teknik
yang relatif baru (1995) untuk melakukan prediksi, baik
dalam kasus klasifikasi maupun regresi, yang sangat
populer belakangan ini.
• SVM termasuk supervised learning
• SVM berada dalam satu kelas dengan ANN dalam hal
fungsi dan kondisi permasalahan yang bisa diselesaikan.
Keduanya masuk dalam kelas supervised learning,
dimana dalam implementasinya perlu adanya tahap
training dan disusul tahap testing.
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Pengantar SVM
SVM NN
• Menemukan solusi yang • Menemukan solusi berupa
global Optimal local optimal
• Solusi sama di setiap running • Solusi beda di setiap training
• Deterministic algorithm • Nondeterministic algorithm
• Nice generalization properties • Generalizes well but doesn’t
• Hard to learn – learned in have strong mathematical
batch mode using quadratic foundation
programming techniques • Can easily be learned in
• Using kernels can learn very incremental fashion
complex functions • To learn complex functions—
use multilayer perceptron
(nontrivial)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Pengantar SVM
• Advantages
– Prediction accuracy is generally high
• As compared to Bayesian methods – in general
– Robust, works when training examples contain errors
– Fast evaluation of the learned target function
• Bayesian networks are normally slow
• Criticism
– Long training time
– Difficult to understand the learned function (weights)
• Bayesian networks can be used easily for pattern
discovery
– Not easy to incorporate domain knowledge
• Easy in the form of priors on the data or distributions
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Ide SVM
• SVM
berusaha untuk menemukan fungsi pemisah
(klasifier/hyperplane) yang optimal dari dua set data
• Jika fungsi pemisah adalah linier, didefinisikan:
dengan
• Kita ingin menemukan parameter sehingga untuk
semua
• Fungsi digunakan untuk mengelompokkan semua nilai
diatas 0 menjadi dan dibawah 0 menjadi
• Hyperplane terbaik adalah hyperplane yang teletak
ditengah-tengah antara dua set objek dari dua kelas
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Ide SVM
Hyperplane Hyperplane
pendukung pendukung margin
dari kelas -1 dari kelas +1
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Ide SVM
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Formulasi
problem optimisasi SVM untuk kasus
klasifikasi linier di dalam primal space adalah
atau atau 8.2
dengan batasan ,
Dimana:
• adalah data input
• adalah output yang nilainya atau
• dan adalah parameter yang kita cari nilainya
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Untuk
kasus yang tidak feasible (infeasible) dimana
beberapa data mungkin tidak bisa dikelompokkan
secara benar, formulasi matematikanya menjadi:
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space
1. Persamaan 8.3 diubah menjadi fungsi Lagrangian
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space (lanjtn)
2. Mencari turunan pertama dari fungsi terhadap
variable dan kemudian disama dengankan 0 (nol)
Kondisi optimal 1: akan menghasilkan
8.5
Kondisi optimal 2: akan menghasilkan
8.6
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
•• Penyelesaiantransformasi ke dalam
dual space (lanjtn)
3. Memasukkan kondisi optimal 1 dan 2
ke
Penjabaran persamaan 8.4:
8.7
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space (lanjtn)
3. Memasukkan kondisi optimal 1 dan 2 ke
Kondisi optimal 1 digunakan untuk menghitung :
8.7
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space (lanjtn)
3. Memasukkan kondisi optimal 1 dan 2 ke
Masukkan kondisi optimal 1 ke sehingga
Sehingga
8.9
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space (lanjtn)
4. Memasukkan persamaan 8.9 ke 8.3 diperoleh
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Metode kernel
• Metode
kernel ialah salah
satu penyelesaian untuk
mengatasi permasalahan
ketidaklinieran
• Dengan metode kernel,
suatu data di input space
dimapping ke feature space
dengan dimensi yang lebih
tinggi melalui map sebagai
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Metode kernel
• Untuk bisa memakai metoda kernel, fungsi tujuan dan
pembatas (constraint) perlu diekspresikan dalam bentuk dot
product dari vektor data xi. Sebagai konsekuensi, fungsi
tujuan yang menjelaskan permasalahan dalam klasifikasi
harus diformulasikan kembali sehingga menjadi bentuk dot
product
• Dalam feature space ini dot product < . > menjadi < ϕ(x),
ϕ(x)′ >
• Suatu fungsi kernel, k(x, x′), bisa digunakan untuk
menggantikan dot product < ϕ(x), ϕ(x)′ >. Kemudian di
feature space, kita bisa menemukan suatu fungsi pemisah
yang linier yang mewakili fungsi nonlinear di input space.
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Metode kernel
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Metode kernel
• Dengan
memetakan setiap data ke feature space, maka
persamaan 8.10 menjadi
8.11
Dengan batasan
• Dot product bisa diwakili oleh , dimana adalah fungsi
kernel
• adalah solusi optimal. disebut support vektor dan
menyatakan data training yang diperlukan untuk
mewakili fungsi keputusan yang optimal
• adalah solusi optimal untuk
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Metode kernel
• Sehingga Fungsi pemisah optimal adalah
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Metode kernel
• Fungsi
kernel yang dipakai dalam literatur SVM (Haykin, 1999):
1. Linier:
2. Polynomial:
3. Radial basis function (RBF): , dengan adalah bilangan riil
positif
4. Tangent hyperbolic (sigmoid):
• Fungsi yang dapat digunakan sebagai fungsi kernel legitimate
yaitu fungsi yang memenuhi syarat kontinus dan positif
definite (oleh Teori Mercer pada Vapnik, 1995)
• Salah satu metode untuk pemilihan funsi kernel ialah cross
validation
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Dengan batasan
Atau
Dengan batasan
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Dengan batasan
Misalkan maka , dimasukkan ke fungsi Lagrange menjadi:
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
SVM Menggunakan
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.