You are on page 1of 30

Jurusan

Statistika
CART SVR
Association Rule K-Nearest Neighbor
Bayes
DATA Preprocessing Data
Clustering

MINING K-Means
K-Medoids

C45
Support Vector Machine

Pertemuan 7: Support Vector Machine


Team Teaching: Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Outline
• Pengantar SVM
• Histori dan aplikasi SVM
• Ide SVM
• Formulasi matematis
• Metode kernel
• Algoritma SVM untuk Klasifikasi
• SVM dengan R

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Pengantar SVM
• Support vector machine (SVM) adalah suatu teknik
yang relatif baru (1995) untuk melakukan prediksi, baik
dalam kasus klasifikasi maupun regresi, yang sangat
populer belakangan ini.
• SVM termasuk supervised learning
• SVM berada dalam satu kelas dengan ANN dalam hal
fungsi dan kondisi permasalahan yang bisa diselesaikan.
Keduanya masuk dalam kelas supervised learning,
dimana dalam implementasinya perlu adanya tahap
training dan disusul tahap testing.

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Pengantar SVM
SVM NN
• Menemukan solusi yang • Menemukan solusi berupa
global Optimal local optimal
• Solusi sama di setiap running • Solusi beda di setiap training
• Deterministic algorithm • Nondeterministic algorithm
• Nice generalization properties • Generalizes well but doesn’t
• Hard to learn – learned in have strong mathematical
batch mode using quadratic foundation
programming techniques • Can easily be learned in
• Using kernels can learn very incremental fashion
complex functions • To learn complex functions—
use multilayer perceptron
(nontrivial)
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Pengantar SVM
• Advantages
– Prediction accuracy is generally high
• As compared to Bayesian methods – in general
– Robust, works when training examples contain errors
– Fast evaluation of the learned target function
• Bayesian networks are normally slow
• Criticism
– Long training time
– Difficult to understand the learned function (weights)
• Bayesian networks can be used easily for pattern
discovery
– Not easy to incorporate domain knowledge
• Easy in the form of priors on the data or distributions
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Histori dan Aplikasi SVM


• Vapnik and colleagues (1992)—groundwork from Vapnik &
Chervonenkis’ statistical learning theory in 1960s
• Features: training can be slow but accuracy is high owing to their
ability to model complex nonlinear decision boundaries (margin
maximization)
• Used for: classification and numeric prediction
• Applications:
– handwritten digit recognition, object recognition, speaker
identification, benchmarking time-series prediction tests

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Ide SVM
• SVM
  berusaha untuk menemukan fungsi pemisah
(klasifier/hyperplane) yang optimal dari dua set data
• Jika fungsi pemisah adalah linier, didefinisikan:
dengan
• Kita ingin menemukan parameter sehingga untuk
semua
• Fungsi digunakan untuk mengelompokkan semua nilai
diatas 0 menjadi dan dibawah 0 menjadi
• Hyperplane terbaik adalah hyperplane yang teletak
ditengah-tengah antara dua set objek dari dua kelas

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Ide SVM

Hyperplane Hyperplane
pendukung pendukung margin
dari kelas -1 dari kelas +1

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Ide SVM

Memperbesar margin bisa


meningkatkan probabilitas
pengelompokkan

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
• Formulasi
  problem optimisasi SVM untuk kasus
klasifikasi linier di dalam primal space adalah
atau atau 8.2
dengan batasan ,
Dimana:
• adalah data input
• adalah output yang nilainya atau
• dan adalah parameter yang kita cari nilainya

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
• Untuk
  kasus yang tidak feasible (infeasible) dimana
beberapa data mungkin tidak bisa dikelompokkan
secara benar, formulasi matematikanya menjadi:

Dengan batasan , 8.3

Dimana adalah variable slack


• Persamaan 8.3 dapat diselesaikan dengan transformasi
ke dalam dual space

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
•  Penyelesaian transformasi ke dalam dual space
1. Persamaan 8.3 diubah menjadi fungsi Lagrangian

Dimana variable non-negative dinamakan Lagrange 8.4


Multiplier. Solusinya dengan mencari saddle point dari
fungsi Lagranggian. Fungsi tsb diminimalkan terhadap
variable dan serta memaksimalkan variable

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
•  Penyelesaian transformasi ke dalam dual space (lanjtn)
2. Mencari turunan pertama dari fungsi terhadap
variable dan kemudian disama dengankan 0 (nol)
Kondisi optimal 1: akan menghasilkan

8.5
Kondisi optimal 2: akan menghasilkan

8.6

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
••  Penyelesaiantransformasi ke dalam
dual space (lanjtn)
3. Memasukkan kondisi optimal 1 dan 2
ke
Penjabaran persamaan 8.4:

8.7

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
•  Penyelesaian transformasi ke dalam dual space (lanjtn)
3. Memasukkan kondisi optimal 1 dan 2 ke
Kondisi optimal 1 digunakan untuk menghitung :

dan kondisi optimal 2 adalah , maka

8.7

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
•  Penyelesaian transformasi ke dalam dual space (lanjtn)
3. Memasukkan kondisi optimal 1 dan 2 ke
Masukkan kondisi optimal 1 ke sehingga

Sehingga

8.9

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Formulasi Matematis
•  Penyelesaian transformasi ke dalam dual space (lanjtn)
4. Memasukkan persamaan 8.9 ke 8.3 diperoleh

Dengan batasan 8.10

Persamaan 8.10 merupakan quadrat programming


dengan batasan linier.
• Melatih SVM ekuivalen dengan menyelesaikan problem
convex optimization. Karena itu solusi SVM adalah unik
dan global optimal

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Metode kernel
• Metode
  kernel ialah salah
satu penyelesaian untuk
mengatasi permasalahan
ketidaklinieran
• Dengan metode kernel,
suatu data di input space
dimapping ke feature space
dengan dimensi yang lebih
tinggi melalui map sebagai

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Metode kernel
• Untuk bisa memakai metoda kernel, fungsi tujuan dan
pembatas (constraint) perlu diekspresikan dalam bentuk dot
product dari vektor data xi. Sebagai konsekuensi, fungsi
tujuan yang menjelaskan permasalahan dalam klasifikasi
harus diformulasikan kembali sehingga menjadi bentuk dot
product
• Dalam feature space ini dot product < . > menjadi < ϕ(x),
ϕ(x)′ >
• Suatu fungsi kernel, k(x, x′), bisa digunakan untuk
menggantikan dot product < ϕ(x), ϕ(x)′ >. Kemudian di
feature space, kita bisa menemukan suatu fungsi pemisah
yang linier yang mewakili fungsi nonlinear di input space.
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Metode kernel

• Contoh feature mapping dari ruang dua dimensi ke


feature space dua dimensi

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Metode kernel
• Dengan
  memetakan setiap data ke feature space, maka
persamaan 8.10 menjadi

8.11
Dengan batasan
• Dot product bisa diwakili oleh , dimana adalah fungsi
kernel
• adalah solusi optimal. disebut support vektor dan
menyatakan data training yang diperlukan untuk
mewakili fungsi keputusan yang optimal
• adalah solusi optimal untuk

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Metode kernel
•  Sehingga Fungsi pemisah optimal adalah

• adalah solusi optimal. disebut support vektor dan


menyatakan data training yang diperlukan untuk
mewakili fungsi keputusan yang optimal
• Sedangkan dapat dihitung menggunakan

Dimana adalah banyaknya support vector, adalah indeks


untuk support vector, dan menunjukkan data yang
berada dalam margin

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Metode kernel
• Fungsi
  kernel yang dipakai dalam literatur SVM (Haykin, 1999):
1. Linier:
2. Polynomial:
3. Radial basis function (RBF): , dengan adalah bilangan riil
positif
4. Tangent hyperbolic (sigmoid):
• Fungsi yang dapat digunakan sebagai fungsi kernel legitimate
yaitu fungsi yang memenuhi syarat kontinus dan positif
definite (oleh Teori Mercer pada Vapnik, 1995)
• Salah satu metode untuk pemilihan funsi kernel ialah cross
validation

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Algoritma SVM untuk Klasifikasi


•Variabel
  dan parameter:
• adalah sampel training
• : label data training
• Kernel: jenis fungsi kernel
• Par: parameter kernel
• C: konstanta cost
• : lagrang multiplier dan bias b
Algoritma
1. Hitung matriks kernel H
2. Tentukan pembatas untuk program kuadratik, termasuk dan
3. Tentukan fungsi tujuan program kuadratik
4. Selesaikan masalah QP dan temukan solusi dan
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Algoritma SVM untuk Klasifikasi


•Contoh
 
Kita perhatikan formulasi matematik SVM adalah

Dengan batasan
Atau

Dengan batasan

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Algoritma SVM untuk Klasifikasi


•Contoh
 
Kita
X1 punya
X2set data
Y sederhana dengan 3 titik data:
1 1 1 Menggunakan kernel linier:
2 2 -1
3 3 -1

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Algoritma SVM untuk Klasifikasi


•Contoh
  (lanjutan)

Setelah dikalikan, didapatkan formulasi

Dengan batasan
Misalkan maka , dimasukkan ke fungsi Lagrange menjadi:

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Algoritma SVM untuk Klasifikasi


•Contoh
  (lanjutan)
Untuk mencapai optimum dari fungsi , maka harus diturunkan:

Persamaan (2), (3), dan (4) menjadi


Persamaan (1), (2), dan (4) menjadi
Persamaan (1) dan (3) menjadi

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

Algoritma SVM untuk Klasifikasi


•Contoh
  (lanjutan)
• Dari persamaan (6) dan (7) didapat maka
• Kemudian didapat dan ,
• syarat maka bisa dilakukan normalisasi dengan membagi
masing-masing nilai dengan 2, sehingga diperoleh
• Jadi data ketiga sebenarnya tidak menentukan hyperplane
pemisah karena nilai

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika

SVM Menggunakan

Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.

You might also like