Data Mining P9-SVM

Jurusan
Statistika
CART SVR
Association Rule K-Nearest Neighbor
Bayes
DATA Preprocessing Data
Clustering
MINING K-Means
K-Medoids
C45
Support Vector Machine
Pertemuan 7: Support Vector Machine

Team Teaching: Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Outline
• Pengantar SVM
• Histori dan aplikasi SVM
• Ide SVM
• Formulasi matematis
• Metode kernel
• Algoritma SVM untuk Klasifikasi
• SVM dengan R
Data Mining : Dr. Dra. Umu Sa`Adah, M.Si. ♦ Dr. Eni Sumarminingsih, S.Si, MM ♦ Dwi Ayu Lusia, S.Si., M.Si.
Jurusan Statistika
Pengantar SVM
• Support vector machine (SVM) adalah suatu teknik
yang relatif baru (1995) untuk melakukan prediksi, baik
dalam kasus klasifikasi maupun regresi, yang sangat
populer belakangan ini.
• SVM termasuk supervised learning
• SVM berada dalam satu kelas dengan ANN dalam hal
fungsi dan kondisi permasalahan yang bisa
diselesaikan. Keduanya masuk dalam kelas supervised
learning, dimana dalam implementasinya perlu adanya
tahap training dan disusul tahap testing.
Jurusan Statistika
Pengantar SVM
SVM NN
• Menemukan solusi yang • Menemukan solusi berupa
global Optimal local optimal
• Solusi sama di setiap running • Solusi beda di setiap training
• Deterministic algorithm • Nondeterministic algorithm
• Nice generalization properties • Generalizes well but doesn’t
• Hard to learn – learned in have strong mathematical
batch mode using quadratic foundation
programming techniques • Can easily be learned in
• Using kernels can learn very incremental fashion
complex functions • To learn complex functions—
use multilayer perceptron
(nontrivial)
Jurusan Statistika
Pengantar SVM
• Advantages
– Prediction accuracy is generally high
• As compared to Bayesian methods – in general
– Robust, works when training examples contain errors
– Fast evaluation of the learned target function
• Bayesian networks are normally slow
• Criticism
– Long training time
– Difficult to understand the learned function (weights)
• Bayesian networks can be used easily for pattern
discovery
– Not easy to incorporate domain knowledge
• Easy in the form of priors on the data or distributions
Jurusan Statistika
Histori dan Aplikasi SVM

• Vapnik and colleagues (1992)—groundwork from Vapnik &
Chervonenkis’ statistical learning theory in 1960s
• Features: training can be slow but accuracy is high owing to their
ability to model complex nonlinear decision boundaries (margin
maximization)
• Used for: classification and numeric prediction
• Applications:
– handwritten digit recognition, object recognition, speaker
identification, benchmarking time-series prediction tests
Jurusan Statistika
Ide SVM
• SVM berusaha untuk menemukan fungsi pemisah
(klasifier/hyperplane) yang optimal dari dua set data
• Jika fungsi pemisah adalah linier, didefinisikan:
𝑔 𝑥 = 𝑠𝑔𝑛 𝑓 𝑥 dengan 𝑓 𝑥 = 𝑤 𝑇 𝑥 + 𝑏
• Kita ingin menemukan parameter 𝑤, 𝑏 sehingga
𝑠𝑔𝑛 𝑓 𝑥𝑖 = 𝑠𝑔𝑛 < 𝑤, 𝑥 > +𝑏 = 𝑦𝑖 untuk semua 𝑖
• Fungsi 𝑠𝑔𝑛 digunakan untuk mengelompokkan semua
nilai diatas 0 menjadi +1 dan dibawah 0 menjadi −1
• Hyperplane terbaik adalah hyperplane yang teletak
ditengah-tengah antara dua set objek dari dua kelas
Jurusan Statistika
Ide SVM
Hyperplane Hyperplane
pendukung pendukung margin
dari kelas -1 dari kelas +1
Jurusan Statistika
Ide SVM
Memperbesar margin bisa

meningkatkan probabilitas
pengelompokkan
Jurusan Statistika
Formulasi Matematis
• Formulasi problem optimisasi SVM untuk kasus
klasifikasi linier di dalam primal space adalah
1 2 1
min 𝑤 atau max atau max 𝑤 𝑇 𝑤 8.2
𝑤,𝑏 2 𝑤,𝑏 𝑤
dengan batasan 𝑦𝑖 𝑤𝑥𝑖 + 𝑏 ≥ 1, 𝑖 = 1,2, . . , 𝑚
Dimana:
• 𝑥𝑖 adalah data input
• 𝑦𝑖 adalah output yang nilainya +1 atau −1
• 𝑤 dan 𝑏 adalah parameter yang kita cari nilainya
Jurusan Statistika
Formulasi Matematis
• Untuk kasus yang tidak feasible (infeasible) dimana
beberapa data mungkin tidak bisa dikelompokkan
secara benar, formulasi matematikanya menjadi:
𝑡
1 2
min 𝑤 + 𝐶 ෍ 𝑡𝑖 8.3
𝑤,𝑏,𝑡 2
𝑖=1
Dengan batasan 𝑦𝑖 𝑤𝑥𝑖 + 𝑏 + 𝑡𝑖 ≥ 1, 𝑖 = 1,2, . . , 𝑚

Dimana 𝑡𝑖 adalah variable slack
• Persamaan 8.3 dapat diselesaikan dengan transformasi
ke dalam dual space
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space
1. Persamaan 8.3 diubah menjadi fungsi Lagrangian
𝑁
1 𝑇
𝐽 𝑤, 𝑏, 𝛼 = 𝑤 𝑤 − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑏 − 1 8.4
2
𝑖=1
Dimana variable non-negative 𝛼𝑖 dinamakan Lagrange
Multiplier. Solusinya dengan mencari saddle point dari
fungsi Lagranggian. Fungsi tsb diminimalkan terhadap
variable 𝑤 dan 𝑏 serta memaksimalkan variable 𝛼
Jurusan Statistika
Formulasi Matematis
• Penyelesaian transformasi ke dalam dual space (lanjtn)
2. Mencari turunan pertama dari fungsi 𝐽 𝑤, 𝑏, 𝛼 terhadap
variable 𝑤 dan 𝑏, kemudian disama dengankan 0 (nol)
𝜕𝐽 𝑤,𝑏,𝛼
Kondisi optimal 1: = 0 akan menghasilkan
𝜕𝑤
𝑁
𝑤 = ෍ 𝛼𝑖 𝑦𝑖 𝑥𝑖 8.5
𝑖=1
𝜕𝐽 𝑤,𝑏,𝛼
Kondisi optimal 2: = 0 akan menghasilkan
𝜕𝑏
𝑁
෍ 𝛼𝑖 𝑦𝑖 = 0 8.6
𝑖=1
Jurusan Statistika
Formulasi Matematis
3. Memasukkan kondisi optimal 1 dan 2 ke 𝐽 𝑤, 𝑏, 𝛼
Penjabaran persamaan 8.4:
𝑁
1 𝑇
𝐽 𝑤, 𝑏, 𝛼 = 𝑤 𝑤 − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑏 − 1
2
𝑖=1
𝑁
1 𝑇
𝐽 𝑤, 𝑏, 𝛼 = 𝑤 𝑤 − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑏 − 𝛼𝑖
2
𝑖=1
𝑁
1 𝑇
𝐽 𝑤, 𝑏, 𝛼 = 𝑤 𝑤 − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝛼𝑖 𝑦𝑖 𝑏 − 𝛼𝑖
2
𝑖=1
𝑁 𝑁 𝑁
1 𝑇
𝐽 𝑤, 𝑏, 𝛼 = 𝑤 𝑤 − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 − 𝑏 ෍ 𝛼𝑖 𝑦𝑖 + ෍ 𝛼𝑖 8.7
2
𝑖=1 𝑖=1 𝑖=1
Jurusan Statistika
Formulasi Matematis
Kondisi optimal 1 digunakan untuk menghitung 𝑤 𝑇 𝑤:
𝑁 𝑁
𝑤 𝑇 𝑤 = 𝑤 𝑇 ෍ 𝛼𝑖 𝑦𝑖 𝑥𝑖 = ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖
𝑖=1 𝑖=1
dan kondisi optimal 2 adalah σ𝑁
𝑖=1 𝛼𝑖 𝑦𝑖 = 0, maka
𝑁 𝑁 𝑁 𝑁
1
𝐽 𝑤, 𝑏, 𝛼 = ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 − 𝑏 ෍ 𝛼𝑖 𝑦𝑖 𝑏 + ෍ 𝛼𝑖
2
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑁 𝑁
1
𝐽 𝑤, 𝑏, 𝛼 = − ෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 − 𝑏 0 + ෍ 𝛼𝑖 8.7
2
𝑖=1 𝑖=1
Jurusan Statistika
Formulasi Matematis
Masukkan kondisi optimal 1 ke σ𝑁 𝑇
𝑖=1 𝛼𝑖 𝑦𝑖 𝑤 𝑥𝑖 sehingga
𝑁 𝑁 𝑁
෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 = ෍ 𝛼𝑖 𝑦𝑖 ෍ 𝛼𝑗 𝑦𝑗 𝑥𝑗𝑇 𝑥𝑖
𝑖=1 𝑖=1 𝑗=1
𝑁 𝑁 𝑁 𝑁 𝑁
෍ 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 = ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑗𝑇 𝑥𝑖 = ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗
𝑖=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1
Sehingga
𝑁 𝑁 𝑁
1
𝐽 𝑤, 𝑏, 𝛼 = 𝑄 𝛼 = ෍ 𝛼𝑖 − ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗 8.9
2
𝑖=1 𝑖=1 𝑗=1
Jurusan Statistika
Formulasi Matematis
4. Memasukkan persamaan 8.9 ke 8.3 diperoleh
𝑁 𝑁 𝑁
1
max 𝑄 𝛼 = max ෍ 𝛼𝑖 − ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗 8.10
2
𝑖=1 𝑖=1 𝑗=1
Dengan batasan σ𝑁
𝑖=1 𝛼𝑖 𝑦𝑖
= 0, 𝑖 = 1,2, … , 𝑚
Persamaan 8.10 merupakan quadrat programming
dengan batasan linier.
• Melatih SVM ekuivalen dengan menyelesaikan problem
convex optimization. Karena itu solusi SVM adalah unik
dan global optimal
Jurusan Statistika
Metode kernel
• Metode kernel ialah salah
satu penyelesaian untuk
mengatasi permasalahan
ketidaklinieran
• Dengan metode kernel,
suatu data 𝑥 di input space
dimapping ke feature space
𝐹 dengan dimensi yang
lebih tinggi melalui map 𝜑
sebagai 𝜑: 𝑥 → 𝜑 𝑥
Jurusan Statistika
Metode kernel
• Untuk bisa memakai metoda kernel, fungsi tujuan dan
pembatas (constraint) perlu diekspresikan dalam bentuk
dot product dari vektor data xi. Sebagai konsekuensi, fungsi
tujuan yang menjelaskan permasalahan dalam klasifikasi
harus diformulasikan kembali sehingga menjadi bentuk dot
product
• Dalam feature space ini dot product < . > menjadi < ϕ(x),
ϕ(x)′ >
• Suatu fungsi kernel, k(x, x′), bisa digunakan untuk
menggantikan dot product < ϕ(x), ϕ(x)′ >. Kemudian di
feature space, kita bisa menemukan suatu fungsi pemisah
yang linier yang mewakili fungsi nonlinear di input space.
Jurusan Statistika
Metode kernel
• Contoh feature mapping dari ruang dua dimensi ke

feature space dua dimensi
Jurusan Statistika
Metode kernel
• Dengan memetakan setiap data ke feature space, maka
persamaan 8.10 menjadi
𝑁 𝑁 𝑁 𝑁
1
max ෍ ෍ 𝛼𝑖 − ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝜑 𝑥𝑖𝑇 𝜑 𝑥𝑗 8.11
2
𝑖=1 𝑖=1 𝑖=1 𝑗=1
Dengan batasan σ𝑁𝑖=1 𝛼𝑖 𝑦𝑖 = 0, 𝑖 = 1,2, … , 𝑚
• Dot product 𝜑 𝑥𝑖𝑇 𝜑 𝑥𝑗 bisa diwakili oleh 𝑘 𝑥𝑖 , 𝑥𝑗 ,
dimana 𝑘 adalah fungsi kernel
• 𝛼𝑖∗ adalah solusi optimal. 𝛼𝑖∗ > 0 disebut support vektor
dan menyatakan data training yang diperlukan untuk
mewakili fungsi keputusan yang optimal
• 𝑏 ∗ adalah solusi optimal untuk 𝑏
Jurusan Statistika
Metode kernel
• Sehingga Fungsi pemisah optimal adalah
𝑁
𝑔 𝑥 = 𝑠𝑖𝑔𝑛 ෍ 𝛼𝑖∗ 𝑦𝑖 𝑘 𝑥𝑖 , 𝑥 + 𝑏 ∗
𝑖=1
• 𝛼𝑖∗ adalah solusi optimal. 𝛼𝑖∗ >
0 disebut support vektor dan
menyatakan data training yang diperlukan untuk mewakili fungsi
keputusan yang optimal
• Sedangkan 𝑏 ∗ dapat dihitung menggunakan
∗
1
𝑏 = ෍ 𝑦𝑠𝑣 − 𝑘 𝑥𝑠𝑖𝑔 , 𝑠𝑠𝑣 𝛼𝑠𝑣 𝑦𝑠𝑖𝑔
𝑛𝑠𝑣
𝑠𝑣
Dimana 𝑛𝑠𝑣 adalah banyaknya support vector, 𝑠𝑣 adalah indeks
untuk support vector, dan 𝑠𝑖𝑔 menunjukkan data yang berada
dalam margin
Jurusan Statistika
Metode kernel
• Fungsi kernel yang dipakai dalam literatur SVM (Haykin,
1999):
1. Linier: 𝑥 𝑇 𝑥
2. Polynomial: 𝑥 𝑇 𝑥 + 1 𝑝
1
3. Radial basis function (RBF): exp 𝑥−𝑥 2 , − 2
2𝜎
dengan 𝜎 adalah bilangan riil positif
4. Tangent hyperbolic (sigmoid): tanh 𝛽0 𝑥 𝑇 𝑥𝑖 + 𝛽1
• Fungsi yang dapat digunakan sebagai fungsi kernel
legitimate yaitu fungsi yang memenuhi syarat kontinus dan
positif definite (oleh Teori Mercer pada Vapnik, 1995)
• Salah satu metode untuk pemilihan funsi kernel ialah cross
validation
Jurusan Statistika
Algoritma SVM untuk Klasifikasi

Variabel dan parameter:
• 𝑥 = 𝑥0 , 𝑥1 , … , 𝑥𝑚 adalah sampel training
• 𝑦 = 𝑦1 , … , 𝑦𝑚 ⊂ +1, −1 : label data training
• Kernel: jenis fungsi kernel
• Par: parameter kernel
• C: konstanta cost
• 𝛼 = 𝛼1 , … , 𝛼𝑚 : lagrang multiplier dan bias b
Algoritma
1. Hitung matriks kernel H
2. Tentukan pembatas untuk program kuadratik, termasuk
𝐴𝑒𝑞 , 𝑏𝑒𝑞 , 𝐴, dan 𝑏
1
3. Tentukan fungsi tujuan program kuadratik 𝑥𝐻𝑥 + 𝑓 𝑇 𝑥
2
4. Selesaikan masalah QP dan temukan solusi 𝛼 dan 𝑏
Jurusan Statistika

Contoh
Kita perhatikan formulasi matematik SVM adalah
𝑁 𝑁 𝑁
1
max ෍ 𝛼𝑖 − ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗
2
𝑖=1 𝑖=1 𝑗=1
Dengan batasan σ𝑁𝑖=1 𝛼𝑖 𝑦𝑖 = 0, 𝑖 = 1,2, … , 𝑚
Atau
𝑁 𝑁 𝑁
1
m𝑖𝑛 ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗 − ෍ 𝛼𝑖
2
𝑖=1 𝑗=1 𝑖=1
Dengan batasan σ𝑁
𝑖=1 𝛼𝑖 𝑦𝑖 = 0, 𝑖 = 1,2, … , 𝑚
0≤𝛼≤𝐶
Jurusan Statistika

Contoh
Kita punya set data sederhana dengan 3 titik data:
Menggunakan kernel linier:
X1 X2 Y 𝑁 𝑁
1 1
1 1 1 ෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖 𝑥𝑗 = 𝛼𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝛼 𝑇
𝑇
2 2
𝑖=1 𝑗=1
2 2 -1 1 1 2 4 6
1 2 3
𝑥𝑖𝑇 𝑥 = 2 2 = 4 8 12
3 3 -1 1 2 3
3 3 6 12 18
2𝑦1 𝑦1 4𝑦1 𝑦2 6𝑦1 𝑦3
𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥 = 4𝑦2 𝑦1 8𝑦2 𝑦2 12𝑦2 𝑦3
6𝑦3 𝑦1 12𝑦3 𝑦2 18𝑦3 𝑦3
2 1 1 4 1 −1 6 1 −1 2 −4 −6
𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥 = 4 −1 1 8 −1 −1 12 −1 −1 = −4 8 12
6 −1 1 12 −1 −1 18 −1 −1 −6 12 18
Jurusan Statistika

Contoh (lanjutan)
𝑁 𝑁
1
෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗 = 𝛼𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝛼 𝑇
2
𝑖=1 𝑗=1
1
𝑁 𝑁
1 2 −4 −6 𝛼1
𝑇
෍ ෍ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖 𝑥𝑗 = 𝛼1 𝛼2 𝛼3 −4 8 12 𝛼2
2 2
𝑖=1 𝑗=1 −6 12 18 𝛼3
Setelah dikalikan, didapatkan formulasi
min 𝑄 = 𝛼12 + 4𝛼22 + 9𝛼32 − 4𝛼1 𝛼2 − 6𝛼3 𝛼1 + 12𝛼3 𝛼2 − 𝛼1 − 𝛼2 − 𝛼3
Dengan batasan 𝛼1 − 𝛼2 − 𝛼3 = 0
Misalkan 𝐶 = 1 maka 0 ≤ 𝛼1 , 𝛼2 , 𝛼3 ≤ 1, dimasukkan ke fungsi Lagrange
menjadi:
𝐿 = 𝛼12 + 4𝛼22 + 9𝛼32 − 4𝛼1 𝛼2 − 6𝛼3 𝛼1 + 12𝛼3 𝛼2 − 𝛼1 − 𝛼2 − 𝛼3 +
𝑢 𝛼1 − 𝛼2 − 𝛼3
Jurusan Statistika

Contoh (lanjutan)
Untuk mencapai optimum dari fungsi 𝐿, maka harus diturunkan:
𝜕𝐿
= 2𝛼1 − 4𝛼2 − 6𝛼3 − 1 + 𝑢 = 0 (1)
𝜕𝛼1
𝜕𝐿
= −4𝛼1 + 8𝛼2 − 12𝛼3 − 1 + 𝑢 = 0 (2)
𝜕𝛼2
𝜕𝐿
= −6𝛼1 + 12𝛼2 + 18𝛼3 − 1 + 𝑢 = 0 3
𝜕𝛼3
𝛼1 − 𝛼2 − 𝛼3 = 0 → 𝛼1 = 𝛼2 + 𝛼3 4
Persamaan (2), (3), dan (4) menjadi 𝛼2 − 2𝛼3 − 𝑢 + 1 = 0 5
Persamaan (1), (2), dan (4) menjadi 𝛼2 − 10𝛼3 − 2 = 0 6
Persamaan (1) dan (3) menjadi 𝛼2 + 9𝛼3 − 2 = 0 7
Jurusan Statistika

Contoh (lanjutan)
• Dari persamaan (6) dan (7) didapat −19𝛼3 = 0 maka 𝛼3 = 0
• Kemudian didapat 𝛼2 = 2 dan 𝛼1 = 2,
• syarat 𝛼 ≤ 1 maka bisa dilakukan normalisasi dengan membagi
masing-masing nilai 𝛼 dengan 2, sehingga diperoleh 𝛼1 =
1, 𝛼2 = 1, 𝛼3 = 0
• Jadi data ketiga sebenarnya tidak menentukan hyperplane
pemisah karena nilai 𝛼3 = 0
Jurusan Statistika
SVM Menggunakan

Data Mining P9-SVM

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining P9-SVM

Uploaded by

Copyright:

Available Formats

Jurusan

Pertemuan 7: Support Vector Machine

Histori dan Aplikasi SVM

Memperbesar margin bisa

Dengan batasan 𝑦𝑖 𝑤𝑥𝑖 + 𝑏 + 𝑡𝑖 ≥ 1, 𝑖 = 1,2, . . , 𝑚

• Contoh feature mapping dari ruang dua dimensi ke

Algoritma SVM untuk Klasifikasi

Algoritma SVM untuk Klasifikasi

Algoritma SVM untuk Klasifikasi

Algoritma SVM untuk Klasifikasi

Algoritma SVM untuk Klasifikasi

Algoritma SVM untuk Klasifikasi

You might also like