Introduction To Machine Learning-Supervised

 Segment 1
◦ Pendahuluan Machine Learning
 Segment 2
◦ Supervised Learning
 Segment 3
◦ Implementasi/Aplikasi Machine Learning
 Interaksi dalam bermasyarakat menghasilkan data dalam
jumlah yang sangat besar
– Bidang transportasi, kedokteran, keuangan,
Computer Vision, marketplace dll
 Perlu teknik tertentu untuk mengekstrak informasi dari

data mentah
– Data: fakta-fakta yang tercatat
– Informasi: pola-pola stuktural yang ada pada data,
misal keterhubungan (relationships) atau
ketergantungan (depedencies)
 in vitro fertilization
– Diberikan: embrio yang dideskripsikan oleh 60
fitur
– Masalah: pemilihan embrio yang akan bertahan
hidup
– Data: fakta historis dari embrio dan hasil akhir
 Cow culling
– Diberikan: sapi yang dideskripsikan oleh 700 fitur
– Masalah: pemilihan sapi yang akan dimusnakan
– Data: fakta historis dari sapi dan keputusan
peternak
Pola-pola struktur yang ada pada suatu koleksi
data (knowledge) dapat direpresentasi dalam
bentuk:
– Tabel
– Aturan (If-then Rules)
– Pohon (Decision Trees)
– Fungsi → Model Linear
– Instance
Aturan jika-maka
 Memahami keterhubungan (relationships) dan ketergantungan
(depedencies) dalam suatu koleksi data adalah suatu aspek yang
sangat penting dalam menganalisa data untuk mengekstrak
informasi yang ada pada data tersebut.
 Deskripsi struktural tersebut dapat digunakan untuk:
– Memprediksi output pada suatu situasi yang baru
– Memahami dan menjelaskan bagaimana prediksi tersebut
dihasilkan
 Ketika tidak ada pendekatan pemodelan (modelling approaches)
yang mudah untuk melakukan hal tersebut, maka metode-metode
cerdas, dikenal juga dengan nama machine learning, Menjadi
solusi alternatif
 Machine Learning adalah metode yang dapat belajar dari
data (data-driven method) sehingga menjadi cerdas.
Cerdas dalam artian memiliki kemampuan generalisasi
terhadap data baru yang belum dipelajari sebelumnya.
 Dalam tataran metode, belajar adalah proses penentuan

nilai parameter-parameter dari metode tersebut.
 Pengembangan metode-metode machine learning

menggunakan ide-ide dari: Mathematics, Statistics,
Computer Science, Computational Neuroscience, Cognitive
Science, Psychology
Related Fields
data
miningComputer Science
statistics
decision theory
information theory machine
learning cognitive science
databases
psychological models
Mathematicsneuroscience
Diberikan data training, misal xi , I sd N
 Preprocessing : pemilihan/ekstraksi fitur dari data, misal xi=(x1, x2, …xD)T
 Learning : penentuan parameter metode, misal w, berdasarkan data
pelatihan
 Testing : pengujian metode dengan data baru. Data penguji (testing data)
tersebut harus dilakukan preprocessing yang sama dengan data
pembelajaran sebelum dieksekusi oleh metod
 Training set : kumpulan data yg sudah dipastikan
kebenarannya, dr sisi label, data awal, komponen2
data yg akan dijadikan kunci,
 Instance: bagian dr training set, sample training set
seperti doc/gambar/video
 Feature/attribut: ciri2 dr masing2 sample
Smartphone: ciri:memiliki layar, kamera, tombol,
 Feature vektor: ciri2 yang ditranslasikan dalam
bentuk vektor, ex, jika mengandung layar diset dgn
1, ukuran disesuaikan dgn jumlah ciri yag akan
diextrak,
 Feature extraction: sebuah proses yg
mempersiapkan data sehingga data tsb bisa kita
extract cirinya menjadi suatu vektor
 Langkah pertama dalam tahapan
preprocessing adalah pemilihan fitur (feature
selection) dari data. Selanjutnya, data dapat
direpresentasi dalam bentuk vektor, matrik
atau tensor.
 Misal: pada perekomendasian jenis contact

lens, fitur-fitur tersebut adalah age, spectacle
prescription, astigmatism, tear production
rate. Sehingga, data dapat direpresentasikan
dalam bentuk vektor.
 Pemilihan fitur sangat mempengaruhi proses
pembelajaran, baik dari segi kemudahan, kecepatan,
maupun akurasi.
 Pemilihan fitur-fitur dari fitur-fitur yang ada dikenal juga

dengan istilah ekstraksi fitur (feature extraction).
 Ekstraksi fitur erat kaitannya dengan mereduksi dimensi

input (dimensionality reduction) untuk mengatasi masalah
komputasi yang dikenal dengan istilah curse
dimensionality problem
 verifikasi data terhadap data dengan melakukan visualisasi

terhadap data tersebut
 Supervised Learning
Data pelatihan disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membangun model yang
dapat menghasilkan output yang benar untuk suatu data
input, misal untuk pengklasifikasian (classification),
regresi (regression), ranking.
 Unsupervised Learning
Data pelatihan tidak disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membagun model yang dapat
menemukan komponen/variabel/fitur tersembunyi pada
data pelatihan, yang dapat digunakan untuk:
pengelompokan (clustering), reduksi dimensi (dimension
reduction), rekomendasi, dll
 Kinerja Metode diukur berdasarkan kemampuan
generalisasinya, yaitu akurasi pada data yang tidak
digunakan pada tahap pelatihan, yang disebut juga
dengan istilah kapabilitas generalisasi
(generalization capability).
– Data dibagi menjadi dua bagian, yaitu data training

dan data testing
– Kapabilitas generalisasi diukur pada data yang tidak
terlibat dalam pembentukan model, yaitu data testing.
Kapabilitas generalisasi digunakan sebagai dasar
tingkat kepercayaan pada hasil yang diberikan oleh
suatu model
– Selanjutnya, data training dan data testing digabung
menjadi data training baru yang akan digunakan untuk
membangun model baru untuk penggunaan aktual
1. Supervised Learning
2. Unsupervised Learning
3. Reinforcement learning
 Regresi
– Nilai output ti bernilai kontinu (riil)
– Bertujuan memprediksi output
dengan akurat untuk data baru
– Contoh: Prediksi kinerja CPU
 Klasifikasi
– Nilai output ti bernilai diskrit (kelas)
– Bertujuan mengklasifikasi data baru
dengan akurat
– Contoh: Klasifikasi jenis contact lens
 Apply a prediction function to a feature
representation of the image to get the desired
output:
f( ) = “apple”
f( ) = “Pear”
f( ) = “tomato”
f( ) = “cow”
Slide credit: L. Lazebnik

Training set (labels known) Test set (labels
unknown)
y = f(x)
output prediction Image

function feature
 Training: Diberikan training set berlabel {(x1,y1), …,

(xN,yN)}, akan diestimasi fungsi prediksi f dengan
meminimumkan eror dari prediksi pada training set
 Testing: pengaplikasian fungsi f pada data testing x
untuk dilakukan prediksi y = f(x)
Slide credit: L. Lazebnik

Training Training
Labels
Training Images
Image Learned
Training
Features model
Testing
Image Learned
Prediction
Features model
Test Image
 Supervised Learning.
Linear Model; Neural Networks; Metode Kernel,
Radial Basis Function Network; Support Vector
Machine: Classification, Regression, Ranking,
Ordinal Regression, Density, Estimation
 Unsupervised Learning.
K-Means; Principal Component Analysis (PCA);
Independent Component Analysis (ICA); Latent
Semantic Analysis (LSA); Matrix Factorization
 Semisupervised Learning
 Reinformance Learning
 Model linear adalah kombinasi linear dari
fungsi nonlinear dari variabel input (fungsi
basis):
𝑀−1
𝑦 𝑥, 𝑤 = ෍ 𝑤𝑗 φ𝑗 𝑥 = 𝑤 𝑇 φ𝑗
𝑗=0
 Ada banyak pilihan yang mungkin untuk

fungsi basis f(x), misal fungsi linear, fungsi
polinomial, fungsi gaussian, fungsi sigmoidal,
dll
Diberikan data training 𝑥𝑖 , 𝑡𝑖 , 𝑖 = 1, . . 𝑁
 Masalah: bagaimana mendapatkan

kurva polinomial yang cocok untuk
data pelatihan tersebut
 Solusi: mencari kurva polinomial yang

memiliki kesalahan (error) terkecil
pada data pelatihan tersebut
 Persoalan ini sering juga disebut

sebagai polynomial curve fitting
 Salah satu fungsi error yang
sering digunakan adalah fungsi
sum-of-squares error sbb:
𝑁
1 2
𝐸 𝑤 = ෍ 𝑦 𝑥𝑛 , 𝑤 , 𝑡𝑛
2
𝑛=1
 Salah satu metode yang

digunakan untuk mencari nilai
w yang meminimumkan fungsi
error adalah metode kuadrat
terkecil (least squares)
 Setelah penurunan E(w) terhadap w, maka
persoalan penentuan nilai parameter w
menjadi persoalan penentuan solusi sistem
persamaan linear:
𝐴𝑤 = 𝑡
dimana
 Karakteristik model regresi linear polinomial
ditentukan oleh nilai M (orde polinomial atau
jumlah parameter). Pemilihan nilai M yang
optimal dikenal juga dengan istilah pemilihan
model (model selection)
 Ada kalanya terjadi kesalahan pemilihan
model sehingga terjadi overfitting atau
underfitting
 Pada aplikasi praktis, kita sering menemukan
kondisi dimana untuk persoalan yang kompleks
ketersediaan data pembelajaran terbatas.
 Salah satu teknik yang digunakan untuk

mengkontrol fenomena over-fitting adalah
regularisasi (regularization), yaitu dengan cara
menambah finalti ke fungsi error.
 Regularisasi dapat dilakukan melalui

penghalusan kurva dan mengecilkan nilai bobot
 Data: Data tentang informasi keuangan dan personal
 Pertanyaan: layakkah untuk diberi pinjaman ?

◦ Metode statistik sederhana dapat menjawab hampir 90%
kasus
◦ Kasus-kasus pada garis batas (borderline) ditentukan oleh
tenaga ahli yang berwenang
◦ Akan tetapi, 50% kasus-kasus pada garis batas yang diberi
pinjaman gagal dalam pengembalian
 Solusi:
◦ Tolak semua kasus pada garis batas. Hal ini tidak mungkin
karena kasus-kasus pada garis batas adalah nasabah aktif
terbesar
◦ Solusi lain → metode lain, misal machine learning
 Data training:
1000 sample untuk kasus-kasus pada garis batas
 Atribut/Fitur:
◦ Umur
◦ Lamanya tinggal di alamat saat ini
◦ Lamanya menjadi nasabah
◦ Kepemilikan kartu kredit lain
 Hasil:
◦ Decision Tree memberikan akurasi 70%
 Data: gambar-gambar satelit dari perairan
pantai
 Masalah: mendeteksi lapisan minyak pada

gambar tersebut
◦ Lapisan minyak muncul pada gambar sebagai area
hitam dengan bentuk dan ukuran yang berubah-
ubah
◦ Persoalan ini tidak mudah, karena area hitam bisa
juga disebabkan oleh kondisi cuaca, misal angin
◦ Pendeteksian ini adalah proses yang mahal karena
membutuhkan personel yang terlatih
 Data training: diekstrak dari area hitam dari
gambar
 Atribut/Fitur:
◦ Ukuran area
◦ Bentuk area
◦ Intensitas
◦ Ketajaman dan lekukan dari batas
◦ Kedekatan dengan wilayah lain
◦ Info tentang latar belakang
 Kendala:
◦ Sedikit data training
◦ Data tidak seimbang : sebagian besar bukan lapisan
minyak
 Latar belakang: perusahaan pensuplai listrik perlu memprediksi
kebutuhan tenaga listrik pada masa yang akan datang
◦ Peramalan beban min/max untuk setiap jam akan memberikan
penghematan yang signifikan
 Data: berupa model beban yang dibangun secara manual dengan

asumsi kondisi cuaca „normal“
◦ Beban dasar dalam setahun
◦ Periodesitas beban dalam setahun
◦ Pengaruh hari libur
 Masalah: membuat model yang selaras dengan kondisi cuaca
 Atribut/Fitur:
◦ Temperatur
◦ Kelembaban
◦ Kecepatan angin
◦ Kondisi awan
 Data: perusahaan biasanya menyimpan data
pemasaran dan penjualan
 Aplikasi:
◦ Loyalitas Pelanggan, yaitu mendeteksi pelanggan yang akan
menyeberang/pindah ke perusahaan lain berdasarkan
perubahan tingkah laku
◦ Penawaran Khusus, yaitu mengidentifikasi pelanggan yang

potensial untuk keuntungan tertentu, misal pemilik kartu
kredit yang membutuhkan uang selama liburan
 Analisa Market Basket, yaitu mencari item-item yang

biasanya terjadi secara bersamaan dalam transaksi
 Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh
sebab itu, hal yang pertama kali perlu disiapkan adalah data.
Data pada algoritma ini umumnya dibagi menjadi 2 bagian, yaitu
data training dan data testing.
 Data training akan digunakan untuk melatih algoritma dalam

mencari model yang sesuai, sedangkan data testing akan dipakai
untuk menguji dan mengetahui performa model yang didapatkan
pada tahapan testing.
 Topik pembelajaran ini menjelaskan pemahaman dasar

mengenai Machine Learning khususnya Supervised Learning yang
terdiri dari variabel input dan output. Sehingga kita dapat
meramal seperti apa nanti outputnya ketika ingin memasuki
input baru dengan melabeli dataset dengan baik.
 Bishop, C. H., Pattern Recognition and
Machine Learning, Springer, 2006
 Vapnik, The Nature of Statistical Learning
Theory, Spinger, 2000
 Murfy, H., Lecture Note

Introduction To Machine Learning-Supervised

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introduction To Machine Learning-Supervised

Uploaded by

Copyright:

Available Formats

 Segment 1

◦ Pendahuluan Machine Learning

 Perlu teknik tertentu untuk mengekstrak informasi dari

 Dalam tataran metode, belajar adalah proses penentuan

 Pengembangan metode-metode machine learning

 Misal: pada perekomendasian jenis contact

 Pemilihan fitur-fitur dari fitur-fitur yang ada dikenal juga

 Ekstraksi fitur erat kaitannya dengan mereduksi dimensi

 verifikasi data terhadap data dengan melakukan visualisasi

– Data dibagi menjadi dua bagian, yaitu data training

Slide credit: L. Lazebnik

output prediction Image

 Training: Diberikan training set berlabel {(x1,y1), …,

Slide credit: L. Lazebnik

 Ada banyak pilihan yang mungkin untuk

 Masalah: bagaimana mendapatkan

 Solusi: mencari kurva polinomial yang

 Persoalan ini sering juga disebut

 Salah satu metode yang

 Salah satu teknik yang digunakan untuk

 Regularisasi dapat dilakukan melalui

 Pertanyaan: layakkah untuk diberi pinjaman ?

 Masalah: mendeteksi lapisan minyak pada

 Data: berupa model beban yang dibangun secara manual dengan

 Masalah: membuat model yang selaras dengan kondisi cuaca

◦ Penawaran Khusus, yaitu mengidentifikasi pelanggan yang

 Analisa Market Basket, yaitu mencari item-item yang

 Data training akan digunakan untuk melatih algoritma dalam

 Topik pembelajaran ini menjelaskan pemahaman dasar

You might also like