You are on page 1of 45

 Segment 1

◦ Pendahuluan Machine Learning

 Segment 2
◦ Supervised Learning

 Segment 3
◦ Implementasi/Aplikasi Machine Learning
 Interaksi dalam bermasyarakat menghasilkan data dalam
jumlah yang sangat besar
– Bidang transportasi, kedokteran, keuangan,
Computer Vision, marketplace dll

 Perlu teknik tertentu untuk mengekstrak informasi dari


data mentah
– Data: fakta-fakta yang tercatat
– Informasi: pola-pola stuktural yang ada pada data,
misal keterhubungan (relationships) atau
ketergantungan (depedencies)
 in vitro fertilization
– Diberikan: embrio yang dideskripsikan oleh 60
fitur
– Masalah: pemilihan embrio yang akan bertahan
hidup
– Data: fakta historis dari embrio dan hasil akhir

 Cow culling
– Diberikan: sapi yang dideskripsikan oleh 700 fitur
– Masalah: pemilihan sapi yang akan dimusnakan
– Data: fakta historis dari sapi dan keputusan
peternak
Pola-pola struktur yang ada pada suatu koleksi
data (knowledge) dapat direpresentasi dalam
bentuk:

– Tabel
– Aturan (If-then Rules)
– Pohon (Decision Trees)
– Fungsi → Model Linear
– Instance
Aturan jika-maka
 Memahami keterhubungan (relationships) dan ketergantungan
(depedencies) dalam suatu koleksi data adalah suatu aspek yang
sangat penting dalam menganalisa data untuk mengekstrak
informasi yang ada pada data tersebut.
 Deskripsi struktural tersebut dapat digunakan untuk:
– Memprediksi output pada suatu situasi yang baru
– Memahami dan menjelaskan bagaimana prediksi tersebut
dihasilkan
 Ketika tidak ada pendekatan pemodelan (modelling approaches)
yang mudah untuk melakukan hal tersebut, maka metode-metode
cerdas, dikenal juga dengan nama machine learning, Menjadi
solusi alternatif
 Machine Learning adalah metode yang dapat belajar dari
data (data-driven method) sehingga menjadi cerdas.
Cerdas dalam artian memiliki kemampuan generalisasi
terhadap data baru yang belum dipelajari sebelumnya.

 Dalam tataran metode, belajar adalah proses penentuan


nilai parameter-parameter dari metode tersebut.

 Pengembangan metode-metode machine learning


menggunakan ide-ide dari: Mathematics, Statistics,
Computer Science, Computational Neuroscience, Cognitive
Science, Psychology
Related Fields

data
miningComputer Science
statistics
decision theory
information theory machine
learning cognitive science
databases
psychological models
Mathematicsneuroscience
Diberikan data training, misal xi , I sd N
 Preprocessing : pemilihan/ekstraksi fitur dari data, misal xi=(x1, x2, …xD)T
 Learning : penentuan parameter metode, misal w, berdasarkan data
pelatihan
 Testing : pengujian metode dengan data baru. Data penguji (testing data)
tersebut harus dilakukan preprocessing yang sama dengan data
pembelajaran sebelum dieksekusi oleh metod
 Training set : kumpulan data yg sudah dipastikan
kebenarannya, dr sisi label, data awal, komponen2
data yg akan dijadikan kunci,
 Instance: bagian dr training set, sample training set
seperti doc/gambar/video
 Feature/attribut: ciri2 dr masing2 sample
Smartphone: ciri:memiliki layar, kamera, tombol,
 Feature vektor: ciri2 yang ditranslasikan dalam
bentuk vektor, ex, jika mengandung layar diset dgn
1, ukuran disesuaikan dgn jumlah ciri yag akan
diextrak,
 Feature extraction: sebuah proses yg
mempersiapkan data sehingga data tsb bisa kita
extract cirinya menjadi suatu vektor
 Langkah pertama dalam tahapan
preprocessing adalah pemilihan fitur (feature
selection) dari data. Selanjutnya, data dapat
direpresentasi dalam bentuk vektor, matrik
atau tensor.

 Misal: pada perekomendasian jenis contact


lens, fitur-fitur tersebut adalah age, spectacle
prescription, astigmatism, tear production
rate. Sehingga, data dapat direpresentasikan
dalam bentuk vektor.
 Pemilihan fitur sangat mempengaruhi proses
pembelajaran, baik dari segi kemudahan, kecepatan,
maupun akurasi.

 Pemilihan fitur-fitur dari fitur-fitur yang ada dikenal juga


dengan istilah ekstraksi fitur (feature extraction).

 Ekstraksi fitur erat kaitannya dengan mereduksi dimensi


input (dimensionality reduction) untuk mengatasi masalah
komputasi yang dikenal dengan istilah curse
dimensionality problem

 verifikasi data terhadap data dengan melakukan visualisasi


terhadap data tersebut
 Supervised Learning
Data pelatihan disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membangun model yang
dapat menghasilkan output yang benar untuk suatu data
input, misal untuk pengklasifikasian (classification),
regresi (regression), ranking.

 Unsupervised Learning
Data pelatihan tidak disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membagun model yang dapat
menemukan komponen/variabel/fitur tersembunyi pada
data pelatihan, yang dapat digunakan untuk:
pengelompokan (clustering), reduksi dimensi (dimension
reduction), rekomendasi, dll
 Kinerja Metode diukur berdasarkan kemampuan
generalisasinya, yaitu akurasi pada data yang tidak
digunakan pada tahap pelatihan, yang disebut juga
dengan istilah kapabilitas generalisasi
(generalization capability).

– Data dibagi menjadi dua bagian, yaitu data training


dan data testing
– Kapabilitas generalisasi diukur pada data yang tidak
terlibat dalam pembentukan model, yaitu data testing.
Kapabilitas generalisasi digunakan sebagai dasar
tingkat kepercayaan pada hasil yang diberikan oleh
suatu model
– Selanjutnya, data training dan data testing digabung
menjadi data training baru yang akan digunakan untuk
membangun model baru untuk penggunaan aktual
1. Supervised Learning

2. Unsupervised Learning

3. Reinforcement learning
 Regresi
– Nilai output ti bernilai kontinu (riil)
– Bertujuan memprediksi output
dengan akurat untuk data baru
– Contoh: Prediksi kinerja CPU

 Klasifikasi
– Nilai output ti bernilai diskrit (kelas)
– Bertujuan mengklasifikasi data baru
dengan akurat
– Contoh: Klasifikasi jenis contact lens
 Apply a prediction function to a feature
representation of the image to get the desired
output:

f( ) = “apple”
f( ) = “Pear”
f( ) = “tomato”
f( ) = “cow”

Slide credit: L. Lazebnik


Training set (labels known) Test set (labels
unknown)
y = f(x)

output prediction Image


function feature

 Training: Diberikan training set berlabel {(x1,y1), …,


(xN,yN)}, akan diestimasi fungsi prediksi f dengan
meminimumkan eror dari prediksi pada training set
 Testing: pengaplikasian fungsi f pada data testing x
untuk dilakukan prediksi y = f(x)

Slide credit: L. Lazebnik


Training Training
Labels
Training Images

Image Learned
Training
Features model

Testing

Image Learned
Prediction
Features model
Test Image
 Supervised Learning.
Linear Model; Neural Networks; Metode Kernel,
Radial Basis Function Network; Support Vector
Machine: Classification, Regression, Ranking,
Ordinal Regression, Density, Estimation

 Unsupervised Learning.
K-Means; Principal Component Analysis (PCA);
Independent Component Analysis (ICA); Latent
Semantic Analysis (LSA); Matrix Factorization

 Semisupervised Learning

 Reinformance Learning
 Model linear adalah kombinasi linear dari
fungsi nonlinear dari variabel input (fungsi
basis):
𝑀−1

𝑦 𝑥, 𝑤 = ෍ 𝑤𝑗 φ𝑗 𝑥 = 𝑤 𝑇 φ𝑗
𝑗=0

 Ada banyak pilihan yang mungkin untuk


fungsi basis f(x), misal fungsi linear, fungsi
polinomial, fungsi gaussian, fungsi sigmoidal,
dll
Diberikan data training 𝑥𝑖 , 𝑡𝑖 , 𝑖 = 1, . . 𝑁

 Masalah: bagaimana mendapatkan


kurva polinomial yang cocok untuk
data pelatihan tersebut

 Solusi: mencari kurva polinomial yang


memiliki kesalahan (error) terkecil
pada data pelatihan tersebut

 Persoalan ini sering juga disebut


sebagai polynomial curve fitting
 Salah satu fungsi error yang
sering digunakan adalah fungsi
sum-of-squares error sbb:
𝑁
1 2
𝐸 𝑤 = ෍ 𝑦 𝑥𝑛 , 𝑤 , 𝑡𝑛
2
𝑛=1

 Salah satu metode yang


digunakan untuk mencari nilai
w yang meminimumkan fungsi
error adalah metode kuadrat
terkecil (least squares)
 Setelah penurunan E(w) terhadap w, maka
persoalan penentuan nilai parameter w
menjadi persoalan penentuan solusi sistem
persamaan linear:
𝐴𝑤 = 𝑡
dimana
 Karakteristik model regresi linear polinomial
ditentukan oleh nilai M (orde polinomial atau
jumlah parameter). Pemilihan nilai M yang
optimal dikenal juga dengan istilah pemilihan
model (model selection)
 Ada kalanya terjadi kesalahan pemilihan
model sehingga terjadi overfitting atau
underfitting
 Pada aplikasi praktis, kita sering menemukan
kondisi dimana untuk persoalan yang kompleks
ketersediaan data pembelajaran terbatas.

 Salah satu teknik yang digunakan untuk


mengkontrol fenomena over-fitting adalah
regularisasi (regularization), yaitu dengan cara
menambah finalti ke fungsi error.

 Regularisasi dapat dilakukan melalui


penghalusan kurva dan mengecilkan nilai bobot
 Data: Data tentang informasi keuangan dan personal

 Pertanyaan: layakkah untuk diberi pinjaman ?


◦ Metode statistik sederhana dapat menjawab hampir 90%
kasus
◦ Kasus-kasus pada garis batas (borderline) ditentukan oleh
tenaga ahli yang berwenang
◦ Akan tetapi, 50% kasus-kasus pada garis batas yang diberi
pinjaman gagal dalam pengembalian

 Solusi:
◦ Tolak semua kasus pada garis batas. Hal ini tidak mungkin
karena kasus-kasus pada garis batas adalah nasabah aktif
terbesar
◦ Solusi lain → metode lain, misal machine learning
 Data training:
1000 sample untuk kasus-kasus pada garis batas

 Atribut/Fitur:
◦ Umur
◦ Lamanya tinggal di alamat saat ini
◦ Lamanya menjadi nasabah
◦ Kepemilikan kartu kredit lain

 Hasil:
◦ Decision Tree memberikan akurasi 70%
 Data: gambar-gambar satelit dari perairan
pantai

 Masalah: mendeteksi lapisan minyak pada


gambar tersebut
◦ Lapisan minyak muncul pada gambar sebagai area
hitam dengan bentuk dan ukuran yang berubah-
ubah
◦ Persoalan ini tidak mudah, karena area hitam bisa
juga disebabkan oleh kondisi cuaca, misal angin
◦ Pendeteksian ini adalah proses yang mahal karena
membutuhkan personel yang terlatih
 Data training: diekstrak dari area hitam dari
gambar

 Atribut/Fitur:
◦ Ukuran area
◦ Bentuk area
◦ Intensitas
◦ Ketajaman dan lekukan dari batas
◦ Kedekatan dengan wilayah lain
◦ Info tentang latar belakang

 Kendala:
◦ Sedikit data training
◦ Data tidak seimbang : sebagian besar bukan lapisan
minyak
 Latar belakang: perusahaan pensuplai listrik perlu memprediksi
kebutuhan tenaga listrik pada masa yang akan datang
◦ Peramalan beban min/max untuk setiap jam akan memberikan
penghematan yang signifikan

 Data: berupa model beban yang dibangun secara manual dengan


asumsi kondisi cuaca „normal“
◦ Beban dasar dalam setahun
◦ Periodesitas beban dalam setahun
◦ Pengaruh hari libur

 Masalah: membuat model yang selaras dengan kondisi cuaca

 Atribut/Fitur:
◦ Temperatur
◦ Kelembaban
◦ Kecepatan angin
◦ Kondisi awan
 Data: perusahaan biasanya menyimpan data
pemasaran dan penjualan

 Aplikasi:
◦ Loyalitas Pelanggan, yaitu mendeteksi pelanggan yang akan
menyeberang/pindah ke perusahaan lain berdasarkan
perubahan tingkah laku

◦ Penawaran Khusus, yaitu mengidentifikasi pelanggan yang


potensial untuk keuntungan tertentu, misal pemilik kartu
kredit yang membutuhkan uang selama liburan

 Analisa Market Basket, yaitu mencari item-item yang


biasanya terjadi secara bersamaan dalam transaksi
 Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh
sebab itu, hal yang pertama kali perlu disiapkan adalah data.
Data pada algoritma ini umumnya dibagi menjadi 2 bagian, yaitu
data training dan data testing.

 Data training akan digunakan untuk melatih algoritma dalam


mencari model yang sesuai, sedangkan data testing akan dipakai
untuk menguji dan mengetahui performa model yang didapatkan
pada tahapan testing.

 Topik pembelajaran ini menjelaskan pemahaman dasar


mengenai Machine Learning khususnya Supervised Learning yang
terdiri dari variabel input dan output. Sehingga kita dapat
meramal seperti apa nanti outputnya ketika ingin memasuki
input baru dengan melabeli dataset dengan baik.
 Bishop, C. H., Pattern Recognition and
Machine Learning, Springer, 2006
 Vapnik, The Nature of Statistical Learning
Theory, Spinger, 2000
 Murfy, H., Lecture Note

You might also like