You are on page 1of 14

DATA MINING - REVIEW JURNAL

:

FAST OUTLIER DETECTION USING GRID-BASED ALOGARITHM
Oleh:
Jihwan Lee dan Nam-Wook Cho

KELOMPOK 5

Abthal Umar
Asfika Rizkyana
Daniel Julfrado B.
Jefrianto Fankari
Laksmi Titis A.D
Nabella Intan Karasta

KELAS 4SE5
DOSEN: Dr. Azka Ubaidillah

SEKOLAH TINGGI ILMU STATISTIK

JAKARTA

2018

Karhunen-Loeve (KL). Hal ini tentunya menjadi masalah yang sangat krusial jika diterapkan untuk sistem yang mengaplikasikan real-time. Oleh karena itu diperlukan usaha untuk mengurangi komplesitas algoritma dengan mengurangi dimensi data. maka beberapa eksperimen juga dilakukan. Metode LOF dapat mendeteksi outlier meskipun suatu dataset mempunyai distribusi normal. Saat ini terdapat beberapa metode untuk mendeteksi outlier salah satunya Local Outlier Factor (LOF). Singular Value Decomposition (SVD). Yang pertama adalah banyaknya waktu penghitungan untuk proses LOF bertambah secara eksponensial dengan jumlah dimensi dari dataset yang bisa disebut “Curse of Dimensionality” atau kutukan dimensi. Hal ini menyebabkan proses penghitungan memakan waktu lama. saat diaplikasikan untuk dataset yang berukuran besar dengan dimensi yang banyak memakan waktu lama untuk proses penghitungannya. Oleh karena itu jurnal ini mengembangkan metode untuk mengurangi waktu proses penghitungan yang berkaitan dengan k-nearest neighbour. Kompleksitas LOF ini dapat dilihat dari dua perspektif. Untuk membuktikan keefektifan waktu. Namun karena kekompleksitasan dari algoritma LOF. Algoritma ini membagi data menjadi bagian-bagian wilayah yang kecil yang disebut “grid”. dan FastMap merupakan beberapa metode yang sudah pernah diusulkan untuk mengurangi besarnya dimensi di suatu data set. suatu observasi dikatakan outlier jika mempunyai kepadatan yang lebih rendah daripada observasi di sekitarnya. Algoritma LOF menghitung jarak menggunakan jarak Euclidean untuk setiap observasi terhadap centroid kemudian mengurutkan berdasarkan jaraknya. Genetic Algorrithm. Yang kedua berkaitan dengan penghitungan k-nearest neighbors. Untuk metode LOF. Hal ini sudah diterapkan di berbagai dataset seperti pendeteksian gangguan jaringan dan proses monitoring. PENDAHULUAN Pendeteksian outlier merupakan salah satu tahap dalam data mining yang bertujuan untuk mengetahui observasi yang menyimpang dari observasi-observasi lainnya. . Algoritma LOF adalah algoritma yang berbasis kepadatan untuk mendeteksi outlier dari kumpulan observasi di dataset dengan menetapkan derajat pencilannya yang disebut Local Outlier Factor (LOF) untuk setiap observasi. Untuk data yang mempunyai dimensi banyak (n) kompleksitas dari algoritma menjadi O (n2). Data yang digunakan adalah data traksaksi Korea Atomic Energy Research Institute (KAERI) yang diperoleh dari UCI machine-learning repository.

Maka alogaritma untuk menghitung nilai LOF grid dari titik data adalah sebagai berikut : 1. Anggap data set S ∈ Rd terdiri dari n titik data pada suatu ruang nyata d dimensi. 𝑙𝑟𝑑 𝑀𝑖𝑛𝑃𝑡𝑠 (𝑜) ∑ 𝑙𝑟𝑑𝑀𝑖𝑛𝑝𝑡𝑠 (𝑝) LOFMinPts (p)= |𝑁𝑚𝑖𝑛𝑝𝑡𝑠 (𝑝)| LOFMinPts (p) : derajat outlier dari objek p LrdMinPts(p) : kepadatan local dari objek p LrdMinPts(o) : kepadatan local dari objek o NMinpts (p) : Jumlah tetangga p dalam suatu minPts Setelah mengetahui penghitungan LOF. ∑ 𝑟𝑒𝑎𝑐ℎ−𝑑𝑖𝑠𝑡 (𝑝. Sebelumnya dijelaskan bagaimana penghitungan LOF pada suatu titik. 2. 4. hitung nilai LOFnya LOF(Cj). Lalu hitung total kd di dalam data set tersebut. Membagi ruang data masing-masing dalam S menjadi k-interval yang sama.. Menghitung LOF untuk setiap objek data.𝑜) LrdMinPts(p)=1/ |𝑁𝑚𝑖𝑛𝑃𝑡𝑠 (𝑝)| LrdMinPts(p) : kepadatan local dari objek p ReachdistMinPts(p. Menghitung reachbility distance dari objek p.o) : Reachbility Distance dari objek p ke o NMinpts (p) : Jumlah tetangga p dalam suatu minPts 5. Anggap jumlah grid per dimensi sudah ditentukan sebanyak k.. kd}. METODOLOGI Pada bagian ini akan dijelaskan bagaimana prosedur pendektesian outlier dengan alogaritma grid-LOF. Menghitung jumlah tetangga terdekat (k-distance neighborhood dari setiap p) dengan jarak yang tidak lebih besar dari k-distance p. Menghitung k-distance dari setiap titik / data (p) utnuk dapat menentukan tetangga dari p. Jika tidak ada data yang termasuk dalam grid maka grid tidak diperhitungkan. maka kita akan melanjutkan penghitungan LOF pada alogaritma LOF grid. . Mengaitkan setiap titik data xi ∈ S menjadi satu indeks grid.. dengan tujuan untuk memastikan bahwa semua objek berada di lingkungan yang homogen. 3. 2. j={1. Untuk setiap centroid di grid Cj. Menghitung kepadatan lokal dari setiap objek. Untuk setiap j grid hitung centroid gridnya Cj.... 3.Penghitungan LOF secara singkat adalah : 1. 4.

Sebaliknya. sedangkan nilai LOF dari outlier lebih besar dari lima. outlier yang berada di luar elips dihasilkan dari distribusi yang seragam. dengan dua dimensi dataset yang terdiri dari 530 titik data. Gambar 1B menunjukkan LOF dari setiap titik data pada Gambar 1A. algoritma grid-LOF hanya mempertimbangkan centroid grid. masing-masing dimensi dibagi menjadi sepuluh interval yang sama. 5. menghasilkan 102 grid untuk ruang data. Sumber: Jurnal PLoS ONE (2016) Gambar 1A. Menentukan nilai LOF grid untuk tiap titik data. Jika xi masuk dalam grid j maka LOFG(xi) = LOF(Cj) Untuk menggambarkan perbedaan antara algoritma LOF dengan alogaritma grid-LOF. Adalah kurang dari satu. Menunjukan titik data normal di dalam elips dihasilkan dari tiga distribusi normal bivariat dengan berbagai cara dan variasi. Berbeda dengan algoritma brute force. Sumber: Jurnal PLoS ONE (2016) Gambar 2A dan 2B menggambarkan hasil alogaritma grid-LOF. Perhatikan bahwa grid tanpa titik data tidak dipertimbangkan untuk .

perhitungan LOF. tetapi nilai grid-LOF yang diperoleh berpotensi menyebabkan kesalahan Tipe 1 dan 2. Nilai recall dan presisi berbagai parameter untuk setiap dataset digunakan untuk menguji kualitas nilai grid-LOF yang dihasilkan. Gambar 2B menampilkan LOF dari setiap titik data yang diperoleh dengan metode LOF grid. ukuran grid (ditentukan oleh jumlah interval k) dapat mempengaruhi kinerja algoritma grid-LOF. Kode implementasi baik algoritma brute force LOF dan grid-LOF ditulis dengan Python. Dataset Eksperimen Sumber: Jurnal PLoS ONE (2016) Meskipun efisiensi algoritma grid-LOF bisa lebih baik daripada algoritma brute force. Seperti yang telah dibahas pada bagian sebelumnya. EKSPERIMEN Dalam jurnal ini. Penggunaan metode ini dapat dibenarkan apabila kualitas algoritma grid-LOF terdapat pada tingkat yang bisa diterima.00 GB. Peningkatan Efisiensi Waktu Pencarian Gambar 3. Tabel 1. Keempat dataset ini diperoleh dari UCI machine-learning repository.60 GHz. Percobaan dijalankan pada PC 1. eksperimen dilakukan dengan menggunakan empat dataset untuk membandingkan kinerja algoritma original LOF dan algoritma grid-LOF. yang mengakibatkan lebih banyak waktu perhitungan dan perkiraan error lebih kecil. Tabel 1 berisi tentang jumlah instansi dan atribut dari dataset. 4. Meningkatnya interval k sejalan dengan mengecilnya ukuran grid. Perbandingan Waktu Perhitungan LOF (detik) . Sehingga percobaan dilakukan dengan jumlah interval k yang bervariasi.

10. Sumbu y mewakili perhitungan waktu (detik) dari setiap skenario eksperimen. dan 30) yang didefinisikan untuk setiap dimensi. efisiensi waktu akan terus berkurang seiring bertambahnya jumlah grid. Untuk setiap dataset. sumbu x mewakili skenario percobaan yang berbeda berkenaan dengan interval nilai k (k = 5. Seperti ditunjukkan. Sumber: Jurnal PLoS ONE (2016) Gambar 3 menunjukkan perbandingan waktu perhitungan dengan algoritma original LOF dan grid-LOF pada keempat dataset. 20. Gambar 4. Hal ini dapat dilihat pada gambar 3. pada keempat dataset algoritma grid-LOF lebih unggul dari algoritma brute force dalam hitungan waktu. Di mana MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan local neighborhood suatu obyek. jumlah tetangga terdekat (MinPts) ditetapkan sepuluh. Akan tetapi. Waktu Komputasi Algoritma LOF untuk Keempat Dataset . Dalam percobaan tersebut. yang mengindikasikan bertambahnya waktu perhitungan pada pertambahan jumlah grid.

Sumbu y mewakili presentasi keunggulan efisiensi (efficiency gain) dari algoritma grid-LOF terhadap algoritma brute force. algoritma grid-LOF dapat menunjukan peningkatan kinerja untuk data berdimensi rendah-sedang dengan jumlah data point yang banyak. sedangkan Parkinson Telemonitoring (PT) mendapat keuntungan efisiensi waktu yang moderat dibandingkan dataset lainnya. Keuntungan efisiensi secara bertahap menurun saat nilai interval k meningkat. bukan karena “Curse of Dimensionality”. Efek keuntungan efisiensi lebih signifikan dengan ukuran grid yang lebih besar. Kinerja moderat dari data Parkinson Telemonitoring (PT) diakibatkan oleh jumlah atribut data yang besar (19). Tiga dataset termasuk Uang Kertas Otentikasi (BA). Sumber: Jurnal PLoS ONE (2016) Gambar 4 mengilustrasikan efisiensi waktu komputasi dari algoritma grid-LOF terhadap algoritma original LOF. Nilai interval yang lebih besar berarti bahwa ruang pencarian dibagi menjadi beberapa grid kecil. Hal ini dikarenakan grid-LOF mengindikasikan perhitungan yang lebih kompleks pada tetangga k-terdekat. Wilt. Gambar 4 juga menggambarkan keuntungan efisiensi waktu dari empat dataset. Sumbu x mewakili nomor interval (k) yang didefinisikan untuk setiap dimensi. yang menghasilkan sedikit keuntungan efisiensi dan sedikit kesalahan aproksimasi. Efektivitas: Kemerosotan Kualitas dari Grid-LOF Gambar 5. Oleh karena itu. dan Pembangkit Listrik Siklus Gabungan (CCPP) memiliki keuntungan efisiensi waktu yang signifikan. Perbedaan antara Brute Forced LOF dan Grid-LOF .

Presisi dari Algoritma Grid-LOF . Kemudian. Seperti yang ditunjukkan pada gambar. sedangkan kurva biru mewakili grid-LOF. titik data diurutkan berdasarkan original LOF dengan urutan menurun. Titik data dengan nilai LOF yang lebih besar dari ambang batas yang telah ditentukan sebelumnya (ditandai dengan garis putus-putus horizontal pada Gambar 5) dianggap sebagai outlier sesungguhnya. Gambar 6. titik data dengan nilai grid-LOF yang melebihi persentil ke-90 dipilih sebagai outlier potensial. LOF dari algoritma grid-LOF berbeda dari nilai original LOF tidak hanya dalam skala absolut tetapi juga dalam urutan nilai LOF. Dalam jurnal ini. Pada sumbu horizontal. Sumber: Jurnal PLoS ONE (2016) Gambar 5 menggambarkan perbedaan brute force LOF dan grid-LOF untuk setiap dataset. Kurva merah mewakili original LOF. penurunan kualitas algoritma grid-LOF dan algoritma original LOF dibandingkan dalam hal presisi dan recall.

ini mengisyaratkan bahwa hampir setengah dari outlier sesungguhnya tidak dapat diprediksi ketika nilai grid-LOF berada di atas 10 persen.5 sampai 10 persen dari nilai grid-LOF. recall tidak akan melebihi 0. Sumber: Jurnal PLoS ONE (2016) Gambar 7. Seperti yang dindikasikan. Ketika jumlah interval adalah lima. kualitas solusi yang dihasilkan akan buruk jika menggunakan grid sedikit. Recall dari Algoritma Grid-LOF Sumber: Jurnal PLoS ONE (2016) Gambar 6 dan Gambar 7 menunjukkan presisi dan recall sehubungan dengan jumlah interval yang berbeda untuk setiap dataset. kualitas akan meningkat dengan cepat . Solusi dari masalah kualitas tersebut.

CCPP mengungguli yang lain. Hal ini dikarenakan jumlah gridnya lebih besar dari pada dataset lainnya. Di antara dataset dengan ukuran atribut serupa (Banknote. ada sedikit keuntungan efisiensi ketika k=30. Wilt. strategi yang menerima penurunan kualitas yang kecil dengan imbalan perhitungan yang lebih cepat akan lebih berguna dalam situasi yang membutuhkan pendeteksian outlier secara real-time. Dengan mempertimbangkan trade-off antara efisiensi dan efektivitas. Namun.saat jumlah interval meningkat lebih dari sepuluh. menunjukkan kinerja yang wajar dibandingkan dataset lainnya. STUDI KASUS . lebih dari 70 persen outlier sesungguhnya diidentifikasi ke dalam pencarian data 10 persen data. seperti yang ditunjukkan pada Gambar 4. hampir tidak ada kemerosotan kualitas pada metode LOF grid. Pada semua kasus pada penelitian ini. Parkinson Telemonitoring (PT). memiliki jumlah atribut terbanyak (19). walaupun masing-masing dimensi dibagi dengan interval yang sama. PT). Jika jumlah interval meningkat menjadi 30.

Sama dengan percobaan yang dilakukan sebelumnya. Dari 33 kolom yang ada. dilakukan lagi percobaan terhadap algoritma yang telah dibangun tersebut dengan menggunakan dataset asli dengan volume lebih besar. Setelah menemukan usulan algoritma pada bagian sebelumnya (Eksperimen). Selain itu. Kemudian. Pada jurnal ini. data yang berupa kategorik atau teks dikonversi menjadi data numerik karena penghitungan LOF didasarkan pada bilangan riil. Tabel 2. Daftar kolom yang akan dianalisis dapat dilihat pada Tabel 2 di bawah.140 observasi dan 7 kolom. Perbandingan Waktu Penghitungan LOF (detik) Sumber: Jurnal PLoS ONE (2016) Dapat kita lihat dari tabel di atas. Deskripsi Dataset yang Digunakan Sumber: Jurnal PLoS ONE (2016) Tahapan pertama dalam analisis adalah membandingkan kecepatan penghitungan yang dibutuhkan oleh kedua algoritma. data yang digunakan berasal dari KAERI (Korea Atomic Energy Research Institue). Hasil perhitungannya dapat dilihat pada Tabel 3 di bawah ini Tabel 3.019 records (baris) dan 33 fields (kolom). Setiap kolom juga dilakukan standarisasi sehingga memiliki rata-rata sebesar 0 (nol) dan varians unit. jumlah tetangga terdekatnya ditetapkan berjumlah 10 (sepuluh). observasi berulang dibuang dari dataset. dilakukan preprocessing pada data yang ada agar algoritma grid-LOF yang telah dibangun dapat digunakan. Pada akhirnya. bahwa waktu yang dibutuhkan oleh algoritma grid- LOF jauh lebih singkat dibandingkan algoritma original LOF (bruteforce). Sebelum dilakukan analisis.64 kali (k=10) sampai dengan 11. dataset yang akan digunakan terdiri atas 17. yang terdiri atas 297. yaitu original LOF dan grid-LOF algoritma. dilakukan reduksi hingga menghasilkan 7 kolom saja yang akan dianalisis.25 kali (k=100) lebih . dengan rentang efisiensi yang diperoleh berkisar 42.

metode ini berhasil mengidentifikasi 80% dari true outlier pada 2% data teratas.efisien. namun juga mempertahankan kualitas dari hasil analisis dari metode LOF. Ini mungkin disebabkan karena dataset yang digunakan memiliki struktur yang padat di mana kebanyakan observasi dapat menjadi bagian dari beberapa grid. Gambar 1 di bawah menunjukkan perbandingan kualitas antara hasil metode grid- LOF dan metode original LOF. Dari hasil ini. . Selain pengukuran kecepatan penghitungan. Observasi yang memiliki nilai original LOF lebih besar dari nilai LOF persentil ke-99 dari data dianggap sebagai outlier sesungguhnya. Gambar 1. di mana saat k=100. kualitas hasil dari metode grid-LOF meningkat sejalan dengan penurunan ukuran grid (peningkatan jumlah grid). Hal ini juga menunjukkan bahwa setiap pengurangan ukuran grid akan menurunkan efisiensi. Kemudian. Tingkat presisi meningkat hingga 90% sampai persentil ke-90 dari set data. observasi yang memiliki nilai grid-LOF lebih besar dari persentil ke-90 dianggap sebagi outlier potensial. Presisi dan Recall dari metode grid-LOF Sumber: Jurnal PLoS ONE (2016) Dapat kita lihat dari tabel di atas. dapat disimpulkan bahwa algoritma grid-LOF tidak hanya mampu meningkatkan efisiensi waktu yang dibutuhkan untuk proses pendeteksian outlier. dilakukan pula pengukuran kualitas dari hasil algoritma grid-LOF tersebut.

Oleh karena itu untuk penelitian selanjutnya dapat dilakukan metode reduksi dimensi seperti kombinasi SVD dan grid-LOF. Namun berbeda dengan grid-LOF. apabila ada observasi baru ditambahkan maka nilai LOF setiap point harus dihitung ulang dan diupdate setiap waktu sehingga hal ini dapat menurunkan perfomance dari algoritma tersebut. pengitungan nilai LOF untuk observasi baru hanya dihitung di lokasi grid observasi baru tersebut. Beberapa eksperimen telah dilakukan dengan berbagai parameter. Selain itu grid-LOF juga efisien diterapkan untuk dataset real-time. Grid-LOF juga mempunya kekurangan yaitu hanya mampu menangani dataset yang mempunyai jumlah dimensi moderat. Oleh karena itu untuk dataset yang besar. Berdasarkan beberapa eksperimen yang telah dilakukan dapat disimpulkan bahwa grid-LOF efisien mengurangi waktu dari proses algoritma LOF. . maka dibentuk bagian- bagian wilayah yang kecil atau disebut “grid”. KESIMPULAN Untuk mengurangi waktu penghitungan dari algoritma LOF. Keunggulan dari grid-LOF ini karena algoritma yang diterapkan melakukan penghitungan yang lebih efisien dalam menghitung jarak observasi ke centroid dari grid bukan dari centroid dataset. Pada original LOF. grid-LOF dapat menjadi pendekatan atau alternatif dari original LOF.

Tidak dijelaskan secara rinci atau menulis rumus dari LOF. Peneliti mampu menemukan metode baru untuk mengatasi waktu penghitungan LOF yang lama. Untuk membandingkan kecepatan atau presisi dari kedua metode divisualisasikan dengan grafik sehingga kelihatan perbandingannya. Tidak dijelaskan bagaimana menentukan batas dari LOF untuk data dinyatakan sebagai outlier. 6. Walaupun di introduction ada namun hanya sekilas dan tidak rinci. 4. 3. 5. Misalkan pada gambar 4 dikatakan efficiency gain 1388. Literatur review tidak ada. 2. Misalkan gambar yang seharusnya menggambarkan penjelasan di eksperimen namun letaknya berada di studi kasus sehingga menyebabkan kebingungan 2. KEKURANGAN-KELEBIHAN Kekurangan 1. 7.329 namun di gambar nilainya jelas di bawah 1000 Kelebihan 1. Ketika dijelaskan persentil 90 merupakan data yang berpotensi outlier. Letak gambar tidak sesuai dengan posisi bagian penjelasannya. dilakukan beberapa percobaan untuk k (grid) yang berbeda-beda. Dalam setiap eksperimen. 3. . 4. Terdapat penjelasan atau interpretasi yang tidak sesuai dengan gambar. Terdapat beberapa grafik yang keterangan sumbunya tidak ada. Terdapat beberapa eksperimen yang dilakukan terhadap dataset sehingga memang dapat dibuktikan bahwa grid-LOF lebih efisien dalam waktu penghitungan daripada original LOF. tidak dijelaskan letak persentil pada gambar.