Paper - Big Data - Ayu Styefani - 21520251037

Visualisasi Data Performa Algoritma Naïve Bayes dan Decision Tree untuk
Klasifikasi Gangguan Kelistrikan pada Jaringan Transmisi dan Distribusi

dengan Big Data
Ayu Styefiani1]*Handaru Jati[2]*

1
Departemen Pendidikan Teknik Elektronika dan Informatika, Universitas Negeri Yogyakarta
Jl. Colombo Yogyakarta No.1, Karang Malang, Caturtunggal, Kec. Depok, Kabupaten Sleman,
Daerah Istimewa Yogyakarta-55281
* Corresponding author: ayustyefani.2021@student.uny.ac.id
Abstrak
Gangguan pada penyaluran listrik di Kelurahan Dulomo Selatan, Kecamatan Kota Utara, Kota Gorontalo,
Provinsi Gorontalo dapat menyebabkan kerugian besar, dalam proses perekonomian maupun kondisi sosial. Hal
ini tentu harus dicegah melalui tindakan preventive maintenance. Preventive maintenance dapat dilakukan
apabila didukung oleh bukti-bukti valid. AI kini banyak diintegrasikan dalam pengolahan data berskala besar,
bahkan dimanfaatkan sebagai perangkat pendukung pengambilan keputusan. Oleh karenanya, penelitian
memandang perlunya analisa performa algoritma AI seperti Naïve Bayes dan Decision Tree untuk klasifikasi
gangguan jaringan dan distribusi tenaga listrik. Metode yang digunakan dengan Research and Development
(RnD) menggunakan aplikasi orange3 data mining. Tujuan penelitian ini adalah menemukan algoritma AI yang
tepat untuk pengambilan keputusan kondisi gangguan jaringan listrik, sehingga apabila kondisi pengukuran
mensinyalir adanya gangguan, pencegahan perbaikan sistem yang memakan waktu dapat diminimalisasi,
menurunkan cost, dan mengefisiensi pekerjaan di lapangan. Algoritma performa training yang bermutu sangat
baik adalah Decision Tree = 0,986 > AUC Naïve Bayes = 0,953 dan berada di kategori Amat Baik Algoritma
performa testing yang bermutu sangat baik adalah Decision Tree = 1,000 > AUC Naïve Bayes dan berada pada
kategori Amat Baik. Melalui penelitian tersebut, performa klasifikasi menggunakan algoritma Decision Tree
lebih baik ketimbang Naïve Bayes.
Kata Kunci: gangguan, transmisi, distribusi, listrik, naïve bayes, decision tree, data mining
Abstract
Disturbances in electricity distribution at Dulomo Selatan, Kota Utara, Gorontalo City, Provincial
Gorontalo can cause major losses, in economic processes and social conditions. This must of course be
prevented through actionpreventive maintenance. Preventive maintenance can be done if supported by valid
evidence. AI is now widely integrated into large-scale data processing, and is even used as a decision-making
support tool. Therefore, research sees the need to analyze the performance of AI algorithms such as Naïve Bayes
and Decision Trees for classifying network disturbances and electric power distribution. The method used is
Research and Development (RnD) using the Orange3 data mining application. The aim of this research is to find
the right AI algorithm for making decisions about electrical network disturbance conditions, so that if the
measurement conditions indicate a disturbance, preventing time-consuming system repairs can be minimized,
reducingcost, and streamline work in the field. Performance algorithmtraining the very good quality isDecision
Tree = 0.986 > AUC Naïve Bayes = 0.953 and is in the Very Good Algorithm performance categorytesting the
very good quality isDecision Tree = 1,000 > AUC Naïve Bayes and is in the Very Good category. Through this
research, the classification performance using the Decision Tree algorithm is better than Naïve Bayes.
Keywords:disturbance, transmision, distribution, electrical, naïve bayes, decision tree, data mining
Listrik adalah kebutuhan yang penting bagi seluruh masyarakat Gorontalo untuk proses kegiatan
manusia. Kebutuhan manusia sangan tergantung dengan adanya energi listrik [1]. Gangguan pada
penyaluran listrik di Kota Gorontalo dapat menyebabkan kerugian besar, dalam proses perekonomian
maupun kondisi sosial. Kerugian dalam proses perekonomian dapat dilihat dari kerugian-kerugian
yang dialami oleh industri, seperti keterlambatan produksi, pengepakan, dan pengantaran dikarenakan
1
kerusakan jaringan kelistrikan. Ketidakstabilan jaringan listrik juga dapat menyebabkan banyak
perangkat-perangkat listrik menjadi rusak dan tentu menimbulkan kerugian. Pada kondisi sosial,
gangguan dan ketidakstabilan jaringan listrik dapat menyebabkan lumpuhnya kegiatan manusia.
Pemeliharaan (maintenance) merupakan seluruh rangkaian kegiatan yang dilakukan untuk mejaga
sistem dan semua komponennya bekerja sesuai dengan yang seharusnya [2]. Hal ini tentu harus
dicegah melalui tindakan preventive maintenance. Preventive maintenance dapat dilakukan apabila
didukung oleh bukti-bukti valid. Selain itu pemeliharaan yang baik akan meningkatkan kinerja
perusahaan, nilai investasi yang dialokasikan untuk perlatan dan mesin dapat diminimasi, dan
pemeliharaan yang baik juga dapat meningkatkan kualitas produk yang dihasilkan dan mengurangi
waste [3].
AI kini banyak diintegrasikan dalam pengolahan data berskala besar, bahkan dimanfaatkan
sebagai perangkat pendukung pengambilan keputusan. Algoritma AI begitu banyak dan memiliki
tingkat komputasi yang berbeda-beda, dari yang ringan hingga yang berat. Algoritma AI yang
dimanfaatkan dalam penelitian ini adalah Algoritma Naïve Bayes dan Decision Tree. Naïve Bayes
merupakan machine learning yang menggunakan perhitungan probabilitas yang menggunakan konsep
pendekatan Bayes [4]. Decision Tree adalah metode klasifikasi dan prediksi yang sangat kuat dan
terkenal. Metode decision tree mengubah fakta yang sangat besar menjadi pohon keputusan
yang mempresentasikan aturan [5]. Keunggulan Naïve Bayes adalah sederhana, cepat dan akurasi
tinggi [6]. Keunggulan Decision Tree (DT) adalah memiliki keunggulan dalam menyelesaikan
masalah klasifikasi, namun data noise yang terdapat pada dataset berukuran besar dan memiliki
banyak kelas atau multi kelas dapat mengurangi akurasi pada klasifikasinya [7]. Oleh
karenanya, penelitian memandang perlunya analisa performa algoritma AI seperti Naïve Bayes dan
Decision Tree untuk klasifikasi gangguan jaringan dan distribusi tenaga listrik. Tujuan dari penelitian
ini adalah menemukan algoritma AI yang tepat untuk pengambilan keputusan kondisi gangguan
jaringan listrik, sehingga apabila kondisi pengukuran mensinyalir adanya gangguan, pencegahan
perbaikan sistem yang memakan waktu dapat diminimalisasi, menurunkan cost, dan mengefisiensi
pekerjaan di lapangan.
1. Metode
Metode penelitian yang digunakan adalah Research and Development (RnD) di Kelurahan
Dulomo Selatan, Kecamatan Kota Utara, Kota Gorontalo, Provinsi Gorontalo. Aplikasi yang yang
digunakan adalah orange (data mining) Orange menyediakan lingkungan serbaguna bagi para
pengembang, peneliti, dan profesional data mining. Berkat Python, bahasa skrip dan lingkungan
pemrograman generasi baru, skrip data mining menjadi sederhana, namun hasilnya berskala
perusahaan [8].
Penyiapan Pemilihan Pengujian dan

Kajian literatur Pemilihan Program Evaluasi
penelitian algoritma DataSet Pembangun Performa
terkait Aplikasi Algoritma
Tahapan-tahapan di atas dirincikan sebagai berikut.

Kajian literatur atas jurnal-jurnal ilmiah terkait pengujian beberapa algoritma untuk kebutuhan
klasifikasi gangguan kelistrikan pada jaringan transmisi dan distribusi.
Pemilihan algoritma yang akan diujicoba seperti Naïve Bayes dan Decision Tree. Kedua
algoritma ini dipilih karena kesederhaan dan tingkat komputasinya yang ringan. Naïve Bayes memiliki
kelebihan dikesederhanaan pengklasifikasian dengan mengasumsikan klasifikasi atribut [9]. Decision
Tree memiliki keunggulan pada penyiapan data yang sederhana [10]
Penyiapan dataset Dataset diambil dari alamat :
https://www.kaggle.com/datasets/esathyaprakash/electrical-fault-detection-and-classification. Kaggle
adalah salah satu layanan penyedia dataset [11]. Format dataset yang diolah adalah Comma Separated
6
Value (CSV). Jumlah baris data adalah 12.001, 7 kolom (6 features dan 1 target), dan total data adalah
84.007 data. Proporsi pemrosesan data set untuk training dan testing adalah 90:10.
Pembangunan program klasifikasi menggunakan visual programming berbantuan aplikasi

Orange3.
Program dibangun dalam 2 tujuan, yaitu visualisasi data dan pemrosesan untuk klasifikasi
data. Program untuk tujuan visualisasi data ditunjukkan oleh bagian yang bergaris tepi hijau.
Sedangkan program untuk tujuan pemrosesan klasifikasi ditunjukkan oleh bagian yang
bergaris tepi biru.
a. Pengujian dan evaluasi performa algoritma dalam mengklasifikasikan.
Proses pengujian dan evaluasi performa dilakukan. agar dapat menentukan algoritma apa yang
lebih optimal digunakan, dalam menyelesaikan permasalahan atau kasus yang diangkat.
Beberapa parameter yang digunakan untuk mengukur dan mengevaluasi performa klasifikasi
antara lain:
1. AUC
AUC adalah parameter yang mengukur probabilitias skor sampel positif lebih besar
ketimbang sampel negatif, ketika pengambilan sampel (baik yang positif dan negatif)
secara acak. Nilai AUC berkisar 0 s/d 1, dimana 1 menunjukkan kinerja optimal dan 0
menunjukkan kinerja terburuk.
(Religia et al., 2021)
2. CA
Classification Accuray (CA atau akurasi) mengilustrasikan tingkat keakuratan model
dalam mengklasifikasn dengan benar.
3. F1
F1 merupakan perbandingan rerata presisi dan recall yang dibobotkan.
4. Precision
Precision adalah perbandingan prediksi benar positif terhadap keseluruhan hasil yang
diprediksi positif.
5. Recall
Recall atau sensitifitas adalah keberhasil model dalam memperoleh informasi
(Derisma, 2020)
6. Kurva ROC
7
Kurva ROC adalah teknik untuk menilai kinerja klasifikasi menggunakan 2 kelas berbasis
visualisasi dari AUC.
(Ridwan, 2020)
2. Hasil dan pembahasan

3.1 Visualisasi Dataset
Untuk mengetahui kondisi dataset yang terdiri atas dari 12.000 baris data, maka akan lebih mudah
apabila dilakukan visualisasi data. Berdasarkan gambar 3.1.1, diketahui terdapat 6 fitur data, yaitu Ia
(arus listrik di titik pengukuran A), Ib (arus listrik di titik pengukuran B), Ic (arus listrik di titik
pengukuran C), Va (tegangan listrik di titik pengukuran A), Vb (tegangan listrik di titik pengukuran
B), dan Vc (tegangan listrik di titik pengukuran C). Olehnya, kita dapat mengetahui secara seksama,
data besaran arus listrik dan tegangan listrik adalah parameter yang penting untuk menentukan apakah
jaringan listrik beroperasi normal atau tidak.
Data-data pada fitur Ia berdistribusi normal, karena pusat data berada di bagian tengah. Rata-rata
data pada Ia adalah 6,71 A. Nilai tengah data Ia adalah 4,711 A. Nilai sebaran data adalah -13,46.
Nilai terendah Ia adalah -900,527 A. Nilai tertinggi Ia adalah 888,869. Persentase data hilang
(missing) = 0 (0%).
Data-data pada fitur Ib berdistribusi normal, karena pusat data berada di bagian tengah. Rata-rata
data pada Ia adalah -26,5578 A. Nilai tengah data Ia adalah -3,299 A. Nilai sebaran data adalah 56,21.
Nilai terendah Ia adalah -883,542 A. Nilai tertinggi Ia adalah 885,739 A. Persentase data hilang
(missing) = 0 (0%).
Data-data pada fitur Ic berdistribusi normal, karena pusat data berada di bagian tengah. Rata-rata
data pada Ia adalah 22,353 A. Nilai tengah data Ia adalah -0,399 A. Nilai sebaran data adalah 13,51.
Nilai terendah Ia adalah -883,358 A. Nilai tertinggi Ia adalah 901,274 A. Persentase data hilang
(missing) = 0 (0%).
Data-data pada fitur Va berdistribusi normal, karena pusat data berada di bagian tengah. Rata-rata
data pada Va adalah 0,01 V. Nilai tengah data Ia adalah 0,02 V. Nilai sebaran data adalah 32,92. Nilai
terendah Va adalah -0,62 V. Nilai tertinggi Ia adalah -0,609 V. Persentase data hilang (missing) = 0
(0%).
Data-data pada fitur Vb berdistribusi normal, karena pusat data berada di bagian tengah. Rata-rata
data pada Vb adalah -0,01 V. Nilai tengah data Vb adalah -0,07 V. Nilai sebaran data adalah -23,067.
6
Nilai terendah Vb adalah -0,659 V. Nilai tertinggi Vb adalah 0,6278 V. Persentase data hilang
(missing) = 0 (0%).
Data-data pada fitur Vc berdistribusi normal, karena pusat data berada di bagian tengah. Rata-rata
data pada Vc adalah 0,0049 V. Nilai tengah data Vc adalah 0,08 V. Nilai sebaran data adalah 70,1251.
Nilai terendah Vc adalah -0,612 V. Nilai tertinggi Vc adalah 0,608 V. Persentase data hilang (missing)
= 0 (0%).
Berdasarkan pemaparan informasi dari data terkait, didapatkan dua hal penting yaitu pemaknaan
data-data terkait dan nihilnya data yang hilang (missing). Bila ditinjau dari isi data, rentang nilai arus
listrik (I dari titik A, B, dan C) berada pada kisaran orde -23 A s/d 20 A. Kondisi arus negatif
menunjukkan bahwa terjadinya timbulnya GGL balik, kemungkinan disebabkan konsumsi listrik oleh
beban sangat sedikit. Kondisi arus negatif menunjukkan bahwa beban-beban aktif dalam mengonsumsi
daya listrik yang sedang disalurkan. Tegangan listrik berkisar 0,00 s/d 0,60 V. Nilai yang kecil ini
menunjukkan bahwa adanya tegangan bocor yang terdeteksi, meskipun bernilai sangat kecil. Arus
bocor dan inefisiensi yang terjadi selama transportasi tenaga listrik dari pembangkit ke konsumen,
menjadi perhatian yang sangat penting. Hal ini dikarenakan cost yang dikeluarkan tidak sedikit dan
kerugian kecil yang terjadi dalam jangka waktu lama. Apabila dibiarkan terus menerus, dapat
menyebabkan kerusakan lanjut pada peralatan-peralatan transmisi dan distribusi tenaga listrik.
Sedangkan dari sisi kelengkapan data, dataset telah memenuhi syarat pengolahan data, sehingga tidak
memerlukan proses pembersihan data (data cleaning).
3.2 Matriks Kesalahan (Confusion Matrix) Algoritma Naïve Bayes dan Decision Tree
Berdasarkan gambar 3.2.1, didapatkan bahwa banyak data untuk pengujian (data testing) model
algoritma Naïve Bayes adalah 30. Angka 0 menunjukkan kondisi output sistem adalah REGULER
(berkondisi normal), sedangkan angka 1 menunjukkan kondisi output sistem adalah GAGAL
(berkondisi abnormal). Melalui matriks kesalahan, didapati bahwa nilai TP = 15, FP = 1, FN = 2, dan
TN = 12. Berdasarkan 16 data yang berkondisi output REGULER, terdapat 15 dataterprediksi
REGULER dan 1 data terprediksi GAGAL. Berdasarkan 14 data yang berkondisi output GAGAL,
terdapat 2 dataterprediksi REGULER dan 12 data terprediksi GAGAL.
Berdasarkan gambar 3.2.2, didapatkan bahwa banyak data untuk pengujian (data testing) model
algoritma Decision Trees adalah 30. Angka 0 menunjukkan kondisi output sistem adalah REGULER
(berkondisi normal), sedangkan angka 1 menunjukkan kondisi output sistem adalah GAGAL
(berkondisi abnormal). Melalui matriks kesalahan, didapati bahwa nilai TP = 16, FP = 0, FN = 0, dan
7
TN = 14. Berdasarkan 16 data yang berkondisi output REGULER, terdapat 16 dataterprediksi
REGULER dan 0 data terprediksi GAGAL. Berdasarkan 14 data yang berkondisi output GAGAL,
terdapat 0 dataterprediksi REGULER dan 14 data terprediksi GAGAL.
Melalui pemaparan di atas, dapat dipahami bahwasanya model yang dihasilkan algoritma Naïve
Bayes ditemukan masih terdapat kesalahan prediksi, sedangkan model algoritma Decision Trees nihil
kesalahan prediksi.
3.3 Hasil Training dan Testing Algoritma Naïve Bayes dan Decision Tree
Berdasarkan hasil training model menggunakan algoritma Naïve Bayes, didapatkan AUC =
0,953, CA = 0,8896, F1 = 0,895, Precision = 0,904, dan Recall = 0,896. Untuk algoritma Decision
Tree, didapatkan AUC = 0,986, CA = 0,989, F1 = 0,989, Precision = 0,989, dan Recall = 0,989.
Algoritma performa training yang bermutu sangat baik adalah Decision Tree= 0,986. Hal ini
dapat dilihat dari skor AUC yang berada pada kategori Amat baik, dalam rentang 0,900 – 1,000. Nilai
AUC Decision Tree > AUC Naïve Bayes.
Berdasarkan hasil testing data menggunakan algoritma Naïve Bayes, didapatkan AUC = 0,969,
CA = 0,900, F1 = 0,900, Precision = 0,901, dan Recall = 0,900. Untuk algoritma Decision Tree,
didapatkan AUC = 1,000, CA = 1,000, F1 = 1,000, Precision = 1,000, dan Recall = 1,000.
Algoritma performa testing yang bermutu sangat baik adalah Decision Tree= 1,000. Hal ini
dapat dilihat dari skor AUC yang berada pada kategori Amat baik, dalam rentang 0,900 – 1,000. Nilai
AUC Decision Tree > AUC Naïve Bayes.
Berdasarkan analisa kurva ROC, didapati bahwa kurva ROC milik model Decision Tree dan
Naïve Bayes berada di atas kurva linier ROC. Hal ini menunjukkan bahwa kedua algoritma tersebut
cocok digunakan untuk kebutuhan pembangunan model learning dataset terkait khususnya dalam
klasifikasi. Akan tetapi, Decision Tree lebih disarankan ketimbang Naïve Bayes, dikarenakan posisi
kurva Decision Tree lebih stabil ketimbang Naïve Bayes.
6
3. Kesimpulan
Melalui penelitian tersebut, visualisasi data performa klasifikasi menggunakan algoritma
Decision Tree lebih baik ketimbang Naïve Bayes. Hal ini dapat terlihat jelas, baik pada data proses
training dan testing, skor Decision Tree lebih unggul daripada Naïve Bayes (baik dari AUC, CA, F1,
Precision, Recall, dan posisi kurva ROC).
Daftar pustaka
[1] Pela, M. F., & Pramudita, R. (2021). Sistem Monitoring Penggunaan Daya Listrik Berbasis
Internet of Things Pada Rumah Dengan Menggunakan Aplikasi Blynk. Infotech: Journal of
Technology Information, 7(1), 47-54.
[2] Stephens, M.P. (2010) Productivity and reliability-based maintenance management. Purdue
University Press
[3] Akbar, M. R., & Widiasih, W. (2022). Analisis perawatan mesin bubut dengan metode preventive
maintenance guna menghindari kerusakan secara mendadak dan untuk menghitung biaya
perawatan. Jurnal SENOPATI: Sustainability, Ergonomics, Optimization, and Application of
Industrial Engineering, 4(1), 32-45.
[4] Yulita, W. (2021). Analisis sentimen terhadap opini masyarakat tentang vaksin covid-19
menggunakan algoritma naïve bayes classifier. Jurnal Data Mining dan Sistem Informasi, 2(2),
1-9.
[5] Muzakir, A., & Wulandari, R. A. (2016). Model Data Mining sebagai Prediksi Penyakit Hipertensi
Kehamilan dengan Teknik Decision Tree. Scientific Journal of Informatics, 3(1), 19-26.
[6] Rahayu, A. S., Fauzi, A., & Rahmat, R. (2022). Komparasi Algoritma Naïve Bayes Dan Support
Vector Machine (SVM) Pada Analisis Sentimen Spotify. Jurnal Sistem Komputer dan
Informatika (JSON), 4(2), 349-354.
[7] Wahono, R. S. (2015). Penerapan Naive Bayes untuk Mengurangi Data Noise pada Klasifikasi
Multi Kelas dengan Decision Tree. Journal of Intelligent Systems, 1(2), 136-142.
[8] Nawawi, M. S., Sembiring, F., & Erfina, A. (2021). Implementasi Algoritma K-Means Clustering
Menggunakan Orange Untuk Penentuan Produk Busana Muslim Terlaris. 789–797.
[9] Indrayuni, E. (2019). Klasifikasi Text Mining Review Produk Kosmetik Untuk Teks Bahasa
Indonesia Menggunakan Algoritma Naive Bayes. Jurnal Khatulistiwa Informatika, 7(1).
[10] Avrizal, A. W., & Junianto, E. (2023). Prediksi Kebangkrutan Perusahaan Menggunakan
Algoritma Decision Tree Berbasis Teknik Resampling. EProsiding Teknik Informatika
(PROTEKTIF), 4(1), 101–109.
[11] Aisyah, A., & Anraeni, S. (2022). Analisis penerapan metode K-Nearest Neighbor (K-NN) pada
dataset citra penyakit malaria. Indonesian Journal of Data and Science, 3(1), 17–29.
[12] Religia, Y., Nugroho, A., & Hadikristanto, W. (2021). Analisis Perbandingan Algoritma Optimasi
pada Random Forest untuk Klasifikasi Data Bank Marketing. Jurnal RESTI (Rekayasa Sistem
Dan Teknologi Informasi), 5(1), 187–192.
[13] Derisma. (2020). Perbandingan Kinerja Algoritma untuk Prediksi Penyakit Jantung dengan
Teknik Data Mining. Journal of Applied Informatics and Computing (JAIC), 4(1), 84–88.
[14] Ridwan, A. (2020). Penerapan Algoritma Naïve Bayes Untuk Klasifikasi Penyakit Diabetes
Mellitus. J. SISKOM-KB (Sistem Komput. Dan Kecerdasan Buatan), 4(1), 15–21.

Paper - Big Data - Ayu Styefani - 21520251037

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Paper - Big Data - Ayu Styefani - 21520251037

Uploaded by

Copyright:

Available Formats

Visualisasi Data Performa Algoritma Naïve Bayes dan Decision Tree untuk

Klasifikasi Gangguan Kelistrikan pada Jaringan Transmisi dan Distribusi

Ayu Styefiani1]Handaru Jati[2]

Penyiapan Pemilihan Pengujian dan

Tahapan-tahapan di atas dirincikan sebagai berikut.

Pembangunan program klasifikasi menggunakan visual programming berbantuan aplikasi

2. Hasil dan pembahasan

You might also like