You are on page 1of 114

Data Science:

methodS, platforms & Research

Romi Satria Wahono


romi@romisatriawahono.net
http://romisatriawahono.net
http://youtube.com/RomiSatriaWahono
08118228331

1
Romi Satria Wahono
• SMA Taruna Nusantara Magelang (1993)
• B.Eng, M.Eng & Ph.D in Software Engineering
Saitama University Japan (1994-2004)
Universiti Teknikal Malaysia Melaka (2014)
• Core Competency in Enterprise Architecture,
Software Engineering and Machine Learning
• Industrial Certifications: TOGAF, ITIL, PSM, CCAI, CCNA, etc
• LIPI Researcher (2004-2007)
• Founder and CEO:
• IlmuKomputerCom (2003) (Computing eLearning Portal)
• PT Brainmatics Cipta Informatika (2005) (IT Training & Certification)
• PT IlmuKomputerCom Braindevs Sistema (2014) (EA & Data Science)
• PT Brainmatics Indonesia Cendekia (2020) (IT Teaching Factory)
• Advisory Board of the UGM (DTETI) & Professional Member of IEEE, ACM and PMI
• SCOPUS/ISI Indexed Journal Reviewer: Information and Software Technology, Journal
of Systems and Software, Software: Practice and Experience, etc
• Inventor of the integrated multidimensional Enterprise Architecture (idEA) Framework,
Software Defect Prediction Framework & Software Dev. Governance Framework
• Enterprise Architecture & Digital Transformation Expert: KPK, LNSW, DJPK, BPPT, LIPI,
RistekDikti, UT, ESDM, Kemlu, Pertamina EP, PLN, PJB, PJBI, IP, FIF, etc.
• International IT & Research Award Winners from WSIS (United Nations), Kemdikbud,
Ristekdikti, LIPI, etc.
2
3
1. METHODS

Data
3. RESEARCH
Science2. PLATFORMs

4
1. METHODS

5
Pertumbunan Data

• Bisnis & Ekonomi


• Olahraga
• Biologi dan Kedokteran
• European Bioinformatics Institute (EBI)
• A single sequenced human genome
can be around 140GB in size

• Astronomi
• Sloan Digital Sky Survey
• New Mexico, 2000
• 140TB over 10 years
• Large Synoptic Survey Telescope
• Chile, 2016
• Will acquire 140TB every five days

6
Tsunami Data
• Mobile Electronics market
• 9B mobile subscriptions in 2021
• Web & Social Networks generates
amount of data
• Google: 100 PB per day, 3 million servers
• Facebook: 300 PB of user data per day
• Youtube: 1000PB video storage

• We are drowning in data,


but starving for knowledge
(John Naisbitt, Megatrends, 1988)

• Data harus diolah dan ditransformasi


menjadi pengetahuan supaya bisa
bermanfaat (value) bagi manusia
7
Transformasi
Data - Informasi – Pengetahuan - Kebijakan
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 07:00 17:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00

Data Kehadiran Pegawai


8
Data - Informasi – Pengetahuan - Kebijakan

NIP Masuk Alpa Cuti Sakit Telat

1103 22

1142 18 2 2

1156 10 1 11

1173 12 5 5

1180 10 12

Informasi dan Statistik Akumulasi Bulanan


Kehadiran Pegawai
9
Data - Informasi – Pengetahuan - Kebijakan

Senin Selasa Rabu Kamis Jumat

Terlambat 7 0 1 0 5

Pulang 0 1 1 1 8
Cepat
Izin 3 0 0 1 4

Alpa 1 0 2 0 2

Pola Kebiasaan Kehadiran Mingguan Pegawai


10
Data - Informasi – Pengetahuan - Kebijakan
• Kebijakan penataan jam kerja karyawan
khusus untuk hari senin dan jumat
• Peraturan jam kerja:
• Hari Senin dimulai jam 10:00
• Hari Jumat diakhiri jam 14:00
• Sisa jam kerja dikompensasi ke hari lain

11
Data - Informasi – Pengetahuan - Kebijakan

Kebijakan Penataan Jam


Kebijakan Kerja Pegawai

Pola Kebiasaan Datang-


Pengetahuan Pulang Pegawai

Informasi Informasi & Statistik


Kehadiran Pegawai

Data Data Absensi Pegawai

12
Data Science

Data Algorithm Knowledge

Disiplin ilmu yang mempelajari metode untuk menemukan pola,


pengetahuan, formula, aturan, ataupun insight dari suatu data yang
volumenya besar dan jenisnya beraneka ragam
13
14
New Jargon & Buzzwords but Old Methods!
Knowledge Discovery in Database (KDD)

Knowledge Extraction
Data Science
Business Intelligence
Data Mining
Information Harvesting

Big Data
Pattern Analysis Predictive Analytics

15
Data Science dan Pengaruh Bidang Lain
Matematika: Computer Science:
- Statistik - Algorithms
- Probabilitas - Database

Data
Science
Bidang Penerapan:
Artificial Intelligence:
- Kedokteran - Ekonomi
- Olahraga - Marketing
- Pattern Recognition - Bisnis - Manajemen
- Machine Learning - Arkeologi - Security
- Politik - Sosial Budaya

16
Data Science dan Pembagian Peran

Increasing potential
values to support End User
business decisions Decision
Making

Data Presentation Business Analyst


Visualization Techniques
Data Mining
Information Discovery and Modeling
Data Scientist
Data Exploration
Statistical Summary, Metadata, and Description

Data Preprocessing, Data Integration, Data Warehouses


DBA/
Data Sources DBE
Paper, Files, Web documents, Scientific experiments, Database Systems

17
Data di Kampus
• Puluhan ribu data mahasiswa di kampus yang
diambil dari sistem informasi akademik
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
• Seperti apa pengetahuan itu? Rumus, Pola, Aturan

18
Kompilasi, Statistik dan Visualisasi
Data Kelulusan Mahasiswa (Informasi)

• Berapa persen mahasiswa yang


bekerja?
• Berapa persen komposisi mahasiswa
antara laki-laki dan perempuan?
• Bagaimana rata-rata IP Semester
mahasiswa?
• Berapa rata-rata umur mahasiswa?

19
Kompilasi, Statistik dan Visualisasi
Data Kelulusan Mahasiswa (Informasi)

20
Pola Prediksi Kelulusan Mahasiswa
(Pengetahuan)

21
Data di Komisi Pemilihan Umum
• Puluhan ribu data calon anggota legislatif di KPU
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!

22
Kompilasi, Statistik dan Visualisasi
Data Pemilihan Umum (Informasi)

• Partai mana yang unggul di


banyak dapil?
• Apakah nomor urut dapat
mempengaruhi perolehan suara?
• Dapil mana yang secara umum
suara sah caleg dan suara sah
partai mendominasi?

23
Kompilasi, Statistik dan Visualisasi
Data Pemilihan Umum (Informasi)

24
Prediksi Calon Legislatif DKI Jakarta
(Pengetahuan)

25
Data di PT Taspen
• Jutaan data peserta ASN di PT Taspen
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
Status Jumlah Jenis
Notas Umur Tanggal Kejadian … Jenis Kejadian
Pernikahan Anak Kelamin
Meninggal Tanpa
01XXXXXX600 Menikah 1 Laki-Laki 58 6 Mei 1963 …
Kecelakaan

01XXXXXX000 Menikah 2 Laki-Laki 54 6 April 2021 … Kecelakaan Kerja

Meninggal Karena
04XXXXXX600 Menikah 1 Laki-Laki 52 3 Mei 2020 …
Kecelakaan
Cerai Meninggal Tanpa
01XXXXXX100 1 Perempuan 55 24 Maret 2021 …
Hidup/Mati Kecelakaan
Meninggal Tanpa
01XXXXXX400 Menikah 0 Perempuan 57 21 Maret 2021 …
Kecelakaan
Meninggal Karena
04XXXXXX600 Menikah 1 Laki-Laki 52 2 Maret 2020 …
Kecelakaan

04XXXXXX700 Menikah 2 Laki-Laki 40 7 April 2021 … Kecelakaan Kerja

… … … … … … … …

26
Kompilasi, Statistik dan Visualisasi
Data Peserta Taspen (Informasi)

• Berapa rata-rata usia yang mengalami


kejadian kecelakaan kerja dan
meninggal?
• Berapa jumlah klaim yang diajukan
berdasarkan jenis kelamin?
• Berapa jumlah peserta yang
mengalami kecelakaan berdasarkan
jenis kelamin?

• Bagaimana trend kejadian meninggal


dari tahun ke tahun?
27
Kompilasi, Statistik dan Visualisasi
Data Peserta Taspen (Informasi)

28
Profil Risiko Kecelakaan atau Meninggal
(Pengetahuan)

29
Data di Biro SDM Kemenkeu
• Puluhan ribu data pegawai di Kementerian
Keuangan
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
Id Pegawai Pangkat Jenis Jabatan Jenis Kelamin TMT CPNS TMT Jabatan TMT Pensiun … Masa Kerja

11460 III/b Pelaksana L 1 Maret 1981 1 Januari 2019 11 Januari 2011 … 39

11486 III/d Pelaksana L 1 Januari 1982 3 Mei 2021 7 Januari 2021 … 38

11504 III/b Pelaksana L 1 Oktober 1982 2 Januari 2018 4 Januari 2022 … 37

11509 II/d Pelaksana L 1 Maret 1983 10 Oktober 12 Januari 2020 … 37


2019
11514 III/d Struktural L 1 Maret 1983 2 Oktober 2017 1 Januari 2021 … 37

11520 III/b Pelaksana L 1 Maret 1983 1 Januari 2019 11 Januari 2021 … 37

11522 III/d Pelaksana L 1 Maret 1983 3 Februari 2022 5 Januari 2022 … 37

11523 IV/a Struktural L 1 Maret 1983 10 Mei 2018 9 Januari 2020 … 37

… … … … … … … … …

30
Kompilasi, Statistik dan Visualisasi
Data Pegawai Kemenkeu (Informasi)

• Berapa jumlah komposisi pegawai


laki-laki dan perempuan di masing-
masing jenjang jabatan?

• Berapa rata-rata masa kerja pegawai


di masing-masing jenjang jabatan?

• Berapa persen komposisi laki-laki dan


perempuan berdasarkan jenjang
pendidikan?

31
Kompilasi, Statistik dan Visualisasi
Data Pegawai Kemenkeu (Informasi)

32
Pola Profil Pejabat Eselon II Kemenkeu
(Pengetahuan)


33
Peran Utama Data Science

1. Estimasi

5. Asosiasi 2. Forecasting

Data Mining Roles


(Larose, 2005)

4. Klastering 3. Klasifikasi

34
Karakteristik Peran Utama Data Science
1. Estimasi
Atribut Numerik
Class Numerik
Atribut Numerik
(Korelasi)
Atribut Salah Satu Atribut Time Series
Binominal
(Transaksi) 5. Asosiasi 2. Forecasting
Tidak Butuh Class
Data Mining Roles
(Larose, 2005)
Atribut Numerik
4. Klastering 3. Klasifikasi Class Nominal
Tidak Punya Class Atribut Boleh Nominal dan Numerik

35
Klasifikasi Algoritma Data Science
Linear Regression
1. Estimasi Support Vector Machine

Generalized Linear Model


A Priori Deep Learning
Neural Network
FP-Growth 5. Asosiasi 2. Forecasting
Coefficient of Correlation
Data Mining Roles
(Larose, 2005)
Decision Tree
K-Means Naïve Bayes
4. Klastering 3. Klasifikasi K-Nearest Neighbor
K-Medoids

Self-Organizing Map Linear Discriminant Analysis


Fuzzy C-Means Logistic Regression

36
Dataset (Himpunan Data)
Attribute/Feature/Dimension
Class/Label/Target

Record/
Object/
Sample/
Tuple/
Data

Nominal
Numerik
37
1. Estimasi Waktu Pengiriman PizzaLabel
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16
2 1 7 4 20
3 2 4 6 18
4 4 6 8 36
...
1000 2 4 2 12

Pembelajaran dengan
Metode Estimasi (Regresi Linier)

Waktu Tempuh (T) = 0.48P + 0.23TL + 0.5J


Pengetahuan
38
Contoh: Estimasi Performansi CPU
• Example: 209 different computer configurations

Cycle time Main memory Cache Channels Performance


(ns) (Kb) (Kb)
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269

208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45

• Linear regression function


PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
39
2. Forecasting Harga Saham
Label Time Series

Dataset harga saham


dalam bentuk time
series (rentet waktu)

Pembelajaran dengan
Metode Forecasting (Neural Network)

40
Pengetahuan berupa
Rumus Neural Network

Prediction Plot

41
Forecasting Cuaca

42
Exchange Rate Forecasting

43
Inflation Rate Forecasting

44
3. Klasifikasi Kelulusan Mahasiswa
Label

NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Sekolah Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

Pembelajaran dengan
Metode Klasifikasi (C4.5)

45
Pengetahuan Berupa Pohon Keputusan

46
Profiling dan Prediksi Koruptor

Aktivitas Penindakan Prediksi dan klastering


calon tersangka koruptor

Asosiasi atribut
Data tersangka koruptor
Data Data Pengetahuan

Data Prediksi pencucian uang

Estimasi jenis dan


Aktivitas Pencegahan jumlah tahun hukuman

47
Kompilasi, Statistik dan Visualisasi
Data LHKPN (Informasi)

• Bagaimana sebaran rata-rata harta


tanah dan bangunan penyelenggara
negara seluruh provinsi?
• Bagaimana tren jumlah penyelenggara
yang melaporkan LHKPN dari tahun ke
tahun?
• Apakah ada anomali terhadap
perubahan jumlah harta yang
dilaporkan?
48
Kompilasi, Statistik dan Visualisasi
Data LHKPN (Informasi)

49
Pola Profil Tersangka Koruptor
(Pengetahuan)

50
Profiling dan Deteksi Kasus TKI
(Pengetahuan)

51
4. Klastering Bunga Iris
Dataset Tanpa Label

Pembelajaran dengan
Metode Klastering (K-Means)

52
Pengetahuan (Model) Berupa Klaster

53
Klastering Jenis Pelanggan

54
5. Aturan Asosiasi Pembelian Barang

Pembelajaran dengan
Metode Asosiasi (FP-Growth)

55
Pengetahuan Berupa Aturan Asosiasi

56
Aturan Asosiasi di Amazon.com

57
Data di Biro SDM Kemenkeu
• Puluhan ribu data pegawai di Kementerian
Keuangan
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
Id Pegawai Pangkat Jenis Jabatan Jenis Kelamin TMT CPNS TMT Jabatan TMT Pensiun … Masa Kerja

xyz60 III/b Pelaksana L 1 Maret 1981 1 Januari 2019 11 Januari 2011 … 39

xyz86 III/d Pelaksana L 1 Januari 1982 3 Mei 2021 7 Januari 2021 … 38

xyz04 III/b Pelaksana L 1 Oktober 1982 2 Januari 2018 4 Januari 2022 … 37

xyz09 II/d Pelaksana L 1 Maret 1983 10 Oktober 12 Januari 2020 … 37


2019
xyz14 III/d Struktural L 1 Maret 1983 2 Oktober 2017 1 Januari 2021 … 37

xyz20 III/b Pelaksana L 1 Maret 1983 1 Januari 2019 11 Januari 2021 … 37

xyz22 III/d Pelaksana L 1 Maret 1983 3 Februari 2022 5 Januari 2022 … 37

xyz23 IV/a Struktural L 1 Maret 1983 10 Mei 2018 9 Januari 2020 … 37

… … … … … … … … …

58
Korelasi Antar Atribut Pegawai Kemenkeu
(Pengetahuan)

59
Bentuk Knowledge (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Korelasi dan Asosiasi

4. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

60
2. platform

61
Data Science Process

Data Algorithm Knowledge

62
Data Science Landscape 2020

63
Magic Quadrant for Analytics and Business
Intelligence Platforms (Gartner 2020)

Founded by
Christian Chabot, Chris Stolte
and Pat Hanrahan
from Stanford University in 2003

Source: Gartner, Analytics and Business Intelligence Platforms, 2020


64
Magic Quadrant for Data Science Platform
(Gartner, 2018)

65
KNIME
• KNIME (Konstanz Information Miner): platform data mining untuk analisis,
pelaporan, dan integrasi data, perangkat lunak bebas dan sumber terbuka
• Dikembangkan tahun 2004 oleh tim pengembang dari Universitas Konstanz,
dipimpin oleh Michael Berthold, untuk penelitian industri farmasi
• Mulai banyak digunakan orang sejak tahun 2006, dan setelah itu
berkembang pesat, tahun 2017 masuk ke Magic Quadrant for Data Science
Platform (Gartner Group)

66
Rapidminer
• Dikembangkan tahun 2001 oleh Ralf Klinkenberg,
Ingo Mierswa, dan Simon Fischer di Artificial
Intelligence Unit dari University of Dortmund
• Dikembangkan dengan Java, berlisensi open
source AGPL versi 3
• Meraih penghargaan sebagai software data mining
dan data analytics terbaik di berbagai lembaga
kajian, termasuk IDC, Gartner, KDnuggets, dsb

67
Penerapan Data Science di Organisasi Sering Gagal?
1. Lupakan tools dan teknologi, mulai dari meningkatkan
pemahaman sumber daya manusia (SDM) di bidang data science
• Case study: BI, KPK, Kemlu, Kemsos, dsb
2. Kumpulkan dan analisis berbagai dataset organisasi yang
memungkinkan diolah jadi pola pengetahuan yang bermanfaat
• Sesuaikan dengan kebutuhan, visi, misi dan tujuan organisasi
3. Gunakan tools dan teknologi yang sederhana dan murah,
tunjukkan ke pimpinan bahwa makna dari data science adalah
pemanfaatan pola pengetahuan untuk tujuan organisasi
• Data visualization? Excel or Tableau
• Data mining? KNIME atau Rapidminer
4. Tingkatkan kompetensi SDM dan pengalaman pengolahan data
organisasi
• Training, workshop dan kompetisi untuk SDM internal
• Peningkatan kompetensi akan membawa ke pengadaan teknologi yang
akurat sesuai kebutuhan

Sudah terlalu banyak K/L dan BUMN yang melakukan


pengadaan teknologi data science, mencapai puluhan
miliar… dan akhirnya mubazir dan tidak digunakan 
68
Software Engineering Law

Architecture wins over technology


(Morris-Ferguson Law – L48)

69
Data Science Implementation Pattern
1. in General (Non Technological Industry)
1. Mengolah data menjadi pola pengetahuan
2. Menerapkan pola pengetahuan dalam bentuk kebijakan
organisasi (peraturan, regulasi, standard, dsb, tidak harus
berbentuk produk)

Secara umum kementerian, lembaga, perusahaan non technology


menggunakan pola ini dalam penerapan data mining

2. in Product Development (Technology Industry)


1. Mengolah data menjadi pola pengetahuan
2. Menerapkan pola pengetahuan ke sistem software yang
diproduksi (fungsi, metode, algoritma), sistem software
menjadi cerdas dan bermanfaat signifikan dalam
meningkatkan value dan benefit dari perusahaan/organisasi

Secara umum startup business dan GAFAM menggunakan pola ini

70
1. Data Science Implementation
in General (Non Technological Industry)

Data
Transaksi
Belanja Pola
Asosiasi

Penerapan pola pengetahuan


Association Rules dalam bentuk
kebijakan/regulasi/standard penataan
kategori produk barang di
Hypermart/Carrefour/Giant
71
1. Data Science Implementation
in General (Non Technological Industry)

Organisasi Masalah Tujuan Dataset


KPK • Sulitnya mengidentifikasi • Klasifikasi Profil Pelaku Korupsi • LHKPN
profil koruptor • Asosiasi Atribut Pelaku Korupsi • Penuntutan
• Tidak patuhnya WL • Klasifikasi Kepatuhan LHKPN
dalam LHKPN • Estimasi Penentuan Angka Tuntutan
Kemsos Banyaknya penerima Klastering profil rumah tangga miskin dari Data Terpadu
bantuan sosial yang tidak Data Terpadu Kesejahteraan Sosial (DTKS) Kesejahteraan
tepat sasaran Sosial (DTKS)
Adira Rasio kredit macet yang • Klasifikasi kualitas kreditur yang lancar Data Kreditur
Finance semakin meninggi dan macet
• Forecasting jumlah kredit macet
• Tingkat hubungan kredit macet dengan
berbagai atribut
PJB PLN Periode maintenance yang Estimasi berapa lama waktu yang Data
tidak terkendali dibutuhkan sampai pada periode Maintenance
maintenance berikutnya Pembangkit
Universitas Tingkat kelulusan tepat Klasifikasi data kelulusan mahasiswa Data
Siliwangi waktu belum maksimal mahasiswa

72
2. Data Science Implementation
in Product Development (Technology Industry)

1. Mengolah data untuk dijadikan


pola pengetahuan
(model/rule/formula/tree)
2. Pola pengetahuan
(model/rule/formula/tree)
dimasukkan ke dalam sistem
(software)
3. Sistem (software) menjadi cerdas
dan bermanfaat signifikan dalam
meningkatkan value dan benefit
dari perusahaan/organisasi

73
From Stupid (CRUD) Apps to Smart (Knowledge) Apps

Stupid Smart
Applications Applications
• Sistem Informasi • Sistem Prediksi
Akademik Kelulusan Mahasiswa
• Sistem Pencatatan • Sistem Prediksi Hasil
Pemilu Pemilu
• Sistem Laporan • Sistem Prediksi
Kekayaan Pejabat Koruptor
• Sistem Pencatatan • Sistem Penentu
Kredit Kelayakan Kredit

74
Revolusi Industri 4.0

75
Perusahaan Pengolah Pengetahuan
• Uber - the world’s largest taxi company,
owns no vehicles
• Google - world’s largest
media/advertising company, creates no
content
• Alibaba - the most valuable retailer, has
no inventory
• Airbnb - the world’s largest
accommodation provider, owns no real
estate
• Gojek - perusahaan angkutan umum,
tanpa memiliki kendaraan
76
3. Research

77
Perbedaan Key Performance Indikator (KPI):
Peneliti vs Industri

Peneliti Industri

78
Apa Yang Dikejar di Penelitian?
Research is a considered activity, which
aims to make an original contribution to
knowledge
(contribution to the body of knowledge, in the research field of interest)

(Dawson, 2009)

79
Bentuk Kontribusi ke Pengetahuan

Kegiatan penyelidikan dan investigasi


terhadap suatu masalah yang dilakukan
secara berulang-ulang dan sistematis,
dengan tujuan untuk menemukan atau
merevisi teori, metode, fakta, dan
aplikasi

(Berndtsson et al., 2008)

80
Perbedaan Kontribusi Penelitian Data Science:
Peneliti Bidang Computing vs Non Computing

Computing Non Computing


Researcher Researcher

81
Business

Knowledge

Methods

Technology
82
Masalah Penelitian Data Science
1. Tremendous amount of data
• Algorithms must be highly scalable to handle such as tera-bytes
of data
2. High-dimensionality of data
• Micro-array may have tens of thousands of dimensions
3. High complexity of data
• Data streams and sensor data
• Time-series data, temporal data, sequence data
• Structure data, graphs, social networks and multi-linked data
• Heterogeneous databases and legacy databases
• Spatial, spatiotemporal, multimedia, text and web data
• Software programs, scientific simulations

4. New and sophisticated applications


83
Kontribusi ke Pengetahuan

84
Contoh Kontribusi ke Pengetahuan
Penelitian Bidang Computing
Decision Tree CART (Breiman ,1984)

Credal C4.5 (Mantas, 2014)

Adaptative Credal C4.5


(Abellan, 2018)

Credal DT (Abellan, 2003)

C4.5 (Quinlan, 1993)


ID3 (Quinlan, 1986)
85
Research
Gaps

Masalah
Penelitian

Pemecahan
Masalah Penelitian
(Contribution to Knoweldge)

86
Data Science
Algorithm Improvement

Data Preprocessing
Algorithm Improvement

87
Non Computing Research Case
• Fokus ke analisis pola pengetahuan yang didapat dari proses
data mining
• Menggunakan standard process CRISP-DM
• Proses tersebut harus dapat digunakan di lintas industry (cross-
industry) dan netral secara bisnis, tool dan aplikasi yang digunakan
• Lahirlah di tahun 1996 standard proses data mining “the Cross-
Industry Standard Process for Data Mining” (CRISP–DM) (Chapman,
2000)

88
1. Business Understanding
• Problems:
• Sarah is a regional sales manager for a nationwide
supplier of fossil fuels for home heating
• She feels a need to understand the types of behaviors and
other factors that may influence the demand for heating
oil in the domestic market
• Marketing performance is very poor and decreasing,
while marketing spending is increasing

• Objective:
• To investigate the relationship between a number of
factors that influence heating oil consumption

89
2. Data Understanding
• In order to investigate her question, Sarah has enlisted our
help in creating a correlation matrix of six attributes
• Using employer’s data resources which are primarily drawn
from the company’s billing database, we create a data set
comprised of the following attributes:
1. Insulation: This is a density rating, ranging from one to ten,
indicating the thickness of each home’s insulation. A home
with a density rating of one is poorly insulated, while a home
with a density of ten has excellent insulation
2. Temperature: This is the average outdoor ambient
temperature at each home for the most recent year, measure
in degree Fahrenheit
3. Heating_Oil: This is the total number of units of heating oil
purchased by the owner of each home in the most recent year
4. Num_Occupants: This is the total number of occupants living
in each home
5. Avg_Age: This is the average age of those occupants
6. Home_Size: This is a rating, on a scale of one to eight, of the
home’s overall size. The higher the number, the larger the
home
90
3. Data Preparation
Data set: HeatingOil.csv

91
3. Data Preparation
• Data set appears to be very clean with:
• No missing values in any of the six attributes
• No inconsistent data apparent in our ranges (Min-Max)
or other descriptive statistics

92
4. Modeling

93
4. Modeling
• Hasil correlation matrix berupa tabel
• Semakin tinggi nilainya (semakin tebal warna
ungu), semakin tinggi tingkat korelasinya

94
5. Evaluation
Positive
Correlation

Negative
Correlation

95
5. Evaluation
• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)
pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-
Rata Umur) penghuni rumah
• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature
(hubungan negatif)
• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation
(hubungan positif)
• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupant
boleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

96
97
Tingkat Korelasi 4 Variable terhadap Konsumsi Minyak

Jumlah
Penghuni
Rumah
Rata-Rata 0.381
Umur 0.848
Konsumsi
Ketebalan 0.736 Minyak
Insulasi
Rumah

-0.774
Temperatur

98
5. Evaluation 1

• Grafik menunjukkan bahwa konsumsi minyak memiliki korelasi


positif dengan rata-rata usia
• Meskipun ada beberapa anomali juga terjadi:
1. Ada beberapa orang yang rata-rata usia tinggi, tapi kebutuhan
minyaknya rendah (warna biru muda di kolom kiri bagian atas)
2. Ada beberapa orang yang rata-rata usia rendah, tapi kebutuhan
minyaknya tinggi (warna merah di kolom kanan bagian bawah)
99
5. Evaluation 2 dan 3

2 dan 3

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak
(semakin merah kebutuhan minyak semakin tinggi)
2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalah
negatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas)
ditunjukkan dengan banyak yang berwarna kuning dan merah
3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin
butuh insulation
4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan
minyak yang tinggi 100
5. Evaluation

1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-rata


usia dan insulation
2. Warna menunjukkan kebutuhan minyak, semakin memerah maka
semakin tinggi
3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua
4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak
101
6. Deployment
Dropping the Num_Occupants attribute
• While the number of people living in a home might
logically seem like a variable that would influence
energy usage, in our model it did not correlate in any
significant way with anything else
• Sometimes there are attributes that don’t turn out to
be very interesting

102
6. Deployment
Adding additional attributes to the data set
• It turned out that the number of occupants in the
home didn’t correlate much with other attributes,
but that doesn’t mean that other attributes would
be equally uninteresting
• For example, what if Sarah had access to the
number of furnaces and/or boilers in each home?
• Home_size was slightly correlated with Heating_Oil
usage, so perhaps the number of instruments that
consume heating oil in each home would tell an
interesting story, or at least add to her insight

103
6. Deployment
Investigating the role of home insulation
• The Insulation rating attribute was fairly strongly
correlated with a number of other attributes
• There may be some opportunity there to partner
with a company that specializes in adding insulation
to existing homes

104
6. Deployment
Focusing the marketing efforts to the city with low
temperature and high average age of citizen
• The temperature attribute was fairly strongly negative
correlated with a heating oil consumption
• The average age attribute was strongest positive
correlated with a heating oil consumption

105
6. Deployment
Adding greater granularity in the data set

• This data set has yielded some interesting results, but it’s
pretty general
• We have used average yearly temperatures and total
annual number of heating oil units in this model
• But we also know that temperatures fluctuate
throughout the year in most areas of the world, and thus
monthly, or even weekly measures would not only be
likely to show more detailed results of demand and usage
over time, but the correlations between attributes would
probably be more interesting
• From our model, Sarah now knows how certain attributes
interact with one another, but in the day-to-day business
of doing her job, she’ll probably want to know about
usage over time periods shorter than one year
106
Non Computing Research Case

Organisasi Masalah Tujuan Dataset


KPK • Sulitnya mengidentifikasi • Klasifikasi Profil Pelaku Korupsi • LHKPN
profil koruptor • Asosiasi Atribut Pelaku Korupsi • Penuntutan
• Tidak patuhnya WL • Klasifikasi Kepatuhan LHKPN
dalam LHKPN • Estimasi Penentuan Angka Tuntutan
Kemsos Banyaknya penerima Klastering profil rumah tangga miskin dari Data Terpadu
bantuan sosial yang tidak Data Terpadu Kesejahteraan Sosial (DTKS) Kesejahteraan
tepat sasaran Sosial (DTKS)
Adira Rasio kredit macet yang • Klasifikasi kualitas kreditur yang lancar Data Kreditur
Finance semakin meninggi dan macet
• Forecasting jumlah kredit macet
• Tingkat hubungan kredit macet dengan
berbagai atribut
PJB PLN Periode maintenance yang Estimasi berapa lama waktu yang Data
tidak terkendali dibutuhkan sampai pada periode Maintenance
maintenance berikutnya Pembangkit
Universitas Tingkat kelulusan tepat Klasifikasi data kelulusan mahasiswa Data
Siliwangi waktu belum maksimal mahasiswa

107
Non Computing Research Case

Organisasi Masalah Tujuan Dataset


Kemenkeu Sulit menentukan arah opini 1. Melihat hubungan beberapa data Data Profil
(DJPB) hasil audit kementerian terhadap opini Kementerian
2. Klasifikasi profil kementerian
Kemenkeu Banyaknya pelaporan kanwil 1. Melihat hubungan beberapa indikator Data
(DJPB) yang harus dianalisis dengan laporan kanwil terhadap akurasi Pelaporan
beragam atribut 2. Klastering data pelaporan kanwil Kanwil
3. Klasifikasi akurasi pelaporan kanwil
Kemenkeu Sulit menentukan prioritas 1. Klastering data profil kanwil Data Transaksi
(DJPB) monitoring kanwil 2. Melihat hubungan beberapa atribut dan Profil
terhadap klaster profil kanwil Kanwil
Kemenkeu Kebijakan masalah reward Klasifikasi profil pegawai yang sering telat Data Pegawai
(SDM) dan punishment untuk dan disiplin, sehingga terdeteksi lebih dini
pegawai sering tidak efektif
Kemenkeu Rasio perempuan yang • Klasifikasi dan klastering profile pejabat Data Pegawai
(SDM) menjabat eselon 4/3/2/1 eselon 4/3/2/1
hanya 15%, padahal masuk • Asosiasi jabatan dan atribut profile
PNS rasionya hampir imbang pegawai

108
Non Computing Research Case
Organisasi Masalah Tujuan Dataset
DJPPR Proses pertanggungjawaban • Klastering kecepatan proses Data
pinjaman kegiatan memakan pertanggungjawaban data pinjaman Pinjaman
waktu cukup lama • Klasifikasi kecepatan proses
pertanggungjawaban data pinjaman
• Tingkat hubungan berbagai faktor dengan
kecepatan proses

DJPPR Memahami profil investor • Klasifikasi profil investor yang akan membeli Data
seperti apa yang berminat Surat Berharga Negara Ritel jenis Tradable atau pembelian
untuk membeli SBN Ritel Non Tradeable SBN Ritel
Tradable atau Non-Tradable • Tingkat hubungan berbagai faktor dengan
sehingga diharapkan dapat kecepatan proses
meningkatkan penjualan
DJPPR Sebagian besar kegiatan yang • Korelasi antar atribut data Kementerian Data profile
dibiayai melalui pinjaman pelaksana proyek, besaran nominal komitmen, kegiatan 10
mengalami keterlambatan. jenis kegiatan (terhadap perpanjangan proyek tahun
Perpanjangan proyek berakibat • Pengelompokan proyek sesuai tingkat risiko. terakhir
pada penambahan biaya Proyek dengan risiko besar membutuhkan
komitmen. pemantauan lebih ketat.
• Memprediksi risiko yang akan terjadi kegiatan
baru yang diusulkan, apakah akan juga
mengalami keterlambatan
109
Non Computing Research Case

Organisasi Masalah Tujuan Dataset


BPKP Pembebasan lahan yang belum • Melakukan profiling lahan Data PSN
tuntas sering menghambat dengan cara mengklasifikasi
penyelesaian PSN (Proyek Strategis dataset lahan sehingga dapat
Nasional). Selain masalah mengantisipasi kedepannya
pembebasan lahan, terdapat lahan seperti apa yang sulit
beberapa faktor lainnya yang juga dibebaskan
dapat menghambat penyelesaian • Melakukan analisis korelasi
PSN. untuk mengetahui hubungan
antar faktor hambatan
penyelesaian PSN
BPKP Rekomendasi hasil audit seringkali Melakukan klasifikasi LHP untuk Data LHP
belum ditindaklanjuti/ mengetahui profil LHP seperti
diimplementasikan oleh K/L/P apa yang rekomendasinya sulit
untuk ditindaklanjuti oleh K/L/P.
BPKP Vaksinasi harus dimanfaatkan Mendeteksi anomali • Data Distribusi
dengan baik sesuai dengan penyalahgunaan vaksinasi vaksin
peruntukannya. Pemanfaatan vaksin dengan melakukan klasifikasi • Data Profil
yang disalahgunakan dapat profil pelaksana vaksinasi Pelaksana
merugikan keuangan negara Vaksin
110
Non Computing Research Case

Organisasi Masalah Tujuan Dataset


BPKP Ketidaktepatan realisasi anggaran • Klasifikasi penugasan untuk • Data PKPT
program pengawasan dengan mengetahui karakteristik penugasan • Data
perencanaan dapat menghambat yang tidak sesuai dengan rencana Realisasi
capaian PKPT (Program Kerja PKPT. Anggaran
Pengawasan Tahunan) • Klasifikasi penugasan untuk
mengetahui profil penugasan yang
tidak selesai tepat waktu
BPKP Pemberian subsidi bunga/subsidi Mendeteksi anomali ketidaksesuaian • Data Profil
margin bagi warga penerima Kredit pemberian subsidi kredit dengan Warga
Pemilikan Rumah (KPR) yang tidak melakukan klasifikasi kelayakan Penerima
tepat sasaran dapat merugikan pemberian subsidi bunga/subsidi margin. KPR
negara dan warga yang seharusnya • Data
berhak. Pengawasan terhadap Perkreditan
anomali ketidaktepatan sasaran
cukup memakan waktu.
BPKP Penyerapan ABPD di beberapa Mencari faktor-faktor yang • Realisasi
pemda terindikasi rendah. BPKP mempengarhui terhadap tinggi APBD
memiliki tanggung jawab untuk rendahnya penyerapan APBD dengan • Profil Pemda
mengawal penyerapan APBD. melakukan klasifikasi penyerapan APBD
Pemda
111
Non Computing Research Case

Organisasi Masalah Tujuan Dataset


BPKP BPKP menerima pengaduan Mengklasifikasi pengaduan masyarat, • Data
masyarat terkait ASN daerah. untuk membantu rekomendasi Pengaduan
Analisis dan tindak lanjut pengaduan masyarakat yang memerlukan Masyarakat
pengaduan masyarakat tindak lanjut.
membutuhkan waktu dan sumber
daya.
BPKP Banyak pegawai yang resign dari Analisis faktor yang mengakibatkan • Data
BPKP. Rekrutmen pegawai baru pegawai resign dengan melakukan Pegawai
memerlukan biaya. klasifiksai pegawai resign

BPKP Saat ini terdapat 3000 dokumen • Klastering dokumen untuk • Data
dikelola di KMS, yang diklasifikasi ke menentukan banyaknya jenis Dokumen
dalam 40 jenis tema. Masih dokumen. KMS
terdapat 1000 dokumen yang perlu • Klasifikasi 1000 dokumen ke
diklasifikasi. Klasifikasi dokumen berdasarkan cluster dokumen baru
memerlukan waktu lama.
BPKP Pusinfowas mengelola layanan dan • Analisis faktor yang mengambat • Dataset
insiden terkait layanan sesuai waktu penyelesaian insiden dengan Insiden
SLA. Beberapa penanganan insiden melakukan klasifikasi insiden, profil
melebihi waktu SLA. insiden seperti apa yang melebihi SLA
112
Data Science Laws
1. Business objectives are the origin of every data mining
solution
2. Business knowledge is central to every step of the data
mining process
3. Data preparation is more than half of every data mining
process
4. There is no free lunch for the data miner
5. There are always patterns
6. Data mining amplifies perception in the business domain
7. Prediction increases information locally by generalisation
8. The value of data mining results is not determined by the
accuracy or stability of predictive models
9. All patterns are subject to change

Tom Khabaza, Nine Laws of Data Mining, 2010


(http://khabaza.codimension.net/index_files/9laws.htm)
113
Terima
kasih
Romi Satria Wahono
romi@romisatriawahono.net
http://romisatriawahono.net
http://youtube.com/RomiSatriaWahono
08118228331

114

You might also like