You are on page 1of 90

3 Data Science

Implementation Patterns

Romi Satria Wahono


romi@romisatriawahono.net
http://romisatriawahono.net
http://youtube.com/RomiSatriaWahono
08118228331

1
Romi Satria Wahono
• SMA Taruna Nusantara Magelang (1993)
• B.Eng, M.Eng & Ph.D in Software Engineering,
Saitama University Japan (1994-2004)
Universiti Teknikal Malaysia Melaka (2012-2014)
• Core Competency in Enterprise Architecture, Software Engineering,
and Machine Learning
• LIPI Researcher (2004-2007)
• Founder and CEO:
• IlmuKomputer.Com (2003) (Computing eLearning Platform)
• BrainCorp Group
• PT Brainmatics Indonesia Cendekia (2005) (IT Training & Certifications)
• PT IlmuKomputerCom Braindevs Sistema (2014) (IT Development & Services)
• IT & Research Award Winners from WSIS (United Nations), Kemdikbud, LIPI, Mombusho, etc.
• Industrial Certifications: TOGAF, ITIL, PSM, CCAI, CCNA, etc
• Advisory Board of the UGM (DTETI), Professional Member of IEEE, ACM & PMI
• SCOPUS/ISI Indexed Journal Reviewer: Information and Software Technology,
Journal of Systems and Software, Software: Practice and Experience, etc
• Inventor of the integrated multidimensional (id) Framework for Digital Transformation
Enterprise Architecture (idEA) Data Management (idDM) Product Management (idPM)
Business Process Management (idBPM) Data Science (idDS) Software Engineering (idSE)
• Industrial Portfolios:
• K/L: KPK, Polri, BPK, BPKP, OJK, Kemenkeu (LNSW, DJPK), Kemlu, Kominfo, KLHK, ESDM, RistekDikti, etc
• BUMN/Swasta: Pertamina Group (PEP, PGE, PIP), PLN Group (Corsec, IP, NP, PJB, PJBI, CDB),
Astra Group (FIF), Taspen, etc
• Universitas/Organisasi: UGM, UT, UPI, Poltek Negeri Batam, IAIN Pare-pare, AIPJ, KOMPAK, etc.
2
3
BraindevsID: Architecting the Enterprise

4
BrainmaticsID: Educating the Enterprise

5
BrainmaticsID: Educating the Enterprise

6
BrainmaticsID: Educating the Enterprise

7
BrainmaticsID Learning Management Systems

8
1. Regulation
Improvements

3 Data Science
Implementation Patterns
3. Algorithm 2. Software
Improvements Improvements

10
0. Data Science Concepts

11
• Mobile Electronics market
Tsunami Data • 9B mobile subscriptions
• Bisnis & Ekonomi
• Olahraga
• Biologi dan Kedokteran
• European Bioinformatics Institute (EBI)
• A single sequenced human genome
can be around 140GB in size

• Astronomi
• Sloan Digital Sky Survey
• 140TB over 10 years (New Mexico, 2000)
• Large Synoptic Survey Telescope
• Acquire 140TB every five days (Chile, 2016)

• Web & Social Networks


generates amount of data
• Google: 100 PB per day, 3 million servers
• Facebook: 300 PB of user data per day
• Youtube: 1000PB video storage

14
Transformasi Data: Membuat Data Memiliki Nilai

• We are drowning in data, but starving for


knowledge (John Naisbitt, Megatrends, 1988)

• Data harus diolah dan ditransformasi menjadi


informasi dan pengetahuan supaya bisa bermanfaat
(value) bagi manusia

15
Data - Informasi – Pengetahuan - Kebijakan
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:40
1173 02/12/2004 07:00 17:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00

Data Kehadiran Pegawai


16
Data - Informasi – Pengetahuan - Kebijakan

NIP Masuk Alpa Cuti Sakit Telat

1103 22

1142 18 2 2

1156 10 1 11

1173 12 5 5

1183 10 12

Informasi dan Statistik Akumulasi Bulanan


Kehadiran Pegawai
17
Data - Informasi – Pengetahuan - Kebijakan

Senin Selasa Rabu Kamis Jumat

Terlambat 17 0 1 0 5

Pulang 0 1 1 1 21
Cepat
Izin 4 0 0 1 4

Alpa 6 0 2 0 2

Pola Kebiasaan Kehadiran Mingguan Pegawai


18
Data - Informasi – Pengetahuan - Kebijakan
• Kebijakan penataan jam kerja karyawan
khusus untuk hari senin dan jumat
• Peraturan jam kerja:
• Hari Senin dimulai jam 10:00
• Hari Jumat diakhiri jam 14:00
• Sisa jam kerja dikompensasi ke hari lain

19
Data - Informasi – Pengetahuan - Kebijakan

Kebijakan Penataan Jam


Kebijakan Kerja Pegawai

Pola Kebiasaan Datang-


Pengetahuan Pulang Pegawai

Informasi Informasi & Statistik


Kehadiran Pegawai

Data Data Absensi Pegawai

20
Data - Informasi – Pengetahuan - Kebijakan
• Dokter secara sadar atau tidak • Profesi bidang lain (ekonomi,
sadar selama puluhan tahun hukum, politik, olahraga, dsb)
mengumpulkan data gejala-gejala melakukan hal serupa, me-mining
pasien yang menderita suatu data-data yang didapat menjadi
penyakit pengetahuan
• Dari data-data tersebut dokter
membuat keputusan atau diagnosa
tentang apa penyakit yang diderita
oleh pasien-pasiennya
• Di era sekarang, mengubah data
• Diagnosa dokter bisa benar menjadi pengetahuan bukan lagi
ataupun salah, dan hasil diagnosa monopoli manusia, tapi dilakukan
itu akan menjadi pengetahuan bagi oleh komputer dan algoritma
dokter untuk membuat diagnosa
yang lebih akurat
• Melahirkan disiplin ilmu Data
Mining atau Data Science

21
Data Science

Data Algorithm Knowledge

Disiplin ilmu yang mempelajari metode untuk menemukan pola,


pengetahuan, formula, aturan, ataupun insight dari suatu data yang
volumenya besar dan jenisnya beraneka ragam
22
Data Science dan Tren Penamaan Bidang
Knowledge Discovery in Database (KDD)

Knowledge Extraction Data Science


Business Intelligence
Data Mining
Information Harvesting
Data Analytics
Big Data
Pattern Analysis Predictive Analytics
23
Data Mahasiswa di Universitas
• Ratusan ribu data mahasiswa di kampus yang
diambil dari sistem informasi akademik
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
• Seperti apa pengetahuan itu? Rumus, Pola, Aturan

28
Kompilasi, Statistik dan Visualisasi
Data Kelulusan Mahasiswa (Informasi)

• Berapa persen mahasiswa yang


bekerja?
• Berapa persen komposisi mahasiswa
antara laki-laki dan perempuan?
• Bagaimana rata-rata IP Semester
mahasiswa?
• Berapa rata-rata umur mahasiswa?

29
Pola Prediksi Kelulusan Mahasiswa
(Pengetahuan)

30
Data Nasabah di PT Taspen
• Jutaan data peserta ASN di PT Taspen
• Apakah pernah kita ubah menjadi pengetahuan
yang lebih bermanfaat? TIDAK!
Status Jumlah Jenis
Notas Umur Tanggal Kejadian … Jenis Kejadian
Pernikahan Anak Kelamin
Meninggal Tanpa
01XXXXXX600 Menikah 1 Laki-Laki 58 6 Mei 1963 …
Kecelakaan

01XXXXXX000 Menikah 2 Laki-Laki 54 6 April 2021 … Kecelakaan Kerja

Meninggal Karena
04XXXXXX600 Menikah 1 Laki-Laki 52 3 Mei 2020 …
Kecelakaan
Cerai Meninggal Tanpa
01XXXXXX100 1 Perempuan 55 24 Maret 2021 …
Hidup/Mati Kecelakaan
Meninggal Tanpa
01XXXXXX400 Menikah 0 Perempuan 57 21 Maret 2021 …
Kecelakaan
Meninggal Karena
04XXXXXX600 Menikah 1 Laki-Laki 52 2 Maret 2020 …
Kecelakaan

04XXXXXX700 Menikah 2 Laki-Laki 40 7 April 2021 … Kecelakaan Kerja

… … … … … … … …

34
Kompilasi, Statistik dan Visualisasi
Data Nasabah PT Taspen (Informasi)

• Berapa rata-rata usia yang mengalami


kejadian kecelakaan kerja dan
meninggal?
• Berapa jumlah klaim yang diajukan
berdasarkan jenis kelamin?
• Berapa jumlah peserta yang
mengalami kecelakaan berdasarkan
jenis kelamin?

• Bagaimana trend kejadian meninggal


dari tahun ke tahun?
35
Profil Risiko Kecelakaan atau Meninggal
(Pengetahuan)

36
Data Monitoring Bank US FDIC
• Miliaran data Bank di Amerika
• Dikelola oleh US FDIC
Domestic Skor Status
Bank Klasifikasi Bank Deposit Aset Regulator …
Deposit Risiko Monitoring
State-Chartered
Stoughton Co-Operative Bank 46645 96326 75160 FED … 100 Monitoring
Mutual Savings

Concord Branch National 154554 100642478 68755303 OCC … 100 Monitoring


State Non-
Wakefield Co-Operative Bank 74480 174742 147124 FDIC … 100 Monitoring
Member
State Non-
Cape Cod Co-Operative Bank 144528 745395 554956 FDIC … 100 Not Monitoring
Member
Frost State Bank State-Chartered 34860 39881 34860 FDIC … 100 Monitoring
Security Bank Of Southwest
State-Chartered 62916 79812 71702 FDIC … 100 Not Monitoring
Missouri
White City Branch National 13107 842390 731355 OCC … 88 Monitoring
The Bank State-Chartered 43815 335827 257019 FDIC … 100 Monitoring
… … … … … … … … …

42
Kompilasi, Statistik dan Visualisasi
Data Monitoring Bank US FDIC (Informasi)

• Berapa rata-rata terbesar domestic deposit


di masing-masing wilayah?
• Berapa perbandingan rata-rata skor risiko
berdasarkan status pengawasan?
• Bagaimana sebaran lokasi berdasarkan
alamat bank?
• Berapa rata-rata skor risiko dimasing-
masing wilayah?
• Berapa persentase deposit sesuai jenis
bank?

43
Pola Prediksi Monitoring Bank (Pengetahuan)
Domestic Skor Status
Bank Klasifikasi Bank Deposit Aset Regulator …
Deposit Risiko Monitoring

State-Chartered
Stoughton Co-Operative Bank 46645 96326 75160 FED … 100 Monitoring
Mutual Savings

Concord Branch National 154554 100642478 68755303 OCC … 100 Monitoring


State Non-
Wakefield Co-Operative Bank 74480 174742 147124 FDIC … 100 Monitoring
Member
State Non-
Cape Cod Co-Operative Bank 144528 745395 554956 FDIC … 100 Not Monitoring
Member
Frost State Bank State-Chartered 34860 39881 34860 FDIC … 100 Monitoring
Security Bank Of Southwest
State-Chartered 62916 79812 71702 FDIC … 100 Not Monitoring
Missouri
White City Branch National 13107 842390 731355 OCC … 88 Monitoring
The Bank State-Chartered 43815 335827 257019 FDIC … 100 Monitoring
… … … … … … … … …

• Profil Bank yang memerlukan monitoring yaitu


• Skor risiko > 95 dengan deposit < $200.762
• Skor risiko < 95 dengan deposit > $7.067.815
• Skor risiko < 91, bukan Member Holding Company

• Skor risiko, deposit, aset dan member holding


company merupakan beberapa variabel yang
berdampak terhadap perlunya pengawasan Bank
44
Peran Utama Data Science

1. Estimasi

5. Asosiasi 2. Forecasting

Data Mining Roles


(Larose, 2005)

4. Klastering 3. Klasifikasi

45
Dataset (Himpunan Data)
Attribute/Feature/Dimension
Class/Label/Target

Record/
Object/
Sample/
Tuple/
Data

Nominal
Numerik
46
Karakteristik Peran Utama Data Science
1. Estimasi
Atribut Numerik
Atribut Numerik Class Numerik
(Korelasi)
Salah Satu Atribut Time Series
Atribut Binominal
(Transaksi) 5. Asosiasi 2. Forecasting
Tidak Butuh Class
Data Mining Roles
(Larose, 2005)
Atribut Numerik
Class Nominal
4. Klastering 3. Klasifikasi
Tidak Punya Class Atribut Boleh Nominal dan Numerik

47
Klasifikasi Algoritma Peran Utama Data Mining
Linear Regression
1. Estimasi Support Vector Machine

Coefficient of Correlation Generalized Linear Model


(Korelasi) Deep Learning
Neural Network
FP-Growth &
5. Asosiasi 2. Forecasting
Apriori

(Transaksi) Data Mining Roles


(Larose, 2005) Decision Tree
K-Means
4. Klastering 3. Klasifikasi K-Nearest Neighbor
K-Medoids Naïve Bayes
Self-Organizing Map Neural Network Linear Discriminant Analysis
Fuzzy C-Means
Logistic Regression
48
1. Estimasi Waktu Pengiriman Pizza Label

Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16
2 1 7 4 20
3 2 4 6 18
4 4 6 8 36
...
1000 2 4 2 12

Pembelajaran dengan
Metode Estimasi (Regresi Linier)

Waktu Tempuh (T) = 0.48P + 0.23TL + 0.5J


Pengetahuan
49
2. Forecasting Harga Saham
Label Time Series

Dataset harga saham


dalam bentuk time
series (rentet waktu)

Pembelajaran dengan
Metode Forecasting
(Neural Network)

51
3. Klasifikasi Kelulusan Mahasiswa
NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Sekolah Waktu Label
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

Pembelajaran dengan
Metode Klasifikasi
(C4.5)

56
Profiling dan Prediksi Koruptor

Aktivitas Penindakan Prediksi dan klastering


calon tersangka koruptor

Asosiasi atribut
Data tersangka koruptor
Data Data Pengetahuan

Data Prediksi pencucian uang

Estimasi jenis dan


Aktivitas Pencegahan jumlah tahun hukuman

58
Pola Profil Tersangka Koruptor
(Pengetahuan)

61
4. Klastering Bunga Iris
Dataset Tanpa Label

Pembelajaran dengan
Metode Klastering (K-Means)

63
5. Aturan Asosiasi Pembelian Barang

Data
Transaksi
Belanja Pola
Asosiasi

Pembelajaran dengan Metode Asosiasi (FP-Growth)

Penerapan Association Rules:


1. Kebijakan/regulasi/standard penataan
kategori produk barang di Hypermart/Carrefour/Giant
2. Masuk ke Apps & Sistems seperti Amazon, Netflix, Spotify, dsb
66
Data Science Landscape

72
Magic Quadrant for Analytics and Business
Intelligence Platforms (Gartner 2020)

TABLEAU
Christian Chabot, Chris Stolte
and Pat Hanrahan
(Stanford University)
in 2003

Source: Gartner, Analytics and Business Intelligence Platforms, 2020


73
Magic Quadrant for Data Science Platform
(Gartner, 2018)
KNIME
Michael Berthold
(Konstanz University)
in 2004

RAPID MINER
Ralf Klinkenberg, Ingo
Mierswa, dan Simon Fischer
(University of Dortmund)
in 2001

74
Data Science Implementation Pattern
1. Regulation Improvements
• Mengolah data menjadi pola pengetahuan
• Menerapkan pola pengetahuan dalam bentuk kebijakan organisasi
(peraturan, regulasi, standard, dsb, tidak harus berbentuk produk)
• Dilakukan oleh kementerian, lembaga, perusahaan non technology

2. Software Improvements
• Mengolah data menjadi pola pengetahuan
• Menerapkan pola pengetahuan ke sistem software yang diproduksi
(fungsi, metode, algoritma), sistem software menjadi cerdas dan
bermanfaat signifikan dalam meningkatkan value dan benefit dari
perusahaan/organisasi
• Dilakukan oleh perusahaan technology, startup business dan GAFAM

3. Algorithm Improvements
• Mencari kelemahan algoritma data science, melakukan penelitian dan
memperbaiki kelemahan itu dengan ide/mekanisme/solusi baru
• Konsentrasi ke pengukuran performa dari algoritma, dan bukan pola
pengetahuan yang dihasilkan
• Dilakukan oleh peneliti di universitas atau perusahaan (technology atau
non technology)
75
1. Regulation Improvements

76
Data Science Implementation:
Regulation Improvements
1. Mengolah data untuk dijadikan
pola pengetahuan
(model/rule/formula/tree)
2. Pola pengetahuan
(model/rule/formula/tree) dalam
bentuk kebijakan organisasi
(peraturan, regulasi, standard,
dsb, tidak harus berbentuk
produk)
3. Dilakukan oleh kementerian,
lembaga, organisasi dan
perusahaan non technology

77
Regulation Improvement Use Cases

Organisasi Masalah Tujuan Dataset


KPK • Sulitnya mengidentifikasi • Klasifikasi Profil Pelaku Korupsi • LHKPN
profil koruptor • Asosiasi Atribut Pelaku Korupsi • Penuntutan
• Tidak patuhnya WL • Klasifikasi Kepatuhan LHKPN
dalam LHKPN • Estimasi Penentuan Angka Tuntutan
Kemsos Banyaknya penerima Klastering profil rumah tangga miskin dari Data Terpadu
bantuan sosial yang tidak Data Terpadu Kesejahteraan Sosial (DTKS) Kesejahteraan
tepat sasaran Sosial (DTKS)
Adira Rasio kredit macet yang • Klasifikasi kualitas kreditur yang lancar Data Kreditur
Finance semakin meninggi dan macet
• Forecasting jumlah kredit macet
• Tingkat hubungan kredit macet dengan
berbagai atribut
PLN Periode maintenance yang Estimasi berapa lama waktu yang Data
tidak terkendali dibutuhkan sampai pada periode Maintenance
maintenance berikutnya Pembangkit
LKPP Banyaknya konsultasi dan • Asosiasi pola pertanyaan instansi Data Hasil
pertanyaan dari berbagai • Klasifikasi jenis pertanyaan Konsultasi
instansi yg harus dijawab 78
Regulation Improvement Use Cases
Organisasi Masalah Tujuan Dataset
• Capaian tingkat maturitas SPIP K/L/P ditargetkan • Profiling Data
sebesar 81,81% dan MRI K/L/P/BU ditargetkan Maturitas SPIP Maturitas
sebesar 50,92%. Provinsi dan
BPKP
• Capaian maturitas SPIP dan MRI level 3 dinilai • Profiling Kapabilitas
masih rendah dan dibutuhkan upaya yang lebih Kapabilitas SPIP SPIP
baik lagi di Pemprov
Belum mempunyai data Profil K/L, Pemprov, Pemkab, Klastering Profil Data Profil
Pemkot yang terstruktur untuk menentukan ruang Kementerian dan Kementeri
BPKP
lingkup pengawasan dan area pengawasan mana saja Lembaga an dan
yang perlu dipertajam pengawasannya Lembaga
Taspen Besaran nilai investasi ini seringkali tidak dapat Forecasting nilai Data
diprediksi, berapa nilai yang akan diinvestasikan Klaim untuk Peserta
setiap tahun. Hal ini dikarenakan tidak dapat mengestimasi Taspen
dihindarkannya pemenuhan klaim yang tidak terduga besaran nilai
seperti kecelakaan peserta, peserta keluar dan investasi yang
peserta meninggal. aman

Taspen Penanganan klaim program asuransi dan pembayaran Klasifikasi untuk Data
pensiun, terdapat risiko adanya proses klaim palsu. deteksi proses Peserta
Klaim palsu dapat merugikan perusahaan.
79
Klaim Palsu Taspen
Data Science Process
• Dunia industri yang beragam bidangnya memerlukan proses
yang standard yang mampu mendukung penggunaan data
mining untuk menyelesaikan masalah bisnis
• Proses tersebut harus dapat digunakan di lintas industry (cross-
industry) dan netral secara bisnis, tool dan aplikasi yang digunakan
• Lahirlah di tahun 1996 standard proses data mining “the
Cross-Industry Standard Process for Data Mining” (CRISP–DM)
(Chapman, 2000)

80
1. Business Understanding
• Problems:
• Sarah is a regional sales manager for a nationwide
supplier of fossil fuels for home heating
• She feels a need to understand the types of behaviors and
other factors that may influence the demand for heating
oil in the domestic market
• Marketing performance is very poor and decreasing,
while marketing spending is increasing

• Objective:
• To investigate the relationship between a number of
factors that influence heating oil consumption

81
2. Data Understanding
Using employer’s data resources which are primarily drawn from
the company’s billing database, we create a data set comprised of
the following attributes:
1. Insulation: This is a density rating, ranging from one to ten, indicating
the thickness of each home’s insulation. A home with a density rating
of one is poorly insulated, while a home with a density of ten has
excellent insulation
2. Temperature: This is the average outdoor ambient temperature at
each home for the most recent year, measure in degree Fahrenheit
3. Heating_Oil: This is the total number of units of heating oil purchased
by the owner of each home in the most recent year
4. Num_Occupants: This is the total number of occupants living in each
home
5. Avg_Age: This is the average age of those occupants
6. Home_Size: This is a rating, on a scale of one to eight, of the home’s
overall size. The higher the number, the larger the home

82
3. Data Preparation
Data set: HeatingOil.csv

83
3. Data Preparation
Data set appears to be very clean with:
• No missing values in any of the six attributes
• No inconsistent data apparent in our ranges (Min-Max) or
other descriptive statistics

84
4. Modeling

85
4. Modeling
• Hasil correlation matrix berupa tabel
• Semakin tinggi nilainya (semakin tebal warna
ungu), semakin tinggi tingkat korelasinya

86
5. Evaluation
Positive
Correlation

Negative
Correlation

87
5. Evaluation
• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)
pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-
Rata Umur) penghuni rumah
• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature
(hubungan negatif)
• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation
(hubungan positif)
• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupant
boleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

88
89
5. Evaluation 2 dan 3

2 dan 3

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak
(semakin merah kebutuhan minyak semakin tinggi)
2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalah
negatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas)
ditunjukkan dengan banyak yang berwarna kuning dan merah
3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin
butuh insulation
4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan
minyak yang tinggi 91
6. Deployment
Investigating the role of home insulation
• The Insulation rating attribute was fairly strongly
correlated with a number of other attributes
• There may be some opportunity there to partner
with a company that specializes in adding insulation
to existing homes

92
6. Deployment
Focusing the marketing efforts to the city with low
temperature and high average age of citizen
• The temperature attribute was fairly strongly negative
correlated with a heating oil consumption
• The average age attribute was strongest positive
correlated with a heating oil consumption

93
idDS: CRISP-DM Improvement
• CRISP-DM memiliki masalah di:
• Redundancy process
• Tidak seamlessnya fase modelling dan
evaluation khususnya ketika aneka
ragam modelling harus dilakukan
• Naming tahapan yang sulit dipahami

• Diusulkan modifikasi CRISP-DM,


integrated multidimensional data
science (idDS) (Wahono, 2020)

• Tahapan idDS:
1. Business Understanding:
Mendefinisikan masalah dan tujuan
2. Data Preparation: Membersihkan,
menggabungkan, mendefinisikan
data, evaluasi kualitas data, dan
mentransformasi data
3. Modeling & Evaluation: Memodelkan,
mencari pola dan mengevaluasi
kesesuaian pola dengan tujuan
4. Implementation: Membuat
rekomendasi rencana implementasi
hasil evaluasi

94
95
96
97
98
99
100
Regulation Improvement Use Cases

Organisasi Masalah Tujuan Dataset


Kemenkeu Kebijakan masalah reward Klasifikasi profil pegawai yang sering telat Data Pegawai
(SDM) dan punishment untuk dan disiplin, sehingga terdeteksi lebih dini
pegawai sering tidak efektif
Kemenkeu Rasio perempuan yang • Klasifikasi dan klastering profile pejabat Data Pegawai
(SDM) menjabat eselon 4/3/2/1 eselon 4/3/2/1
hanya 15%, padahal masuk • Asosiasi jabatan dan atribut profile
PNS rasionya hampir imbang pegawai
PLN Periode maintenance yang Estimasi berapa lama waktu yang Data
tidak terkendali dibutuhkan sampai pada periode Maintenance
maintenance berikutnya Pembangkit
Bank Peredaran uang palsu yang • Asosiasi jumlah peredaran uang palsu Data
Indonesia semakin banyak di Indonesia dengan profil wilayah Indonesia Peredaran
• Klastering wilayah peredaran uang palsu Uang Palsu
KPK • Sulitnya mengidentifikasi • Klasifikasi Profil Pelaku Korupsi • LHKPN
profil koruptor • Asosiasi Atribut Pelaku Korupsi • Penuntutan
• Tidak patuhnya WL dalam • Klasifikasi Kepatuhan LHKPN
LHKPN • Estimasi Penentuan Angka Tuntutan
101
Regulation Improvement Use Cases

Organisasi Masalah Tujuan Dataset


Kemenkeu Sulit menentukan arah opini 1. Melihat hubungan beberapa data Data Profil
(DJPB) hasil audit kementerian terhadap opini Kementerian
2. Klasifikasi profil kementerian

Kemenkeu Banyaknya pelaporan kanwil 1. Melihat hubungan beberapa indikator Data


(DJPB) yang harus dianalisis dengan laporan kanwil terhadap akurasi Pelaporan
beragam atribut 2. Klastering data pelaporan kanwil Kanwil
3. Klasifikasi akurasi pelaporan kanwil
Kemenkeu Sulit menentukan prioritas 1. Klastering data profil kanwil Data Transaksi
(DJPB) monitoring kanwil 2. Melihat hubungan beberapa atribut dan Profil
terhadap klaster profil kanwil Kanwil

102
Regulation Improvement Use Cases

Organisasi Masalah Tujuan Dataset


Kemenkeu Proses pertanggungjawaban • Klastering kecepatan proses Data
(DJPPR) pinjaman kegiatan pertanggungjawaban data pinjaman Pinjaman
memakan waktu cukup • Klasifikasi kecepatan proses
lama pertanggungjawaban data pinjaman
• Tingkat hubungan berbagai faktor dengan
kecepatan proses
Kemenkeu Memahami profil investor • Klasifikasi profil investor yang akan membeli Data
(DJPPR) seperti apa yang berminat Surat Berharga Negara Ritel jenis Tradable atau pembelian
untuk membeli SBN Ritel Non Tradeable SBN Ritel
Tradable atau Non-Tradable • Tingkat hubungan berbagai faktor dengan
sehingga diharapkan dapat kecepatan proses
meningkatkan penjualan
Kemenkeu Sebagian besar kegiatan • Korelasi antar atribut data Kementerian Data profile
(DJPPR) yang dibiayai melalui pelaksana proyek, besaran nominal komitmen, kegiatan 10
pinjaman mengalami jenis kegiatan (terhadap perpanjangan proyek tahun
keterlambatan. • Pengelompokan proyek sesuai tingkat risiko. terakhir
Perpanjangan proyek Proyek dengan risiko besar membutuhkan
berakibat pada pemantauan lebih ketat.
• Memprediksi risiko yang akan terjadi kegiatan
penambahan biaya
baru yang diusulkan, apakah akan juga
komitmen.
mengalami
103
keterlambatan
Regulation Improvement Use Cases

Organisasi Masalah Tujuan Dataset


BPKP Ketidaktepatan realisasi anggaran • Klasifikasi penugasan untuk • Data PKPT
program pengawasan dengan mengetahui karakteristik • Data Realisasi
perencanaan dapat menghambat penugasan yang tidak sesuai Anggaran
capaian PKPT (Program Kerja dengan rencana PKPT.
Pengawasan Tahunan) • Klasifikasi penugasan untuk
mengetahui profil penugasan
yang tidak selesai tepat
waktu
BPKP Rekomendasi hasil audit seringkali Melakukan klasifikasi LHP untuk Data LHP
belum ditindaklanjuti/ mengetahui profil LHP seperti
diimplementasikan oleh K/L/P apa yang rekomendasinya sulit
untuk ditindaklanjuti oleh K/L/P.
BPKP Vaksinasi harus dimanfaatkan Mendeteksi anomali • Data Distribusi
dengan Baik sesuai dengan penyalahgunaan vaksinasi vaksin
peruntukannya. Pemanfaatan vaksin dengan melakukan klasifikasi • Data Profil
yang disalahgunakan dapat profil pelaksana vaksinasi Pelaksana
merugikan keuangan negara Vaksin

104
2. Software Improvements

105
Data Science Implementation:
Software Improvements
1. Mengolah data untuk dijadikan
pola pengetahuan
(model/rule/formula/tree)
2. Pola pengetahuan
(model/rule/formula/tree)
dimasukkan ke dalam sistem
(software)
•Sistem (software) menjadi cerdas &
meningkatkan value & benefit dari
perusahaan/organisasi
3. Dilakukan oleh perusahaan
technology, startup business &
GAFAM

106
From Stupid (CRUD) Apps to Smart (Knowledge) Apps

Stupid Smart
Applications Applications
• Sistem Informasi • Sistem Prediksi
Akademik Kelulusan Mahasiswa
• Sistem Pencatatan • Sistem Prediksi Hasil
Pemilu Pemilu
• Sistem Laporan • Sistem Prediksi
Kekayaan Pejabat Koruptor
• Sistem Pencatatan • Sistem Penentu
Kredit Kelayakan Kredit

107
Perusahaan Pengolah Pengetahuan
• Uber - the world’s largest taxi company,
owns no vehicles
• Google - world’s largest
media/advertising company, creates no
content
• Alibaba - the most valuable retailer, has
no inventory
• Airbnb - the world’s largest
accommodation provider, owns no real
estate
• Gojek - perusahaan angkutan umum,
tanpa memiliki kendaraan
108
Revolusi Industri 4.0

109
3. Algorithm Improvements

110
Perbedaan Key Performance Indikator (KPI):
Peneliti vs Industri

Peneliti Industri

111
Apa Yang Dikejar di Penelitian?
Research is a considered activity, which
aims to make an original contribution to
knowledge
(contribution to the body of knowledge, in the research field of interest)

(Dawson, 2009)

112
Bentuk Kontribusi ke Pengetahuan

Kegiatan penyelidikan dan investigasi


terhadap suatu masalah yang dilakukan
secara berulang-ulang dan sistematis,
dengan tujuan untuk menemukan atau
merevisi teori, metode, fakta, dan
aplikasi

(Berndtsson et al., 2008)

113
Perbedaan Kontribusi Penelitian Data Science:
Peneliti Bidang Computing vs Non Computing

Computing Non Computing


Researcher Researcher

114
Business

Knowledge

Methods

Technology
115
Masalah Penelitian Data Science
1. Tremendous amount of data
• Algorithms must be highly scalable to handle such as tera-bytes
of data
2. High-dimensionality of data
• Micro-array may have tens of thousands of dimensions
3. High complexity of data
• Data streams and sensor data
• Time-series data, temporal data, sequence data
• Structure data, graphs, social networks and multi-linked data
• Heterogeneous databases and legacy databases
• Spatial, spatiotemporal, multimedia, text and web data
• Software programs, scientific simulations

4. New and sophisticated applications


116
Contoh Kontribusi ke Pengetahuan
di Bidang Computing
Decision CART (Breiman ,1984)

Tree
Credal C4.5 (Mantas, 2014)

Adaptative Credal C4.5


(Abellan, 2018)

ID3 (Quinlan, 1986) Credal DT (Abellan, 2003)


C4.5 (Quinlan, 1993)
117
Research
Gaps

Masalah
Penelitian

Pemecahan
Masalah Penelitian
(Contribution to Knoweldge)
118
NLP Algorithm Improvements
RNN or CNN
Transformer

(Vaswani et. al.,


Attention Is All You Need,
2017)
Attention

119
Data Science
Algorithm Improvement

Data Preprocessing
Algorithm Improvement

120
Penerapan Data Science di Organisasi Sering Gagal?
1. Tidak paham pola penerapan data science, dan mendahulukan
pengadaan tools dan teknologi
• Seharusnya dimulai dari meningkatkan pemahaman sumber daya manusia (SDM)
• Training dan workshop data science untuk SDM internal

2. Langsung melompat dengan mengolah data-data besar dan


kompleks
• Mulai dari mengumpulkan dan analisis berbagai dataset organisasi yang memungkinkan
diolah jadi pola pengetahuan
• Sesuaikan dengan kebutuhan, visi, misi, tujuan dan masalah prioritas di organisasi

3. Menggunakan tools dan teknologi yang rumit dan kompleks


• Gunakan tools dan teknologi yang sederhana, mudah dan efisien
• Pahami makna dari data science adalah pemanfaatan pola pengetahuan untuk tujuan
organisasi
• Data visualization? Excel or Tableau
• Data mining? KNIME atau Rapidminer

4. Tools dan teknologi rumit, mahal dan butuh waktu menguasai,


akhirnya kegiatan data science mandeg
• Buat blueprint, tahapan dan grand design penerapan data science di organisasi
• Lanjutkan peningkatkan kompetensi, pengalaman dan insentif SDM
• Selenggarakan kompetisi untuk SDM internal
• Beri insentif untuk SDM yang mulai menerapkan data science di pekerjaan
121
Terima Kasih
1. Regulation
Improvements
Romi Satria Wahono
romi@romisatriawahono.net
http://romisatriawahono.net
http://youtube.com/RomiSatriaWahono
08118228331
3 Data Science
Implementation Patterns
3. Algorithm 2. Software
Improvements Improvements

122

You might also like