You are on page 1of 18

 

  PENERAPAN KNOWLEDGE DISTILLATION


  TERHADAP ARSITEKTUR CONVOLUTIONAL NEURAL
  NETWORK 1D CNN DAN 3D CNN
 

  Application of Knowledge Distillation on 1D CNN and 3D CNN


Convolutional Neural Network Architecture
 

 
TUGAS AKHIR
 

 
Laporan ini disusun untuk memenuhi salah satu syarat menyelesaikan pendidikan
Diploma Empat Program Studi Teknik Informatika di
Jurusan Teknik Komputer dan Informatika

Oleh:

MUHAMMAD TAUFIQ PRATAMA

NIM: 141524021

POLITEKNIK NEGERI BANDUNG


2018

 
 

 
 

 
 

 
 

 
 

  Nama : Muhammad Taufiq Pratama


NIM : 141524021
 

 
Tempat, Tanggal Lahir : Bandung, 23 April 1996
  SD Lulus Tahun : 2008 dari SDN Gegerkalong KPAD Bandung
SLTP Lulus Tahun : 2011 dari SMPN 5 Bandung
SLTA Lulus Tahun : 2014 dari SMAN 1 Bandung
Prestasi yang pernah dicapai:
• Finalis Hackathon UMN 2016

 
 

 
ABSTRAK
 

  Pada dataset yang berjumlah masif, deep neural network dengan struktur hidden
layer yang kompleks seperti convolutional neural network (CNN) memiliki akurasi
yang  lebih tinggi dari neural network yang hanya memiliki satu hidden layer.
Namun di sisi lain, struktur yang kompleks berdampak pada meningkatnya runtime
inferensi
  dan storage yang dibutuhkan oleh model tersebut.
  Beberapa penelitian telah dilakukan untuk mengurangi runtime dan storage yang
dibutuhkan model deep neural network. Salah satunya adalah penelitian terkait
 
penerapan metode knowledge distillation. Metode ini dapat mengurangi runtime
training
 
dan inferensi dari model dengan arsitektur CNN dua dimensi (2D CNN),
dengan trade-off berupa reduksi akurasi yang tidak signifikan. Metode ini belum
dicobakan
  terhadap arsitektur CNN dengan dimensi yang berbeda, seperti 1D CNN
dan 3D CNN. Sehingga, penelitian ini mengoservasi performa metode knowledge
  distillation ketika diterapkan pada arsitektur 1D CNN dan 3D CNN.

Hasil penelitian menunjukkan bahwa model hasil distilasi 1D CNN memiliki


runtime training dan inferensi yang lebih singkat dengan reduksi akurasi sebesar
17,44% akurasi dibanding model aslinya. Model hasil distilasi 3D CNN memiliki
runtime runtime inferensi yang lebih singkat, namun dengan runtime training yang
lebih lama pada beberapa kasus, dengan reduksi akurasi sebesar 5,83% dibanding
model aslinya.

Kata Kunci: 1D CNN, 3D CNN, Convolutional Neural network, Knowledge


Distillation, Teacher-student Strategy.

i
 
 

 
ABSTRACT
 

  In a large dataset, deep neural network with complex hidden layer structure, such
as convolutional neural network (CNN), has been proven to be able to beat the
accuracy
  of neural network with only one hidden layer. On the other hand, the rise
in accuracy is also followed by the rise in runtime and storage needed by the model.
 
There are studies done about reducing both runtime and storage required by deep
  neural network, such as application of knowledge distillation method. This method
proves to be able to reduce training and inference runtime needed by two-
 
dimensional CNN (2D CNN), with reduction of accuracy as a trade-off. However,
this  method has not been tried on CNN architecture with different dimension, such
as 1D CNN and 3D CNN. Hence, this research tries to observe the performance of
knowledge
  distillation method applied to 1D CNN and 3D CNN architecture.

  The result shows that distilled 1D CNN model can shorten both training and
inference runtime, with 17,44% reduction in accuracy compared to the original
model. Distilled 3D CNN model can shorten the inference runtime yet with slower
training runtime in some cases, with 5,83% reduction in accuracy compared to the
original model.

Keywords: 1D CNN, 3D CNN, Convolutional Neural network, Knowledge


distillation, Teacher-student Strategy.

ii
 
 

 
KATA PENGANTAR
 
Puji syukur penulis panjatkan kepada Allah subhanahu wa ta’ala karena atas izin-
 
Nya penulis dapat menyelesaikan laporan tugas akhir ini yang berjudul Penerapan
Knowledge
  distillation terhadap Arsitektur Convolutional Neural network 1D CNN
dan 3D CNN. Tiada daya dan upaya yang dapat diperoleh penulis dalam menyusun
laporan ini kecuali atas kehendak-Nya.
 

  Tak lupa pula penulis ucapkan terima kasih kepada berbagai pihak yang telah
membantu dalam perjalanan penyelesaian tugas akhir ini. Ucapan terima kasih
 
khususnya penulis tujukan kepada:
 
1. bapak Dadi Rosadi dan ibu Praswidhianingsih selaku orang tua penulis yang
 
tiada hentinya memberikan dukungan moril dan materiil, serta adik penulis,
Luqman Fakhrizal Karim yang tidak bosannya menemani penulis di kala penat;
2. kedua pembimbing, bapak Iwan Awaludin, S.T., M.T. yang selalu siap
menemani penulis berdiskusi, serta ibu Dra. Tati Susilawati, M.T. yang
senantiasa memberikan kemudahan dalam penyelesaian laporan;
3. kedua penguji, ibu Dr. Dra. Nurjannah Syakrani, M.T. yang dengan sabar
memberikan arahan untuk membuat laporan ini menjadi lebih baik, serta bapak
Yudi Widhiyasana, S.Si., M.T. yang memberikan penulis ide terkait
pengembangan topik yang penulis ambil ini ke depannya;
4. PT Kazee Digital Indonesia yang telah memberikan wadah bagi penulis untuk
mengembangkan skill di dunia industri yang relevan untuk menyelesaikan
penelitian ini;
5. bapak Urip Teguh Setijohatmo, BSCS., M.Kom. selaku wali kelas D-IV Teknik
Informatika 2014 dan koordinator tugas akhir, serta ibu Ani Rahmani, S.Si.,
M.T., serta bapak Suprihanto, BSEE., M.Sc. sebagai koordinator mata kuliah
tugas akhir;
6. ibu Santi Sundari, S.Si., M.T. sebagai ketua program studi D-IV Teknik
Informatika dan bapak Drs. Eddy Bambang Soewono, M.Kom. sebagai ketua
Jurusan Teknik Komputer dan Informatika;
7. Eva Danti Rahmanita yang sepenuh hati mendukung penulis dalam mencapai
tujuan, mendorong penulis untuk terus melangkah maju;

iii
 
 

 
8. seluruh pihak yang telah memberikan kepercayaan kepada penulis untuk
 
membantu penyelesaian skripsi atau tesis mereka, sehingga penulis dapat
  memperoleh kesempatan lebih untuk memperdalam pemahaman teoretis
 maupun teknis terkait berbagai konsep yang relevan dengan penelitian ini.

Penulis
  berharap laporan ini dapat menjadi satu kontribusi dalam pengembangan
  ilmu pengetahuan yang manfaatnya dapat dirasakan oleh banyak orang, baik secara
langsung maupun tidak langsung. Kritik dan saran untuk pengembangan penelitian
 
ini ke depannya akan dengan senang hati penulis terima, karena bagi penulis sendiri,
 
penelitian yang bermanfaat adalah penelitian yang bisa dikembangkan lagi lebih
 
lanjut.
 
Bandung, Juli 2018

Muhammad Taufiq Pratama

iv
 
 

 
DAFTAR ISI
 
Abstrak ..................................................................................................................... i
 
Abstract ................................................................................................................... ii
 
Kata Pengantar ....................................................................................................... iii
 
Daftar Isi.................................................................................................................. v
 
Daftar Gambar ...................................................................................................... viii
 
Daftar Tabel ............................................................................................................ x
 
BAB I Pendahuluan ................................................................................................ 1
 
I.1 Latar Belakang ......................................................................................... 1
 
I.2 Rumusan Masalah .................................................................................... 4

I.3 Hipotesis................................................................................................... 5

I.4 Tujuan ...................................................................................................... 5

I.5 Ruang Lingkup dan Batasan Masalah ...................................................... 5

I.6 Sistematika Penulisan Laporan ................................................................ 6

BAB II Tinjauan Pustaka ........................................................................................ 8

II.1 Dasar Teori ............................................................................................... 8

II.1.1 Deep neural network ..................................................................... 8

II.1.2 Convolutional neural network ..................................................... 11

II.1.3 Knowledge distillation ................................................................. 18

II.2 Karya Ilmiah Sejenis .............................................................................. 20

II.2.1 Penelitian terkait 1D CNN ........................................................... 20

II.2.2 Penelitian terkait 3D CNN ........................................................... 22

II.2.3 Penelitian terkait knowledge distillation...................................... 25

BAB III Metodologi Penyelesaian Masalah ......................................................... 28

III.1 Jenis Penelitian ....................................................................................... 28

III.2 Variabel Penelitian ................................................................................. 28

v
 
 

 
III.3 Objek Penelitian ..................................................................................... 29
 
III.4 Data Penelitian ....................................................................................... 29
 
III.5 Rancangan dan Metode Penelitian ......................................................... 30
 
III.5.1 Studi Pustaka ........................................................................... 30
 
III.5.2 Analisis Problem Domain ....................................................... 31
 
III.5.3 Preprocessing Data untuk Eksperimen ................................... 31
 
III.5.4 Pengembangan Alat Eksperimen ............................................ 32
 
III.5.5 Eksperimen.............................................................................. 32
 
III.5.6 Evaluasi Hasil Eksperimen ..................................................... 38
 
BAB IV Analisis dan Pengembagan Alat Eksperimen ......................................... 39

IV.1 Penerapan 1D CNN pada Kasus Klasifikasi Teks ................................. 39

IV.1.1 Persiapan Data......................................................................... 40

IV.1.2 Pembuatan Word embedding .................................................. 42

IV.1.3 Training Arsitektur 1D CNN .................................................. 46

IV.1.4 Evaluasi Model........................................................................ 47

IV.2 Penerapan 3D CNN pada Kasus Klasifikasi Objek 3-D ........................ 47

IV.2.1 Persiapan Data......................................................................... 48

IV.2.2 Vokselisasi Objek ................................................................... 50

IV.2.3 Training Arsitektur 3D CNN .................................................. 51

IV.2.4 Evaluasi Model........................................................................ 52

IV.3 Analisis Pembuatan Student model ........................................................ 53

BAB V Hasil dan Pembahasan ............................................................................. 56

V.1 Eksperimen terhadap 1D CNN............................................................... 56

V.2 Eksperimen terhadap 3D CNN............................................................... 63

BAB VI Kesimpulan dan Saran ............................................................................ 71

VI.1 Kesimpulan ............................................................................................ 71

vi
 
 

 
VI.2 Saran ....................................................................................................... 72
 
Daftar Pustaka ....................................................................................................... 73
 

vii
 
 

 
DAFTAR GAMBAR
 
Gambar I.1 Pertumbuhan data di era informasi [1]................................................. 1
 
Gambar I.2 VGG Network, salah satu arsitektur deep neural network ................... 2
Gambar
  II.1 Neural network yang merupakan analogi dari sebuah neuron [11] .... 8
Gambar
  II.2 Deep neural network serta kalkulasi di dalamnya [12] ..................... 9
Gambar II.3 Visualisasi hasil ekstraksi fitur oleh deep neural network [13] ....... 11
 
Gambar II.4 Contoh arsitektur convolutional neural network (CNN) [14] .......... 12
 
Gambar II.5 Contoh kalkulasi dalam proses konvolusi ........................................ 12
 
Gambar II.6 Koneksi input ke feature map pada convolution layer ..................... 13
Gambar
  II.7 Koneksi input ke feature map pada convolution layer (lanjutan) .... 14

  Gambar II.8 Ilustrasi konvolusi 1D CNN ............................................................. 15


Gambar II.9 Ilustrasi konvolusi 2D CNN ............................................................. 15
Gambar II.10 Ilustrasi konvolusi 3D CNN ........................................................... 15
Gambar II.11 Max pooling dan average pooling .................................................. 16
Gambar II.12 Perubahan nilai vektor input hingga diproses pada softmax layer . 17
Gambar II.13 Proses training pada beberapa model dalam konteks distilasi [16] 18
Gambar II.14 Proses konvolusi dari arsitektur 1D CNN pada penelitian [9] ....... 21
Gambar II.15 Proses pengolahan objek dunia nyata hingga menjadi data latih [19]
....................................................................................................... 23
Gambar II.16 Visualisasi hasil pengolahan salah satu CAD model pada dataset
ModelNet [18] ............................................................................... 24
Gambar II.17 Random forest, salah satu contoh algoritma ensemble [23] ........... 26
Gambar III.1 Variabel penelitian .......................................................................... 28
Gambar III.2 Arsitektur yang didistilasi, yaitu 1D CNN dan 3D CNN ................ 29
Gambar III.3 Metodologi penyelesaian masalah .................................................. 30
Gambar III.4 Perkalian matriks, operasi yang menyusun neural network ............ 34
Gambar IV.1 Proses pembuatan arsitektur 1D CNN ............................................ 39
Gambar IV.2 Gambaran arsitektur 1D CNN yang digunakan pada penelitian [9] 46
Gambar IV.3 Proses pembuatan arsitektur 3D CNN ............................................ 48
Gambar IV.4. Struktur penulisan format OFF ...................................................... 48
Gambar IV.5 Contoh representasi objek kubus dalam format OFF...................... 49
Gambar IV.6 Beberapa sampel visualisasi dataset ModelNet10 [19] .................. 50

viii
 
 

 
Gambar IV.7 Contoh CAD model yang telah mengalami vokselisasi.................. 50
 
Gambar IV.8 Sampel data ModelNet10 yang telah mengalami vokselisasi [21] . 51
  Gambar IV.9 Arsitektur 3D CNN seperti yang menjadi initial state pada penelitian
  [10] ................................................................................................ 52
Gambar
  V.1 Perbandingan rata-rata runtime training di setiap komposisi hidden
layer pada 1D CNN dengan jumlah data 100% ............................ 58
 
Gambar V.2 Perbandingan rata-rata runtime inferensi di setiap komposisi hidden
 
layer pada 1D CNN dengan jumlah data 100% ............................ 58
Gambar
  V.3 Perbandingan akurasi student model pada 1D CNN dengan jumlah

  data 100% ...................................................................................... 59


Gambar V.4 Perbandingan rata-rata runtime training di setiap komposisi hidden
 
layer pada 1D CNN dengan jumlah data 50% .............................. 61
Gambar V.5 Perbandingan rata-rata runtime inferensi di setiap komposisi hidden
layer pada 1D CNN dengan jumlah data 50% .............................. 62
Gambar V.6 Perbandingan akurasi student model pada 1D CNN dengan jumlah data
50% ............................................................................................... 62
Gambar V.7 Perbandingan rata-rata runtime training di setiap komposisi hidden
layer pada 3D CNN dengan jumlah data 100% ............................ 65
Gambar V.8 Perbandingan rata-rata runtime inferensi di setiap komposisi hidden
layer pada 3D CNN dengan jumlah data 100% ............................ 65
Gambar V.9 Perbandingan akurasi student model pada 3D CNN dengan jumlah data
100% ............................................................................................. 66
Gambar V.10 Perbandingan rata-rata runtime training di setiap komposisi hidden
layer pada 3D CNN dengan jumlah data 50% .............................. 68
Gambar V.11 Perbandingan rata-rata runtime inferensi di setiap komposisi hidden
layer pada 3D CNN dengan jumlah data 50% .............................. 68
Gambar V.12 Perbandingan akurasi student model pada 3D CNN dengan jumlah
data 50% ........................................................................................ 69

ix
 
 

 
DAFTAR TABEL
 
Tabel II.1 Penelitian terkait arsitektur 1D CNN ................................................... 20
 
Tabel II.2 Penelitian terkait arsitektur 3D CNN ................................................... 22
  II.3 Penelitian terkait metode knowledge distillation ................................. 25
Tabel
Tabel
  III.1 Spesifikasi komputer yang digunakan ................................................ 35
Tabel III.2 Parameter dan tujuan dari setiap skenario dalam eksperimen ............ 36
 
Tabel III.3 Nilai dari variabel bebas yang diteliti ................................................. 37
 
Tabel IV.1 Contoh data yang terdapat dalam dataset movie review ..................... 40
  IV.2 Imbuhan Bahasa Inggris yang dipisah dari kata yang diikutinya ....... 40
Tabel
Tabel
  IV.3 Hasil pemisahan imbuhan dari kata yang diikutinya .......................... 41

  Tabel IV.4 Sampel kamus kata dan yang diperoleh berdasarkan dataset movie
review ............................................................................................... 43
Tabel IV.5 Representasi matriks dari dokumen terpanjang pada dataset movie
review ............................................................................................... 44
Tabel IV.6. Hasil pengamatan performa arsitektur 1D CNN................................ 47
Tabel IV.7 Hasil pengamatan performa arsitektur 3D CNN................................. 52
Tabel V.1 Spesifikasi dataset yang digunakan pada arsitektur 1D CNN dan 3D
CNN ................................................................................................. 56
Tabel V.2 Hasil teacher model pada 1D CNN dengan jumlah data 100% ........... 57
Tabel V.3 Hasil student model pada 1D CNN dengan jumlah data 100% ........... 57
Tabel V.4 Hasil teacher model pada 1D CNN dengan jumlah data 50% ............. 60
Tabel V.5 Hasil student model pada 1D CNN dengan jumlah data 50% ............. 60
Tabel V.6 Hasil teacher model pada 3D CNN dengan jumlah data 100% ........... 64
Tabel V.7 Hasil student model pada 3D CNN dengan jumlah data 100% ........... 64
Tabel V.8 Hasil teacher model pada 3D CNN dengan jumlah data 50% ............. 67
Tabel V.9 Hasil student model pada 3D CNN dengan jumlah data 50% ............. 67

x
 
 

 
DAFTAR PUSTAKA
 

 
[1] A. Fronda, “The New Economy,” World News Media, 8 Januari 2015. [Online].
 
Available: https://www.theneweconomy.com/strategy/big-data-is-not-without-
 
its-problems. [Diakses 30 April 2018].

[2] B. B. Sau dan V. N. Balasubramanian, “Deep Model Compression: Distilling


 
Knowledge from Noisy Teachers,” eprint arXiv:1610.09650, 2016.
 
[3] J. Johnson, “GitHub repository,” 2017. [Online]. Available:
  https://github.com/jcjohnson/cnn-benchmarks. [Diakses 20 2 2018].

[4]   G. Hinton, O. Vinyals dan J. Dean, “Distilling the Knowledge in a Neural


Network,” eprint arXiv:1503.02531, 2015.
 
[5] J. Ba dan R. Caruana., “Do deep nets really need to be deep?,” Advances in
neural information processing systems, p. 2654–2662, 2014.

[6] B. Settles, “Active Learning Literature Survey,” University of Wisconsin,


Madison, vol. 15, no. 2, pp. 201-221, 2010.

[7] P. Luo, Z. Zhu, Z. Liu, X. Wang dan X. Tang, “MobileID: Face Model
Compression by Distilling Knowledge from Neurons,” dalam 30th AAAI
Conference on Artificial Intelligence, 2016.

[8] Y. Kim dan A. M. Rush, “Sequence-Level Knowledge Distillation,” eprint


arXiv:1606.07947, 2016.

[9] Y. Kim, “Convolutional Neural Networks for Sentence Classification,” dalam


Empirical Methods in Natural Language Processing, Doha, 2014.

[10] X. Xu dan S. Todorovic, “Beam Search for Learning a Deep Convolutional


Neural Network of 3D Shapes,” dalam 23rd International Conference on Pattern
Recognition (ICPR) , 2016.

[11] A. Karpathy, “Neural Networks Part 1: Setting Up the Architecture.,” Stanford


University, 2015. [Online]. Available: https://cs231n.github.io/neural-networks-
1/. [Diakses 20 7 2018].

[12] J. McCafrey, “Deep Neural Networks: A Getting Started Tutorial,” Visual Studio
Magazine, 13 6 2014. [Online]. Available:
https://visualstudiomagazine.com/articles/2014/06/01/deep-neural-
networks.aspx. [Diakses 20 7 2018].

[13] R. Socher dan C. Manning, Deep Learning for NLP (without Magic), Atlanta,
2013.

73
 
 

 
[14] P. Sermanet dan Y. LeCun, “Traffic sign recognition with multi-scale
  Convolutional Networks,” dalam International Joint Conference on Neural
Networks, San Jose, 2011.
 
[15] Google, “Machine Learning Glossary,” 12 7 2018. [Online]. Available:
  https://developers.google.com/machine-learning/glossary/. [Diakses 22 7 2018].

[16]  S. Ruder, P. Ghaffari dan J. G. Breslin, “Knowledge Adaptation: Teaching to


Adapt,” CoRR, 2017.
 
[17] R. Johnson dan T. Zhang, “Effective Use of Word Order for Text Categorization
 
with Convolutional Neural Networks,” dalam NAACL-HLT, Colorado, 2015.

[18]  A. Garcia-Garcia, F. Gomez-Donoso, J. Garcia-Rodriguez, S. Orts-Escolano, M.


Cazorla dan J. Azorin-Lopez, “PointNet: A 3D Convolutional Neural Network
 
for real-time object class recognition,” dalam International Joint Conference on
  Neural Networks (IJCNN), Vancouver, 2016.

[19] Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang dan J. Xiao, “3D
ShapeNets: A Deep Representation for Volumetric Shape Modeling,” dalam
Proceedings of 28th IEEE Conference on Computer Vision and Pattern
Recognition (CVPR2015), 2015.

[20] “Voxelization,” ImageJ, 7 7 2017. [Online]. Available:


https://imagej.net/Voxelization. [Diakses 24 6 2018].

[21] D. Maturana dan S. Scherer, “VoxNet: A 3D Convolutional Neural Network for


Real-time Object Recognition,” dalam International Conference on Intelligent
Robots and Systems, Hamburg, 2015.

[22] C. Bucilu, R. Caruana dan A. Niculescu-Mizil, “Model compression,”


Proceedings of the 12th ACM SIGKDD international conference on Knowledge
discovery and data mining, p. 535–541, 2006.

[23] A. Verikas, E. Vaiciukynas, A. Gelzinis, J. Parker dan M. Charlotte Olsson,


“Electromyographic Patterns during Golf Swing: Activation Sequence Profiling
and Prediction of Shot Effectiveness,” Sensors, no. 16, p. 592, 2016.

[24] G. Cybenko, “Approximation by superpositions of a sigmoidal function,”


Mathematics of Control, Signals, vol. 2, no. 4, p. 303–314, 1989.

[25] B. Pang dan L. Lee, “A sentimental education: sentiment analysis using


subjectivity summarization based on minimum cuts,” dalam ACL '04
Proceedings of the 42nd Annual Meeting on Association for Computational
Linguistics, Barcelona, 2004.

[26] “OFF file format (.off),” Princeton, [Online]. Available:


http://segeval.cs.princeton.edu/public/off_format.html. [Diakses 24 6 2018].

74
 

You might also like