Professional Documents
Culture Documents
Adoc - Pub Irfan Abbas Vincent Suhartono Stefanus Santosa Abs
Adoc - Pub Irfan Abbas Vincent Suhartono Stefanus Santosa Abs
ABSTRACT
Today the field of biomedical informatics has shown increasing popularity and
attention, and has been expanding rapidly over the past two decades. Biomedical data
attributes have thousands and thousands of the number of records that are correlated
(multicolinearity), complex and large-scale. Dimension reduction techniques are part
of the initial processing of the data and is appropriate for solving complex data.
Algorithm Singular Value Decomposition (SVD) and Primcipal analisys Component
(PCA) is a dimension reduction technique are two methods that are included in the
attribute extraction. This research proposes algorithm combines the advantages and
benefits of SVD and PCA called PCA + SVD method. Using SVD to maximize
process efficiency and variance principal component score on the PCA. Then use
PCA to eliminate the correlation in the complex datasets. The results demonstrate the
value of variance principal component score on the SVD + PCA is very close to the
average value (mean), the 0.001 variancet and the mean = 0.000 and produce more
efficient processes and data problems can be solved multicolinearity.
Namun kendala pada data di bidang biomedis disebabkan karena data tersebut
memiliki ribuan atribut serta ribuan jumlah record yang saling berkorelasi
(multicolinearity) dan menghasilkan data yang kompleks [2]. Data yang kompleks
memiliki banyak kebisingan (noise), anomali (outlier), elemen yang hilang (missing
value), tidak konsisten dan juga entitas data tidak berhubungan [3] [4] sehingga
membutuhkan pengolahan awal data [5]. Pengolahan awal data diterapkan sebelum
masuk ke model datamining yang sesungguhnya dan secara substansial dapat
meningkatkan kualitas keseluruhan dari pola datamining [6].
Teknik pengurangan dimensi merupakan bagian dari pengolahan awal data, yang
merupakan teknik penting dan menjadi teknik mendasar dalam sebagian besar proses
data mining ketika menghadapi data yang kompleks [7] [8]. Tujuan dari teknik
pengurangan dimensi adalah untuk mendapatkan representasi data baru yang dikelola
menjadi dimensi lebih rendah [9]. Representasi data baru ditinjau dari sudut waktu
dan kompleksitas komputasi yang jauh lebih efektif untuk pengolahan data
berikutnya, misalnya untuk klasifikasi, assosiasi, prediksi, estimasi dan analisis
pengelompokan [10].
Teknik pengurangan dimensi dapat dikelompokkan menjadi seleksi atribut
dan ekstraksi atribut [11] [12]. Seleksi atribut bertujuan untuk menemukan atribut
terbaik (k) pada (d) dimensi untuk mendapatkan informasi dan membuang atribut
yang tidak signifikan pada dimensi lain [13] [14] namun kelemahan seleksi atribut
memerlukan pelatihan satu set data besar untuk mendapatkan transformasi yang
dapat diandalkan [15] [16]. Ekstraksi atribut bertujuan untuk mencari satu set atribut
yang baru di (k) dimensi yang merupakan kombinasi dari ukuran asli [13] [14]
dengan cara mengubah dimensi tinggi ke dalam dimensi yang lebih rendah [17]
[16].Ekstraksi atribut secara umum diklasifikasikan menjadi linier dan nonlinier [13].
Algoritma linier ektraksi atribut terdiri dari algoritma Singular Value Decomposition
(SVD) dan algoritma Principal component Analysis (PCA).
2. Rumusan Masalah
Masalah umum:
Tersedianya jumlah basis data biomedis yang berlimpah, berupa basis data publik
(internet) dimana datasetnya dari peneliti-peneliti individu dan dari praktek-praktek
klinik, dan juga tersedia berupa digitisasi informasi, seperti laporan lab, data pasien,
paper penelitian, gambar anatomik dan sejumlah data perawatan pasien. Namun
dataset biomedis memiliki ribuan atribut serta ribuan jumlah record yang saling
berinteraksi yang menghasilkan data kompleks dan berskala besar.
Masalah spesifik:
3. Tujuan
Tujuan dari penelitian ini adalah untuk memaksimalkan variances score principal
component dan efisiensi waktu proses pada algoritma Principal Component Analysis
(PCA)
4. Manfaat
1. Manfaat Umum:
Penelitian ini sangat membantu para peneliti dan praktisi biomedis, untuk
memproses informasi yang belum terorganisir, dimana penelitian ini menghasilkan
data yang telah siap pakai atau siap diproses pada model datamining, agar nantinya
bermanfaaat pada masyarakat umum.
5. Landasan Teori
Peningkatan hasil akurasi algoritma data mining untuk data kompleks dan
berdimensi tinggi akhir-akhir ini telah diakui sebagai salah satu masalah yang paling
menantang dalam penelitian data mining [5], dan diakui sebagai salah satu dari top-
10 masalah dalam penelitian data mining.
Data yang kompleks dan data multidimensi menghasilkan banyak noise, outlier dan
juga data tidak konsisten [9] [34] [35] sehingga membutuhan pra-pengolahan data
dan teknik pengurangan dimensi yang merupakan alat yang menjanjikan untuk
mengatasi masalah data kompleks dan multidimensi [5], dan juga merupakan kunci
untuk meningkatkan akurasi serta efisiensi waktu [35] [36] dengan mengubah data
menjadi lebih kecil tanpa mengubah informasi di dalamnya.
Permasalahan sebagian besar pada dataset tidak dapat digunakan langsung pada
model datamining [34] karena banyak atribut yang saling beinteraksi namun tidak
konsisten atau kurangnya nilai atribut (missing value), dan hanya mengandung data
agregat, berisik (noise), mengandung kesalahan, memiliki outlier, atau data tidak
konsisten karena perbedaan coding pada konvensi penamaan [37]. Permasalahan ini
dapat diatasi dengan data cleansing . Pembersihan data atau data cleansing dimulai
dengan proses keterpusatan untuk mengurangi data dengan mencari rata-rata setiap
atribut, dengan menggunakan persamaan:
= − (1)
dimana adalah hasil setelah pemusatan, adalah kolom vector, dan adalah rata-rata dari
kolom yang sesuai. Proses berpusat dilakukan untuk semua rangka dalam, jika nilai null
ditemukan, nilai akan diganti dengan nilai rata-rata pada kolom tersebut,
6. Kerangka Pemikiran
Metode pada penelitian ini menggabungkan keunggulan algoritma SVD dan algoritma
PCA, disingkat SVD+PCA, untuk memaksimalkan variance score principal component
dan efisiensi proses pada PCA dan juga menghilangkan korelasi 100 % pada atribut data
yang saling berkorelasi pada data yang kompleks dan berskala besar. Dengan Skema
seperti Gambar 2
Tabel 1 Hasil Nilai Variances & Waktu Proses (contoh) Dataset Breast_Cancer
9.1 Kesimpulan
Dari hasil eksperimen dan pengujian model menggunakan lima dataset dapat diambil
kesimpulan, algoritma SVD+PCA menghasilkan reduksi atribut yang lebih baik
dibanding algoritma SVD dan PCA, menghasilkan nilai variance yang lebih baik
dibanding PCA, dan menghasilkan data ekstrak yang lebih baik dibanding SVD,
karena mampu menghilangkan korelasi 100%, kemudian unggul dari segi waktu dan
nilai variance dibanding PCA, artinya metode yang diusulkan, menggabungkan
keunggulan SVD+PCA sangat tepat digunakan pada dataset biomedis yang memiliki
ribuan atribut dan record yang saling berkorelasi dan berskala besar (komplek)
9.2 Saran
Penelitian ini dapat digabungkan dengan penelitian Shameek Biswas et al [2] dan
penelitian Fangzhou Yao et al [38] menjadi SVD+IPCA, menggunakan SVD+PCA
untuk efisiensi waktu proses dan memaksimalkan variance, kemudian ICA untuk
Denoising beban vektor yang dihasilkan oleh PCA.
10. Acknowledgement
[1] Hsinchun Chen; Mihail C. Roco;, "Global and Longitudinal Patent and
Literature Analysis," in Mapping Nano Technology Innovations and Knowledge,
Professor Ramesh Sharda and Prof. Dr. Stefan, Eds. Tucson, Arizona,
Arlington, Virginia, USA: springer.com, 2009, ch. 13: 978-0-387-71619-0, pp.
1-321.
[2] Biswas, Shameek; Storey, John D; Akey, Joshua M, "Mapping gene expression
quantitativetrait loci by singular value decomposition and independent
component analysis," IEEE Transaction On Computational Biology and
Bioinformatics, vol. 5, no. 7, pp. 1-14, May 2008.
[3] Sanga, S; Chou, T.Y; Cristini, V; Edgerton, M.E;, "Neural Network with K-
Means Clustering via PCA for Gene Expression Profile Analysis," IEEE -
Computer Science and Information Engineering, vol. 3, pp. 670-673, April
2009.
[6] Jiawei Han ; Micheline Kamber;, Data Mining: Concepts and Techniques, 2nd
ed., Asma Stephan, Ed. San Francisco, USA: Morgan Kaufmann Publishers is
an imprint of Elsevier, 2007.
[9] Longcun Jin; Wanggen Wan; Yongliang Wu; Bin Cui; Xiaoqing Yu; Youyong
Wu;, "A Robust High-dimensional Data Reduction Method," The International
Journal of Virtual Reality, vol. 9, no. 1, pp. 55-60, 2010.
[10] R. Krakovsky; R. Forgac;, "Neural Network Approach to Multidimensional
Data Classification via Clustering," in IEEE 9th International Symposium on
Intelligent Systems and Informatics , Serbia, September 2011, pp. 169-174.
[13] Ethem Alpaydın, Introduction to Machine Learning, 2nd ed., Thomas Dietterich
et al., Eds. London, England: Cambridge, Massachusetts, 2010.
[14] B. B. Zhao and Y. Q. Chen, "Singular value decomposition (SVD) for extraction
of gravity anomaly associated with gold mineralization in Tongshi gold
field,Western Shandong Uplifted Block, Eastern China," School of Earth and
Mineral Resource, China University of Geosciences, Beijing- China, Nonlin.
Processes Geophys. doi:10.5194/npg-18-103-2011-, 2011.
[15] Jun Yan, Benyu Zhang, Ning Liu; Shuicheng Yan; Qiansheng Cheng; Weiguo
Fan; Qiang Yang; Wensi Xi; Zheng Chen;, "Effective and Efficient
Dimensionality Reduction for Large-Scale and Streaming Data Preprocessing,"
IEEE Transaction On Knowledge And Data Engineering, vol. 18, no. 2, pp. 1-
14, Febbruari 2008.
[17] Chang, Cheng-Ding; Wang, Chien-Chih; Jiang, Bernard C;, "Singular Value
Decomposition Based Feature Extraction Technique for Physiological Signal
Analysis," Journal of Medical Systems., vol. 36, no. 3, pp. 1769 - 1777, June
2012.
[18] Stan Lipovetsky;, "PCA and SVD with nonnegative loadings," GfK Custom
Research for excelence, vol. 42, no. 1, pp. 1-30, Januari 2009.
[20] S.M. Rafizul Haque, "Singular Value Decomposition and Discrete," Department
of Interaction and System Design School of Engineering Blekinge Institute of
Technology, Sweden, Master Thesis MCS-2008:8, 2008.
[21] Taufik Fuadi Abidin ; Bustami Yusuf ; Munzir Umran;, "Singular Value
Decomposition for Dimensionality Reduction in Unsupervised Text Learning
Problems," in 2nd International Conference on Education Technology and
Computer (ICETC), Banda Aceh-Indonesia, 201O, pp. 422-426.
[22] Taro Konda; Yoshimasa Nakamura;, "A new algorithm for singular value
decomposition and its parallelization," Parallel Computing, vol. 02, no. 001, pp.
1-14, 2009.
[24] Kumar, Nishith; Mohammed Nasser ; Subaran Chandra Sarker;, "A New
Singular Value Decomposition Based Robust Graphical Clustering Technique
and Its Application in Climatic Data," Journal of Geography and Geology, vol.
3, no. 1, pp. 227-238, September 2011.
[30] Mario Navas; Carlos Ordonez;, "Efficient computation of PCA with SVD in
SQL," in ACM, Paris, June 2009, pp. 1-10.
[34] Rúben D.M.A. Pereira; Rui J. Almeida, Uzay Kaymak;, "Predicting Septic
Shock Outcomes in a Database with Missing Data using Fuzzy Modeling,"
IEEE International Conference on Fuzzy Systems, vol. 27, no. 30, pp. 2507-
2512, June 2011.
[35] Zhang Yun; Li Weihua; Chen Yang;, "The study of Multidimensional-Data flow
of Fishbone applied for Data mining," in Seventh ACIS International
Conference on Software Engineering Research, Management and Applications,
China, 2009, pp. 86-91.
[36] Ribeiro, Marcela X; Ferreira, Mônica R. P. ; Traina Jr., Caetano ;, "Data Pre-
processing: A new algorithm for Feature Selection and Data Discretization," in
CSTST , Cergy-Pontoise, France, 2008, pp. 252-257.
[37] Oded , Maimon; Lior , Rokach;, Data Mining and Knowledge Discovery
Handbook, Second Edition ed., Maimon Oded and Rokach Lior, Eds. Tel-Aviv,
Israel: Springer New York Dordrecht Heidelberg London, 2010.