Diajukan sebagai salah satu syarat untuk menempuh mata kuliah kimia komputasi
Oleh:
JURUSAN KIMIA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS JEMBER 2011
M. Azhar Alhadi 081810301051 Istiqomah Rahmawati 091810301014 Jaka Hendari 091810301041 Gambar 1. Struktur 2D Inhibitor ACE Data yang dipergunakan berasal dari enzim ACE dengan dataset ACEE 2.5D yang didapatkan dari jurnal A Comparison of Methods for Modeling Quantitative Structure-Activity Relationships Keyword. J . M ed . Chem . 2004, 47, 5541 -5554. Data diolah menggunakan aplikasi MS. Excel 2010 dan R 2.12.0 dalam OS Windows 7.
A. Prosedur Jumlah data adalah 114 data yang diurutkan dari kecil ke besar berdasarkan aktivitas, sedangkan parameter diurutkan berdasarkan abjad. Diambil 30 data secara acak sebagai data test. 84 data training dicari persamaan regresinya dengan operasi multi linier regresi menggunakan soItware R 2.12.0, di mana y aktivitas dan x parameter. 30 data tes diuji ke dalam persamaan yang telah diperoleh, sehingga didapatkan aktivitas hitungnya. Dihitung korelasi (standar deviasi) aktivitas hitung dengan aktivitas asli. Berdasarkan analisis R yang diperoleh, dihilangkan satu parameter yang memiliki koeIisien paling kecil. Dicari persamaan regresi linier kedua dari 84 data tanpa menyertakan satu parameter (yang dihilangkan). Diuji persamaan regresi tersebut terhadap 30 data test tanpa 1 parameter, sehingga didapatkan aktivitas hitung. Dicari korelasi (standar deviasi) aktivitas hitung dengan aktivitas asli. Dibandingkan antara nilai korelasi dari persamaan regresi ini dengan nilai korelasi sebelumnya, jika korelasi lebih kecil maka parameter tersebut tidak berpengaruh dan pantas dihilangkan, tanpa pengembalian pada perhitungan (operasi) selanjutnya. Operasi ini diterapkan pada seluruh parameter sampai persamaan regresi hanya mengandung parameter yang berpengaruh (signiIikan) saja.
B. DaItar parameter yang tidak berpengaruh Deskriptor STDEV Keterangan Param. Asli 2.083757 Tidak ada parameter yang dihilangkan Dipole.mag 1.936675 The magnitude oI dipole moment SdO 1.916443 Sum oI electropological state Hbondacceptor 1.876391 Description that calculate oI Hbond acceptor AlogP98 1.866587 Log oI the partition coeIIicient, atom type value SsssCH 1.816392 Triple sigma bonded carbon NssCH2 1.64415 The count oI CH 2
Jurs.FPSA.1 1.634372 Functional charge partial surIace areas BIC 1.605142 Bond inIormation contain Jurs.TPSA NA (Not avaible)* Calculation oI topological polar surIace area based on Iragment. * NA : sejak awal tidak memiliki koeIisien dalam persamaan regresi.
Gambar 2. GraIik distribusi aktivitas terhadap data training (solid bars) and data tes (hashed bars). C. Pembahasan Jurnal Berdasarkan jurnal, diketahui bahwa data set berasal dari 114 inhibitor ACE (Angiostein Converting Enzyme), diambil dari the work of Depriest et al. yang mendeskripsikan kegunaan dari CoMFA modeling. Aktivitas (pIC 50 ) tersebar dengan range luas, dari 2.1 sampai 9.9. Isi jurnal tersebut membandingkan hasil dari penerapan beberapa metode QSAR terhadap beberapa inhibitor enzim seperti metode CoMFA, CoMSIA, EVA, HQSAR, (3D descriptor) dan tradisional 2D and 2.5D descriptor. Adapun metode yang digunakan dalam praktikum adalah metode tradisional dengan deskriptor 2.5D, karena berasal dari dataset ACEE 2.5D. Dapat dianggap sebagai deskriptor 2.5D karena muatan dan struktur ditentukan dengan pendekatan langsung dan jelas (menurut jurnal). Berbeda dengan prosedur kami, dalam jurnal beberapa deskriptor dihapus dengan menguji setiap Training set secara terpisah sehingga didapatkan graIik di atas. Pengurangan pertama dilakukan dengan mengeliminasi deskriptor yang memiliki nilai yang sama untuk lebih dari 90 dari senyawa. Pengurangan kedua mengeliminasi-terkontaminasi satu deskriptor dari setiap pasangan yang memiliki koeIisien korelasi R berpasangan yang bagus , R , ~ 0,95, mempertahankan deskriptor 2D lebih dari deskriptor 2.5D dan juga descriptor sederhana (misalnya: berat molekul) lebih dari deskriptor kompleks (misalnya: inIormasi-konten descriptor).
D. Perbandingan hasil regresi persamaan No. Persm. Regresi dan perlakuan Multiple R 2 Adjusted R 2 STDEV data test 1. Persm. data asli (114 data) 0.8948 0.7777 - 2. Persm. dari data Training awal 0.9372 0.7828 2.08 3. Persm. dari param. signiIikan saja 0.9272 0.817 1.605142 4. Dikembalikan seluruh (114 data) pada persm. signiIikan. 0.8897 0.799 1.374772708 (-1) 1/2
4. Ganti data training dan tes ke-1 0.9165 0.7834 0.303 5. Ganti data training dan tes ke-2 0.9529 0.8778 0.807 Berdasar tabel operasi di atas terdapat perbedaan nilai antara R-squared dari data training asli (tanpa data tes) dengan data training hasil pemisahan. Persamaan regresi yang sudah dihilangkan parameter yang tidak berpengaruh memiliki multiple R 2 lebih kecil yang berarti persamaan yang dihasilkan berkurang kelinierannya. Namun adjusted R 2 nya lebih besar artinya persamaan relatiI lebih linier. Ketika seluruh data tes dikembalikan dan dibuat persamaan tanpa mengikutsertakan parameter non-signiIikan diperoleh nilai STDEV terjadi penurunan R 2 dengan STDEV tidak bisa ditentukan (akar negatiI). Sedangkan pada pergantian data Training dan data tes diperoleh nilai STDEV menurun drastis.