Professional Documents
Culture Documents
Journal Review: Data Mining Methodology
Journal Review: Data Mining Methodology
Methodology
N a b i l a Yu r a i s y a h S a l s a b i l a ( 0 2 4 1 4 0 0 0 0 0 4 8 )
Nisrina Nabella Putri (024140000107)
1
Journal Review
Application of Data Mining Technique and
Data Analysis Methods to Measure Cancer
Morbidity and Mortality Data in Regional
Cancer Registry
Contents
3
INTRODUCTION
4
• Ruang lingkup dari penelitian ini adalah penelitian terhadap pasien kanker di
Creta, Yunani khususnya kabupaten Lesithi dan Rethimo
Tujuan
• Untuk menerapkan data mining dan machine learning dengan
sistematis untuk memaksimumakan infomasi yang didapatakan dari
data
• Untuk melakukan data analysis pada data berdasarkan proyeksi
statistik dan standardisasi ukuran populasi
Kanker Payudara
Data Awal :433.272 data dengan 72
variabel
Data : 202.903 data dengan 17 variabel
Tingkat Akurat : 90%
Kanker Payudara oleh
Bellaacia & Guven
Data Awal :433.272 data dengan 72
variabel
Data : 151.000 data dengan 16 variabel
Tingkat Akurat : 86.7%
Kanker Prostat oleh
Delen
Data : 120.000 data dengan 12 variabel
Tingkat Akurat : 90%
M AT E R I A L A N D
METHODS
Metodologi
Memilih
Pengumpul Identifikasi Penghapusan Atribut
Redundat
an Data Pasien
Data
Melakukan
Training
Memperbaiki Membuat
catatan
Model
Error Data
pasien
Data Mining
Membuat
catatan Analisa
pasien Perbandinga
n
Data
Preparation Analisis Statistik
8
Data Preparation
Memberikan ID Menghapus redundant Meringkas data pasien Memperbaiki outlier Ekspor data ke SPSS
kepada pasien data. Menggunakan berdasarkan ID pasien dan missing data dan Weka
namun tetap menampilkan
berdasarkan profil tanggal kejadian dan data histori
pasien ID pasien
9
R E S U LT S O F T H E
D ATA M I N I N G
PROCESS
Cases Recorded in 1998-1999
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Information City of Residence City of Birth Fisrt Diagnosis Affected Organ Cancer Type Occupation Age at Diagnosis Province of Province of birth Age group Country of Birth Social Society Country of Sex
Source residence Residence
Feature Selection
Information gain merupakan kuantitas informasi yang didapatkan dengan mengetahui nilai dari karakteristik
tersebut. Semakin tinggi nilainya, maka karakteristik tersebut akan sangat membantu proses prediksi.
D
E
C
I
S
I
O
N
T
R
E
E
Algorithm Accuracy Sensitivity
C4.5 80.31%±0.11 0.936± 0.001
Random Forest 80.69%±0.11 0.915± 0.001
Logistic Reggression 82.95%±0.11 0.904± 0.001
SVM 81.08%±0.11 0.944± 0.001
Naive Bayes 76.66%±0.11 0.797± 0.001
Data Kasus Kanker dan Kematian Berdasarkan Usia dan Jenis Kelamin
• Jumlah kasus (1526) dan kematian (558) pada usia ≥ 75 tahun berpengruh terhadap 42% total kasus
dan 54% total kematian.
• Berdasarkan jenis kelamin, dapat diketahui bahwa jumlah pria lebih tinggi dari pada wanita.
• Perbandingan kematian dan insiden pada pasien muda (≤34 tahun) jauh lebih rendah (0.055) dari
pada pasien dengan usia lebih dari 75 tahun (0.366).
Tingkat Risiko pada Usia Muda
Jumlah
Jumlah
Jumlah kematian kanker,
kasus kanker,
Populasi Muda ASMR,
ASIR, dan
dan
Berdasarkan
risiko
risiko meninggal
mengidap
Region dunia
dan kanker
Jenis karena 75
sebelum
Kelamin
kanker di usia
tahun< 75 tahun.
Berdasarkan Region
ASIR dan ASMR pada dua region, dibandingkan dengan Yunani Eropa, dan Dunia
Analysis
Berdasarkan hasil rangkuman di atas, dapat diketahui bahwa ASIR pada kedua region lebih tinggi dari pada
eropa dan dunia. Tetapi hal ini masih memerlukan penelitian lebih dalam, karena terdapat kemungkinan faktor
yang mempengaruhi hasil penelitan: waktu pengamatan yang singkat, analisa yang hanya dilakukan pada
dua dari empat kabupaten, dan pengumpuan data secara manual.
Kesimpulan
Tidak cukup bukti untuk mendukung morbiditas kanker meningkat di Crete. Karena epidemiology
kanker di Crete masih terhitung sangat rendah di Eropa.
Analisis
ASMR di Rethymno lebih rendah dari pada di Eropa dan dunia. ASMR ini tidak dapat
mereprentasikan seluruh Crete. Hal ini disebabkan karena data hanya menggunakan dua dari
empat kabupaten yang jumlah populasinya kurang dari 200.000 orang.
Analisis
Dalam membandingkan region Rethymno dan Lasithi, perlu memerhatikan kebiasaan
bekerja dan pola hidup populasinya. Khusunya pada Lasithi, dimana terdapat penggunaan
pestisida yang sangat tinggi.
The Power of PowerPoint | thepopp.com 26
Perbandingan dengan SEER dan
GLOBOCAN Projects
SEER dan
GLOBOCAN Projects Penelitian ini
Dataset berskala besar, Dataset berskala kecil,
cakupan region lebih besar cakupan region lebih kecil
dan periode waktu lebih dan periode waktu lebih
panjang. sedikit.
Atribut lebih banyak (70 – 80 Atribut lebih sedikit
atribut)
1 2 3
Periode Cakupan Pengumpulan
penelitian Penelitian data secara
yang singkat terlalu kecil manual
Berdasarkan
Penelitian keterbatasan ini, maka
hanya dilakukan • Populasi
diperlukan tambahan atributPengumpulan
di Kreta memiliki yang berhubungan
data secara kuat
selama 6 tahun. Pada penelitian mobilitas paling rendah di Yunani. manual dapat mengbatkan
dengan survival, seperti tahap penyakit dan jenis penanganan.
selanjutnya, diharapkan dapat • Kreta memiliki variasi geografis kemungkinan adanya bias.dan
Oleh
Hal ini disebabkan karena sebagian besar penyakit didata pada pendaftaran local
digunakan data yang jangka yang sangat tinggi (dataran karena itu, diperlukan kombinasi
tidak tinggi,
padapegunungan,
tahap awal penyakit.
daerah
wakunya lebih lama, metodologi seperti data pre-
menerapkan leih banyak uji pantai, dataran rendah) processing, analisa data
statistic untukmengidentifikai • Struktur regional yang bervariasi menggunakan metode statistik,
variasi demografis dan spasial. (urban dan rural) dan teknik data mining.
The Power of PowerPoint | thepopp.com 28
Dapat menjangkau kasus kanker dan
kematian pada dua region, dari 998
Kelebihan hingga 2004
29
CONCLUSSION
THANK YOU!
ANY QUESTIONS?