You are on page 1of 31

Journal Review: Data Mining

Methodology
N a b i l a Yu r a i s y a h S a l s a b i l a ( 0 2 4 1 4 0 0 0 0 0 4 8 )
Nisrina Nabella Putri (024140000107)

1
Journal Review
Application of Data Mining Technique and
Data Analysis Methods to Measure Cancer
Morbidity and Mortality Data in Regional
Cancer Registry
Contents

A focus on the observed


1 Introduction 4 data
Latar belakang, Daftar data kanker, Penelitian Cancer Morbidity and mortality data, the risk
data mining terhadap kanker for younger ages, analysis by cancer type,
comparison with European and global statistics

2 Material and Methods 5 Discussion


Sumber data, Persiapan data (data New applied methodologies, data analysis,
preparation), data mining, statistical data methodological considerations, strengths, and
analysis imitations

A focus on the results of the


3 data mining process 6 Conclussion
Feature Selection, Classification and survival
prediction

3
INTRODUCTION

4
• Ruang lingkup dari penelitian ini adalah penelitian terhadap pasien kanker di
Creta, Yunani khususnya kabupaten Lesithi dan Rethimo

Tujuan
• Untuk menerapkan data mining dan machine learning dengan
sistematis untuk memaksimumakan infomasi yang didapatakan dari
data
• Untuk melakukan data analysis pada data berdasarkan proyeksi
statistik dan standardisasi ukuran populasi

Latar Belakang • Untuk mediskusikan


morbiditas di Creta
hasil metodologi terhadap morbiditas dan

Penelitian epidemiological merupakan prioritas


dunia
• Penelitian tersebut dapat menunjukkan variasi terjadinya kanker dan mortalitas
berdasarkan agama, etnis, jenis kelamin, dan faktor sosial-ekonomi yang berkontribusi
terhadap penilaian kebutuhan manusia.
Penelitian
Te r d a h u l u

Kanker Payudara
Data Awal :433.272 data dengan 72
variabel
Data : 202.903 data dengan 17 variabel
Tingkat Akurat : 90%
Kanker Payudara oleh
Bellaacia & Guven
Data Awal :433.272 data dengan 72
variabel
Data : 151.000 data dengan 16 variabel
Tingkat Akurat : 86.7%
Kanker Prostat oleh
Delen
Data : 120.000 data dengan 12 variabel
Tingkat Akurat : 90%
M AT E R I A L A N D
METHODS
Metodologi
Memilih
Pengumpul Identifikasi Penghapusan Atribut
Redundat
an Data Pasien
Data
Melakukan
Training
Memperbaiki Membuat
catatan
Model
Error Data
pasien
Data Mining
Membuat
catatan Analisa
pasien Perbandinga
n

Data
Preparation Analisis Statistik

8
Data Preparation

Identifikasi Penghapusan Ekspor data ke


Data Pasien Memperbaiki
Pasien Redundant Data Error Data SPSS dan Weka

Memberikan ID Menghapus redundant Meringkas data pasien Memperbaiki outlier Ekspor data ke SPSS
kepada pasien data. Menggunakan berdasarkan ID pasien dan missing data dan Weka
namun tetap menampilkan
berdasarkan profil tanggal kejadian dan data histori
pasien ID pasien

9
R E S U LT S O F T H E
D ATA M I N I N G
PROCESS
Cases Recorded in 1998-1999
0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
Information City of Residence City of Birth Fisrt Diagnosis Affected Organ Cancer Type Occupation Age at Diagnosis Province of Province of birth Age group Country of Birth Social Society Country of Sex
Source residence Residence

Feature Selection
Information gain merupakan kuantitas informasi yang didapatkan dengan mengetahui nilai dari karakteristik
tersebut. Semakin tinggi nilainya, maka karakteristik tersebut akan sangat membantu proses prediksi.
D
E
C
I
S
I
O
N

T
R
E
E
Algorithm Accuracy Sensitivity
C4.5 80.31%±0.11 0.936± 0.001
Random Forest 80.69%±0.11 0.915± 0.001
Logistic Reggression 82.95%±0.11 0.904± 0.001
SVM 81.08%±0.11 0.944± 0.001
Naive Bayes 76.66%±0.11 0.797± 0.001

Perfomance of Different Classification Algorithms


Tujuan : membantu warga Sitia dan tenaga medik untuk melakukan prognosis dan
menetukan treatment yang efektif dan efisien.
O B S E R V E D D ATA
Morbiditas dan Mortalitas Kanker

Data Kasus Kanker dan Kematian Berdasarkan Usia dan Jenis Kelamin
• Jumlah kasus (1526) dan kematian (558) pada usia ≥ 75 tahun berpengruh terhadap 42% total kasus
dan 54% total kematian.
• Berdasarkan jenis kelamin, dapat diketahui bahwa jumlah pria lebih tinggi dari pada wanita.
• Perbandingan kematian dan insiden pada pasien muda (≤34 tahun) jauh lebih rendah (0.055) dari
pada pasien dengan usia lebih dari 75 tahun (0.366).
Tingkat Risiko pada Usia Muda
Jumlah
Jumlah
Jumlah kematian kanker,
kasus kanker,
Populasi Muda ASMR,
ASIR, dan
dan
Berdasarkan
risiko
risiko meninggal
mengidap
Region dunia
dan kanker
Jenis karena 75
sebelum
Kelamin
kanker di usia
tahun< 75 tahun.

Data Tingkat Risiko Usia ≤ 75 Tahun

The Power of PowerPoint | thepopp.com 16


Analisis Berdasarkan Tipe Kanker

Berdasarkan Jenis Kelamin

The Power of PowerPoint | thepopp.com 17


Analisis Berdasarkan Tipe Kanker

Berdasarkan Region

The Power of PowerPoint | thepopp.com 18


Perbandingan dengan Eropa dan
Dunia

Data Statistik di Level Nasional, Benua, dan Dunia

The Power of PowerPoint | thepopp.com 19


Perbandingan dengan Eropa dan Dunia

ASIR dan ASMR pada dua region, dibandingkan dengan Yunani Eropa, dan Dunia

The Power of PowerPoint | thepopp.com 20


DISCUSSION
The New Applied Methodology
Penggunaan Tingkat kesulitan
metodologi metodologi Metodologi label
Penggunaan Pada penelitian ini, hal Pasien diberi label
metodologi data mining yang cukup susah
dilakukan adalah proses survive jika tetap
dalam melakukan
prediksi survival kanker
pengumpuan data. hidup selama 5
Digunakan data pasien
telah dilakukan tahun setelah
paling tidak selama lima
sebelumnya. Namun tahun untuk melakukan didiagnosis kanker.
pada penelitian ini, prediksi label “survive”
penulis menggunakan atau “tidak survive”.
algoritma C4.5
Data Analysis

Analysis
Berdasarkan hasil rangkuman di atas, dapat diketahui bahwa ASIR pada kedua region lebih tinggi dari pada
eropa dan dunia. Tetapi hal ini masih memerlukan penelitian lebih dalam, karena terdapat kemungkinan faktor
yang mempengaruhi hasil penelitan: waktu pengamatan yang singkat, analisa yang hanya dilakukan pada
dua dari empat kabupaten, dan pengumpuan data secara manual.

The Power of PowerPoint | thepopp.com 23


Data Analysis

Kesimpulan
Tidak cukup bukti untuk mendukung morbiditas kanker meningkat di Crete. Karena epidemiology
kanker di Crete masih terhitung sangat rendah di Eropa.

The Power of PowerPoint | thepopp.com 24


Data Analysis

Analisis
ASMR di Rethymno lebih rendah dari pada di Eropa dan dunia. ASMR ini tidak dapat
mereprentasikan seluruh Crete. Hal ini disebabkan karena data hanya menggunakan dua dari
empat kabupaten yang jumlah populasinya kurang dari 200.000 orang.

The Power of PowerPoint | thepopp.com 25


D ATA A N A LY S I S

Analisis
Dalam membandingkan region Rethymno dan Lasithi, perlu memerhatikan kebiasaan
bekerja dan pola hidup populasinya. Khusunya pada Lasithi, dimana terdapat penggunaan
pestisida yang sangat tinggi.
The Power of PowerPoint | thepopp.com 26
Perbandingan dengan SEER dan
GLOBOCAN Projects
SEER dan
GLOBOCAN Projects Penelitian ini
Dataset berskala besar, Dataset berskala kecil,
cakupan region lebih besar cakupan region lebih kecil
dan periode waktu lebih dan periode waktu lebih
panjang. sedikit.
Atribut lebih banyak (70 – 80 Atribut lebih sedikit
atribut)

The Power of PowerPoint | thepopp.com 27


Keterbatasan Penelitian

1 2 3
Periode Cakupan Pengumpulan
penelitian Penelitian data secara
yang singkat terlalu kecil manual

Berdasarkan
Penelitian keterbatasan ini, maka
hanya dilakukan • Populasi
diperlukan tambahan atributPengumpulan
di Kreta memiliki yang berhubungan
data secara kuat
selama 6 tahun. Pada penelitian mobilitas paling rendah di Yunani. manual dapat mengbatkan
dengan survival, seperti tahap penyakit dan jenis penanganan.
selanjutnya, diharapkan dapat • Kreta memiliki variasi geografis kemungkinan adanya bias.dan
Oleh
Hal ini disebabkan karena sebagian besar penyakit didata pada pendaftaran local
digunakan data yang jangka yang sangat tinggi (dataran karena itu, diperlukan kombinasi
tidak tinggi,
padapegunungan,
tahap awal penyakit.
daerah
wakunya lebih lama, metodologi seperti data pre-
menerapkan leih banyak uji pantai, dataran rendah) processing, analisa data
statistic untukmengidentifikai • Struktur regional yang bervariasi menggunakan metode statistik,
variasi demografis dan spasial. (urban dan rural) dan teknik data mining.
The Power of PowerPoint | thepopp.com 28
Dapat menjangkau kasus kanker dan
kematian pada dua region, dari 998
Kelebihan hingga 2004

Penelitian Pre-processing data yang dilakukan:


pembersihan data, identifikasi data duplikat,
dan pengelompokan penyakit setiap pasien.
Metodologi analisa data berdasarkan proyeksi
statistik dan standardisasi ukuran populasi.
Terdapat kesimpulan yang Perbandingan dengan dunia dan Eropa.
informatif dan bermanfaat. Terdapat
Penerapan data mining, sehingga dapat
atribut pekerjaan, pola hidup, dan ditemukannya informasi yang tersemunyi.
atribut lainnya yang cukup
merepresentasikan tipe kanker.

29
CONCLUSSION
THANK YOU!
ANY QUESTIONS?

You might also like