Materi Kuliah – [2]: Data Mining

Data Preprocessing
lizda@fti.uii.ac.id Februari 2011

Materi
Definisi data beserta atributnya  Kualitas data  Deskripsi dasar dan eksplorasi data

Apakah yang disebut Data? Attributes Kumpulan sejumlah objek
data beserta dengan atributnya. Atribut adalah properti atau karakteristik dari sebuah objek.
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10

Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes

Yes No No Yes No No Yes No No No

Single Married Single Married

Kumpulan sejumlah atribut digunakan untuk mendefinisikan suatu objek.

◦ Contoh : warna mata dari objek seorang manusia, merk mobil dari objek sebuah mobil, ... ◦ Atribut juga dikenal dengan istilah : variabel, field, karakteristik, atau Objects fitur/feature.

Divorced 95K Married 60K

Divorced 220K Single Married Single 85K 75K 90K

Nilai Atribut
Nilai atribut dapat berupa angka (numbers) atau simbol.  Perbedaan antara atribut dan nilai atribut adalah:

◦ Atribut yang sama dapat ditentukan untuk nilai yang berbeda.. ◦ Atribut yang berbeda dapat diberi dengan sejumlah nilai yang sama.

 Contoh : tinggi seseorang dapat diukur dalam meter atau feet.

Contoh : Nilai atribut untuk ID dan Usia berupa interger. Namun, properti dari nilai atribut dapat ditentukan secara berbeda.
 Nilai ID tidak memiliki batas (limit), sedangkan usia memiliki nilai batas maksimum dan minimum.

kode pos ◦ Ordinal Data yang dapat dirangking (Contoh: rasa keripik kentang dalam skala 1-10. peringkat di kelas. panjang suatu benda.Jenis Atribut  Terdapat berbagai jenis atribut: ◦ Nominal  Contoh: Nomor ID. hasil perhitungan . rendah}) ◦ Interval Contoh: tanggal di kalender. warna mata. temperatur suhu badan ◦ Ratio Contoh: temperatur dalam Celcius. sedang. tinggi badan dalam {tinggi.

Properti Nilai Atribut   Jenis atribut sangat dipengaruhi oleh properti apa yang dimiliki atribut tersebut. order & addition Ratio attribute: semua (ke-4) jenis properti di atas . Properti nilai atribut terbagi atas 4 kelompok: ◦ ◦ ◦ ◦ Distinctness: Order: < > Addition: Multiplication: = ≠ + */  Untuk ke-4 jenis atribut dapat ditentukan propertinya sbb: ◦ ◦ ◦ ◦ Nominal attribute: distinctness Ordinal attribute: distinctness & order Interval attribute: distinctness.

nomor rumah Tanggal kalender. jenis mobil Operasi mode. harmonic mean. Pearson's correlation. . panjang benda . t and F tests geometric mean. Penggunaan operator (<. rank correlation. Penggunaan operator (=.) Ratio Untuk atribut ratio. run tests. χ 2 test median. sehingga nilai antar objek harus berbeda. hasil perhitungan Interval Nilai atribut interval berlaku jika perbedaan nilai antar atribut memiliki makna yang signifikan. perbedaan nilai ataupun ratio nilai memiliki makna yang signifikan. percent variation Ordinal Nilai atribut ordinal berupa nilai yang dapat diurutkan. nomor ID pegawai. better. >) Kekuatan bahan mineral dalam {good. contingency correlation. ≠) Contoh Kode pos. best}. Penggunaan operator (+. entropy.Tipe Atribut Nominal Deskripsi Nilai atribut nominal berupa nama/nilai yang dapat dibedakan. standard deviation. Penggunaan operator (*. /) . temperatur dalam Celsius atau Fahrenheit Usia. rangking di kelas. sign tests mean. adanya unit pengukuran. percentiles.

atau berat barang.Atribut Kontinu vs Diskret  Atribut Diskret ◦ ◦ ◦ ◦ Berupa nilai yang finite/terbatas. tinggi badan. ◦ Contoh : temperature. Biasanya dinyatakan sebagai data bertipe integer. Atribut bertipe biner merupakan kasus khusus yang termasuk sebagai atribut diskret. . sejumlah kata dalam suatu dokumen.  Atribut Kontinu ◦ Berupa real numbers. ◦ Biasanya dinyatakan sebagai variabel bertipe floatingpoint. Contoh : kode pos.

Tipe Data Set  Record ◦ ◦ ◦ ◦ Relational records Data matriks: numerical matrix Data dokumen : text documents Data transaksi  Graf ◦ World Wide Web ◦ Social or information networks ◦ Struktur Molekul  Ordered ◦ ◦ ◦ ◦ Spatial data: maps Temporal data: time-series Sequential Data: transaction sequences Genetic sequence data .

Relational Record  Data yang terdiri atas sejumlah record dengan tiap record terbentuk dari sejumlah atribut yang tetap. Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10 10 Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes Yes No No Yes No No Yes No No No Single Married Single Married Divorced 95K Married 60K Divorced 220K Single Married Single 85K 75K 90K .

23 12.2 1. Projection of x Load 10.65 Projection of y load 5. dimana m bertindak sebagai baris dan n bertindak sebagai kolom untuk tiap atribut.1 . maka objek tersebut dapat dianggap sebagai point dalam ruang representasi data yang multidimensi.Data Matrik   Jika objek data memiliki jumlah atribut numerik yang sama.27 6. dimana setiap dimensi akan merepresentasikan atribut yang berbeda.22 2.25 Distance Load Thickness 15. Objek data seperti di atas dapat direpresentasikan sebagai matriks (m x n).2 1.7 2.22 16.

timeout season coach game score team ball lost play win Document 1 Document 2 Document 3 3 0 0 0 7 1 5 0 0 0 2 0 2 1 1 6 0 2 0 0 2 2 3 0 0 0 3 2 0 0 .Data Dokumen  Setiap dokumen merupakan ‘term' suatu vector. dalam artian: ◦ Setiap ‘term’ menjadi komponen (atribut) dari suatu vektor ◦ Nilai setiap komponen merupakan jumlah kejadian suatu term yang terjadi pada tiap dokumen.

Diaper. Bread Beer. Bread. sedangkan tiap jenis barang yang dibeli dinyatakan sebagai item. ◦ Contoh: pada suatu supermarket. Milk Beer. Milk Beer. Milk Coke.Data Transaksi  Bentuk khusus suatu data record. barang-barang yang dibeli customer dalam sekali belanja merupakan suatu transaksi. dimana: ◦ Setiap record (transaksi) melibatkan sejumlah item. Coke. Coke. Diaper. TID Items 1 2 3 4 5 Bread. Milk . Diaper.

html#ffff"> N-Body Computation and Dense Linear System Solvers 2 5 2 5 1 .html#bbbb"> Data Mining </a> <li> <a href="papers/papers.Data Graf  Contoh: graf umum dan link HTML <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.

Data Kimia  Molekul Benzene: C6H6 .

Ordered Data (Data yang terurut)  Urutan transaksi Items/Events An element of the sequence .

Ordered Data  Urutan data genome (gen) GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG .

Ordered Data  Spatio-Temporal Data Rata-rata bulanan temperatur suhu di darat dan di laut .

Kualitas Data    Apa sajakah permasalahan yang berkaitan dengan kualitas data? Bagaimanakah cara kita mengetahui adanya masalah pada data yang dimiliki? Apakah yang dapat kita lakukan terkait dengan masalah ini? Contoh masalah-masalah terkait dengan kualitas data: ◦ Noise dan outliers ◦ Missing values ◦ Duplicate data  .

Noise  Noise mengacu pada adanya modifikasi pada nilai data asli. ◦ Contoh: distorsi/gangguan pada suara seseorang ketika sedang berbicara menggunakan telpon berkualitas jelek. ataupun adanya “snow” pada layar televisi. Two Sine Waves Two Sine Waves + Noise .

Outliers  Outliers merupakan objek data dengan karakteristik yang dianggap sangat berbeda dengan objek data lainnya dalam suatu data set. .

Missing Values  Alasan terjadinya missing values: ◦ Informasi tidak dikumpulkan (contoh: ada responden yang menolak untuk memberi tahu usia dan berat badan mereka) ◦ Atribut tidak dapat diterapkan (not applicable) untuk semua kasus (contoh: pendapatan per tahun tidak dapat diterapkan untuk anak-anak)  Mengatasi missing values: ◦ ◦ ◦ ◦ Meng-eliminasi objek data Meng-estimasi missing values Mengabaikan missing values saat dilakukan data analisis Mengisi missing values tersebut dengan data yang mungkin/relevan (didasarkan pada nilai probabilitasnya) .

 Untuk itu diperlukan proses data cleaning yang berhubungan dengan pembersihan data yang terduplikasi tersebut.  .Data Duplicate Suatu data set sangat mungkin memiliki data yang sama persis (terduplikasi seutuhnya) atau hanya terduplikasi sebagian (sebagian atribut memiliki nilai yang sama).  Hal ini dapat terjadi jika beberapa sumber data yang heterogen digabung.  Contoh: seseorang dapat memiliki beberapa alamat email.

seperti: ◦ ◦ ◦ ◦ ◦ ◦ ◦ Aggregation Sampling Dimensionality Reduction Feature subset selection Feature creation Discretization and Binarization Attribute Transformation .Data Preprocessing  Untuk mengatasi masalah-masalah tersebut di atas dapat dilakukan beberapa teknik data preprocessing.

 Tujuannya:  ◦ Data reduction  mengurangi jumlah atribut.Aggregation Menggabungkan dua atau lebih atribut sebagai sebuah atribut.. . negara. ◦ Untuk mendapatkan data yang lebih “stabil” data yang di-agregasi cenderung untuk memiliki tingkat variabilitas yang tidak terlalu tinggi. ◦ Mengubah skala kota dapat di-agregasi sebagai kabupaten. propinsi. ..

Aggregation (2)  Variasi curah hujan di Australia Standard Deviation of Average Monthly Precipitation Standard Deviation of Average Yearly Precipitation .

.Sampling  Sampling merupakan teknik utama yang digunakan untuk memilih data (data selection). ◦ Seringkali teknik ini digunakan baik untuk investigasi awal data maupun analisis data akhir. Teknik sampling juga sering digunakan dalam data mining karena untuk memproses seluruh data of interest akan memakan waktu dan biaya yang besar.   Para ahli statistik cenderung memilih menggunakan teknik statistik dikarenakan untuk memperoleh seluruh data set of interest biasanya membutuhkan biaya yang besar dan memakan waktu.

Sampling (2)  Prinsip utama dalam menjalankan teknik sampling yang efektif adalah: ◦ Gunakan sample data yang bekerja sama baiknya seperti menggunakan seluruh data set. untuk itu dibutuhkan sample yang representatif. ◦ Sample dinyatakan representatif jika memiliki seluruh properti/atribut seperti data set yang asli. .

◦ Item-item yang terpilih tidak akan dipisahkan dari populasinya. meskipun mereka dianggap sebagai sample namun dalam perhitungan tetap akan melibatkan populasi. ◦ Memisahkan data dalam sejumlah partisi. ◦ Dalam teknik sampling seperti ini. item/objek yang sama dapat dipilih lebih dari satu kali.Jenis Sampling  Simple Random Sampling  Sampling with replacement ◦ Terdapat probabilitas yang sama untuk item-item apapun yang terpilih. ◦ Setiap item yang terpilih akan disisihkan dari populasinya untuk dianalisis. kemudian mengambil data secara random dari setiap partisi tersebut.  Sampling without replacement  Stratified sampling .

Ukuran Sample 8000 points 2000 Points 500 Points .

Distribusi Data : median. max.. quantiles. variasi.  Karakteristik . variance. dan penyebaran (spread) data.. . outliers.Deskripsi Dasar dan Eksplorasi Data  Tujuan : untuk mendapatkan pemahaman yang lebih baik tentang pusat data (central tendency). min.

1 n ◦ Mean suatu sampel :x = n ∑ xi i =1 ◦ Mean suatu populasi : x µ=∑ N   Median : nilai tengah / posisi tengah dari nilai data terjajar (data array). Modus : nilai/data yang paling sering muncul atau data yang memiliki frekuensi terbesar. biasanya mengacu pada mean aritmetika. .Ukuran Pemusatan Data (Central Tendency)  Mean : nilai rata-rata.

Symmetric vs Skewed Data  Mean. dan modus dari : ◦ Data yang simetris ◦ Data yang condong/miring (skewed) symmetric positively skewed negatively skewed . median.

sehingga variasi data dapat dikendalikan.Mengukur Penyebaran Data (Dispersion) Ukuran penyebaran (dispersion) menunjukkan seberapa jauh data menyebar dari nilai rata-ratanya (variabialitas data). . ◦ Untuk mengetahui seberapa jauh penyebaran (scattering) data.  Terdapat 2 alasan penting mengukur dispersion dari suatu data set :  ◦ Untuk membuat suatu penilaian mengenai seberapa baik suatu nilai rata-rata (ukuran pemusatan) menggambarkan data.

1 n 1 n 2 1 n 2 s = ∑1 ( xi − x ) = n − 1 [∑1 xi − n (∑1 xi ) 2 ] n − 1 i= i= i= 2 ◦ Standar Deviasi : akar pangkat dua dari variansi (s2 atau σ2) 1 σ = N 2 1 ( xi − µ ) = ∑ N i =1 2 n ∑x i =1 n 2 i − µ2 . ◦ Variansi (Variance) : kuadrat simpangan dari semua nilai data terhadap rata-rata hitung. ◦ Simpangan rata-rata (Mean Deviation) : jumlah nilai mutlak dari selisih semua nilai dengan nilai rata-rata dibagi banyaknya data.Mengukur Dispersion (2)  Beberapa jenis dispersion : ◦ Range/jangkauan : perbedaan nilai terbesar dan terkecil dari data set.

Q2.5 IQR. Q . Q .Mengukur Dispersion (3)  Kuantil : nilai-nilai yang membagi suatu data set menjadi bagian yang sama. M.  . Q3) Simpangan Kuartil (Inter Quartile Range) : IQR = Q3 – Q1  Five Number Summary : min. ◦ Kuantil untuk 2 bagian : median ◦ Kuantil untuk 4 bagian : kuartil (Q1. 1 3 max  Outlier : biasanya berupa nilai yang lebih besar/kecil dari 1.

Histogram : x-axis menyatakan nilai data. y-axis menyatakan frekuensi data. Quantile plot : untuk mengetahui banyaknya data yang bernilai kurang/lebih dari suatu nilai tertentu dibandingkan dengan nilai yang berada dalam suatu interval. Scatter plot : setiap data merupakan sepasang koordinat yang digambarkan sebagai titik pada bidang gambar. Kurva Loess (local regression) : menambakan kurva yang halus pada scatter plot sehingga pola keterhubungan data dapat dibaca/di-persepsi lebih baik lagi. .Visualisasi Data Statistik      Boxplot : grafik yang menggambarkan five-number summary.

bagian tepi Q3. M. ◦ Whiskers: adalah dua garis yang terletak di luar kotak yang menyatakan nilai Minimum dan Maximum . Maximum  Boxplot ◦ Data direpresentasikan sebagai sebuah kotak.Boxplot Analysis  Distribusi Five-number summary: ◦ Menggunakan: Minimum. ◦ Nilai median dinyatakan sebagai garis yang terdapat di tengah kotak. Q3. sehingga tinggi kotak merupakan IQR. Q1. ◦ Bagian tepi kotak bawah adalah Q1.

Biasanya berupa frequency histograms:  Metode grafik yang univariate Terdiri atas sejumlah batang yang menggambarkan jumlah atau frekuensi kelas terhadap data yang digunakan. Histogram Analysis  Berupa graf yang menunjukkan deskripsi kelas statistik dasar. .

jika diperhatikan mereka ternyata memiliki distribusi data yang berbeda. max  Namun. ◦ Nilai yang sama untuk: min. median. Q1. Q3. .Histograms vs Boxplots  Kedua histogram disamping memiliki representasi boxplot yang sama.

outliers. . yaitu ada tidaknya cluster points. Setiap pasangan nilai dinyatakan sebagai sepasang koordinat. ...Scatter plot   Memberikan informasi awal bivariate data.

Loess Curve   Penambahan garis penghubung yang halus di scatter plot untuk memberikan persepsi yang lebih baik tentang adanya pattern of dependence Loess curve didasarkan atas dua parameter: a smoothing parameter (parameter penghubung). dan degree of the polynomials (tingkat polinomial) yang disesuaikan dengan persamaan regresi. .

Positively and Negatively Correlated Data   The left half fragment is positively correlated The right half is negative correlated .

Not Correlated Data .

Sign up to vote on this title
UsefulNot useful