NAÏVE BAYES

A. Data Training dan Hipotesa

Dari data diatas dapat dinyatakan pengertian tentang data konsisten dan tidak konsisten. • Data konsisten Suatu data disebut konsisten, jika setiap atributnya memiliki nilai target yang sama.
Day # # # Cuaca Cerah Cerah Cerah Temperatur Normal Normal Normal Kecepatan Angin Pelan Pelan Kencang Berolah raga Ya Ya Ya

Atribut Cuaca, Temperatur mempunyai nilai target yang sama (Berolah-raga), maka data ini adalah data yang konsisten. • Data tidak konsisten Suatu data disebut tidak konsisten, jika setiap atributnya memiliki nilai target yang sama, tapi nilai yang berbeda untuk atriibutnya.
Day # # # Cuaca Cerah Cerah Hujan Temperatur Normal Tinggi Normal Kecepatan Angin Pelan Pelan Kencang Berolah raga Ya Ya Ya

Tidak satupun atribut yang mempunyai nilai yang sama dalam satu keputusan (berolah-raga).

untuk singkatnya dituliskan hanya instance pada setiap atribut dengan H(cerah. H(cuaca=cerah. Data set tersebut digunakan untuk memprediksi suatu kejadian dari fakta atau kenyataan yang diketahui sebelumnya. untuk singkatnya dituliskan hanya instance pada setiap atribut dengan H(cerah. Hipotesa dituliskan dengan: Contoh Hipotesa: 1. dan kec. tidak konsisten atau bias. pelan)=ya 2.• Data bias Suatu data disebut data bias jika memiliki target atau keputusan yang berbeda sedangkan instance pada semua atributnya sama Day # # # Cuaca Cerah Cerah Cerah Temperatur Normal Normal Normal Kecepatan Angin Pelan Pelan Pelan Berolah raga Ya Ya Tidak Dataset yang digunakan sebagai data training bias bersifat konsisten.angin=pelan)=ya Hipotesa ini menunjukkan bahawa keputusan untuk berolah raga bila cuaca=cerah. *. Prediksi dari suatu kejadian disebut Hipotesa. H(cuaca=cerah)=ya . kec. pelan)=ya 3.angin=pelan. temperature=normal. kec. normal. kec. temperature=normal. H(cuaca=cerah.angin=pelan)=ya Hipotesa ini menunjukkan bahawa keputusan untuk berolah raga bila cuaca=cerah.angin=pelan.

*)=ya Pada dasarnya semua algoritma yang dikembangkan dalam mesin pembelajaran yang ada pada Data Mining adalah algoritma yang menghasilkan hipotesa dari suatu keputusan berdasarkan data pembelajaran B. Memecah data berdasarkan target keputusan Untuk memperoleh hipotesa dengan Find-S dari data diatas.Hipotesa ini menunjukkan bahawa keputusan untuk berolah raga bila cuaca=cerah. *. Find-S mencari kesamaan nilai attribute untuk memperoleh suatu hipotesa. Kelemahan dari Find-S adalah data yang digunakan harus bersifat konsisten dan tidak bias. Padahal pada kenyataan. sangat sulit mencari data seperti itu. Algoritma FIND-S Find-S adalah suatu metode paling sederhana yang dapat digunkan untuk mendapatkan suatu hipotesa berdasarkan data. langkah pertama adalah memecah data berdasarkan target keputusannya. Berikut ini ada Dataset Cuaca: Langkahnya adalah: 1. sehingga akan diperoleh 2 data: pertama untuk keputusan=ya dan kedua untuk keputusan=tidak . untuk singkatnya dituliskan hanya instance pada setiap atribut dengan H(cerah.

Dari hasil pemisahan tersebut terlihat bahwa data training ersebut konsisten dan tidak bias. Pembuatan hipotesa ini dilakukan dengan mengambil data pertama sebagai hipotesa awal yang dianggap sebagai hipotesa spesifik. Membuat hipotesa untuk masing-masing keputusan Langkah berikutnya adalah membuat hipotesa untuk masing-masing keputusan. . Langkah ini digunakan untuk menentukan hipotesa dari keputusan=ya. dan diteruskan hingga data terakhir dengan memperhatikan kesamaan sampai didapat hipotesa umum. 2.

Normal. ada perubahan di kec. sehingga: H(Cerah. Data kelima. Tinggi. Tinggi.angin sehingga: H(Cerah. Pelan)=Ya 2. *)=Ya 4. tidak ada perubahan karena semua nilai instancenya sama: H(Cerah. Normal. Data kedua. Normal. *)=Ya Langkah ini digunakan untuk menentukan hipotesa dari keputusan=tidak 1.angin. ada perubahan di atribut kec.1. Hipotesa awal disamakan dengan data pertama H(Hujan.angin H(Hujan. Data keempat. Pelan)=Tidak 2. Hipotesa awal disamakan dengan data pertama: H(Cerah. Normal. *)=Tidak . ada perubahan di atribut kec. Data keenam. Pelan)=Ya 3.

Probabilitas bersyarat dalam data diilustrasikan pada contoh berikut. Algoritma Find-S hanya bisa digunakan jika datanya konsisten dan tidak bias. Konsep Dasar dan Definisi Metode Bayes Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias. sehingga untuk bentuk data semacam ini salah satu metode sederhana yang dapat digunakan adalah metode bayes. Metode Bayes menggunakan propabilitas bersyarat sebagai dasarnya.Dari hasil keputusan diatas. kemudian menggunkan teorema ini untuk melakukan klasifikasi dalam Data Mining. Metode Bayes merupakan pendekatan statistic untuk melakukan inferensi induksi pada persoalan klasifikasi. atau dengan bahasa lain P(X|Y) adalah prosentase banyaknya X di dalam Y. Pertama kali dibahas terlebih dahulu tentang konsep dasar dan definisi pada Teorema Bayes. C. jika ada pertanyaan ”Bila cuaca cerah saat ini apakah akan berolahraga?” Hasil keputusannya adalah = ya (Hipotesa I). Dalam ilmu probabilitas bersyarat dinyatakan sebagai: Probabilitas X di dalam Y adalah probabilitas inteseksi X dan Y dari probabilitas Y. .

Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6. Metode Bayes dan HMAP (Hypothesis Maximum Appropri Probability) . maka probabilitas cuaca cerah pada saat olahraga adalah: D. Dari informasi tersebut. Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data. maka dituliskan P(cuaca=cerah dan Olahraga=ya)= 4/6.

Terminologi dari HMAP menyatakan hipotesa yang diambil berdasarkan nilai probabilitas berdasarkan kondisi prior yang diketahui. apakah dapat dinyatakan bahwa besar kemungkinan akan menderita sakit paru-paru jika dia seorang perokok? . Contoh: Pertanyaan : Berdasarkan hasil survey tersebut.Dimana: keadaan Posteriror (Probabilitas Xk di dalam Y) dapat dihitung dari keadaan prior (Probabilitas Y di dalam Xk dibagi dengan jumlah probabilitas Y dalam semua Xi). HMAP adalah model penyederhanaan dari metode bayes yang disebut dengan Naive Bayes. HMAP dapat digunakan sebagai metode untuk mendapatkan hipotesis dari suatu keputusan. HMAP dapat diartikan untuk mencari probabilitas terbesar dari semua instance pada atribut target atau semua kemungkinan keputusan.

Sign up to vote on this title
UsefulNot useful