You are on page 1of 11

Kumpulan jurnaL Ilmu Komputer (KLIK)

Volume 02, No.01 Februari 2015


ISSN: 2406-7857

Aplikasi Data Mining Menggunakan Multiple Linear


Regression Untuk Pengenalan Pola Curah Hujan
Irwan Budiman1) Artesya Nanda Akhlakulkarimah 2)
1,2Prodi Ilmu Komputer FMIPA UNLAM

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan


email : irwan.budiman@unlam.ac.id, 2)artesyananda@yahoo.co.id
1)

Abstract

The development of information technology in today's era of globalization is growing


rapidly. It also has created the development of a lot of data, including data about the
weather. The method of data analysis that we used is multiple linear regression. F test,
partial correlation test and coefficient of determination were used in this research.
After we got a regression model with two independent variables, then we did testing
for coefficient of determination. From the result, we knew that the relevance between
the number of rainy days with the rainfall was very strong. The relevance between the
duration of solar radiation with the rainfall was strong. Whereas, the relevance
between the number of rainy days with duration of sun exposure was very strong.
Coefficient of determination was 0.5778. It meant that multiple linear regression
model had a reliability rate of 57,78%. The Conclusions of this research are the
number of rainy days and duration of sun exposure are affecting significantly with
rainfall. The regression model which used is 57,78%, it means that rainfall is
influenced by 57,78% of independent variables which measured in this research.
Keywords: Multiple Linear Regression, data mining, rainfall.

Abstrak

Perkembangan teknologi informasi pada era globalisasi saat ini sangat berkembang
pesat. Perkembangan ini juga telah melahirkan perkembangan banyak data,
termasuk data-data tentang cuaca. Metode analisis data yang digunakan dengan
multiple linear regression. Pada penelitian ini digunakan uji F, uji korelasi parsial dan
koefisien determinasinya. Setelah didapatkan model regresi dengan dua variable
bebas, kemudian dilakukan pengujian terhadap koefisien regresi. Dari hasil
perhitungan, dapat diketahui keterkaitan antara jumlah hari hujan dengan curah
hujan sangat kuat. Keterkaitan antara lama penyinaran dan curah hujan kuat.
Sedangkan, keterkaitan antara jumlah hari hujan dan lama penyinaran sangat kuat.
Koefisien determinasinya 0,5778. Artinya tingkat kecocokan model multiple linear
regression memiliki tingkat kehandalan 57,78%. Kesimpulan dari penelitian ini
adalah jumlah hari hujan dan lamanya penyinaran matahari berpengaruh signifikan
terhadap curah hujan. Model regresi yang digunakan memberikan hasil 57,78% yang
berarti curah hujan dipengaruhi oleh 57,78% variable bebas yang diukur pada
penelitian ini.
Kata Kunci: Multiple Linear Regression, data mining, curah hujan.

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |34
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

1. PENDAHULUAN
1.1 Latar Belakang
Cuaca merupakan keadaan yang menunjukkan adanya aktifitas alam di
atmosfer pada suatu wilayah tertentu dan dalam waktu yang singkat. Berbagai
aktifitas manusia bergantung dengan kondisi cuaca. Kondisi cuaca berpengaruh
pada beberapa sektor. Informasi tentang cuaca bisa didapatkan secara berkala.
Badan Metereologi, Klimatologi dan Geofisika (BMKG) dapat mempublikasikan
informasi ini per bulan. Adanya pemberian informasi secara berkala ini dapat
dijadikan acuan untuk menggali pengetahuan dari data-data ini.
Perkembangan teknologi informasi pada era globalisasi saat ini sangat
berkembang pesat. Perkembangan ini juga telah melahirkan perkembangan
banyak data, termasuk data-data tentang cuaca. Teknologi saat ini mampu
menyimpan dan mengumpulkan berbagai tipe data. Untuk menangani jumlah data
yang besar ini, maka lahirlah sebuah metode baru, yaitu data mining. Data mining
digunakan untuk mencari pengetahuan apa yang dapat digali dari informasi yang
diambil dari data-data yang jumlahnya besar. Dari informasi inilah kita akan
mencari pengetahuan yang bisa diambil dari data-data tersebut
Oleh karena itu, digunakanlah data mining untuk mengetahui pola
hubungan curah hujan dengan variabel cuaca lainnya. Data yang didapat yaitu dari
data-data yang didapatkan dari Badan Metereologi, Klimatologi dan Geofisika
(BMKG). Pengetahuan yang didapat berguna nantinya untuk mengetahui
hubungan curah hujan dengan variabel cuaca.

1.2 Perumusan Masalah


Berdasarkan latar belakang masalah di atas maka perumusan masalah dari
penelitian ini adalah seberapa besar tingkat keterkaitan antara curah hujan
dengan variabel cuaca dalam sebulan menggunakan teknik data mining dengan
algoritma multiple linear regression.

1.3 Manfaat dan Tujuan Penelitian


Manfaat dari penelitian ini adalah memberikan pengetahuan mengenai pola
hubungan curah hujan bulanan dengan variabel cuaca dalam sebulan. Tujuan yang
ingin dicapai dalam penelitian ini adalah mengetahui pola hubungan curah hujan
bulanan dengan variabel cuaca dengan menggunakan algoritma multiple linear
regression.

1.4 Batasan Penelitian


Batasan-batasan penelitian yaitu :
a. Data yang diolah berdasarkan data unsur cuaca bulanan dari Badan Metereologi
dan Geofisika (BMKG) Stasiun Klimatologi Klas I Banjarbaru untuk wilayah
Banjarbaru selama periode 2005 – Desember 2013.
b. Unsur cuaca yang dijadikan variabel bebas adalah jumlah hari hujan dalam
sebulan dan lama penyinaran matahari dalam sebulan. Sedangkan variabel yang
dijadikan variabel terikat adalah curah hujan bulanan.
c. Algoritma yang digunakan adalah dengan multiple linear regression

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |35
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

2. METODE PENELITIAN
Metode analisis data yang digunakan dengan multiple linear regression.
Setelah didapatkan model regresi dengan dua variable bebas, kemudian dilakukan
pengujian terhadap koefisien regresi. Pada penelitian ini digunakan uji korelasi
parsial dan koefisien determinasi nya. Hal ini digunakan untuk mengetahui
seberapa besar pengaruh semua variabel bebas secara bersama-sama terhadap
perubahan variabel tak bebas Y dan mengukur seberapa kuat hubungan antara
variabel-variabel bebas yang telah ditetapkan dalam model terbaik terhadap
variabel tak bebasnya. Setelah itu dilakukan uji F untuk mengukur tingkat
signifikansinya. Setelah dilakukan uji F, dilakukanlah pengujian terhadap model
regresi. Hasil pengujian (prediksi) dibandingkan dengan nilai kenyataan dan
kemudian dihitung nilai standar error nya.

3. Hasil dan Pembahasan


Bentuk model multipler linear regression yang menyatakan hubungan
antara jumlah hari hujan, lamanya penyinaran, dan curah hujan adalah ƩY = a +
b1ƩX1+b2ƩX2
Langkah pertama yang harus dilakukan adalah mencari nilai a, b1, dan b2 nya
agar bisa didapatkan persamaan regresi linier berganda.
a. Multiple Linear Regression
Data yang digunakan adalah sebagai berikut

Tabel 1Data Cuaca

tgl X1 X2 Y Aug-06 5 76.3 5


Jan-05 28 43.6 270 Sep-06 1 78.6 3
Feb-05 25 43.7 290 Oct-06 1 71.5 17
Mar-05 27 56 261 Nov-06 15 56.7 116
Apr-05 26 55.2 222 Dec-06 21 53.8 403
May-05 20 61.8 199 Jan-07 28 42.8 241
Jun-05 17 66 139 Feb-07 26 27.1 329
Jul-05 16 60.6 72 Mar-07 26 47.5 483
Aug-05 7 74.7 34 Apr-07 27 54.9 330
Sep-05 5 76 15 May-07 21 56.1 235
Oct-05 21 49 212 Jun-07 23 37.3 171
Nov-05 25 47.5 187 Jul-07 13 52.3 229
Dec-05 28 16.3 264 Aug-07 12 71.5 55
Jan-06 28 30.7 363 Sep-07 7 76.8 30
Feb-06 26 41.3 300 Oct-07 13 59 62
Mar-06 27 50.9 295 Nov-07 24 46.8 170
Apr-06 20 50.4 213 Dec-07 24 44.7 256
May-06 15 63.6 73 Jan-08 24 45.6 272
Jun-06 28 39.4 183 Feb-08 21 32.1 240
Jul-06 10 76 25 Mar-08 27 43.6 554

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |36
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

Apr-08 24 57.9 241 Nov-11 21 52.9 276


May-08 17 60 54 Dec-11 27 27.9 857
Jun-08 19 53.4 259 Jan-12 26 39.1 224
Jul-08 20 45.8 144 Feb-12 25 25.5 258
Aug-08 22 47.5 83 Mar-12 24 48.8 313
Sep-08 14 57.8 99 Apr-12 24 61.8 319
Oct-08 25 42.9 78 May-12 11 67.3 149
Nov-08 25 47.6 288 Jun-12 18 60 58
Dec-08 27 18.8 420 Jul-12 20 45.5 192
Jan-09 30 39.6 384 Aug-12 8 69.8 70
Feb-09 21 36.7 148 Sep-12 5 75.2 58
Mar-09 21 53.6 212 Oct-12 15 65.5 157
Apr-09 21 56.4 279 Nov-12 23 52.1 298
May-09 22 66.9 236 Dec-12 26 41.5 410
Jun-09 9 67 22 Jan-13 27 29.1 355
Jul-09 8 65.8 73 Feb-13 23 42.1 415
Aug-09 2 80.3 25 Mar-13 22 54 308
Sep-09 4 80.7 21 Apr-13 23 51.3 305
Oct-09 12 62.6 189 May-13 22 50.2 346
Nov-09 19 54.1 292 Jun-13 13 63.7 141
Dec-09 24 43 287 Jul-13 24 37.5 126
Jan-10 25 38.8 324 Aug-13 15 64.4 81
Feb-10 22 50.2 321 Sep-13 12 51 34
Mar-10 27 45.6 285 Oct-13 13 71.2 106
Apr-10 23 59.9 243 Nov-13 24 49.9 441
May-10 22 57.9 171 Dec-13 23 36 349
Jun-10 27 43.2 366
Jul-10 23 31.7 172
Aug-10 25 45.1 240
Sep-10 26 38.4 338
Oct-10 21 50 257
Nov-10 27 45 318
Dec-10 26 37.9 355
Jan-11 24 39.8 419
Feb-11 20 36.7 284
Mar-11 24 31 337
Apr-11 23 45.2 251
May-11 17 56.7 211
Jun-11 13 76.5 84
Jul-11 6 72.6 21
Aug-11 6 77.7 27
Sep-11 13 60.9 77
Oct-11 19 65.1 134

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |37
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

Keterangan :
Tgl : bulan dan tahun
X1 : jumlah hari hujan
X2 : lama penyinaran
Y : curah hujan

Dari data di atas dilakukan perhitungan dengan multiple linear


regression sehingga menghasilkan nilai a,b1,dan b2 sebagai berikut :

Tabel 2 Nilai a,b1,dan b2


b2 b1 a

-1,70263 11,74574 76,81641

Kemudian didapatkanlah model multiple linear regression nya sebagai


berikut :
ƩY = 76,81641 + 11,74574ƩX1-1,70263ƩX2

b. Uji Korelasi Parsial


Untuk mengetahui seberapa besar keterkaitan masing-masing
variable bebas terhadap variable tidak bebas maka perlu dihitung korelasi
parsial. Untuk menghitung nilai korelasi, diperlukan perhitungan untuk
mengetahui rX1Y, rX2Y, rX1X2. Dari table 4.1 data cuaca dibuatlah beberapa
table yang memuat atribut turunan. Pertama, untuk menghitung rX1Y, maka
query SQL yang digunakan adalah :

INSERT INTO x1y SELECT


`jlh_hari_hujan`, curah_hujan`,
jlh_hari_hujan`*.`curah_hujan` AS X1Y,
jlh_hari_hujan`*`jlh_hari_hujan` AS X1kuadrat,
`curah_hujan`*`curah_hujan` AS Ykuadrat
FROM Table_cuaca;

Kedua, untuk menghitung rX2Y, maka query SQL yang digunakan adalah :

INSERT INTO x2y SELECT


lama_penyinaran`, `curah_hujan`, lama_penyinaran` *
`curah_hujan` AS X2Y,
`lama_penyinaran`*`lama_penyinaran` AS X2kuadrat,
`curah_hujan`*`curah_hujan` AS Ykuadrat FROM
Table_cuaca;

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |38
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

Ketiga, untuk menghitung rX1X2, maka query SQL yang digunakan adalah :

INSERT INTO x1x2SELECT


`jlh_hari_hujan`,`lama_penyinaran`,
`jlh_hari_hujan`* `lama_penyinaran` AS X1X2,
`jlh_hari_hujan`*`jlh_hari_hujan` AS X1kuadrat,
`.` lama_penyinaran`*`lama_penyinaran` AS X2kuadrat
FROM Table_cuaca;

Keempat, untuk menghitung jumlah per kolom dari tabel rX1Y, maka query
SQL yang digunakan adalah :

INSERT INTO `sum_x1y` SELECT


SUM(`jlh_hari_hujan`) AS total_hari ,
SUM(`curah_hujan`) AS total_curah,
SUM(`X1Y`) AS total_X1Y,
SUM(`X1kuadrat`) AS total_X1kuadrat,
SUM(`Ykuadrat`) AS total_Ykuadrat
FROM x1y;

Kelima, untuk menghitung jumlah per kolom rX2Y, maka query SQL yang
digunakan adalah :

INSERT INTO `sum_x2y`SELECT


SUM(`lama_penyinaran`) AS total_lama ,
SUM(`curah_hujan`) AS total_curah,
SUM(`X2Y`) AS total_X2Y,
SUM(`X2kuadrat`) AS total_X2kuadrat,
SUM(`Ykuadrat`) AS total_Ykuadrat
FROM x2y;

Keenam, untuk menghitung jumlah per kolom rX1X2, maka query SQL yang
digunakan adalah:

INSERT INTO `sum_x1x2` SELECT


SUM(`jlh_hari_hujan`) AS total_hari ,
SUM(`lama_penyinaran`) AS total_lama,
SUM(`X1X2`) AS total_X1X2,
SUM(`X1kuadrat`) AS total_X1kuadrat,
SUM(`X2kuadrat`) AS total_X2kuadrat
FROM x1x2;

Hasil perhitungan korelasi parsial untuk model multiple linear regression


antara jumlah hari hujan, lama penyinaran, dan curah hujan dapat dilihat
pada table berikut :

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |39
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

Tabel 3 Hasil Uji Korelasi Parsial


Nilai Korelasi

rx1Y 0,7536

rx2Y -0,6765

rX1X2 -0,8228

Dari hasil perhitungan, dapat diketahui bahwa keterkaitan antara


jumlah hari hujan dengan curah hujan sangat kuat. Keterkaitan antara lama
penyinaran dan curah hujan kuat. Sedangkan, untuk keterkaitan antara
jumlah hari hujan dan lama penyinaran sangat kuat.
c. Uji Koefisien Determinasi
Kegunaan koefisien determinasi adalah mengetahui seberapa besar
pengaruh variable bebas terhadap varibel terikat sehingga dapat diketahui
kesamaan dan kecocokan model regresi linier. Berdarkan hasil perhitungan
diperoleh koefisien determinasi (R2) adalah sebagai berikut:

Tabel 4 Hasil Uji Koefisien Determinasi


R R2

0,7601 0,5778

Dari model di atas terlihat koefisien determinasinya 0,5778. artinya


tingkat kecocokan model multiplelinear regression memiliki tingkat
kehandalan 57,78%. Artinya, sebanyak 57,78% variasi nilai curah hujan
bergantung pada variable bebas yang diukur pada penelitian ini, yaitu
jumlah hari hujan dan lamanya penyinaran. Sedangkan sisanya, sebesar
42,22% dipengaruhi oleh variable lain yang dipengaruhi oleh variable lain
yang tidak diukur dalam penelitian ini.

d. Uji F
Uji F digunakan untuk mengukur signifikan keseluruhan model
regresi F. Apakah hasilnya signifikan atau tidak. Jika hasilnya signifikan,
artinya model regresi bisa digunakan untuk peramalan. Untuk melakukan uji
F, Pertama-tama kita melakukan perhitungan Fhitung.

Fhitung =
=
= 71,854

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |40
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

Kriteria :
Fhitung > Ftabel Ha diterima
Fhitung <= Ftabel Ho diterima
Ho : variable bebas tidak berpengaruh signifikan terhadap variable terikat
Ha : variable bebas berpengaruh signifikan terhadap variable terikat.
Ftable dengan menggunakan tingkat kepercayaan (α) 0,05 dan dk pembilang
andalah banyaknya variable bebas yaitu 2 dan dk penyebut adalah n-k-1
yaitu 105, maka didapatlah hasil Ftable adalah 3,0829. Dengan demikian Fhitung
> Ftable. Ini artinya jumlah hari hujan dan lamanya penyinaran matahari
berpengaruh signifikan terhadap curah hujan.

e. Pengujian
Misalkan terdapat data jumlah hari hujan dan lama penyinaran
sebagai berikut
Tabel 5 Data Pengujian
Tgl X1 X2

Jan-2014 26 33.3

Feb-2014 21 44.9

Mar-2014 24 49.4

Apr-2014 21 56.4

Mei-2014 27 62.3

Jun-2014 20 50.9

Jul-2014 12 64.2

Agt-2014 12 18

Maka berdasarkan model multiple linear regression nya, yaitu


ƩY = 76.81641 + 11.74574ƩX1-1.70263ƩX2
di dapatlah hasil curah hujan sebagai berikut :

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |41
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

Tabel 6 Hasil Pengujian


Tgl X1 X2 Y Y Selisih Kuadrat
prediksi kenyataan (ei) selisih (e2)

Jan-
2014 26 33.3 325.508 443 117.49 13804.38

Feb- 247.028
2014 21 44.9 7 220 -27.03 730.55

Mar- 274.604
2014 24 49.4 1 332 57.40 3294.29

Apr- 227.448
2014 21 56.4 4 223 -4.45 19.79

Mei- 287.877 -
2014 27 62.3 3 156 131.88 17391.63

Jun- 225.067
2014 20 50.9 2 221 -4.07 16.54

Jul- 108.456
2014 12 64.2 2 113 4.54 20.65

Agt- 187.117 -
2014 12 18 9 53 134.12 17987.61

TOTAL 53265.43

Hasil pengujian model multiple linear regression dengan data curah


hujan real menunjukkan adanya selisih. Hal ini memperlihatkan adanya
error. Dari kuadrat selisih pada table diatas, dapat diketahui kesalahan
baku (standart error) regresi adalah 22,52. Ini artinya besarnya
penyimpangan atau ketidak akuratan nilai dugaan terhadap nilai
sebenarnya adalah 22,52.

4. KESIMPULAN DAN SARAN


4.1 Kesimpulan
Kesimpulan dari penelitian ini adalah jumlah hari hujan dengan curah hujan
berpengaruh sangat kuat. Keterkaitan antara lama penyinaran dan curah hujan
kuat. Sedangkan, untuk antara jumlah hari hujan dan lama penyinaran sangat kuat.
Jumlah hari hujan dan lamanya penyinaran matahari berpengaruh signifikan
terhadap curah hujan. Model regresi yang digunakan yaitu sebesar 57,78%. Artinya,
57,78% variasi nilai curah hujan bergantung pada variable bebas yang diukur pada
penelitian ini. Kesalahan baku regresi adalah 22,52. Hal ini berarti ketidakakuratan
nilai dugaan dengan nilai sebenarnya sebesar 22,52.

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |42
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

4.2 Saran
Berdasarkan hasil pembahasan dan kesimpulan, maka saran untuk
penelitian selanjutnya adalah sebagai berikut :
a. Sebaiknya data yang digunakan lebih banyak lagi agar model regresi yang
digunakan lebih baik lagi.
b. Variable bebas yang digunakan dapat ditambah lagi (seperti suhu udara, tekanan
udara, dan lain-lain) agar diketahui seberapa besar pengaruh variable lainnya
terhadap curah hujan.

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |43
Kumpulan jurnaL Ilmu Komputer (KLIK)
Volume 02, No.01 Februari 2015
ISSN: 2406-7857

DAFTAR PUSTAKA
[1]. Kurniadi, Eka, dkk. 2012. “Multiple linear regression Menggunakan
Aplikasi Matlab”. Universitas Pendidikan Ganesha Singaraja. Bali.
[2]. Larose, Daniel T. 2006. “Data mining Methods and Models”. John Wiley &
Sons Inc.Hoboken New Jersey.
[3]. Lesmana, Eman dan Riaman. 2013. “Penggunaan Model Regresi linear
Berganda pada Program Penggemukan Sapi PO (Peranakan Ongole)
serta Analisis BCR (Benefit Cost Ratio) Penggunaan Bahan Pakan
Kering”. Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR-
BATAN Bandung 4 Juli 2013.
[4]. Turban, E., Aronson Jay E. dan Liang T. 2005. “Decision Support Systems and
Intelligent Systems Seventh Edition”. Andi. Yogyakarta.

Multiple Linear Regression untuk Pengenalan Pola Curah Hujan (Irwan Budiman) |44

You might also like