You are on page 1of 14

METODE POHON REGRESI UNTUK

EKSPLORATORI DATA DENGAN PEUBAH YANG


BANYAK DAN KOMPLEKS
Regression Trees Method for Data Mining on Wide and
Complex Variables
Wieta B. Komalasari
Fungsional Statistisi Pusat Data dan Informasi Pertanian

ABSTRACT
Regression trees are used to predict membership of cases or
objects in the classes of a categorical dependent variable from
their measurements on one or more predictor variables.
Regression tree analysis is one of the main techniques used in
so-called data mining. The goal of regression trees is to predict
or explain responses on a categorical dependent variable. The
flexibility of regression trees make them a very attractive
analysis option, but this is not to say that their use is
recommended to the exclusion of more traditional methods.
Indeed, when the typically more stringent theoretical and
distributional assumptions of more traditional methods are met,
the traditional methods may be preferable. But as an exploratory
technique, or as a technique of last resort when traditional
methods fail, regression trees are, in the opinion of many
researchers, unsurpassed. This research used data from survey
on farmer income conducted by BPS-Statistics Indonesia (for
Jawa Timur Province) in 2004, and regression method based on
tree structure with CART algorithm to build a model. The results
show that farmer’s income is interconnected with expenditure of
farming activities and land ownership. Despitefully, there are
other non-technical factors that also can influence the income.
This factors among others the social condition of pertinent
agriculture household, for example, education level, age and
also other external factors such as soft loan from government
and agriculture counseling. These matters indicate that the
earnings from farming activities is represented by the function of
those factors.

Informatika Pertanian Volume 16 No. 1, Juli 2007 967


PENDAHULUAN
Pada umumnya analisis regresi digunakan untuk mencari
peubah-peubah yang dapat menerangkan keragaman respon
dan dapat digunakan dalam kajian lebih lanjut. Dengan kata
lain, analisis regresi digunakan untuk mengetahui pengaruh
peubah-peubah penjelas terhadap peubah respon. Dalam
perkembangannya analisis regresi dapat juga sebagai alat yang
digunakan untuk eksplorasi data.
Keabsahan penggunaan analisis regresi sangat bergantung
pada banyak asumsi, sehingga untuk mendapatkan dugaan
persamaan regresi yang memenuhi semua asumsi menjadi
sangat sulit. Masalah ini dapat diatasi dengan metode regresi
yang tidak lagi harus memenuhi asumsi-asumsi tadi, diantaranya
adalah dengan metode pohon regresi (regression trees method).
Pohon regresi ini merupakan salah satu metode eksplorasi
nonparametrik yang dapat digunakan untuk melihat hubungan
antara peubah respon kontinu dengan peubah-peubah penjelas
yang berukuran besar dan kompleks. Kekomplekan tersebut
dapat berupa dimensinya yang besar atau jenis peubahnya
campuran, misalnya kontinyu dan kategorik, baik nominal
maupun ordinal.
Sama halnya dengan metode regresi biasa, pohon regresi
juga menjelaskan bagaimana hubungan antara peubah respon
dan peubah-peubah penjelasnya. Perbedaannya adalah bahwa
pada metode pohon regresi, pengaruh peubah penjelas serta
pendugaan responnya dilakukan pada kelompok-kelompok
pengamatan yang ditentukan berdasarkan peubah-peubah
penjelas, sehingga interpretasi hasil dari metode ini lebih mudah
dilakukan. Hal ini karena identifikasi pengaruh dari peubah
penjelas dari pohon regresi dilakukan dalam masing-masing
subgrup data bukan dalam keseluruhan data seperti halnya
regresi biasa. Di samping itu pohon regresi dapat mengatasi
masalah adanya pencilan. Perhitungan statistik yang dilakukan
dalam metode pohon regresi ini juga tidak rumit sehingga
menjadi kelebihan lainnya dari metode ini.
Tujuan penulisan ini adalah untuk menunjukkan CART
sebagai suatu metode alternatif dalam regresi yang melibatkan
peubah-peubah penjelas yang banyak dan kompleks, dimana
beberapa asumsi yang harus dipenuhi untuk penggunaan regresi
konvensional mungkin tidak bisa dipenuhi oleh peubah-peubah
tadi. Adapun manfaat tulisan ini diharapkan dapat membantu
para peneliti bagaimana mengeksplorasi data yang kompleks
berdasarkan hasil metode regresi pohon.

968 Metode Pohon Regresi untuk Eksplorasi Data


Dalam tulisan ini gambaran penerapan analisis pohon regresi
dilakukan untuk eksplorasi penciri tingkat pendapatan usaha tani
di Jawa Timur. Data yang digunakan adalah data hasil Survei
Pendapatan Petani 2004 yang dilaksanakan oleh Badan Pusat
Statistik, survei ini merupakan salah satu bagian dari kegiatan
Sensus Pertanian 2003 di Indonesia.

METODOLOGI
CART (Classification and Regression Trees) adalah salah
satu metode atau algoritma dari salah satu teknik eksplorasi
data yaitu teknik pohon keputusan. Metode ini dikembangkan
oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan
Charles J. Stone sekitar tahun 1980-an. Menurut Breiman et al.
(1993), CART merupakan metodologi statistik nonparametrik
yang dikembangkan untuk topik analisis klasifikasi, baik untuk
peubah respon kategorik maupun kontinu. CART menghasilkan
suatu pohon klasifikasi jika peubah responnya kategorik, dan
menghasilkan pohon regresi jika peubah responnya kontinu.
Tujuan utama CART adalah untuk mendapatkan suatu kelompok
data yang akurat sebagai penciri dari suatu pengklasifikasian.
Bentuk dari CHART adalah seperti berikut ini :

node/simpul
A

Ya tidak
cabang
x1≤ α ?
C
B

Ya tidak

x2 ≤ β ?
C C
Simpul akhir

Gambar 1 Diagram CHART.

Pada Gambar 1 di atas A, B dan C merupakan peubah-


peubah penjelas yang terpilih untuk menjadi simpul.
A merupakan simpul induk, sementara B dan C merupakan
simpul anak dimana C juga merupakan simpul akhir yang tidak
bercabang lagi. Sementara α dan β merupakan suatu nilai yang

Informatika Pertanian Volume 16 No. 1, Juli 2007 969


merupakan nilai tengah antara dua nilai amatan peubah x j
secara berurutan. Diagram yang dihasilkan oleh CART ini
merupakan suatu model, biasanya diinterpretasikan ke dalam
suatu tabel untuk penjelasannya. Hal ini berbeda dengan
regresi konvensional dimana model regresi dapat dituliskan
menjadi model matematik atau persamaan regresinya.
Pembangunan pohon dilakukan melalui penyekatan gugus
data dengan sederetan penyekat biner sampai dihasilkan simpul
akhir. Tahapannya adalah sebagai berikut:
1. Tentukan semua kemungkinan penyekatan pada tiap peubah
penjelas. Tiap penyekatan ini bergantung pada nilai yang
berasal dari satu peubah penjelas. Untuk peubah kontinu x j ,
penyekatan yang diperbolehkan adalah x j ≤ c dan x j ≥ c,
dimana c adalah nilai tengah antara dua nilai amatan peubah
x j secara berurutan. Jadi jika x j mempunyai sebanyak n nilai
yang berbeda maka akan ada n-1 penyekatan.
2. Untuk peubah kategorik, penyekatan yang terjadi berasal dari
semua kemungkinan penyekatan berdasarkan terbentuknya
dua anak gugus yang saling lepas (disjoint). Jika x j peubah
kategorik nominal dengan L kategori, maka akan ada 2 L-1 – 1
penyekatan, sedangkan jika x j adalah peubah kategorik
ordinal maka akan ada L – 1 penyekatan.
3. Hitung kehomogenan simpul berdasarkan jumlah kuadrat
dalam simpul, JKS(t), dimana jumlah kuadrat sisaan pada
simpul t dinyatakan sebagai:

[
JKS (t ) = ∑ ( yi ( t ) − y(t ) ]
2
dengan i = 1,2,…, N t
xn ∈t

dimana y i(t) = nilai individu peubah respon pada simpul ke-t


dan y(t ) = nilai tengah peubah respon pada simpul ke-t. N t
adalah jumlah data yang ada pada simpul ke-t.
4. Lakukan untuk semua peubah penjelas sehingga didapat
peubah sebagai penyekat terbaik dimana kehomogenannya
maksimum. Misalkan ada penyekatan s yang menyekat t
menjadi simpul anak kiri t L dan simpul anak kanan t R ,
fungsi penyekatan yang digunakan adalah:
φ ( s, t ) = JKS (t ) − {JKS (t L ) + JKS (t R )} dan penyekat terbaik
s* adalah φ ( s*, t ) = max φ ( s, t ) dengan Ω adalah gugus yang
s∈Ω
berisi semua kemungkinan penyekatan.

970 Metode Pohon Regresi untuk Eksplorasi Data


5. Jika simpul induk telah didapat, maka simpul anak kiri dan
kanan dibuat dengan cara yang sama untuk semua peubah
penjelas berdasarkan data yang sudah dikelompokkan oleh
simpul induk.
6. Pembentukan pohon dilakukan sampai dipenuhi suatu aturan
penghentian tertentu. Dalam kasus ini aturan yang digunakan
adalah jika jumlah amatan dalam simpul hanya mencapai 1
amatan atau mencapai nilai fungsi penyekatan Ф tertentu.
7. Pemangkasan pohon dilakukan untuk mendapatkan pohon
akhir yang lebih sederhana. Pemangkasan pohon dilakukan
dengan cross-validation atau sampel tes terpisah untuk
mengukur keterandalan pohon. Metode pemangkasan pohon
dengan training sample 50% dipilih sebagai metode
pemangkasan karena ukuran sampel yang besar, sehingga
memungkinkan untuk membagi sampel tadi menjadi
subsampel training sample dan testing sample masing-
masing 50% dari seluruh data yang ada. Proses
pemangkasan pohon yang terjadi adalah dengan membangun
pohon menggunakan training sample kemudian menggunakan
pohon yang terbentuk tadi untuk subsampel testing sample.
Dalam hal ini metode kuadrat terkecil menggunakan kuadrat
tengah galat (KTG) untuk mengukur ketelitian dugaan. Pohon
optimal adalah pohon dengan nilai KTG terkecil.
8. Dari pohon optimal yang terpilih, untuk setiap subpohon,
CART menghitung ringkasan statistiknya dari simpul-simpul
terakhir. Pada metode kuadrat terkecil untuk aturan
penyekatan, maka hitung rataan dan standar deviasi dari
pubah respon. Nilai rataan dari simpul akhir merupakan nilai
dugaan dari peubah respon pada kasus simpul akhir tersebut.
Tahapan-tahapan di atas dilakukan secara otomatis oleh
komputer dengan menggunakan software SPSS Answer Tree
versi 2.01. Sementara bahan atau data yang digunakan dalam
penelitian ini adalah data primer yang dikumpulkan pada
pelaksanaan Survei Pendapatan Petani 2004, Sensus Pertanian
2003. Data diperoleh dari Pusat Data dan Informasi Pertanian,
Departemen Pertanian, yang bekerjasama dengan Badan Pusat
Statistik. Peubah-peubah yang digunakan dalam penelitian ini
adalah sebagai berikut :

Informatika Pertanian Volume 16 No. 1, Juli 2007 971


Tabel 1 Daftar Peubah, Kode, Jenis dan Kategorinya

No Kode Peubah Jenis Kategori


1. income Pendapatan kontinu -
2. kom Komoditas yang diusahakan diskret Padi sawah
Padi ladang
Jagung
Kedele
Cabe merah
Cabe Rawit
Bawang
merah
Tebu
Tembakau
3. sawah Luas sawah yang dikuasai (m 2 ) kontinu -
4. nonswh Luas lahan non sawah yang kontinu -
dikuasai (m 2 )
5. nonpert Luas lahan non pertanian yang kontinu -
dikuasai (m 2 )
6. lspanen Luas pengusahaan lahan kontinu -
7. bibit Pengeluaran untuk bibit kontinu -
8. pupuk Pengeluaran untuk pupuk kontinu -
9. upah Pengeluaran untuk upah pekerja kontinu -
10. sewa Pengeluaran untuk sewa lahan, kontinu -
barang modal dan pajak tidak
langsung
11. lain Pengeluaran lain (sewa alat, irigasi, kontinu -
dll)
12. anggkel Jumlah anggota keluarga diskret
13. jenkel Jenis kelamin kepala keluarga diskret Laki-laki
Perempuan
14 umur Umur kepala keluarga kontinu -
15. pddk Pendidikan tertinggi kepala keluarga diskret Tidak
sekolah
SD
SLTP
SLTA
Di atas
SLTA
16. kredit Penerimaan kredit dari pemerintah diskret Ya
Tidak
17. jumkre Jumlah kredit yang diterima kontinu -
18. bantu Penerimaan bantuan lain dari diskret Ya
pemerintah selain kredit Tidak
19. penyul Pernah mengikuti penyuluhan diskret Ya
pertanian Tidak
20. frekpny Frekuensi penyuluhan diskret 1 kali
2 kali
3 kali
4 kali

972 Metode Pohon Regresi untuk Eksplorasi Data


HASIL DAN PEMBAHASAN
Metode CART menghasilkan model yang sederhana dan
mudah untuk diinterpretasikan. Model yang dihasilkan berupa
pohon regresi dengan peubah-peubah yang berpengaruh
sebagai penciri menjadi simpul-simpulnya. Peubah yang paling
berpengaruh akan menjadi simpul pertama yang dihasilkan.
Dalam kasus pendapatan petani, penggunaan pupuk merupakan
peubah yang paling berpengaruh terhadap hasil usahatani
sehingga berpengaruh juga terhadap pendapatannya. Metode
CART memilih 9 peubah dari 20 peubah yang mempengaruhi
pendapatan usaha tani.
Masalah pencilan data dapat diselesaikan dengan cara yang
sederhana oleh metode CART. Pencilan akan diisolasi ke dalam
simpul tertentu sehingga tidak mempengaruhi penyekatan.
Misalnya pada kasus data Jawa Timur, beberapa data yang jauh
di luar kisaran akan dikelompokkan ke dalam simpul tertentu
yang langsung menjadi simpul akhir (Gambar 2).

Gambar 2. Contoh Simpul yang Merupakan Pencilan


Hasil akhir dari metode CART ini tidak didasarkan pada
model probabilistik, sehingga hal ini menjadi salah satu
kelemahannya. Pada metode CART tidak ada tingkat
probabilitas atau selang kepercayaan yang berhubungan dengan
dugaan untuk pengelompokkan data baru. Tingkat kepercayaan
dan keakuratan hasil dari CART benar-benar hanya didasarkan
pada keakuratan saat pembuatan pohon, seberapa baik hal ini
telah dilakukan untuk menduga peubah respon seperti yang
diinginkan.
Informatika Pertanian Volume 16 No. 1, Juli 2007 973
Gambar 3a. Pohon Regresi Metode CART

Pada tahap awal, CART menghasilkan pohon maksimal


berukuran 19 simpul akhir (Lampiran 1) dengan proporsi
keragaman yang dapat dijelaskan oleh model sebesar 55,77%.
Nilai proporsi ini menunjukkan pohon regresi yang terbentuk
mampu menangkap lebih dari 50% keragaman pendapatan
usahatani. Proses pemangkasan tidak dilakukan untuk pohon
regresi awal ini, karena pemangkasan dengan metode training
sampel 50% menurunkan proporsi keragaman menjadi sekitar
40%. Algoritma CART dengan 19 simpul akhir ini menghasilkan
pengeluaran untuk pupuk sebagai peubah penyekat pertama
(Gambar 3a). Sebanyak 3 simpul merupakan pencilan.
Gambar 3a dan 3b menunjukkan cabang A dimana penciri
yang muncul adalah pengeluaran untuk pupuk, upah dan jenis
komoditas yang ditanam. Pada Tabel 2 hal ini dapat dilihat
untuk simpul ke-1, 2 dan 3. Satu kelemahan dari data yang ada,
pengeluaran untuk pupuk tidak dapat menunjukkan komposisi
pupuk yang digunakan, hanya pengeluaran rupiah per hektarnya
saja. Berdasarkan hasil CART, dapat dilakukan kajian yang
lebih mendalam untuk penggunaan pupuk ini.
Pada Gambar 3b terlihat jenis komoditi menjadi simpul
terakhir, dimana skala usahatani dengan struktur pengeluaran
per m 2 untuk pupuk kurang dari Rp.327,- serta pengeluaran
untuk tenaga kerja kurang dari Rp.3.260,-, sub sektor
hortikultura, perkebunan dan tanaman pangan (padi sawah)
menunjukkan pendapatan yang lebih tinggi dari petani yang

974 Metode Pohon Regresi untuk Eksplorasi Data


menanam komoditas tanaman pangan lainnya (jagung, kedele
dan padi ladang). Hal ini menjadi dasar untuk melakukan
pengolahan data lebih lanjut, misalnya dengan membangun
pohon regresi menurut jenis tanaman yang diusahakan petani,
sehingga pengaruh struktur ongkos pengeluaran dan faktor
lainnya terhadap pendapatan usahatani dapat lebih jelas terlihat.
Pada hasil CART nilai dugaan peubah respon dapat dilihat dari
nilai rataan yang dihasilkan.

Gambar 3b. Pohon Regresi Metode CART (Cabang A)

Peubah lainnya yang muncul dapat dilihat pada cabang B


(Gambar 3c), yaitu pengeluaran untuk bibit, pengeluaran
lainnya, penyuluhan dan luas pengusahaan lahan. Pada Tabel 2
simpul yang ditunjukkan cabang B ini adalah simpul ke-4 sampai
ke-8. Skala usahatani dengan struktur pengeluaran per m 2
untuk pupuk antara Rp.327,- dan Rp.970,- serta pengeluaran
untuk tenaga kerja kurang dari Rp.3.260,- dan luas panen
sempit (kurang dari 50 m 2 ), program penyuluhan dapat
meningkatkan pendapatan petani.
Cabang C menunjukkan peubah-peubah yang hampir sama
dengan cabang A dan B muncul juga di sini. Peubah umur
petani muncul sebagai penciri dengan simpul akhir ke-14 sampai
ke-16 (Gambar 3d). Pada Tabel 2 cabang C ini meliputi simpul
ke-10 sampai ke-16. Skala usahatani dengan struktur
pengeluaran per m 2 untuk pupuk lebih dari Rp.970,-, ditentukan
2
oleh luas panennya (lebih dari 3 m ) serta pengeluaran untuk
bibit (kurang dari Rp.400,-). Pada skala usahatani ini tembakau
memberikan pendapatan lebih tinggi dari jenis komoditi lain.

Informatika Pertanian Volume 16 No. 1, Juli 2007 975


Sementara itu umur petani juga menjadi penyekat pada skala
usahatani ini, dimana petani dengan umur ≤ 34,5 tahun memiliki
penghasilan yang lebih tinggi dari usahanya. Petani dengan
umur > 34,5 tahun, dapat meningkatkan penghasilannya jika
luas panen yang digarapnya kurang dari 35 m 2 .

Gambar 3c. Pohon Regresi Metode CART (Cabang B)

Gambar 3d. Pohon Regresi Metode CART (Cabang C)

976 Metode Pohon Regresi untuk Eksplorasi Data


Tabel 2. Karakteristik kelompok pendapatan dari usahatani berdasarkan hasil
algoritma CART

Simpul N Dugaan y Peubah Penciri


1. 16984 159.51 Pupuk ≤ Rp326.57 ; upah ≤ Rp3 263 ;
komoditi jagung, kedele, padi ladang
2. 19263 381.81 Pupuk ≤ Rp326.57 ; upah ≤ Rp3 263.00 ;
komoditi cabe rawit, tembakau, tebu, cabe
merah, padi sawah, bawang merah
3. 3 23 344.43 Pupuk ≤ Rp326.57 ; upah > Rp3 263.00
4. 34 2 660.54 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen
≤ 51.5 m 2 ; bibit ≤ Rp1 100 ; belum pernah
ikut penyuluhan
5. 3 15 017.77 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen
≤ 51.5 m 2 ; bibit ≤ Rp1 100 ; pernah ikut
penyuluhan
6. 517 1 284.14 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen
> 51.5 m 2 ; upah ≤ Rp563.4 ; sawah ≤ 32
150 m 2
7. 122 1 976.68 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen
> 51.5 m 2 ; upah > Rp563.4 ; lain ≤
Rp236.11
8. 42 3 304.69 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen
> 51.5 m 2 ; upah > Rp563.4 ; lain >
Rp236.11
9. 5 26 900.00 Pupuk > Rp970.00 ; luas panen ≤ 3 m 2
10. 6 5 915.89 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk ≤ Rp1 699.25 ; bibit ≤ Rp402.97 ;
komoditi tembakau, padi ladang
11. 64 2 135.68 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk ≤ Rp1 699.25 ; bibit ≤ Rp402.97 ;
komoditi padi sawah, jagung, kedele,
bawang merah, cabe merah, cabe rawit,
tebu, tembakau
12 40 3 872.73 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk ≤ Rp1 699.25 ; bibit > Rp402.97 ;
upah ≤ Rp1 483.35
13. 10 9 948.43 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk ≤ Rp1 699.25 ; bibit > Rp402.97 ;
upah > Rp1 483.35
14. 4 22 750.00 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk > Rp1 699.25 ; umur ≤ 34.5 tahun
15. 12 11 755.66 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk > Rp1 699.25 ; umur > 34.5 tahun ;
luas panen ≤ 35 m 2
16. 24 5 525.10 Pupuk > Rp970.00 ; luas panen > 3 m 2 ;
pupuk > Rp1 699.25 ; umur > 34.5 tahun ;
luas panen > 35 m 2

Informatika Pertanian Volume 16 No. 1, Juli 2007 977


Berdasarkan hasil yang didapat ini, ada beberapa fenomena
yang menarik untuk dicermati. Kegiatan berproduksi merupakan
kegiatan dalam lingkup yang agak sempit sehingga banyak
membahas aspek mikro. Dalam mempelajari aspek ini, peranan
hubungan faktor produksi sebagai masukan dan pendapatan
sebagai keluaran perlu mendapatkan perhatian utama. Peranan
faktor produksi harus ditinjau dari segi macamnya atau tersedia
dalam waktu yang tepat serta efisiensi penggunaannya. Faktor
ini menjadi salah satu penyebab adanya kesenjangan
produktivitas, dalam hal ini pendapatan per satuan unit lahan,
antara produktivitas yang seharusnya dan produktivitas yang
dihasilkan oleh petani.
Kendala biologi dan sosial-ekonomi merupakan faktor lainnya
yang menyebabkan adanya perbedaan produktivitas di atas.
Perbedaan jenis komoditi yang diusahakan serta varietasnya
merupakan kendala biologi yang muncul sebagai penciri pada
pohon regresi dan secara tidak langsung menentukan besarnya
hasil yang diterima petani. Sementara kendala sosial ekonomi
yang muncul diantaranya adalah struktur biaya usaha tani, umur
petani dan program penyuluhan yang pernah diikuti petani.
Aspek sumberdaya yang muncul pada model regresi
berstruktur pohon, adalah luas lahan. Luas lahan pertanian
mempengaruhi skala usahatani yang dilakukan, dan pada
akhirnya mempengaruhi efisien atau tidaknya suatu usaha
pertanian. Berdasarkan hasil analisis di Jawa Timur ini, makin
luas lahan yang dipakai sebagai usaha pertanian, akan
menurunkan pendapatan petani terutama untuk petani dengan
umur lebih dari 34,5 tahun. Hal ini sesuai dengan konsep
efisiensi lahan dimana semakin luas lahan maka semakin tidak
efisien lahan tersebut. Luasnya lahan tersebut mengakibatkan
upaya melakukan tindakan yang mengarah pada segi efisiensi
akan berkurang. Lahan yang luas mengakibatkan lemahnya
pengawasan terhadap penggunaan faktor produksi seperti bibit
dan pupuk. Efisiensi pada lahan yang luas juga akan terhambat
karena terbatasnya persediaan tenaga kerja dan modal yang
dimiliki.

978 Metode Pohon Regresi untuk Eksplorasi Data


KESIMPULAN
CART dapat melakukan eksplorasi data untuk penyusunan
model regresi yang melibatkan banyak peubah dengan ukuran
besar dan kompleks. Eksplorasi data ini dapat dilakukan
dengan lebih mudah untuk melihat hubungan antara peubah
respon kontinu dengan peubah-peubah penjelasnya.
Kekomplekan tersebut dapat berupa dimensinya yang besar
atau jenis peubahnya campuran, misalnya kontinu dan kategorik,
baik nominal maupun ordinal. Metode CART ini dapat menjadi
satu alternatif jika beberapa asumsi seperti kenormalan,
multikolinieritas dan heterokedastisitas untuk model regresi tidak
dipenuhi oleh beberapa peubah-peubanhnya.
Eksplorasi data hasil Survei Pendapatan Petani 2004
menggunakan metode pohon regresi dengan algoritma CART
menghasilkan model dengan proporsi keragaman yang dapat
diterangkan berkisar antara 50% sampai 80%. Regresi pohon
dengan algoritma CART menghasilkan model dimana
pendapatan usahatani hortikultura lebih tinggi dari sub sektor
lainnya seperti tanaman pangan dan perkebunan. Berdasarkan
hasil analisis pohon regresi, pendapatan petani dari
usahataninya dipengaruhi oleh beberapa faktor seperti struktur
pembiayaan faktor produksi, jenis komoditi yang diusahakan,
luas lahan yang dikuasai, faktor kondisi sosial rumah tangganya
seperti umur, tingkat pendidikan, serta faktor eksternal seperti
penyuluhan dan penerimaan bantuan kredit dari pemerintah.

DAFTAR PUSTAKA
BPS. 2004. Pedoman Teknis BPS Propinsi dan BPS
Kabupaten/Kota. Sensus Pertanian 2003. BPS, Jakarta.
BPS. 2004. Survei Pendapatan Petani: Pendapatan Rumah
Tangga Pertanian. Sensus Pertanian 2003. BPS, Jakarta.
Breiman L, Friedman J.H., Olshen R.A., and Stone C.J. 1993.
Classification and Regression Trees. Chapman and Hall.
New York.
Soekartawi. 2002. Prinsip Dasar Ekonomi Pertanian : Teori dan
Aplikasi. PT. RajaGrafindo Persada, Jakarta.
Statsoft. 2003. Classification and Regression Trees (C&RT).
[terhubung-berkala]
http://www.statsoft.com/textbook/stcart.html
[10 Maret 2005].

Informatika Pertanian Volume 16 No. 1, Juli 2007 979


Yohannes, Y., and P. Webb. 1999. Classification and
Regression Trees, CART: A User Manual for Identifying
Indicators of Vulnerability to Famine and Chronic Food
Insecurity. International Food Policy Research Institute
(IFPRI). Washington D.C., USA.

Lampiran 1. Gambar Diagram CART Jawa Timur

980 Metode Pohon Regresi untuk Eksplorasi Data

You might also like