You are on page 1of 13

UJIAN TENGAH SEMESTER STATISTIKA MULTIVARIAT

Analisis Cluster Bidang Kesehatan


Analisis Cluster Terhadap Tingkat Pencemaran Udara pada Sektor Industri di Sumatera Selatan

Oleh: Choirotul Ummah 093214003

Matematika 2009 B

Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Surabaya 2012

1. PENDAHULUAN Analisis cluster merupakan suatu teknik yang dipergunakan untuk mengelompokkan sejumlah n objek berdasarkan p variabel yang secara relatif memiliki kesamaan karakteristik di antara objek objek tersebut, sehingga keragaman dalam suatu kelompok tersebut lebih kecil dibandingkan dengan keragaman antar kelompok. Objeknya dapat berupa barang, jasa, hewan, manusia ( responden, konsumen, atau yang lain). Objek tersebut akan diklasifikasikan dalam satu atau lebih cluster ( kelompok ) sehingga objek objek yang berada dalam satu cluster akan mempunyai kesamaan atau kemiripan karakter . Analisis cluster dibagi menjadi dua metode yaitu hirarki dan non hirarki. Pada metode hirarki ini dimulai dengan mengelompokkan dua atau lebih objek yang memiliki kesamaan yang paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sampai cluster akan membentuk semacam pohon hirarki (tingkatan) yang jelas antar objek dari yang paling mirip sampai yang paling tidak mirip. Sedangkan pada metode non-hirarki, dimulai dengan menentukan jumlah cluster terlebih dahulu dan biasanya metode ini dipakai dalam mengcluster data yang berukuran besar yaitu metode K-means. 2. DATA PENELITIAN Penelitian ini dibahas pengelompokkan 10 jenis industri yang ada di Sumatera Selatan berdasarkan jenis polutan yang dihasilkan dan mengetahui ciri ciri dari setiap kelompok industri. Berikut data awal yang disajikan dalam tabel di bawah ini : Tabel 1. Rata- Rata Beban Pencemaran Udara pada Sektor Industri di Sumatera Selatan No . 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Jenis Industri NO2 SO2 CO 8620,366 1177,563 4380,000 16175,603 5680,620 17041,529 16950,600 22250,400 4174,140 9592,200 TSP 948,708 610,747 206,999 824,930 428,714 530,944 1123,470 1071,790 476,325 1151,414 NH3 2,102 129,210 0,876 0,00 0,00 1,972 2,278 1,752 0,262 0,00

Karet 630,545 1140,640 Sawit 696,770 1841,352 Pengalengan Ikan 398,580 360,824 Migas 1003,108 1672,109 Listrik 370,110 405,150 Minyak Goreng 974,200 1641,624 Makanan 956,855 1511,012 Pupuk 1097,453 2157,413 Pertambangan 605,841 449,563 Semen 777,45 1727,910 3. PROSEDUR ANALISIS CLUSTER

Langkah langkah analisis cluster data pada tabel 1 sebagai berikut :


2

1. Proses cluster-ing menggunakan metode hirarki

Konsep dari metode hirarki ini dimulai dengan menggabungkan 2 obyek yang paling mirip, kemudian gabungan 2 obyek tersebut akan bergabung lagi dengan satu atau lebih obyek yang paling mirip lainnya. Proses clustering ini pada akhirnya akan menggumpal menjadi satu cluster besar yang mencakup semua obyek. Metode ini disebut juga sebagai metode aglomerativ yang digambarkan dengan dendogram. Contoh kasus di atas akan dicoba untuk diselesaikan pula dengan metode aglomerativ. Untuk itu, langkah-langkah yang harus dilakukan dalam aplikasi program SPSS 16.0 sebagai berikut :
Meng-input data pada Tabel 1. Rata- Rata Beban Pencemaran Udara pada Sektor

Industri di Sumatera Selatan ke program SPSS 16.0 seperti berikut.

Gambar 1. Input Data Rata- Rata Beban Pencemaran Udara pada Sektor Industri di Sumatera Selatan menggunakan SPSS
Setelah data diinput, buka menu Analyze lalu pilih sub menu Classify kemudian

Hierarchical Cluster hingga muncul tampilan seperti berikut ini :

Gambar 2. Kotak dialog Hierarchical Cluster analysis

Masukkan seluruh variabel jenis polutan ke dalam bagian Variable(s). Untuk bagian Label Cases by isi dengan variabel Jenis_Industri; sedangkan untuk bagian Cluster pilih Cases; pada bagian Display pilih keduanya yaitu Statistics dan Plots. Kemudian klik mouse pada kotak Statistics hingga muncul tampilan berikut ini

Gambar 3. Kotak dialog Hierarchical Cluster analysis: Statistics Selain kotak Agglomeration Schedule, aktifkan pula kotak Proximity matrix untuk menampilkan jarak antar variabel. Pada bagian Cluster Membership klik mouse pada pilihan Range of Solutions lalu ketik 2 pada Minimum number of clusters dan 4 pada maximum number of clusters (berarti nantinya akan ditampilkan susunan 2, 3, dan 4 cluster). Kemudian tekan tombol Continue untuk kembali ke menu utama. Selanjutnya klik mouse pada kotak Plots hingga muncul tampilan seperti berikut ini

Gambar 4. Kotak dialog Hierarchical Cluster analysis: Plots Aktifkan pilihan Dendogram; kemudian pada bagian Icicle pilih None. Abaikan bagian yang lain lalu tekan tombol Continue untuk kembali ke menu utama. Berikutnya klik mouse pada kotak Method hingga muncul tampilan :

Gambar 5. Kotak dialog Hierarchical Cluster analysis: Method Pada bagian Cluster Method pilih Between groups linkage. Kemudian buka kotak combo Euclidean distance pada Measure; dan pada Transform Values buka kotak combo pada pilihan none. Abaikan bagian yang lain lalu tekan tombol Continue untuk kembali ke menu utama.
Dari tampilan menu utama, tekan tombol OK untuk menampilkan output analisis

hirarki aplikasi program SPSS seperti berikut. Tabel 2. Tabel output validasi

Tabel output di atas menunjukkan bahwa semua data sejumlah 10 obyek telah diproses tanpa ada data yang hilang. Tabel 3. Tabel Euclidean distance yaitu dari tabel Proximity Matrix

Tabel di atas menujukkan matrik jarak antara variabel jenis industri satu dengan variabel jenis industri yang lain. Semakin kecil jarak Euclidean, maka semakin mirip kedua variabel tersebut sehingga akan membentuk kelompok (cluster).

Tabel 4. Hasil proses clustering dengan metode Between Group Linkage

Setelah jarak antar variabel diukur dengan jarak Euclidean, maka dilakukan pengelompokan, yang dilakukan secara bertingkat.
Stage 1 : terbentuk 1 cluster yang beranggotakan industri Pengalengan ikan

dan Pertambangan dengan jarak 407,120 (perhatikan pada kolom Coefficients). Karena proses aglomerasi dimulai dari 2 obyek yang terdekat, maka jarak tersebut adalah yang terdekat dari sekian kombinasi jarak 10 obyek yang ada. Selanjutnya lihat kolom terakhir (Next Stage), terlihat angka 5. Hal ini berarti clustering selanjutnya dilakukan dengan melihat stage 5, dengan penjelasan berikut. Baris ke-5 (stage 5) terlihat obyek ke-5 (industri Listrik) membentuk cluster dengan pengalengan ikan. Dengan demikian, sekarang cluster terdiri dari 3 obyek yaitu industri Listrik, pengalengan ikan, dan Pertambangan. Sedangkan jarak sebesar 1432,193 merupakan jarak rata-rata obyek terakhir yang bergabung dengan 2 obyek sebelumnya, seperti tampak dalam Proximity matrix dan dapat dihitung sebagai berikut : - Jarak industri listrik dan pengalengan ikan = 1329,300 - Jarak industri listrik dan pertambangan = 1535,086 - Jarak rata-rata = (1329,300 + 1535,086) / 2 = 1432,193 (perhatikan pada kolom Coefficients stage 5)
Stage 2 : terjadi pembentukan cluster industri minyak goreng dan makanan

berjarak 613,772, yang kemudian berlanjut ke stage 3.


Demikian seterusnya dari stage 3 dilanjutkan ke stage 8, sampai ke stage

terakhir. Proses aglomerasi ini bersifat kompleks, khususnya perhitungan koefisien yang melibatkan sekian banyak obyek dan terus bertambah. Proses aglomerasi pada
6

akhirnya akan menyatukan semua obyek menjadi satu cluster. Hanya saja dalam prosesnya dihasilkan beberapa cluster dengan masing-masing anggotanya, tergantung jumlah cluster yang dibentuk. Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada tabel output berikut ini : Tabel 5. Jumlah cluster dengan anggota yang terbentuk

Dari tabel 5 diatas dapat disimpulkan bahwa dengan menggunakan metode cluster hirarki diperoleh kelompok industri berdasarkan jenis polutan sebagai berikut :

Apabila diinginkan dibentuk 4 kelompok industri berdasarkan jenis polutan,

maka: Anggota cluster 1 adalah industri karet dan semen Anggota cluster 2 adalah industri sawit, pengalengan ikan, listrik dan pertambangan Anggota cluster 3 adalah industri migas, minyak goreng dan makanan Anggota cluster 4 adalah industri pupuk

Apabila ditentukan dibentuk 3 kelompok industri berdasarkan jenis polutan,

maka: Anggota cluster 1 adalah industri karet, sawit, pengalengan ikan, listrik, pertambangan dan semen Anggota cluster 2 adalah industri migas, minyak goreng,dan makanan. Anggota cluster 3 adalah pupuk

Apabila ditentukan dibentuk 2 kelompok industri berdasarkan jenis polutan,

maka: Anggota cluster 1 adalah industri karet, sawit, pengalengan ikan, listrik, pertambangan dan semen Anggota cluster 2 adalah industri migas, minyak goring, makanan, dan pupuk

Dendogram berguna untuk menunjukkan anggota cluster yang ada jika akan ditentukan berapa cluster yang seharusnya dibentuk. Demikian seterusnya dapat dengan mudah dilihat anggota tiap cluster sesuai jumlah cluster yang diinginkan.

Gambar 6. Dendrogram analisis cluster hirarki


2. Proses clustering menggunakan metode non hirarki

Metode K-Means Cluster ini jumlah cluster ditentukan sendiri. Oleh karena itu, berikut ini langkah-langkah yang harus dilakukan dalam menggunakan metode K-Means Cluster dalam aplikasi program SPSS.
Dari tampilan data seperti gambar 1 yang tertera buka menu Analyze, lalu pilih sub

menu Classify dan pilih K-Means Cluster hingga tampak pada layar sebagai berikut :

Gambar 7. Kotak dialog K-means Cluster Analysis Masukkan seluruh variabel ke dalam kotak VARIABLES. Kemudian variabel Jenis_Industri dimasukkan dalam kotak Label Cases by. Number of Clusters dalam hal ini diisi menurut jumlah cluster yang akan dibentuk dalam penelitian yang dimaksud. Dalam hal ini diisi 2, berarti diharapkan akan dibentuknya 2 cluster. Kemudian klik mouse pada kotak Save hingga muncul tampilan seperti berikut ini :

Gambar 8. Kotak dialog K-means Cluster: Save Kotak dialog SAVE memungkinkan hasil cluster disimpan dalam bentuk variabel baru. Hal ini berguna untuk proses profiling cluster, yang akan dilakukan pada tahapan akhir analisis cluster. Aktifkan kedua kotak dalam menu Save, yaitu Cluster membership dan Distance from cluster center. Selanjutnya tekan tombol Continue untuk kembali ke menu utama.Kemudian klik mouse pada kotak Options hingga tampak tampilan berikut ini :

Gambar 9. Kotak dialog K-means Cluster: Options Pada bagian Statistics, aktifkan Initial cluster centers dan ANOVA table. Abaikan bagian yang lain, lalu tekan Continue untuk kembali ke menu utama.
Dari tampilan menu utama cluster, abaikan bagian yanglain lalu tekan tombol OK

untuk dapat menampilkan output aplikasi program SPSS seperti berikut ini. Tabel 6. Rata rata polutan dalam setiap cluster

Dari tabel 6, dapat didefinisikan sebagai berikut : dari kesepuluh jenis industri kita bandingkan centroid yang terbesar dan terkecilnya. Adapun centroid yang terbesar ( cluster 1 ) adalah rata rata polutan pada industri pupuk dengan nilai cluster 1 adalah 1097,453 ; 2157,413 ; 22250,400 ; 1071,790 ; 1,752 dan centroid yang terkecil( cluster 2 ) adalah rata-rata polutan pada industri sawit dengan nilai cluster 2 adalah 696,770 ; 1841,352 ; 1177,563 ; 610,747 ; 129,210. Tabel 7. Jarak cluster

Perhatikan 2 kolom terakhir pada tabel 7 di atas. qcl_1 menunjukkan nomor cluster dari jenis industri, dan qcl_2 merupakan jarak antara obyek dengan pusat cluster. Dengan demikian, dapat ditafsirkan sebagai berikut :

Cluster 1 : berisikan industri migas, minyak goreng, makanan dan pupuk dengan masing-masing jarak terhadap pusat cluster 1 adalah 1931.35672 ; 1126.60843 ; 1201.96474 ; 4171.29841

10

Cluster 2 : berisikan industri karet,sawit,pengalengan ikan, listrik, pertambangan dan semen dengan masing-masing jarak terhadap pusat cluster 2 adalah 3035.12542 ; 4512.50642 ; 1453.74650 ; 658.94305 ; 1538.07843 ; 4092.02646

Untuk melihat apakah variabel variabel jenis polutan yang telah membentuk cluster tersebut merupakan variabel pembeda dalam peng-cluster dapat dilihat dalam tabel anova berikut :Tabel 8. Analisis varians untuk analisis cluster

Hipotesis :

Kriteria uji : tolak Dipilih nilai

jika dan nilai n=10 dan k=2 sehingga dalam tabel distribusi F diperoleh

adalah 5,32. Nilai F pada hitung pada anova, variabel NO2 = 24,326 ,

variabel SO2 = 4,304 , variabel CO = 41,940 ,variabel TSP = 1,440 dan variabel NH3 = 0,590 . karena nilai F hitung dari kelima variabel ada dua yang bernilai lebih dari nilai yaitu variabel NO2 dan CO , dengan demikian kedua variabel tersebut

merupakan variabel pembeda dalam peng-clusteran. Dalam tabel anova juga dapat dilihat nilai signifikan, dimana ada dua nilai , yaitu variabel NO2 = 0,001 < kedua variabel itu ditolak dan variabel CO = 0,00 < , sehingga pada

. Hal ini berarti hanya ada dua variabel yaitu NO2 dan

CO yang merupakan variabel pembeda dalam peng-clusteran Tabel 8. Hasil akhir proses clustering

11

Berdasarkan analisis varians di atas, bahwa yang menjadi variabel pembeda adalah NO2 dan CO. maka kita dapat mengelompokkkan industri menjadi dua cluster berdasarkan jenis polutan yaitu kelompok industri dengan polutan tinggi dan rendah. Pada tabel 8, menunjukkan bahwa rata-rata polutan NO2 dan CO pada cluster 1 lebih besar daripada cluster 2. Hal ini dapat disimpulkan bahwa industri yang berada dalam cluster 1 merupakan industri yang memiliki polutan tinggi dan indutri yang berada dalam cluster 2 merupakan industri yang memiliki polutan rendah.

3. KESIMPULAN Dari hasil analisis di atas dapat diambil kesimpulan sebagai berikut :
1. Hasil analisis cluster dari 10 jenis industri berdasarkan jenis polutan NO2, SO2, CO,

TSP dan NH3. a. Untuk metode hirarki dapat dikelompokkan menjadi tiga kelompok yaitu, cluster ( kelompok industri) pencemar rendah, pencemar sedang, dan pencemar tinggi. b. Untuk metode non hirarki dapat dikelompokkan menjadi dua kelompok yaitu, cluster ( kelompok industri) pencemar tinggi dan pencemar rendah 2. Ciri dari setiap kelompok yang terbentuk yaitu : a. Untuk metode hirarki Berasarkan tabel 5 dapat diperoleh Cluster pencemar rendah adalah industri karet, sawit, pengalengan ikan, Cluster pencemar sedang adalah industri migas, minyak goreng dan makanan Cluster pencemar tinggi adalah pupuk listrik, pertambangan dan semen.

b. Untuk metode non hirarki


12

Berdasarkan tabel 7 dan 8 diperoleh

Cluster pencemar tinggi adalah industri migas, minyak goreng, makanan dan Cluster pencemar rendah adalah industri karet, sawit, pengalengan ikan,

pupuk listrik, pertambangan dan semen.

DAFTAR PUSTAKA [1] Robinson Sitepu. 2011. Analisis Cluster Terhadap Tingkat Pencemaran Udara pada Sektor Industri di Sumatera Selatan [online]. Termuat di:
www.jpsmipaunsri.files.wordpress.com/2011/.../v14-no3-a-3-sitepu-11-17.pdf . Diakses

pada : 31 oktober 2012

[2] Modul

Analisis

cluster

termuat .

di Diakses

www.file.upi.edu/Direktori/FPIPS/LAINNYA/.../Modul/Modul_Cluster.pdf

pada : 31 oktober 2012

13

You might also like