Buku Latihan SPSS

Statistik Multivariat

Kutipan Pasal44, Ayat I dan 2, Undang-Undang

Republik Indonesia tentang HAK CIPTA:

Tentang Sanksi Pelanggaran Undang-Undang Nomor 6 Tahun 1982 tentang HAK CIPTA, sebagaimana telah diubah dengan Undang-Undang No.7 Tahun 1987 jo. Undang-Undang No. 12 Tahun 1997, bahwa: 1. Barangsiapa dengan sengaja dan tanpa hak mengumumkan atau memperbanyak suatu ciptaan atau memberi izin untuk itu, dipidana dengan pidana penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp.l 00.000.000,- (seratus juta rupiah). Barangsiapa dengan sengaja menyiarkan, memamerkan, mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara paling lama 5 (lima) tahun dan/atau denda paling banyak Rp.50.000.000,- (lima puluh juta rupiah).

2.

Buku Latihan SPSS

Statistik Multivariat

Singgih Santoso

Penerbit PT Elex Media Komputindo Kelompok Gramedia, Jakarta

Buku Latihan SPSS Statistik Multivariat

Singgih Santoso
© 2002, PI Elex Media Komputindo, Jakarta Hak cipta dilindungi undang-undang Diterbitkan pertama kali oleh PI Elex Media Komputindo Kelompok Gramedia, Anggota lKAPI, Jakarta 2002

12102736 ISBN: 979-20-3648-2

Dilarang keras menerjemahkan, memfotokopi, buku ini tanpa izin tertulis dari Penerbit.

atau memperbanyak

sebagian atau seluruh isi

Dicetak oleh Percetakan PI Gramedia, Jakarta lsi di luar tanggung jawab percetakan

Pertama-tama Penulis mengucapkan puji dan syukur kepada Tuhan, yang dengan anugerahNY a telah memberi kesempatan kepada Penulis untuk menyelesaikan satu buah buku lagi bagi para Pembaca. Buku ini pada dasarnya merupakan kelanjutan dari 'BUKU LATIHAN SPSS: STATISTIK PARAMETRIK' dan 'BUKU LATIHAN SPSS: STATISTIK NON PARAMETRIK' (keduanya terbitan PT Elex Media Komputindo). Seri Buku Latihan SPSS dimaksudkan sebagai pelengkap dari buku SPSS yang telah terbit sebelurnnya, dengan harapan agar pembaca bisa lebih menguasai SPSS lewat berbagai aplikasi praktis. Perbedaan dengan Buku Latihan SPSS Statistik Parametrik dan SPSS Non Parametrik terdahulu adalah pada metode ilmu Statistik, yang karena ciri tertentu tidak hanya melibatkan satu atau dua variabel, namun menggunakan banyak variabel yang diproses secara bersama-sama. Seperti jika akan diteliti faktor apa saja yang mempengaruhi seorang konsumen membeli sebuah Mobil? Pada kenyataannya, banyak faktor atau variabel yang mempengaruhi konsumen tersebut, seperti Promosi dari Perusahaan, Diskon yang ditawarkan, Kebutuhan riil dari Konsumen, Pendapatan Konsumen, Sistem Kredit yang ditawarkan, Pengaruh dari Keluarga, Status Sosial dan sebagainya. Semua faktor ini harus dianalisis bersama-sama, dan metode statistik parametrik atau non pararnetrik tidak bisa digunakan karena hanya dapat menganalisis dua variabel. Oleh karena itu, metode Multivariat harus digunakan pada kasus seperti diatas (Regresi berganda, Factor Analysis atau lainnya). Perkembangan Software Statistik yang pesat membuat penggunaan metode Multivariat yang sangat kompleks menjadi mudah dan praktis. Oleh karena itu, aplikasi metode Multivariat dengan SPSS sebagai software Statistik terpopuler semakin luas, dan karena buku yang khusus membahas aplikasi Statistik Multivariat dengan bantuan komputer masih sedikit, kehadiran Buku Latihan ini diharapkan mampu meningkatkan penggunaan Statistik Multivariat di berbagai bidang.

v

Agar mudah dipahami, buku ini disusun dalam bentuk modul-modul, Setiap modul membahas persoalan statistik tertentu atau penggunaan tools SPSS tertentu yang dikaitkan dengan sebuah kasus Multivariat. Hal ini untuk memudahkan pemahaman akan topik atau tools tersebut, tanpa dikacaukan dengan topik atau tools yang lain. Para mahasiswa dan dosen dapat menggunakan buku latihan ini sebagai bahan pelengkap kuliah Statistik atau Praktikum Statistik di Perguruan Tinggi. Selain itu, kalangan peneliti, pengusaha dan pengguna awam yang terlibat dalam proses data statistik merupakan kalangan yang tepat untuk menggunakan modul-modul pada buku ini dalam praktek sehari-hari. Buku ini dilengkapi dengan disket kerja yang memuat data-data statistik serta jawaban latihan. Dengan adanya kasus yang bersifat integratif namun sederhana, pengguna dapat segera memaharni bagaimana SPSS secara praktis bisa membantu mengambil keputusan atas berbagai masalah statistik yang melibatkan penggunaan metode Multivariat. Dua seri Buku Latihan SPSS serta satu Buku Pedoman SPSS versi 10 yang mendapat sambutan bagus di kalangan pembaca, juga disertai dengan banyaknya email yang masuk ke Penulis. Topik yang ditanyakan dernikian beragam, dari pembahasan skripsi atau thesis seorang mahasiswa, sampai permasalahan pada sebuah perusahaan, Dari persoalan di bidang marketing sampai penggunaan statistik di bidang kelautan. Penulis sungguh mengucapkan terima kasih atas pertanyaan-pertanyaan dan terlebih kritik membangun dari para Pembaca, yang membuat penulis sadar betapa luasnya aplikasi ilmu statistik pada berbagai bidang. Juga Penulis merninta maaf kepada para Pembaca yang telah mengirim email namun belum sempat dibalas karena kesibukan Penulis, atau yang mendapatkan jawaban yang kurang memuaskan. Itulah keterbatasan Penulis, sesuatu yang mendorong Penulis untuk terus belajar dan belajar, agar Pembaca tetap mendapatkan nilai tambah (value added) dari setiap Buku Penulis. Jika pada buku ini ditemui kesalahan-kesalahan, baik itu dalam pengoperasian SPSS, interpretasi output SPSS, penyusunan modul, atau bahkan konsep statistik, silakan melontarkan berbagai pertanyaan maupun saran yang membangun ke alamat email: singgih santoso@yahoo.com atau singgih@mailexcite.com

Atas terbitnya buku ini, ucapan terima kasih Penulis tujukan kepada PT ELEX MEDIA KOMPUTINDO, khususnya kepada lbu Aristiawati beserta staf (lbu Elizabeth), yang masih memberikan kesempatan berharga kepada Penulis untuk dapat menyampaikan sebuah karyanya yang lain ke tangan para pembaca.

vi

Terima kasih juga ditujukan kepada para mahasiswa yang telah Penulis bimbing dalam pembuatan Skripsi dan Penelitian, khususnya kepada saudara Agus Gianto, yang memberi sumbangan data penelitian yang telah dilakukan di sebuah supermarket di Yogyakarta. Juga terima kasih kepada Pimpinan dan staf PT MULTI AGUNG PERKASA, sebuah Perusahaan Konsultan Sistem Informasi, dan PT MAGNA INTI DATA, sebuah perusahaan Market Research. Semua itu telah memperkaya wawasan Penulis dalam praktek pengolahan data statistik dengan SPSS, lewat kegiatan konsultasi di berbagai perusahaan di Indonesia. Rasa terima kasih akhimya Penulis sampaikan kepada istri Penulis, Priscilia Setian, yang selalu mendukung dan mengingatkan Penulis untuk segera menyelesaikan buku ini. Dan kepada Putra Penulis, Alvin, yang sekarang sedang lucu-lucunya. Kehadiran mereka sungguh menyadarkan Penulis betapa berartinya sebuah keluarga, sebuah titipanNya.

Penulis

vii

.

MODUL 13: Analisis Faktor (4) Membuat Faktor Scores DISCRIMINANT ANALYSIS MODUL 14: Analisis Diskriminan Dua Faktor (1) Uji Variabel MODUL 15: Analisis Diskriminan Dua Faktor (2) MODUL 16: Analisis Diskriminan Tiga Faktor ix .PENGANTAR ANALISIS MULTIVARIAT 1 4 6 19 23 34 39 43 . 47 52 68 81 93 97 113 129 138 143 147 154 174 TEORI UJI DATA MODUL 1 MODUL2 MODUL3 MODUL4 MODUL5 MODUL6 Uji Data (1) Missing Value Analysis Uji Data (2) Perlakuan Terhadap Missing Value Uji Data (3) Outlier Uji Data (4) Normalitas Uji Data (5) Homoskedastisitas Uji Data (6) Linieritas CLUSTER ANALYSIS MODUL 7: Analisis Cluster K-Means Cluster MODUL 8: Analisis Cluster (2) Hierarchical Cluster MODUL 9: Analisis Cluster (3) Crosstab dan Grafik FACTOR ANAL YSIS MODUL 10: Analisis Faktor (1) Menilai Variabel yang Layak MODUL 11: Analisis Faktor (2) Factoring dan Rotasi MODUL 12: Analisis Faktor (3) Validasi Faktor.

....•••.•....TEORI MANOVA ••.............•.C x ..............•....•........... MODUL 17: General Linear Model (Univariat) MODUL 18: Manova (GLM Multivariat) MODUL 19: Manova 2 (Factorial Design) MODUL 20: Manova 3 (Custom Tables) TEORI CANONICAL CORRELATION 195 199 208 221 231 239 242 253 261 264 287 300 306 313 333 340 342 MODUL 21: Canonical Correlation MODUL 22: Canonical Correlation (2) TEORI CONJOINT ANALYSIS MODUL 23: Analisis Conjoint (1) MODUL 24: Analisis Conjoint (2) MODUL 25: Analisis Conjoint (3) SOALLATIHAN LAMPIRAN DATA LAM PIRAN SITUS INTERNET MUL TIVARIAT LAM PI RAN SERI BUKU SPSS DAFT AR PUSTAKA ..•.•..........

X dan Y. dilakukan analisis regresi sederhana.variabel dengan bobot variabel yang ditentukan secara empiris. Vvl. '-<A1"4U 1 .HUUU111".. Variat bisa didefinisikan sebagai suatu kombinasi Hiller dari variabel. ada persamaan regresi berganda: Nilai variat=w l. Sedang dilakukan analisis regresi berganda. maka analisis seperti itu dikatakan bivariat. dengan satu variabel Y dan satu variabel X.XI +w2. Sebagai contoh.x2+w3. karena ada dua (bi) variabel."c" (simultan) obyek atau Jadi bisa dikatakan analisis multivariat perluasan dari analisis univariat (seperti t) atau bivariat (seperti korelasi dan regresi sederhana). Sebagai contoh.Xn Di sini Xn adalah variabel yang telah ditentukan oleh sedang wn adalah hasil dari proses multivariat. Nilai variat adalah hasil dari proses p" •• dan w dan yang menghasilkan suatu nilai variat tertentu. maka analisis sudah bisa dikatakan karena ada tiga variabel (yang berarti. Analisis Multivariat atau Metode Multivariat metode-metode statistik yang secara bersama-sama melakukan analisis lebih dari dua variabel orang. +wn. dengan sam variabel Y dan dua variabel X dan X2)..Secara umum.x3+ . Xl dan X2).

n. Kedua eontoh di atas tidak bisa diselesaikan analisis univariat atau karena keterbatasan kedua analisis tersebut. desimal."HHaJlJo interval atau data rasio.multivariat yang rnengharuskan ciri-ciri data tertentu. sernua variabel tersebut dianalisis secara simultan atau bersamaan. alternatif 2 . atau 178.Data? Data yang secara statistik bisa dibagi menjadi Data metrik dan non metrik dilakukan pada analisis multivariat. Hal ini disebabkan IHt.. data non metrik adalah data yang desimal serta dilakukan yang diberi kode 1 untuk 'Pria' dan 2 'Wanita'.45 em ~U'. "V'~~'6M.-'. data Analisis Univariat/Bivariat? Uni atau Bivariat lebih dan dua variabel.LV. Hal ini Sistem Kualitas Rumah pertumbuhan sebuah tanaman. Perbedaan tersebut disebabkan Multivariat.VUJHHH. yang melibatkan pupuk yang Curah keasaman Intensitas Sinar Matahari dan sebagainya. metrik akan data nominal atau data ordinal.

Dengan kualitas Software. naik Pesawat n. di lain sisi hampir semua perhitungan Multivariat tidak bisa atau sulit sekali dilakukan secara manual.aH untuk SPSS selain SPSS juga dengan program 3 . seperti sekarang metode Multivariat dalam statistik. tersebut.ursgue» Multivariat harus meneeunascan Multivariat lebih melibatkan maka Oleh karena metode UaLH.mengapa Analisis Multivariat tidak dahulu dalam oernuunuun Statistik? yang terkait Oleh karena waktu itu (Software) belum taraf ""_'--'.'hll'uau sekarang.HJllb~.V'UAun pernu.

int"rn.uu..".u". yang dihasilkan bisa sangat berbeda data tidak ada yang hilang (missing).om Data yang akan Kendala adalah banyaknya waktu dan tenaga yang terbuang untuk proses Uji Data.. pada data tertentu.. rl. Seperti jika Data (yang terdiri atas banyak variabel) mempunyai banyak missing value (data yang hilang atau tidak ada isinya). proses multivariat bahkan tidak bisa dilakukan.Data untuk analisis Multivariat? Uji Data pada prinsipnya metode rnultivariat (cluster "HE. jika memang Data tidak untuk lebih lanjut. tidak ada jaminan adanya proses pengobatan' (remedies) data tersebut hingga Ada macam Data? Uji Data bisa dilakukan dengan empat cam: 4 . bahwa berbagai dan bisa . yang bisa sebuah pemborosan....~i dengan terlebih dahulu? Pengabaian Data bisa berakibat biasnya kesimpulan yang atau bahkan metode multivariat tidak bisa diproses..pt. Pada beberapa jenis data yang sangat banyak 'H~.u'UUH.. hasil proses multivariat bisa tidak dilakukan untuk memastikan Llv... Sementara di lain sisi.H5aH'HU'"5 missing value...'vU.. Jika data tersebut dipaksa untuk diproses.

. 5 . ".'"""sebaran dua variabel untuk data yang tidak data secara @ Pengujian Outlier yang sangat yang keberadaan data Outlier akan mengganggu keseluruhan data. Pengujian Missing atau ada data yang Grafik. asumsi metode-metode Uji Linieritas dan sebagainya."'. Pengujian dengan menggunakan kenormalan sebuah distribusi korelasi dan sebagainya..... dilakukan .. seperti untuk menguji bentuk .

Dalam SPSS. pada Data Responden atau Usia Responden. Pada kasus berikut akan bagaimana perlakuan terhadap missing data. Hal iniberakibat adanya data yang kosong pada kolom atau Usia. missing data adalah adanya sel-sel kosong pada satu atau variabel. Perhatikan isi file MISSING VALUE.sav (akan dibahas di rnodul lain). Missing Data pada dasarnya tidak bermasalah bagi keseluruhan data. maka dilakukan pengujian apakah data yang mengandung banyak missing tersebut masih layak diproses lebih lanjut ataukah tidak. apalagi jika jumlahnya hanya sedikit. Sebagai contoh.Missing Data atau Missing V alue adalah informasi yang tidak tersedia untuk sebuah subyek (kasus). Namun jika persentase data yang tersebut cukup besar. digolongkan 6 . sulit diem atau memang informasi tersebut tidak ada. bisa saja ada Responden yang karena alasan pribadi tidak mau menyebutkan Gaji ataupun Usianya. yang meliputi pengujian keacakan Missing serta upaya penanganan terhadap Missing Data. File MISSING berdasarkan VALUE berisi data 75 konsumen yang air minum mineral yang dikonsumsinya. Data terjadi karena informasi untuk sesuatu tidak diberikan. misal hanya sekitar 1% dari seluruh data.sav yang isinya sama persis dengan file DISKRIMINANT.

MENGUJI KEACAKAN MISSING VALUE pertama adalah melakukan pengujian apakah data yang hilang tersebut bersifat random ataukah tidak. Seharusnya value yang ada bersifat yang berarti tidak ada pola tertentu value yang ada. jika data yang missing pada variabel USIA. semua missing pada konsumen yang termasuk SEDIKIT. untuk kasus pertarna. Dari kasus di atas. Berat dan Tinggi badan konsumen. konsumen bernama Bambang mempunyai dua missing value. BANY AK: konsumen termasuk Kode untuk tipe ini adalah 1. Namun dilihat pada kasus 11. Sebagai contoh.-.U&. serta kegiatan Olahraga konsumen (jam) dalam sehari. Kode air mineral.missing value yang ada pada data konsumen air mineral tersebut. Di sini bisa dikatakan bahwa pada kasus 1 dan 3 terdapat satu missing value. air mineral. terlihat variabel USIA mempunyai sembilan missing value. akan dilihat apakah: 9 Apakah missing value yang bersifat acak (random) ataukah tidak? e Terkait dengan permasalahan pertama. Demikian pula untuk baris dengan konsumen bernama Lanny. yakni Usia dan Tinggi badannya. Jika diperhatikan isi seluruh data. variabel Berat badan Rusdi tidak tertera. dengan konsumen bernama RUSDI. Demikian seterusnya bisa dilihat dari sudut kasus dari variabel. Hal ini tidak ". Sedang data lain adalah data bertipe rasio.'~' 7 . variabel Tinggi badan tidak tercantum. bagaimanakah seharusnya perlakuan terhadap data yang mengandung missing value tersebut? pada Missing Value Analysis: 1. terlihat ada beberapa sel yang tidak terisi. Income konsumen. namun variabel INCOME hanya terdapat dua missing value. seperti Usia konsumen.U. Jam Kerja konsumen dalam sehari. sedang pada kasus 2 tidak ada missing value.@ SEDIKIT: konsumen termasuk sedikit mengkonsumsi untuk tipe ini adalah O. atau disebut sebagai MISSING VALUE (data yang Sebagai contoh. lalu @ banyak mengkonsumsi NB: Kode untuk data kategori bisa dilihat dengan menekan lihat bagian (kolom) VALVES. Sedang jika dilihat dari sudut kolom (variabel).

maka tidak akan disertakan. Proses @ Buka file milssjn~ value Dari menu " Pengisian: Masukkan variabel dan ke bagian QUANTITATIVE VARIABLE. Disebut Case labels berarti data harus berbentuk (huruf). Masukkan variabel nama ke bagian CASE LABELS.bisa dikatakan bersifat random. tengah). Namun pernasuxun variabel dalam arti bisa saja bagian ini dikosongkan. pengisian categorical variable. aktifkan mouse) NB: Listwise berarti hanya kasus yang semua datanya ada yang ditampilkan. Masukkan variabel minum ke CATEGORICAL VARIABLE. kasus nomor 2 yang lengkap 8 . bagian ini bersifat Pada bagian ESTIMATION kotak dan EM. Sebagai contoh. karena seharusnya data yang missing usia. Disebut variabel berarti variabel yang dimasukkan hams data rasio. Jika ada kasus salah satu data missing. berarti variabel yang dimasukkan harus data bertipe nominal. Disebut variabel kategori. selain ditemukan pada mereka yang minum air mineral juga ditemukan pada mereka yang minum air mineral BANY AK.

. yakni dan tekan CONTINUE untuk kembali ke kotak Pengisian: 9 . ini adalah data U<:OJLAllJU"U. aktifkan dua Tabulated cases . Tampak di Pengisian: Pada bagian DISPLAY.. Dengan bervariasi. Pairwise berarti data ditampilkan.datanya akan dinamakan satu list. dihubungkan. lengkap tidaknya yang nu data akan data dua variabel yang MCAR.'''''''''''''' Klik icon PATTERNS. dan Cases with misstng Abaikan bagian dialog utama. Ciri yang diproses sama. EM adalah metode untuk ""'''5.

TIDAK SEMUA BAGlAN OUTPUT DITAMPILKAN. of Extremes" Low Hiqh Missina N USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM Mean Std.5*IOR). terlihat angka bervariasi pada setiap pada setiap variabel.0 0 0 0 0 0 0 0 0 7 0 0 0 a.3679 10.1260 .1.0 5.5*IOR.7 . berikut.8867 123. rata-rata usia 66 10 . Number of cases outside the range (01 ..Pada bagian INDICATOR VARIABLE STATISTICS. HANYA BAGlAN OUTPUT YANG RELEV AN YANG AKAN DIBAHAS. persentase adalah 9175*100% atau 12%). Abaikan bagian lain.6433 .1268 618..2630 3. dari 75 konsumen yang ada 66 data Usia konsumen yang sehingga ada 75-66) data yang missing. Deskripsi variabel dengan adanya Missing value Univariate Statistics No. Deviation Count Percent 66 69 71 73 73 73 75 30.1364 54. Demikian seterusnya untuk variabel yang catatan semua data variabel MINUM lengkap terisi atau ada Hal ini bisa juga dilihat pada kolom MISSING. aktifkan dua pilihan. lain dan tekan OK untuk proses pada file MISSING PERHATlKAN.7440 6.0 8.3 2.9041 5.9130 160.638 9 6 4 2 2 2 0 12. yakni Percent mismatch dan Cresstabulations of .7 2. Kolom Mean dan Standard Deviation menunjukkan nilai statistik dasar.048 6. yang dihitung dari jumlah data yang valid (tidak missing). Pada variabel USIA.7 2. Untuk variabel USIA. dan tekan CONTINUE untuk kembali ke kotak utama. 03 + 1. pada Count untuk nyata. rata-rata dan standar deviasi untuk setiap variabel. dan bagian Percent untuk menghitung persentase mana untuk variabel USIA. N.

H berat MINUM ~ f- 2 '6 :Jl a a 33 86.1303 609.'] dad tabel Jika badan HH.5 35 92.4340 618.0 12. 0:: W < CJ 0:: I 1= o ~ ~ 2: « « -a 52478 5.9 are not . Dernikian Means w 2: 0 iii « :::l f0:: W « III a 0 Z « -.13 tahun seterusnya untuk data yang lain.3 33 89.8302 160.HIUUJ.9130 54. variables % SysMis with less than 5% missing 11 . UL\.1364 30.8 35 94.1 7.- USIA Present Count Percent 66 88.2630 5.6 5.048 3.7 Missing BERAT Present % SysMis Count Percent Missing TINGGI Present % SysMis Count Percent Missing Indicator displayed.HIU\.048 rata-rata ukuran: Jika " Jika rata-rata Usia memacn dan .4 36 97.konsumen adalah 30.9057 30.0 71 94.996 3.8 13.5 10.9041 620.~'v"A".3 2.x: _Q a '" c '" a ».2384 55.2 34 89.7 5. rata-rata Usia dan seterusnya.0 8. .9249 159.2 10.2640 0 « -' Ustwise All Values EM 29.4232 2.0 69 92. Summary of Estimated standar deviasi tahun.5094 54..1268 160.

Hal ini disebabkan variabel (MlNUM.2% data yang missing ada pada usia konsumen yang termasuk air mineral kategori SEDIKIT. Hal ini sudah menggambarkan keacakan data yang -". Perhatikan angka 12% yang rata-rata dati 13.Vll"UIU'-'U.2% dengan Demikian seterusnya untuk variabel yang lain. dati 66 data yang valid.8% berasal dari mereka yang termasuk air mineral kategori BANY AK. Perhatikan ada tiga variabel yang ditampilkan dari enam variabel yang diuji. INCOME. Sedang dari komposisi data yang missing. JAM KERJA dan OLAHRAGA) mempunyai sedikit data yang missing (kurang dari 5% dari total 75 data) sehingga tidak pada Bahkan untuk variabel tidak ada data yang Dari terlihat penyebaran data yang missing dalam arti ada data hilang setiap kategori dan variabel. Penyebaran Missing Data 12 .Untuk vatiabel USIA. 13. sedang 10. 33 data ada pada kategori minum dan sisanya (33 data) ada pada minum BANY AK.

konsumen bernama Rusdi mempunyai satu missing data kolom #Missing) pada variabel BERAT (lihat tanda Spada kolom BERAT).1. 13 .3 14.3 14.3 14.3 14.3 14. Cases and variables are sorted on missing patterns. 03 + 1.n7F""..3%.. -c a: I « « (9 (9 (9 - -' 0 i= Z CD W a: « I- :::J m « S S S S S S S S S S S S S S S S S S S S S S S S + S 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 2 .5*IOR). z o 2 0 ill ill ::. :f!.3 14. (f) ':?.3 28.3 14. untuk dan Pada bans 1.r<ln konsumen yang memang antnnva bukannya seluruh konsumen.6 ::J Z ::. -c -.3 14.3 14.3 14.3 14.3 14. 14.6 14. The range used is (01 . a.5*IOR..3 28.3 14. cc :.indicates an extreme low value.3 14.6 14.:: « -. (f) '" Case RUSDI LUSI ERNI KRISTANTO NINIK ELI DINA ESTI RINA RULLY ROSSY AGNES BAM BANG L1NA LANNY SUSANA L1TA SUSAN KARIM TATIK LENNY SULASTRI 1 1 1 1 1 2 ':?.Missing Patterns (cases with missing values) Ol 'w c Ol 'w 0 c Missing and Extreme Value Patterns" ':?. persentase missing adalah 117 x 100% atau 14.3 28.3 14.3 14. Tabel di atas menggambarkan npl. Oleh karena missing ada pada 1 dan 7 variabel.. while + indicates an extreme high value.

Number of complete cases if variables missing in that pattern (marked with X) are not used. a: « o I -c a: (3 (') l- « UJ « 0 _j 1= Z a: co CiS « is. konsumen bernama Eli mempunyai dua missing data pada variabel BERAT dan USIA. Kristanto dan Ninik. angka 53 menyatakan ada 53 data (konsumen) yang valid. Tabulated Patterns . persentase missing adalah 217 x 100% atau 28. 14 .6%. a. b. Tabel di atas sisi lain dari penyebaran missing di mana missing value dinyatakan per variabel. Oleh karena missing ada pada 2 dari 7 variabel.Sedang untuk baris 6. Jika dilihat tabel sebelumnya. dalam arti tidak terdapat missing value pada semua Hal inilah yang dimaksudkan pengukuran dilakukan secara listwise. Pada baris pertama. -c -. Variables are sorted on missing patterns.0 Missinc Patterns a 2 Q) ::J ~ z ~ Number of Cases 0 0 ~ ~ UJ UJ ~ ~ « -. E 0 0 ::J 53 5 1 X X X X X X X X X X X X 6 1 3 2 2 1 1 53 58 65 59 63 56 55 55 54 61 Patterns with less than 1% cases (0 or fewer) are not displaved. Sedang angka 5 baris kedua berarti adanya lima data yang missing hanya variabel BERAT. konsurnen yang mempunyai data missing pada variabel BERAT adalah Rusdi.

. karena terkait dan bukannya USIA dan BERAT. Seandainya 5 data yang missing di variabel BERAT sehingga menjadi tidak missing.000 . Demikian seterusnya untuk data yang lain.048 1.J 0 USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA 1. Jika dilihat pada tabel sebelumnya. maka semua data yang tidak missing menjadi: 53+5=58 data yang <"'11.021 .000 di atas. semua UWHtsiS"P 15 .220 -.829 -.000 -.000 .5"""1-" III Baris 2 BERAT dan USIA.704 1.Sedang angka 1 pada bans ketiga berarti adanya satu data yang "'-"''''''15 variabel BERAT dan USIA.000 -.110 1.138 .038 . NB: Perhatikan data dengan nama perhitungan di atas.. Demikian seterusnya untuk penjelasan bans Untuk kolom terakhir: III Seandainya 5 data yang missing di variabel BERAT diperbaiki sehingga memaui tidak missing.219 1. Bambang tidak masuk dalam variabel USIA dan TINGGI. metode listwise akan kasus yang tidak lengkap Dengan metode 53 data dan 75 data mula-mula yang karena tidak ada satu pun data 11ll""'''F. Analisis LISTWISE Llstwlse Correlations W Ui :::l « I- a: w « (D <5 « -.168 .144 . 2 « <5 « a: I -c . demikian 7 data pada variabel USIA tabel sebelumnya untuk kolom maka semua data yang tidak "'-"NaIF.000 -.072 . menjadi: 53+5+7=65 data yang lengkap. konsurnen yang data missing variabel BERA T dan USIA adalah ELI.505 1.230 .168 -.. a: w rn z 2 0 1= o ~ ~ « -.

terlihat hanya ada dua korelasi yang cukup kuat. jika angka korelasi di bawah 0. 0. Demikian untuk korelasi antar variabel yang lain.. 0: W C) i= U ~ ~ :2.J ::. Sebagai contoh. akan ada 61 data yang valid.168 yang di bawah Hal ini berarti adanya tingkat keacakan yang tinggi pada missing karena pengaruh antar variabel lemah. Sedang korelasi termasuk OLAHRAGA-USIA tidak menunjukkan korelasi yang kuat... jika 16 .. Sebaliknya angka korelasi variabel BERAT dengan USIA sebesar 0. yakni antara variabel INCOME-USIA dan INCOME-OLAHRAGA.829. Hal ini tidak bagus. ::J 0: :c 0 z « .5. pengaruh missing data suatu variabel terhadap '_<.'__ ~'. sedangkan 14 data (75-61) tidak valid. jika yang dipasangkan variabel USIA dengan BERAT. ~ USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM 66 61 63 65 64 64 66 69 65 67 67 67 69 71 69 69 69 71 73 71 71 73 73 71 73 73 73 75 Metode pairwise akan memasangkan (pair) variabel yang mempunyai data lengkap. Namun.. Angka korelasi yang besar ini menyatakan bahwa terjadinya missing value dari variabel INCOME berpengaruh kuat missing value pada variabel USIA. Sebagai pedoman..selanjutnya menghitung korelasi antar variabel untuk 53 data. « « « ..5. karena menandakan rendahnya keacakan missing value.1 variabel Sebaliknya untuk korelasi di atas 0. ada sedikit missing data dati Sebagai contoh.168 pada tabel di atas menyatakan besar korelasi antara variabel BERAT dengan variabel USIA. 0 W « -. dan tidak menghilangkan sebuah bans begitu saja. korelasi antara variabel INCOME dengan USIA sebesar 0.. Dengan demikian data bisa berbeda-beda tergantung kelengkapan data dua variabel yang dipasangkan. Jika dilihat pada tabel di atas. Analisis metode Pairwise Pairwise Frequencies I0: W ~ (J) « co CJ C) ::J Z ::.

. dan Dengan bisa dikatakan value adalah random IPT'.859 = 32.122 ."aH '''vU'~'UUllL Sarna dengan analisis listwise angka korelasi yang di alas 0.076 .000 .011 . korelasi di atas yang dua metode yakni rnetode Listwise dan Pairwise.117 . Terlihat hanya ada korelasi yang di atas 0. < 0 ~ ~ :2' a: I « o « -' 0 « -.000 .".707 df 1. = 42.696 1.204 -.HHUal!l..5 sangat sedikit sehingga bisa dikatakan pola missing value adalah acak (random).173 .060 .000 .."mnl" Selain besar angka kelebihan metode EM adalah MCAR bagian bawah alat 17 . Little's MCAR test: Chisquare .107 1. « USIA BE RAT TINGGI INCOME JAMKERJA OLAHRAGA 1.5. Pairwise Correlations iiJ ::J « « a: w co I- o Z a r= :2' 0 w a: w -.040 1.000 -.dipasangkan variabel USIA dengan TINGGI.000 -.130 1. U.000 -.000 .493 1.507 1.206 -.103 .030 1. Demikian kombinasi variabel lainnya.815 -.024 .154 .067 .029 .000 -.'.069 . = "-VH_"a~..000 .000 . ~ ~ a: a: I « o -c :) 0 USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA 1. Analisis metode EM EM corretanonss ::J iiJ « co W a: « I- r= z a o 0 w :2' 0 « -a w :2' « -. akan ada 63 data sedangkan 12 data (75-63) tidak valid.821 -.007 Prob 1.072 .016 .000 Tabel di atas mempunyai tafsiran yang sama dengan analisis korelasi antar variabel dengan metode listwise yang telah U!1'A<ti.".333.000 a.030 .011 1.012 . '''''''''at''uu.

acak tidak memiliki pola tertentu. missing value adalah tidak random Jika dilihat bagian bawah terlihat angka MCAR yang unampuxan alat analisis Chi-Square 32.33 0. 18 . missing value adalah random Angka signifikansi MCAR (Prob) < 0.859. Oleh karena angka probabilitas (signifikansi) jauh di atas maka missing value dari data di atas adalah random.@ signifikansi MCAR (Frob) > 0. terkait dengan awal Kasus ini: value yang terjadi. Kesimpulan Dengan demikian. Perlakuan untuk missing value akan dibahas pada modul selanjutnya.05.05.

Jika missing value terbukti random. seperti membuang baris (kasus) yang mengandung missing value. atau bahkan satu variabel hanya karena satu dua sel tidak terisi. namun mengisi sel (data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan data terisi. Salah satu cara yang populer adalah bukan menghilangkan barisatau kolom yang mengandung data missing. menghapus variabel (kolom) yang mengandung missing value dan sebagainya. akan data usia yang cari rata-rata usia konsumen secara keseluruhan. modul berikut melanjutkan penanganan yang missing dan ternyata bersifat random. maka berbagai perlakuan bisa dilakukan pada data-data yang missing. Cara mengisi data yang bisa bermacam-macam. dan yang populer adalah mengisi dengan rata-rata keseluruhan data. kemudian mengisi setiap data missing dari variabel usia angka rata-rata tersebut. 19 . dalam arti missing value yang terjadi tidak disengaja dan tidak mengacu keadaaan tertentu (misal missing hanya pada variabel usia). Sebagai contoh. Penanganan terhadap Missing Value bisa bervariasi.Jika pada modul Missing Data (Value) bagian pertama dijelaskan pengujian kerandoman Missing Data yang ada. Hal ini lebih baik dan rasional daripada membuang satu baris karena usia konsumen tidak terdata.

SA V. yang ada file MISSING VALUE.1: Modul ini terkait dengan kasus sebelumnya. NB: buka kotak combo di MEAN OF NEARBY 20 . NAME AND METHOD Perhatikan bagian NAME yang otomatis nama variabel bam. MENGISI MISSING VALUE Proses pengisian dengan rata-rata data: 3 Buka file nnssmg value Dari menu ~ Pengisian: variabel dan ke bagian NEW (new) karena akan ada enam variabel bam atau enam kolom tambahan. Perhatikan di sini dimasukkan enam variabel yang memang mengandung data missing setiap variabel tersebut. AU"U<UUpJlU'-'lU lJ'~AUab'll Masukkan metode perlakuan tetap Series Mean. Tentu nama tersebut bisa misal UMUR atau yang lain. USIA_l untuk pengganti variabel usia. pada Missing Value Analysis modul sebelumnya). dengan penjelasan penggunaan metode pengisian berdasarkan Means data.

9. walaupun dibahas berikut ini.spo bagian pertama pada modul sebelumnya). data tengah akan diisi rata-rata 50 dan 60. Deskri12si !)enggantian Missing value Output bertipe spo dan Missing Result Variable USIA_l 9 6 4 dilayar: Values First Non-Miss Last Non-Miss 75 75 75 75 75 75 Valid Cases 75 75 75 75 75 Function SMEAN(USIA) SMEAN(BERA T) SMEAN(TINGGI) SMEAN(INCOME) SMEAN(JAMKER) 1 1 1 1 1 1 INCOME_l JAMKER_l OLAHRA_l 2 2 2 75 SMEAN(OLAHRAG) Dari tabel output ill atas. terlihat ada 9 data untuk variabel USIA yang diganti. i~"'" me sebagai NB: Sebetulnya ada input yakni bertipe spo yang muncul terlebih dahulu setelah proses selesai. maka data yang kosong variabel BERAT akan dengan angka 54.14. Metode penggantian berdasarkan rata-ratanya.dna data yang berdekatan. 6 variabel BERAT yang diganti dan seterusnya. Abaikan bagian lain dan tekan OK untuk proses.91 kilogram (lihat tabel output MISSING VALUE. dengan berikut. 55. (Disimpan value i5a.spo bagian pertama modul sebelumnya).u a. Seperti data atas 50. Seperti untuk variabel USIA. Oleh karena rata-rata Berat badan adalah 54. maka setiap data yang kosong pada variabel USIA akan dengan angka 30.14 tahun (lihat tabel output MISSING VALUE. data tengah kosong dan data bawah maka dengan metode ini. Namun bertipe spo tidak disket kerja. 21 . karena rata-rata adalah 30. Dernikian untuk variabel BERAT.

yang digunakan keenam variabel yang lama.U. Demikian untuk baris 1 dari variabel BERAT. yakni keenam variabel bam tersebut Menggunakan metode Listwise Menggunakan metode Pairwise '" Ii> Jika menggunakan metode Listwise atau Pairwise. yang sekarang terisi dengan angka Demikian seterusnya untuk pengisian data yang mengacu pada rata-rata keseluruhan dari sebuah variabel. tentu tergantung !-'v""". enam kolom Dari file diatas terlihat pada baris ke-5 dan 11 untuk variabel USIA...H yang akan U'GdmH.. maka pada berbagai proses analisis multivariat (seperti diskriminant.u":uuiinu.. terdapat pengisian angka 30..Demikian seterusnya sehingga didapat hasil (hanya tambahan dan sebagian data): . pada tujuan 22 . Kesimpulan: Dengan adanya proses pengujian dati Missing Value kemudian pengisian data pengganti.u.. factor dan lainnya). data yang akan digunakan Ii> Data Pengganti.14 sebagai pengganti data yang kosong. Pemilihan data mana yang akan digunakan.

data. sebuah Data atau Variabel 3. data dati 100 tinggi badan orang Asia. Tinggi badan tersebut 'ekstrim' rata-rata badan orang asia umumnya. Data 210 centimeter inilah yang disebut data outlier. 210 centimeter. memang ada Badan 210 centimeter. 1: data sama data yang 23 . 2. rnisal sekitar 160 centimeter.uU"U"5 Data tersebut. ada data tinggi badan 210 centimeter. Kasus berikut akan HR'U5. Terkait dengan contoh di alas. Data Outlier bisa 1. Terkait 150 centimeter Kesalahan dengan contoh di atas.Data Outlier adalah data yang secara berbeda data-data yang lain. data-data Terkait tidak bisa dihindarkan atas. Badan adalah para Basket badan mereka di alas rata-rata.

dengan berikut. dibahas berikut ini. STANDARDISASI DATA dua cara. Aktifkan save standardizedvalues mengklik mouse pada kotak tersebut. kerja dan NB: Di sini tentu saja variabel MINUM tidak relevan untuk diuji. karena variabel tersebut bertipe kategori (nominal). 1. (Disimpan pada file outlier NB: Sebetulnya ada input yakni spo yang justru muncul terlebih dahulu setelah proses selesai. data dalam bentuk Deteksi Data dengan standardisasi pnnsipnya mengubah nilai data semula dalarn bentuk z. Namun output bertipe spo tidak disimpan pada disket kerja. at variables.menyimpang (outlier) pada file tersebut? Dan jika memang ada data apakah tindakan yang akan diambil? Uji keberadaan Outlier bisa dilakukan membuat nilai z menampilkan Scatter Plot serta penyajian Box Plot. kemudian menafsirkan nilai z tersebut. o e Buka file outlier Dari menu Descrlptives Tampak di layar: Pengisian: Masukkan variabel usia. olahraga ke bagian VARIABLE(S). 24 . sebagai Abaikan bagian lain dan tekan OK untuk proses.

00 2.4267 55.59 kilogram Demikian seterusnya untuk data yang lain.00 5.5 Mean 30.7333 5.2653 3.Descriptive Statistics N 75 75 75 75 75 75 75 Minimum 20.00 148. rata-rata usia konsumen 6.2734 13.3200 623.00 120.5626 131.27 tahun.631 USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA Valid N (listwise) Perhatikan kolom MEAN (Nilai Rata-rata) untuk setiap variabel.053 Std. Sebagai adalah 30.7530 .00 400.1254 .0 Maximum 45. Standardisasi dengan nilai z: dan STD.00 1000.00 35.42 tahun standar deviasi rata-rata adalah 55.00 5. DEVIATION (Standar contoh.50 4. Deviation 6. Berat tubuh konsumen standar deviasi 13.6933 160. maka: 25 .8 di mana: x == nilai data x == nilai rata-rata () == standar deviasi sebagai contoh. usia Rusdi (data nomor 1) adalah 40 maka: sedangkan jika berat Rusdi adalah 65 kilogram.00 190.8290 7.

aU Jika sebuah data maka nilai z yang +2. Atau data tersebut bervariasi dari variasi tersebut rnasih dalam batas normal. Gambar: lebih besar dari OUTLIER DATA NORMAL + Jika dilihat tabel z.5 atau lebih kecil dan . data 26 .2.untuk data dan variabel Demikian secara lengkap bisa dilihat file outlier HasH standardisasi (hanya UH. nilai sama luas daerah di bawah kurva normal sebesar Hal ini berarti dari seluruh nilai data adalah data yang normal.5.UHliJlll'.

terlihat angka z adalah Hal ini berarti income dati Dina adalah data outlier. Atau melewati batasan 2. SCATTER PLOT DATA sebaran data dati dua variabel. pada kasus 12 dan 19 terlihat angka z adalah di atas Hal ini berarti berat badan dati Yunus dan LUis jauh dati berat rata-rata konsumen lainnya. Tanda + berarti income di atas nilai rata-rata.5.(lJll.5. Hal ini berarti semua konsumen olahraga yang per hari rata-rata jam v. berarti nilai konsumen di bawah nilai rata-rata. Pada variabel rnelebih 2. ~ 2. HV. Oleh karena scatter >~~U~~~~6~~"~H berikut lID pasangan variabel yang bisa dari UHCUlJLPUl\.~mu pencar plot) menampilkan dan secara visual akan bisa dideteksi data dari data. sekian ~ Buka file outlier Dati menu laIu Scatter Plot 27 .data yang menyimpang secara (outlier).5%) batas yang yang kurang dari batas yang berarti batasan makin diperketat. data yang terletak '-'''''".5 atau tidak ada data yang nilai z dari -2. Pada variabel BERAT. data tersebut dianggap data ekstrim UiUH5i~UP sebuah data tersebut bisa berbeda pada kasus yang lain.a'H"~5a'J. yang dilihat income Dina variabel sebesar 1. dan tanda -.CUHU. rnaka: Pada variabel kasus 5 (Dina). Jika mengacu ill batasan 2.000 maka nilai income tersebut sangat berbeda dari income rata-rata konsumen yang (lihat tabel di atas).5. Sebagian kurva normal 97.

kemudian sambil tetap menahan tombol mouse. dalam arti boleh variabel INCOME diletakkan di sumbu yang berarti daripada ill sumbu X. (Disimpan Lihat file outlier scatter BAGIAN PERTA~A: income 28 .Tampak di layar: ~asukkan variabel inco~e usia pada sumbu Y(kotak sumbu X (sumbu datar) dan variabel Mernasukkan variabel dengan cara click and arahkan pointer pada variabel INCOME (contoh). geser variabel tersebut ke sumbu X Tentu penempatan variabel pada sumbu X atau bersifat bebas. Abaikan bagian lain dan tekan tombol OK.

namun income sudah mendekati 800. Sedang data yang 'bergerombol' pada kiri bawah sampai kanan tengah. terlihat ada tiga data yang ber-income 900 dan 1000. Sedang data outlier ketiga ada di bagian tengah di mana usia konsumen bam sekitar 20-an tahun. data outlier secara visual dilengkapi dengan z untuk memastikan tingkat selain dengan bantu an Box Plot pengerjaan selanjutnya). pada file outlier scatter Lihat BAGIAN KEDUA: income 29 . Dua data pertama ada di bagian kanan atas. Dari Data Editor.. di mana Usia konsumen sudah sekitar 40 namun mempunyai income mendekati 1000 (Rp. Scatter Plot antara variabel BERAT dengan INCOME ~ . Buka file outlier Dari menu submenu lalu Scatter Plot Tampak eli layar kotak dialog GRAPH. terlihat ada beberapa data yang bisa outlier. Abaikan bagian lain dan tekan tombol OK. per bulan. Pengisian: Masukkan variabel income pada sumbu X dan variabel berat sumbu Y.Dati output di atas. N amun demikian.

® Buka file outlier Dari menu submenu e Masukkan variabel usia dan berat Pad a DISPLAY kotak DEPENDENT kotak Plots Kemudian buka kotak 30 .v'lfi.u 3. maka dapat data income 1000 bisa dikategorikan demikian berat 100 dan 120. Selain income 1000 Ul'-'. Dua data tersebut.<Ul outlier karena terpisah cukup jauh di kanan bawah. terlihat ada dua data outlier yang terletak ill atas. bisa Demikian seterusnya bisa dilakukan scatter plot antar variabel. dati sumbu variabel BERAT terlihat 100 kilogram dan 120 kilogram.Dari output di atas. BOXPLOT Cara untuk mendeteksi adanya outlier adalah mernbuat sebuah Box Plot untuk sebuah variabel tertentu. Namun sekali kelengkapan nilai z tetap harus dilakukan dikehendaki '''''''~'''''''AU.'U"I". Jika diarnbil dua scatter ill atas. yang dalam kasus berikut akan variabel USIA dan BERAT.

. 40 30 10.. . . Lihat BAGIAN KEDUA (variabel BERAT): 31 . '-'V.1--- -.. CONTINUE Abaikan semua bagian lain dan tekan tombol OK untuk proses data. berbagai Oleh karena steam and leaf pada untuk kembali ke Menu Kemudian tekan tombol Utama Explore._--------------. aH . Dengan demikian bisa dikatakan tidak ada data outlier ataupun ekstrem pada variabel ini.uW'5H~.Tampak bentuk penyajian NONAKTIFKAN bagian DESCRIPfIVES (kanan tengah).- --' USIA Terlihat tidak ada sam pun data Usia konsumen yang ada di luar BoxPlot.."'_'HJL. (Disimpan Lihat file outlier box BAGlAN PERTAMA (variabel USIA): 50.

5 kali garis batas atas atau bawah.. data nomor tanda *. data dianggap p"'Jllj<lHl'S. Kemudian dati kotak dialog.. 47 62 Garis horizontal yang ada di atas dan bawah kotak adalah batas atas dan bawah dati data yang masih. buka kotak STATISTICS.. Berat badan konsumen di bawah 80 kilogram masih tidak dianggap outlier ekstrim.~ BERAT Pada BoxPlot untuk variabel terlihat ada dua data yang bisa rnkategonxan outlier dan ekstrim. dan aktifkan Median serta isi Percentile. adalah data ekstrim. hal itu disebut ekstrim.. '" Jika sebuah data melebihi 1. yang pada kasus lain bisa saja ada (misal berat seseorang hanya 15 untuk kasus BoxPlot yang dimulai dari outlier. Data nomor tanda bulatan adalah data outlier. Jika melebihi 3 kali ini kebetulan data outlier ada di bawah batas bawah sesuatu yang jarang 32 . Pada kasus di alas. dari berat adalah garis hitam di dalam '" '" yang kotak merah (BoxPlot). NB: Median dan sekelompok data bisa dicari dari menu submenu DESCRIPTIVE lalu pilihan FREQUENCIES.140 120 100 0' 80 60 40 20 . tidak outlier ataupun ekstrim.'opr. dengan data Berat konsumen ada batasan 25 75 n . Jib dilihat batas atas adalah 80 kilogram.

U'~'H5HUUUiSA'-"'H . pengguna. PENANGANAN DATA OUTLIER pada Setelah diketahui pada sebuah file sam atau lebih data data outlier tersebut bisa dilakukan beberapa penanganan: o Data Outlier dihilangkan. Jika ini dilakukan. 33 . maka -sebagai contoh.4. walaupun data 120 adalah ekstrim. Atau mungkin data outlier tersebut karena kesalahan kesalahan pada komputer dan sebagainya. karena dianggap tidak mencerminkan sebaran data yang sesungguhnya.konsumen dengan income 1000 akan dihilangkan. dan tidak Hal ini bisa disebabkan ada data outlier atau H"-''''blUU ada konsumen yang atas. Atau kasus BoxPlot. Data Outlier tetap dipertahankan (retensi). dengan alasan masing-masing.income 1000 ada di dan tidak dihapus. namun berat tersebut tetap dipertahankan pada data. Jika hal ini maka -sebagai contoh.. sehingga konsumen berkurang sam. tentu tergantung atau sebuah data outlier. Atau tidak bisa dikatakan ada kesalahan proses sampling maupun inputing data. Atau pada herat badan 120 kilogram bisa saja dari data.

Uji Normalitas adalah ingin distribusi sebuah data atau mendekati distribusi distribusi data bentuk lonceng (ben Data yang 'baik' adalah data yang mempuny distribusi distribusi data terse but tidak menceng kekiri atau menceng kekanan.sav. di mana isi data secara soma pada MISSING VALUE. tindakan yang akan diambil? normalitas variabel USIA dan BERAT. Pada kasus berikut akan 34 . akan variabel-variabel ada memenuhi asumsi normalitas? Dan jika memang ada variabel yang memenuhi aumsi normalitas. secara maka bisa Dari data yang tidak data file OUTLIER.

Oleh karena 1. Aktifkan kotak Normality NONAKTIFKAN DESCRIPTlVES (kanan L'-'H"""..1.cm berbagai bentuk uji normalitas. bagian 35 . un NORMAUTAS dilakukan grafik dan melihat besaran Uji Normalitas bisa Kolmogorov-Smirnov: ® Buka file outlier Dati menu pilih submenu . 2. maka: with tests... Pengisian: Masukkan variabel usia dan berat Pada bagian DISPLAY kotak DEPENDENT LIST kotak Plots bawah).. klik mouse di UHJ".5'Ufi.

karena angka SIG.05.05.H~' (SIG) >0.3.05.000 yang di bawah 0. a.. Untuk variabel BERAT. This is a lower bound of the true significance. ID Lihat Plot (Grafik) BAGlAN PERT AMA 36 .. untuk kembali ke Menu Kemudian tekan tombol Utama Explore. Analisis: <II Untuk variabel USIA. Pilih None pada bagian BOXPLOT CONTINUE atas). adalah 0.HHU'. maka distribusi data untuk Berat Badan Konsumen adalah tidak normal atau tidak bisa normal. Abaikan semua bagian lain dan tekan tombol OK untuk proses data. maka data berdistribusi normal Angka signifikansi (SIG) <0. berikut ini. karena angka SIG. Lihat tabel: Tests of Normality USIA ". Lilliefors Significance Correction Kriteria pengujian: 6 01> Angka 'ne.2 yang jauh di atas 0.. maka distribusi data untuk Usia Konsumen adalah normal atau bisa dianggap normal.05. adalah 0. maka data tidak berdistribusi normal bisa dilihat NB: Keterangan lengkap tentang Kolmogorov-Smirnov BUKU LATIHAN SPSS NON PARAMETRIK.

Hal inilah yang terlihat DETRENDED NORMAL untuk variabel Usia.-.oy • . data variabel BERAT bisa dikatakan tidak normal. 37 . dari kanan bawah kemudian menaik ke demikian. Keterangan: Selain dengan melihat Normal normal tidaknya data bisa dilihat pada plot DETRENDED NORMAL Pada data sebaran data plot DETRENDED NORMAL Q-Q tidak membentuk suatu tertentu." .V' . il ".H5.". plot DETRENDED NORMAL Q-Q pola tertentu. dan tidak ada data yang terletak ~~U"'"UR demikian.0 Terlihat sebaran data dari variabel usia di sekitar 'U'-.." . Sedang pada variabel BERAT.E'''''./ lye 20 Observed Value 30 40 . namun ada data yang terletak jauh dati sebaran data (perhatikan dua data dengan berat badan 100 dan demikian.. Lihat Plot BAGlAN KEDUA Normal Q-Q Plot of BERAT c-- c.Q'H ke kanan atas.. data tersebut bisa dikatakan TIDAK normal.0' Observed Value Terlihat sebaran data dari variabel Berat di sekitar garis yang mengarah ke kanan atas. data tersebut bisa dikatakan HW.Normal Q-Q Plot of USIA /~ /:c . atau secara acak.

data bisa menjadi normal. bisa dicari 20 atau 30 atau data baru untuk menambah ke 75 data Berat Badan konsumen yang sudah ada.2. bisa dilakukan alat analisis non parametrik. Namun pengurangan data hams apakah tidak mengaburkan 1-'101. ulangi pengurangan data yang dianggap penyebab ketidaknormalan data. Seperti kasus. Data diterima apa adanya. dua data yang outlier dibuang. 38 . Jika sebuah variabel mempunyai sebaran data yang tidak yang agar normal adalah: • perlakuan Menambah data.. yakni berat 100 dan 120. Dilakukan transformasi misal mengubah data ke logaritma atau ke bentuk natural (LN) atau bentuk kemudian dilakukan pengujian ulang.'UL . Kemudian dengan jumlah data yang baru. Jika belum normal. PENANGANAN DATA TIDAl{ NORMAL UV'. Untuk alat analisis yang hams diperhatikan. kemudian diulang proses pengujian. memang dianggap tidak normal dan tidak dilakukan berbagai treatment. Seperti pada variabel BERAT. Menghilangkan data yang dianggap penyebab tidak normalnya data. seperti untuk multivariat mungkin factor analysis tidak begitu mementingkan asumsi kenormalan. . Atau pacta kasus statistik univariat.1<0'-''''''11 karena hilangnya data yang seharusnya ada. ® III • NB: Proses pengujian dan transformasi bisa dilihat pada BUKU LATIHAN SPSS PARAMETRIK dan BUKU LATIHAN SPSS NON PARAMETRIK. dilakukan pengujian sekali lagi.

apakah tindakan yang akan diambil? • • Buka file homoskedastisitas Dari menu Analyze. Sedangkan jika varians tidak sama. dan ini yang seharusnya maka dikatakan ada Homoskedastisitas. Explore submenu 39 . dikatakan terjadi Heteroskedastisitas. Alat untuk menguji Homoskedastisitas bisa dibagi dua. di mana isi data secara prinsip sama dengan data pada MISSING VALUE dan OUTLIER yang telah digunakan pada modul terdahulu. 1: Dari data file HOMOSKEDASTISITAS. Jika varians sama. atau dengan Analisis Residual yang berupa grafik. Kasus berikut akan membahas pengujian Homoskedastisitas dengan menggunakan Levene Test. yakni dengan alat analisis Levene Test.Uji Homoskedastisitas pada prinsipnya ingin menguji apakah sebuah grup (data kategori) mempunyai varians yang sama di antara anggota grup tersebut.sav. akan diuji apakah data yang ada memenuhi asumsi homoskedastisitas? Dan jika memang ada variabel yang tidak memenuhi homoskedastisitas.

Kemudian tekan tombol Utama JUAiIJAV.Masukkan variabel LIST Masukkan variabel mlnum NB: Pemasukan Pada Kemudian buka kotak variabel pada kotak DEPENDENT kotak FACTOR LIST both Pengisian: Pada none. 40 . power estimation.'" CONTINUE untuk kembali ke Menu Abaikan semua bagian lain dan tekan tombol OK untuk proses data. and leaf Pada bagian SPREAD VS LEVEL WITH LEVENE TEST.

llAjW.822 2.05.043. populasi disesuaikan kategori data yang ada dimasukkan pada bagian FACTOR LIST.055 .641 73 73 73 68. telah terjadi heteroskedastisitas variabel TINGGI dengan dasar grup MlNUM. < 0. Dengan U'Aj.\SJ'~"U'''pU'H pada file SATU TABEL OUTPUT of Variance Levene Statistic 4.05 maka Ho ditolak.05.045 . disimpulkan. maka Ho ditolak Keputusan: Pada baris TINGGI dari tabel di atas.244 3.043 . . dan dengan dasar angka SIG adalah 0.062 2.062 2.155 .056 .775 HANYA DITAMPILKAN Test of Homogeneity df1 1 1 1 1 1 1 1 1 TINGGI Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed mean df2 73 73 71. Hal ini berarti varians dari data Tinggi Konsumen yang minum sedikit air mineral berbeda secara dengan data Tinggi Konsumen yang minum air mineral.U.097 .156 .546 73 Sig. Oleh karena SIG.100 JAMKERJA Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed mean Menentukan Hipotesis: Ho: kedua varians populasi adalah identik Hi: kedua varians populasi adalah tidak identik NB: Yang dimaksud dua populasi adalah populasi konsumen yang minum SEDIKIT.143 2. 41 . dan mereka yang minum BANY AK.789 4. maka Ho diterima Jika Probabilitas (SIG) < 0. Jika Probabilitas (SIG) > 0.789 3.

Kemudian dengan Levene Test dilakukan sekali Hi~'H5uU<<H 42 .05 maka Ho diterima. seperti data dalam bentuk logaritma. adalah 0. Selain kasus. SIG adalah 0. Dapat telah homoskedastisitas variabel JAM KERJA dasar grup MINUM. natural (LN) atau yang lain.097. penenmaan Ho.055. kriteria pengujian bisa tidak batas namun pada batas 0. > 0. Keputusan: Pada baris JAM KERJA dari tabel di atas. diterima tidaknya Ho tergantung dasar yang digunakan. karen a angka SIG. karena angka SIG.01. Dengan untuk kasus ini. Hal ini berarti varians dari data Jam Kerja Konsurnen yang minum sedikit air mineral relatif sama data Jam Kerja Konsumen yang minum banyak air mineral. Jika ada variabel yang pada variabel dilakukan transformasi data.NB: Jika dilihat dasar terlihat angka SIG. Proses sama seperti uji variabel TINGGI sebelumnya. dan dengan dasar Mean.

. Oleh karena scatter variabel saja."'-'CU. misal antara 17 tahun 40 tahun. (diagram pencar) mernberi tambahan uU'~UF."H dua akan 1: di mana isi data secara MISSING VALUE dan OUTLIER yang telah ".antara variabel dalam range variabel antara Lari "aJiiLULHlS pada Usia orang tersebut dikatakan bahwa makin tinggi usia seseorang.lU"'". maka lari semakin yang ke kanan atas. maka dilakukan dengan dua data. Di atas 40 tahun lari seseorang terbalik dengan makin tinggi usia orang makin lambat LvL0vC'UL. akan apakah data yang ada memenuhi linieritas? Dan memang ada variabel yang tidak memenuhi tindakan yang akan diambil? 43 . Namun hal itu benar range usia tertentu. Linieritas bisa yang garis regresi.

menentukan metode apa yang akan diberikan scatter Untuk itu. dan Abaikan bagian lain dan tekan tombol OK. Klik mouse pada icon FIT atas).. buka kotak combo bagian METHOD. ~ ~ SCATTER PLOT VARIABEL USIA-OLAHRAGA Buka file homoskedastisltas Darimenu Pengisian: Masukkan variabel usia pada sumbu X (sumbu datar) dan variabel pada sumbu Y(kotak vertikal).Kasus berikut akan menguji asumsi Iinieritas untuk variabel USIA-INCOME dan OLAHRAGA-BERAT. nrinQ... 1.'nn. tampak di Kotak dialog di atas. 44 .

ill SCATTER PLOT VARIABEL BERAT-OLAHRAGA Buka file homeskedastisitas Dari menu Tampak di Pengisian: Masukkan variabel berat pada sumbu X dan variabel surnbu Y combo Abaikan bagian lain dan tekan tombol OK.file Lihat Output BAGIAN PERT AMA: Linear Repression usia 2. Scatter Plot 45 . bagian kotak submenu GRAPH.

Pada kasus ini bisa dilakukan transformasi data pada variabel BERAT atau variabel OLAHRAGA. Kemudian. yang berarti semakin besar atau kecil berat badan seseorang.07 '" 0. koefisien regresi adalah o (-0. Kemudian variabel hasil transformasi tersebut diuji ulang..Lihat BAGIAN KEDUA: Linear Regression t '53. -C.OO· beret beret Terlihat garis regresi di atas yang cenderung mendatar. akar (-Y X) dan sebagainya." ctahraga-e "A-5quare 3.00 . 46 .0 '. Demikian seterusnya bisa dilakukan scatter antar dua variabel.00). tidak ada hubungannya dengan banyaknya ia berolahraga hari. Transformasi bisa dilakukan secara logaritma (log X). jika dilihat pada persamaan regresi. Jika hubungan dua data tidak atau terjadi non-linieritas. apakah sudah bisa dikatakan mempunyai hubungan yang linier dengan variabellainnya. Hal ini membuktikan tidak adanya linieritas pada hubungan dua variabel tersebut.. maka bisa dilakukan transformasi data pada salah sam variabel.

HH.analisis Cluster? utama Analisis Cluster adalah berdasarkan kesamaan karateristik di antara Produk dan Benda (responden. konsumen atau yang diklasifikasikan ke dalam satu atau lebih cluster yang berada dalam satu cluster akan yang lain. secara duster yang baik adalah cluster antar cluster yang satu 47 .SIS" baik? di atas. (keiompok) Gvl.

Cluster yang mengutamakan sistem Kredit dan Cluster yang mengutamakan Mutu Rumah terse but. yang paling populer adalah metode Euclidean Distance. seperti Lingkungan yang aman. Pengukuran ada bermacam-macam. Fasilitas Umum dan Sosial yang memadai. NB: Korelasi dan Distance digunakan jika data adalah metrik. Letak Perumahan yang strategis. Dengan Analisis Cluster diketahui bahwa ternyata ada 3 kelompok (cluster) Konsumen pembeli Rumah tersebut. maka proses pertarna adalah mengukur seberapa jauh ada kesamaan antar obyek. sekian Responden diminta memberi pendapat mereka berbagai variabel sebuah nu. konsumen berdasar pendapat ill Berikan contoh Analisis Cluster! diketahui Konsumen yang membeli Rumah di Real Estate tertentu. Ada 3 metode yang digunakan: 2. 48 . Mengukur Jarak (distance) antara dua obyek. atau orang berdasar respon mereka pengelompokan orang berdasar Ii> membantu proses taksonomi untuk mengelompokkan rnembantu mengelompokkan mereka terhadap tertentu. 3. Lingkungan yang nyaman dan bebas banjir. Mengukur Asosiasi antar obyek.. Untuk itu. Sesuai prinsip dasar Cluster yang mengelompokkan obyek yang mempunyai kemiripan. Harga terjangkau. kepribadian mereka. tertentu.uwu. sedangkan Asosiasi digunakan jika data adalah non metrik. sistem pembayaran yang fleksibel dan sebagainya. yakni Cluster yang Lingkungan. Bagaimana proses dasar Proses Cluster: e Mengukur kesamaan antar obyek (similarity). dekat dengan pasar dan sekolah.Pada banyak bidang €I seperti: melakukan terhadap stimulasi tertentu.

Dalam praktek. dari yang sampai paling tidak Secara sernua pada hanya akan membentuk sebuah cluster. tiga cluster atau yang lain). Untuk itu. Setelah jumlah cluster barn proses cluster dilakukan rnengikuti proses hierarki. 5 metode Euclidean Distance adalah yang Sebelum melangkah lebih lanjut. diperhatikan data (variabel) yang ada mempunyai perbedaan yang besar. Proses ini dati Cluster adalah pengelompokan yang bisa dilakukan dengan dua metode: 1. Kemudian dilakukan proses profiling untuk menjelaskan karateristik cluster berdasar tertentu usia konsumen pembeli tingkat penghasilannya dan sebagainya). entah dengan metode hierarki atau nonhierarki. <l> Setelah Cluster terbentuk. Demikian seterusnya sehingga cluster akan membentuk semacam di mana ada hierarki (tingkatan) yang jelas antar obyek. 2. biasanya digunakan untuk rnembantu memperjelas proses hierarki tersebut. metode ini justru dimulai dengan menentukan terlebih dahulu cluster yang cluster. @ HIRARCHICAL METHOD. Metode ini biasa disebut dengan K-Means Cluster. Metode ini memulai pengelompokan dengan dua atau lebih obyek yang mempunyai kesamaan dekat. Berbeda dengan metode hierarki. NON-HIRARCHICAL METHOD. sedangkan usia seseorang hanya mempunyai satuan puluhan maka perbedaan yang rnencolok ini akan membuat perhitungan distance dan menjadi tidak valid.000). penggunaan paling populer. Seperti jika variabel Penghasilan mempunyai satuan (000. Dati data profiling tersebut bisa dilakukan analisis seperti Analisis Diskriminan. data. Misal kelompok konsumen yang memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai Cluster LINGKUNGAN. langkah selanjutnya melakukan terhadap duster yang telah yang pada intinya memberi nama spesifik untuk menggambarkan isi cluster tersebut. Melakukan Validasi dan Profiling Cluster. Cluster yang terbentuk kemudian apakah hasil tersebut valid. Membuat Cluster. e 49 . semua data harus dilakukan proses standardisasi dengan mengubah ke Z-Score. Kemudian proses diteruskan ke obyek lain yang mempunyai kedekatan kedua.

Centroid adalah rata-rata yang melakukan UH.f.'uCU suatu cluster tertentu. dua obyek yang mempunyai e Average '-'''.HU'F.harus auienuni Asumsi untuk Analisis Cluster: Analisis Cluster? yang diarnbil benar-benar bisa mewakili @ yang ada. tidak tersebut tidaklah tinggi adanya Metode yang UlU'U!U:f€ proses secara hierarki: metode Hierarkit Ada UClJU"p" metode untuk proses Linkage Metode ini akan mengelompokkan dua terdekat terlabih dahulu. korelasi antar besar Multikolinieritas Multikolinieritas. @ Centroid Method Pada Metode antara dua cluster adalah centroid cluster-cluster tersebut. Jika A dan B mempuny (misal A dan C maka proses hierarki adalah mengeiompokxan '2> Complete Linkage Metode ini justru akan mengelompokkan jarak terlebih dahulu.F. ~'''"'''.'' Metode ini akan mengelompokkan berdasar jarak rata-rata yang melakukan rata-rata semua jarak antar obyek terlebih Ward's Method Pada Metode jarak antara dua cluster yagn terbentuk adalah sum of squares di antara dua cluster tersebut.uu di antara dna yang ada 50 .

51 . Discriminant atau model Dependence yang lain.Baeatmana model Analisis Cluster? Oleh karena Cluster termasuk berarti tidak ada variabel ataupun variabel mdependen. ada sebuah model definitif untuk Cluster Analysis.

misal ditentukan akan ada 2 cluster. @ '" '" II> II> 52 . yakni memproses semua secara sekaligus. yakni (lihat file cluster. @ ..Modul ini akan membahas proses clustering dari sekelornpok data dengan metode K-Means.. Proses ini dimulai dengan cluster terlebih dahulu. atau 3 atau angka Manajer Pemasaran Kacang LEZAT konsumen kacang LEZAT berdasar konsumen.sav): @ Usia Konsumen Jumlah Anak dari Konsumen (orang) Income (penghasilan) Konsumen (dalam Rupiah/bulan) Kegiatan Konsumen mernbaca koran setiap minggu Kegiatan Konsumen menonton Televisi Jumlah Motor yang dimiliki Konsumen (buah) Jumlah Mobil yang dimiliki Konsumen (buah) Jumlah Kartu Kredit IATM yang dimiliki Konsumen (buah) Pembelian dalarn seminggu) dari Konsumen minggu (berapa kali minggu (jam) .

dan STATUS.600. Demikian seterusnya untuk baris data yang lain. Tahapan pada analisis Cluster: 1. usia 25 tidak mempunyai anak. Dengan demikian. income Rp. konsumsi rata-rata Rp.-lbulan. Perbedaan satuan yang mencolok seperti ini akan menyebabkan bias dalam Analisis Cluster sehingga data asli hams ditransformasi (standardisasi) sebelum bisa dianalisis. yang termasuk Kota Besar.Konsumsi e <l> seorang Konsumen dalam membeli apapun Jumlah jam kerja seorang Konsumen dalam seminggu Jumlah kegiatan seminggu (jam) berbelanja (shopping) seorang Konsumen dalarn NB: Tiga variabel pertama. terlihat isi data sangat bervariasi dalam satuan.000. mempunyai 3 macam Kartu Kredit atau rata-rata 4 kali membeli barang dalam seminggu. 53 . membaca koran rata-rata 10 jam per minggu. satu Motor dan satu Mobil.2.-lbulan. TINGGAL. Contoh interpretasi data: Pada baris pertama. bekerja rata-rata 40 per minggu dan melakukan kegiatan shopping rata-rata 10 per rninggu. mempunyai status belum menikah. menonton Televisi rata-rata 20 per minggu. Konsumen yang tinggal di Jakarta Utara. tidak digunakan pada analisis cluster.000.000. Dari file CLUSTER yang berisi Profil pernbeli Kacang LEZAT tersebut. dilakukan transformasi terhadap variabel yang relevan ke bentuk z score. akan dilakukan analisis Cluster untuk tersebut. namun ada data dengan satuan di bawah 10 (Anak). karena data bersifat string (untuk variabel TINGGAL) dan data bersifat nominal variabel DAERAH dan STATUS). MENILAI PERLUNY A MELAKUKAN TRANSFORMASI DATA Pada File CLUSTER. dalam arti ada variabel (data) dengan satuan Ratusan Ribu (Income).

STANDARDISASI <II DATA DENGAN Z-SCORE: Buka file duster pilih submenu Pengisian: III Masukkan ke kotak VARIABLE(S). variabel dan NB: Perhatikan variabel DAERAH dan STATUS tidak karena data adalah dan tidak relevan kasus ini. lihat file 54 . ~H'~H'fHH~UH sebagian. Sedangkan variabel TINGGAL otomatis tidak masuk karena data string III Kemudian aktifkan values as variables mouse Save Standardized Abaikan yang lain dan tekan OK untuk proses.

77 KONSUMSI Pengeluaran KERJA Kerja setiap Tingkat Bulanan minggu 70000 10 3 Jumlah Jam SHOPPING Jurnlah Jam Berbelanja setiap minggu Valid N (llstwlse) 5.33 29. ANAUSIS CLUSTER Di sini akan dilakukan analisis dengan metode CLUSTER atau K-MEANS CLUSTER.77 3. di layar: 55 .15 186833.19 minggu MOTOR MOBIL Jumlah Motor Jumlah Mobil Jumlah Kartu yang dipunyai minggu yang dipunyai yang dipunyai K_"KREDIT KreditlATM BEll Barang .63 . Deviation 60 60 60 60 20 0 225000 2 42 4 2000000 11 29.02 II> Perhatikan munculnya 12 variabel barn dengan imbuhan kata 'z' di depan masing-masing variabel.59 . Langkah: II> NON-HIERARCHICAL Buka file NB: Perhatikan nama file yang telah disesuaikan standardisasi data.73 5.87 9. Dari menu submenu lalu dengan file hasil K-Means Cluster".65 1.94 Tingkat Pembelian setae 256 132609.97 2. 2.11 INCOME Penqhasuan per bulan 444094.66 1.93 57 2. sebenarnya ada Output lain yang menginformasikan data deskriptif dari variabel-variabel di atas. Descriptive Statistics N USIA ANAK rata-rata Usia Jumlah Anak Minimum Maximum Mean Std.78 16.70 630000.32 KORAN Jumlah Jam membaca Koran setiap minggu TV Jumlah Jam menonton TV setiap 60 60 60 60 60 60 60 60 60 10 0 0 0 1 24 2 2 5 9 600000 75 25 16.00 5. yang akan digunakan saat penafsiran basil cluster.NB: II> Selain tampilan di atas.88 .00 4.

kemudian tekan tombol CONTINUE untuk kembali ke menu utama. dan untuk keseragaman ketik 3.Pengisian: NB: Ada beberapa variabel yang tidak lengkap seperti KONSUMSI menjadi ZKONSUMS. yang akan dilakukan pada tahapan akhir analisis Cluster. hingga tampak di layar: 56 . G NUMBER OF CLUSTER atau jumlah cluster yang akan dibentuk. hingga tampak di layar: Kotak dialog SAVE memungkinkan hasil duster disimpan dalam bentuk variabel bam di SPSS DATA EDITOR.. e Kemudian klik mouse pada kotak Saves . walaupun hal itu tetap tergantung pada tujuan penelitian dan faktor subyektif. Hal ini berguna untuk proses profiling cluster. @ LABEL CASES masukkan variabel tinggal. Pengisian pada umumnya antara 2 sampai 5 cluster. Hal ini disebabkan SPSS hanya menampung maksimal 8 karakter sehingga otomatis huruf terakhir akan dihilangkan jika melebihi 8 karakter. Untuk itu. Di sini pengisian jumlah cluster bebas. aktifkan kotak Cluster membership dan Distance from duster center. NB: Angka 3 berarti nanti akan terbentuk 3 cluster (kelompok).. .

biarkan kotak INITIAL CLUSTER CENTER tetap aktif. yakni statistik yang berhubungan dengan hasil cluster. dan perlakuan terhadap data yang missing (tidak lengkap). karena pengaktifan dua output yang dihasilkan: @ cluster membership. dan variabel yang berisi jarak antara kasus cluster (cluster center): 57 .Kotak dialog OPTIONS berisi berbagai pilihan (option) untuk proses analisis Cluster yang bukan rnerupakan proses inti clustering. Dari proses clustering. dan tekan OK untuk proses data. ada OUTPUT berupa tambahan dua variabel pada file CLUSTER_Z_SCORE. Untuk STATISTICS. dan aktifkan kotak Anova Table. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama. Dari tampilan menu utarna cluster. Ada dua option. Untuk MISSING VALUES. abaikan juga bagian yang lain. yakni variabel yang berisi nomor cluster untuk setiap kasus. karena semua data lengkap abaikan pilihan tersebut.

87521 -1. maka output ini tidak dianalisis.66928 .32922 .51425 1.31601 . yang akan dibahas pada modul lain.10511 -.50199 3.97489 -.67616 -1.85567 3 -1. Oleh karena nand akan dihasilkan proses clustering sesudah iterasi yang justru adalah hasil akhir cluster.74613 -.22890 -.18493 -.spo. ® OUTPUT berupa file.74692 -1.60807 .63104 3.63104 -.63050 ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu KrediVATM yang di ZBELI Zscore: Tingka! Pembelian Barang setiap ZKONSUMS Zscore: Tingkal Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi .silang (crosstab) dan grafik yang relevan.21377 2. file CLUSTER K=MEANS.10511 2.33161 -. satu per satu dengan dilengkapi analisis 3.08493 2 2.65480 -1.00000 . 58 .50941 -.69195 3.11566 2.84333 -.30606 -.90164 -1.00381 -. ANALISIS PROSES AWAL CLUSTERING Quick Cluster Initial Cluster Centers Cluster 1 ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah -.14071 2.47158 .78460 Output ini adalah pertama (initial) proses clustering data sebelum dilakukan iterasi.97675 -1. Hasil OUTPUT akan ditampilkan pada pembahasan berikut ini.11134 -.

195 .291 .834 .000 .000 . The current iteration minimum distance between initial centers Tampilan ini adalah proses iterasi yang mencoba mengubah-ubah yang ada sebelumnya (initial) sehingga menjadi lebih tepat mengelompokkan 60 kasus tersebut.152 . The is 6.314 .316 .207 . The maximum distance by which has changed is .503 . a.884 .000 2 3.PROSES ITERASI Iteration HistorY' Change in Cluster Centers Iteration 1 2 3 4 5 6 7 8 1 3. hasil final cluster berikut ini.795. Convergence achieved due to no or small change.383 .000 .148 .205 .314 . HASIL AKHIR PROSES CLUSTERING cluster dalam iterasi didapat 59 .000.000 . Setelah terjadi delapan tahapan (proses pengulangan dengan ketepatan lebih tinggi dati sebelumnya).599 .172 .000 3 2.000 distance any center is 8.115 .000 .

33411 1. dengan ketentuan: II> dengan analisis sebagai data sebelumnya.23081 3 -.24865 -.03479 -.07377 -.08448 -.21304 ..32998 -.71494 1.36091 2 -.74721 Output ini adalah akhir dari proses clustering.78283 -.68215 -. Ix = j1 + z. ARTIANGKA: Angka di atas terkait dengan proses standardisasi mengacu pada angka z.57272 pada variabel ZUSIA usia responden cluster 1.Final Cluster Centers Cluster ZUSIA Zscore: Usia ZANAK Zscore: Jumlah Anak ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam mernbaca Koran setlap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu KrediVATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap ZKONSUMS Zscore: Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi 1 .07182 .22874 .05148 .al di mana: x == rata-rata 60 sampel hal ini rata-rata variabel cluster tertentu) .04507 -.13139 .99200 .04507 1.55184 -.86186 -.90792 -. angka 0.16063 1. berikut.95887 1.36218 .24930 1.08381 .09015 -.13654 -.69879 -.25712 1.57272 . Sebagai contoh.03950 .88754 -. yang Angka negatif berarti data di bawah rata-rata total Angka positif berarti data di atas rata-rata total rata-rata .02356 -.

serta besaran angka itu sendiri. angka adalah positif. CONTOH T AFSIRAN ANGKA PADA CLUSTER: Dari proses cluster. terjadi 3 cluster atau 3 kelompok responden yang masingmasing kelompok tentunya mempunyai ciri yang berbeda satu dengan yang lain.66 tahun 61 . Perbedaan bisa ditelusuri per variabel.0236 pada variabel ZUSIA menyatakan RATA-RATA USIA RESPONDEN PADA CLUSTER 2: (rata-rata usia seluruh responden) seluruh responden) . Sebelum menafsir isi setiap cluster. dengan dasar interpretasi berdasar tanda + dan . tentunya dengan mengacu rata-rata dan standar deviasi variabel yang bersangkutan. seperti angka untuk variabel ZANAK dikaitkan dengan rata-rata anak dan standar deviasinya.0236 standar deviasi rata-rata usia Demikian seterusnya untuk tafsiran data yang lain. maka dapat dikatakan: Rata-rata Usia responden pada cluster 1 lebih tinggi (dalam hal ini secara logika dikatakan 'lebih tua') dibandingkan rata-rata usia responden keseluruhan. Oleh karena pada cluster 1.~ = rata-rata populasi (J = standar deviasi z = nilai standardisasi yang didapat pada SPSS Jika RATA-RATA USIARESPONDENDI CLUSTER 1: (rata-rata usia seluruh responden) + (0.spo. Untuk menghitung rata-rata usia setiap cluster.88 tahun Standar Deviasi Usia adalah 5. terlebih dahulu contoh penafsiran sebuah variabel.(0. sedangkan eli cluster 2 dan 3 angka negatif. yakni variabel ZUSIA. eli mana terlihat: " @ Mean (Rata-rata) Usia seluruh responden (populasi) adalah 29. bisa dilakukan dengan rumus di atas dan berdasar pada Output CLUSTER_Z_SCORE.572 x standar deviasi rata-rata usia seluruh responden) Sedangkan angka -0.

sudah memadai jika dikatakan 'lebih dari rata-rata' atau 'kurang dari rata-rata'.S7272xS.7 dan standar deviasi Walaupun dapat diuraikan secara rind satu demi satu namun untuk penafsiran umum. Kelompok ini juga mempunyai motor. Dari ciri-ciri di atas. mempunyai anak di atas rata-rata populasi. namun mernbaca koran dan menonton Televisi lebih sering dati rata-rata. dan kartu kredit atau ATM yang lebih dari rata-rata.Dengan demikian: . namun menonton Televisi lebih sedikit dati rata-rata.88+(-O. ..v.66)=28.66)=33. dan mempunyai lebih dari rata-rata.. Cluster 1: Cluster 1 berisi responden yang mempunyai Usia lebih tua dati rata-rata. T AFSIRAN SETIAP CLUSTER: Demikian .. Cluster 2: responden yang Usia lebih muda dari ratarata. seperti untuk variabel ZANAK yang acuan adalah Mean sebesar 0.u!-'Vfi. mempunvai motor lebih sedikit dari rata-rata.. u .54 tahun tahun " Rata-rata Usia Cluster 1=29. penjabaran angka setiap variabel tentunya mengacu pada Mean dan Standar Deviasi yang relevan untuk setiap variabel. Sekali lagi. ".. @ Rata-rata Usia Cluster 1=29. yang akan dilakukan bagian berikut untuk rnenggambarkan isi setiap cluster yang terbentuk.. mobil dan kartu kredit atau ATM yang lebih dari rata-rata. lebih tinggi dari rata-rata. kemudian variabel ZINCOME untuk rata-rata income responden di setiap cluster.88+(O. dan variabel yang lainnya.36218x5.88+( -O. rnembaca koran lebih lama dari rata-rata populasi.83 tahun seterusnya bisa dengan variabel ZANAK untuk rata-rata jumlah anak di setiap cluster.12 Rata-rata Usia Cluster 2=29. anak di bawah rata-rata income di bawah rata-rata.66)=27 . mereka 62 . mempunyai income di atas rata-rata. Juga mereka Tingkat Pengeluaran per frekuensi bell dan Jam berbelanja yang lebih banyak dibanding rata-rata populasi. bisa mereka kebanyakan adalah orang sibuk bekerja dan relatif sudah mapan dalam segi serta usia termasuk golongan dewasa.2356x5.

atau penamaan lainnya. Hal itu dilakukan dengan melihat Output ANOV A berikut. mereka jarang pergi berbelanja dan juga jarang membeli barang. serta usia termasuk golongan muda. sedang cluster 3 dinamakan Golongan Muda yang Miskin dan Daya Belinya rendah. mempunyai jam lebih rendah dari rata-rata. sibuk bekerja dan relatif sudah mapan dalam segi materi. Dalam perilaku beli. Cluster 1 boleh disebut Golongan Alas.Pengeluaran per bulan serta Jam berbelanja yang lebih sedikit dibanding rata-rata populasi. bisa saja cluster 1 dinamakan Golongan Dewasa yang Mapan dan Giat Bekerja. dalam berbelanja. mereka efisien dalam menggunakan waktu untuk membeli barang. Dari ciri-ciri di atas. ® Cluster 3: Cluster 3 berisi responden yang mempunyai Usia lebih muda dari ratarata. Cluster 2 Golongan Menengah dan Cluster 3 Golongan Bawah. Dari ciri-ciri ketiga Cluster di atas. selain Tingkat Pengeluaran per bulan serta Jam berbelanja lebih sedikit dibanding ratarata populasi. mempunyai income di bawah rata-rata. namun mereka mempunyai frekuensi beli barang lebih banyak dibanding rata-rata populasi. juga membaca koran dan menonton Televisi lebih sedikit dari rata-rata. kurang ban yak bekerja dan relatif tidak mapan dalam segi materi. juga frekuensi beli barang mereka lebih sedikit dibanding rata-rata populasi. MELIHAT PERBEDAAN TERBENTUK VARIABEL PADA CLUSTER YANG Setelah terbentuk 3 cluster. serta usia termasuk golongan muda. mobil dan kartu kredit atau ATM yang lebih sedikit dari rata-rata. bisa diduga mereka kebanyakan adalah golongan bawah. penamaan Cluster maupun penarikan kesimpulan isi cluster pada dasarnya bersifat subyektif dan tergantung tujuan penelitian. Dalarn berbelanja. 63 . Dengan demikian. Kelompok ini juga mempunyai motor. mempunyai jumlah anak di atas rata-rata populasi. bisa diduga mereka kebanyakan adalah golongan menengah. Dari ciri-ciri di atas. Oleh karena itu. langkah berikut adalah melihat apakah variabelvariabel yang telah membentuk cluster tersebut mempunyai perbedaan pada Hap cluster. Namun sekali lagi.

889 .625 .775 1.204 .000 .412 18.966 22.970 .000 .445 . The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.899 18. sedangkan kolom ERROR be saran within cluster mean sehingga kolom F adalah: Betweenbieans Sebagai contoh.435 64.159 .281 57 57 57 F 4.447 48.000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters.605 20.580 .000 .242 .031 .622 21.349 93.843 11.000 .122 21.284 .526 2 2 2 2 2 2 2 2 2 .483 2 2 2 . Kolom CLUSTER menunjukkan besaran between cluster mean.202/0.000 .814 1.114 .ANOVA Cluster Mean Square ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah dl Error Mean §guare dl 4.000 .118 76. angka F pada ZUSIA didapat dad: F = BetweenMeansZUSIA WithinM eansZUSIA atau: 4.013 .732 22.319 .385 57 57 57 57 57 57 57 57 57 37.700 12.371 Si9_. .736 64 .049 66.000 .199 75.736 .888 1.312 .000 ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu Kreditl ATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap ZKONSUMS Zscore: Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja seliap minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi 16.416 20.888=4.

013. kepemilikan Kartu Kredit oleh responden pada ketiga cluster yang ada sangat berbeda antar cluster yang satu dengan cluster lainnya.889) dan ZTV (0. Jadi usia rata-rata antara cluster mungkin hanya selisih 1 atau 2 tahun namun mereka yang ada di kota kecil hampir tidak mempunyai kartu kredit. Perhatikan perbedaannya dengan variabel ZUSIA. Oleh karena angka Signifikan masih di bawah 0. ternyata menonton TV responden setiap minggu di cluster 1 boleh dikata sama saja jumlah jam menonton TV pada responden yang ada di duster 2 atau cluster 3.05. yang bisa diartikan kepemilikan Kartu Kredit lebih besar dari Usia antar responden pada ketiga cluster. Hal ini berarti Jumlah Anak responden pada ketiga relatif sama. atau anak di cluster 1 ternyata tidak berbeda secara nyata dengan jumlah anak di kedua cluster lainnya. Sedangkan di kota kecil.736). Sebagai contoh. sedangkan yang di kota besar semua mempunyai minimal 1 kartu kredit. Interpretasi angka F dan signifikan: Pada prinsipnya. cluster 2 dan cluster 3 tetap mempunyai perbedaan yang berarti.736 dan angka SIG adalah 0. terlihat keduanya memiliki signifikansi di atas 0. yang berarti perbedaan tingkat beli dan tingkat konsumsi responden di ketiga cluster relatif sama. yang berarti signifikansi adalah nyata.'H~LJ" dengan angka pada kolom SIG adalah 0. atau usia responden di ketiga cluster memang berbeda. Demikian juga dengan variabel menonton TV.435) ada pada variabel L~'. Demikian seterusnya bisa digali perbedaan angka F antar variabel lainnya.05. dalam artian Usia responden di Cluster 1 relatif lebih tua dibanding cluster 2 dan cluster 3. yang angka F sebesar 4. Walaupun angka F variabel ZKREDIT (93.05).159). Jika ditarik lebih bisa saja Responden di Kota Besar lebih kaya sehingga mampu memiliki Kartu Kredit lebih dati satu sehingga diasumsi daya belinya tinggi.000. daya beli mungkin tidak begitu besar. dengan usia responden di cluster 3 adalah yang terrnuda (lihat keterangan arti z score pembahasan sebelumnya). maka semakin besar pula perbedaan variabel tersebut pada ketiga cluster yang terbentuk.435) lebih besar dari angka F variabel ZUSIA (4. angka F terbesar (93.05 (0.013<0. Hal ini berarti faktor Kartu Kredit sangat membedakan karakteristik ketiga cluster. semakin besar angka F suatu variabel dan angka signifikannya di bawah 0.Demikian seterusnya untuk angka F variabel lainnya. 65 . Seperti angka F untuk variabel ZBELI dengan ZKONSUMS ternyata tidak begitu janh berbeda. Atau dapat juga dikatakan. maka variabel ZUSIA pada duster 1. Jika dilihat angka SIG pada variabel ZANAK (0.

SA V Jika dilihat pada file DATA DITAMPILKAN): PADA FILE (TIDAK SEMUA 66 . namun karena jumlahnya relatif kecil.05). makin kecil angka F. Sedangkan cluster 1. di sini tidak berarti variabel yang tidak signifikan akan dikeluarkan! Analisis hanya ingin mengetahui mana variabel yang signifikan perbedaannya. lengkap terpeta pada ketiga cluster. terlihat bahwa responden terbanyak ada di cluster 3.000 60. bisa saja strategi merebut pelanggan diarahkan ke cluster 3. karena cluster 3 merupakan cluster terbesar. Namun demikian. beserta dengan grafiknya. sejumlah 60 orang. walaupun kebanyakan ada di kota besar dan termasuk Golongan Kaya. sedangkan responden paling sedikit ada di duster 1.000 Dati tabel di atas. makin kecil perbedaan tersebut. Atau bisa dikembangkan berbagai alternatif lainnya. semakin menunjukkan perbedaan yang tajam antar cluster.Perhatikan bahwa semakin besar angka F. komposisi tiap cluster berdasar ANALISIS KOMPOSISI CLUSTER CLUSTER_Z_SCORE_HASIL. hingga sampai angka tertentu.000 .000 24. dengan tidak ada variabel yang hilang (missing). Sebaliknya. Dengan komposisi seperti di atas. yakni mereka yang bisa disebut Golongan Bawah dan mungkin ban yak tinggal di kota kecil. Modul selanjutnya akan menggambarkan profil yang ada. mungkin tidak potensial untuk digarap.000 20. Dengan semua kasus (responden). dan mana yang tidak. perbedaan itu bahkan sudah tidak ada lagi (angka SIG sudah di atas 0. JUMLAH ANGGOTA m SETIAP CLUSTER Number of Cases in each Cluster Cluster 2 3 Valid Missing 16.

80877 dari pusat cluster 1. dan posisi nilai cluster responden 3 tersebut berjarak 1. Jadi. Oleh karena pusat cluster 1 dengan cluster 3 berbeda. Responden 2.026 dari pusat cluster 1. namun posisi nilai cluster responden 2 tersebut hanya berjarak 3. e ® Demikian seterusnya untuk penafsiran data lainnya. ternyata juga termasuk pada cluster 1. posisi responden 2 lebih dekat ke pusat cluster 1. 67 . ternyata termasuk pada cluster 3. dan posisi nilai cluster responden tersebut berjarak 3.63 dati pusat cluster 3. yang tinggal eli Jakarta Utara. Responden 3. tentu tidak bisa dibandingkan seperti responden 1 dan responden 2 yang mempunyai kesamaan cluster. dibanding responden 1.Terlihat eli layar tampilan per responden (tempat tinggal) dan variabel qcl_l dan Contoh penafsiran: @ Responden 1. dengan catatan bahwa tampilan variabel QCL_l dan QCL_2 akan lebih berarti jika ditampilkan dalam bentuk crosstab dan grafik scatter plot. yang tinggal di Tegal. temyata termasuk pada cluster 1. yang tinggal eli Bandung.

Konsep ini dimulai dengan menggabungkan dua obyek yang paling mirip. yang pacta kasus berikut akan digambarkan dengan Dendogram. yang bercabang-cabang. liD LEMAK. batang. yakni Mineral (gr) per 100 gram Susu . proses Clustering dengan menggunakan prosedur hierarki didasari konsep 'treelike structure'. . yakni Karbohidrat (gr) per 100 gram Susu MINERAL. Secara logika. kemudian gabungan dua obyek tersebut akan bergabnng lagi dengan satu atau lebih obyek yang paling mirip lainnya. daun dan seterusnya.sav. Urut-urutan tersebut bisa dianalogikan seperti pohon (treelike) yang dimulai dari akar. dengan spesifikasi terdapat pada file duster hierarkl.Berbeda dengan K-Means Cluster yang dibahas pada modul sebelumnya. dahan. Keterangan tiap variabel: liD SUSU. Metode ini disebut sebagai 'agglomerative methods'. 68 . 1: Sebuah perusahaan Susu Bubuk melakukan identifikasi terhadap 18 merk susu bubuk atau minuman energi yang selama ini dijual. proses clustering tersebut pada akhirnya akan 'menggumpal' menjadi satu cluster besar yang semua obyek. nama susu bubuk tersebut.. Demikian seterusnya sehingga ada semacam hierarki (urutan) dari obyek yang membentuk cluster.. yakni Kandungan Lemak (gr) per 100 gram Susu KARBOHID.

analisis Cluster: Pada me CLUSTER terlihat isi data sangat bervariasi dalam satuan. dilakukan transformasi variabel ke bentuk z score.Sebagai contoh pengartian pada baris nPrt<lrr". ill mana ada variabel (data) dengan satuan Ratusan (Energi). lalu Cluster .. 57 gram 0. ada lemak 11 gram. untuk setiap 100 gram OAT QUAKER. akan dilakukan analisis Cluster untuk profil tersebut. pilih submenu Classify. Dari file CLUSTER HIERARKI yang berisi 18 merk susu bubuk tersebut. namun ada data dengan satuan di bawah 10 (Mineral). proses pembuatan z-score pada Hierarchichal Cluster bisa dilakukan secara otomatis lewat menu METHOD (lihat penjelasan proses analisis Cluster di bawah).sav Hierarchical III Dari menu Analyze. 2. Tampak ill layar: 69 . Hanya berbeda dengan proses K-MEANS CLUSTER.. ANALISIS CLUSTER dilakukan analisis dengan metode HIERARCHICAL Di sini akan CLUSTER: Langkah: Oil Buka file duster hierarki.96 gram Mineral dan 370 kilo kalori Demikian seterusnya untuk data yang lain. Dengan demikian.

Pilihan ini berfungsi untuk menampilkan jarak antar variabel. Untuk keseragaman. biarkan pilihan pada cases. yang meliputi pilihan Statistik yang relevan dan Plot (grafik). LABEL CASES masukkan variabel susu. mineral dan energi. Oleh karena akan dilakukan cluster berdasar kasus (merk susu). Kemudian tekan tombol CONTINUE untuk kembali ke menu utama. DISPLAY atau tampilan yang akan ditayangkan pada output. 3 dan 4 cluster. klik mouse pada pilihan RANGE OF SOLUTIONS. selain kotak AGGLOMERATION yang telah diaktifkan. . @ CLUSTER atau akan dilakukan cluster untuk kasus (baris) atau variabel (kolom). (aktifkan) keduanya.Pengisian: ® VARIABLES. Sesuai kasus. hingga tampak di layar: Untuk keseragaman. Hal ini berarti nanti akan ditampilkan susunan 2. walaupun 4 cluster pada banyak kasus adalah pilihan paling optimal. dan ketik 2 pada FROM serta 4 untuk THROUGH. yakni karbohid. Pada bagian CLUSTER MEMBERSHIP.. aktifkan pula: SCHEDULE Kotak Proximity matrix. Pilihan angka range cluster pada dasarnya adalah bebas. masukkan semua variabel. " Kemudian klik mouse pada kotak hingga tampak di layar: 70 .

. '" Kemudian klik mouse pada kotak Method .Kotak dialog PLOTS berisi berbagai pilihan grafik apa yang akan ditampilkan. dan pilih NONE. s pilih Between dan group Untuk keseragaman.. buka kotak combo Squared Euclidean distance.A "-"O . dan pilih Z scores. Untuk keseragaman. Untuk keseragaman. aktifkan pilihan '''j. abaikan juga bagian yang tekan OK untuk proses data. TRANSFORM VALUE. Tentu saja. Dan tampilan menu utama cluster. Untuk keseragaman. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama.. sehingga None. transformasi data ke z-score atau yang lain (jika diperlukan) dan metode clustering. CLUSTER METHOD.. yang meliputi cara pengukuran jarak antar variabel (measure). buka kotak combo NB: Transformasi dilakukan karena ada perbedaan besar pada satuan data. Kernudian untuk bagian ICICLE. jika pada data tidak ada perbedaan yang besar. . hingga tampak di layar: Kotak Dialog METHOD adalah inti dad proses clustering. MEASURE. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama.. dan 71 .. transformasi tidak perlu dilakukan. bagian ini tidak akan ditampilkan pada output.

388 15.808 4.203 7.266 5.735 3.409 1.007 Danca .340 4.464 2. Dati kotak dialog METHOD.412 3.078 6.8974.814 14.973 7.252 1.445 2E-02 6.557 2.335 4.335 4.069 4.867 7.477 .119 4.954 8.892 5.174 4.594 897 4.464 2.062 1.899 20.445 1.129 7.443 3.699 6..64511.081 7.708 13.519 5.722 0.843 3.549 3E-02 2.920 .305 .932 .583 3.874 .251 4.059 4.436 7.nancow 666 305 874 735 201 297 174 376 925 7:Frisian Fla 8:Frisian Fla 9:Frisian Aa 10:Frisian 11:Dancow 12:Dancow 13:lndomilk 14:lndomitk 15:Prosteo 16:Antene K 17:Tropicana 18:Protifar FI .445 356 6.838 7.683 4.891 22.892 4.076 2.519 .846 .197 6.315 1.193 3.932 2.640 3.480 4.477 4.617 .458 2.347 989 4.724 10.299 3.557 3.549 5.251 1.28018.697 1.174 7.675 4.352 3.555 9.130 2.946 .954 .385 8.964 0.985 11. Squared Euclidean °I I Percent I .412 0.416 .875 6. langkah pertama Cluster adalah melakukan pengukuran terhadap kesamaan (similarity) antar variabel.".920 5_758 1.1302.997 4.293 .494 23.875 7.707 4.973 2.064 4.615 3.993 1.927 .299 .062 4.807 871 2.496 4.442 3.718 4.458 2.815 2.953 426 519 1.812 4.38811.075 7.443 3.352 13.546 2.122 1.619 4.860 7.480 5.322 4.222 .Frisia 'Frisla :Frisi :Dane valtl :Mi! Ballta glnstaQFuH Cokao Ma Coktat 464857 4.356 .141 2.707 4.445 3.557 4.404 6.""n~A'~""'""i""" HasH OUTPUT akan satu per satu dengan analisis 3.315 3.252 2.605 1.718 1.122 293 .578 .989 14.141 2.440 4.617 018 4.365 .382 .619 5.420 .Proste alsiun :Tropica ll Crea u orea Coklat dahle llOQq Slim :Proti 8.464 4.Ante .201 16.771 5.812 .383 383 .015 10.015 10.509 7.645 1.722 .420 1.0% Distance used Tabel OUtput pertama tanpa ada data yang Cluster bahwa semua data (18) telah diproses Proximity Matrix S uared Euclidean Case 1:0AT 2:Nestle 3:LlGO 5:Milo Quak Ca have 15.412 14.222 This is a dissimilarity matrix Tabel berikut menyatakan matrik dengan angka yang tertera adalah jarak (distance) antara dua buah variabeL Seperti diketahui.441 7.946 5.476 3.583 4.758 .409 3.322 4.985 2.347 5.615 683 .814 5.871 1.557 7..404 .555 4.388 1.142 5.948 2.995 1.571 24.193 5.Danc :Indom .458 4.051 2.Frisia .340 ~357 1E-D2 5E-03 .993 7.382 9.129 .174 .297 .203 4.608 1.546 2.843 1E-02 1E-02 2.476 4.059 4. Distance .724 .051 605 1.890 8.441 6.815 .412 d.018 .102 1.899 .519 1E-02 SE-03 6.{}2 5.953 . Proximities Case Processing Cases Valid Summarj' N 18 I I Percent I 100.357~5.890 8.189 1.860 7.119 .102 .436 .280 18. sesuai tujuan cluster untuk mengelompokkan variabel yang sama (similar).320 2.925 3.078 2.724 4.266 0.867 4.189 1.496 2.997 4.416 .440 2.062 1. .081 3.594 2.064 4.0% I Missinq I N a.1976.426 7E~03 3E.995 4.608 U34 .007 .134 6.857 B 4.436 4.442 4.382 1.993 807 .699 6409937.975 .494 2.458 2.142 .509 2E-02 5.571 5.578 1"" 4.069 8.666 9.724 e.708 .075 12.846 4.226 3.0% I Total N 18 I I Percent I 100.376 1.975 7.771 4:0valtine 1.062 .838 7.tndorn .(Lihat file CLUSTER.964 3.948 675 .436 .320 10.382 0.697 7E-03 2.808 3.226 7. pilih SQUARED EUCLIDEAN DISTANCES 72 .891 4.927 5.

056 4. makin satu sama lain. Demikian seterusnya untuk penafsiran data yang lain. satu demi satu.352 . dengan acuan semakin kecil angka antar dua variabel. namun berbeda jauh dengan susu NESTLE. basil seperti di bawah.855 1. energi dan seterusnya) dengan susu LIGO. Sedang jarak antara variabel 1 (OAT QUAKER) dengan variabel 3 (LIGO HAVERMOUT) 0. Setelah antar variabel diukur dengan cara maka dilakukan pengelompokan variabel secara hierarki.762E-02 .376 .075 1.jarak antar variabel Euclidean.576 Cluster 1 0 0 1 0 0 0 0 4 5 0 6 10 11 8 13 15 16 Cluster 2 0 0 2 0 0 0 0 3 0 0 7 0 9 12 Next Stage 3 3 8 8 9 11 11 14 13 12 13 14 15 15 16 17 0 14 0 0 Tabel di atas adalah GROUP LINKAGE proses clustering dengan metode BETWEEN pilihan kotak dialog sebelumnya.237E-03 8.803 .640 .031 3.594 . jarak antara variabel 1 (OAT QUAKER) dengan variabel 2 (NESTLE CARNATION) adalah 15.608.774 2.225E-03 5.896 22. diperlukan proses dengan metode tertentu agar ke 18 susu tersebut berkelompok sesuai kemiripan masing-masing. Agglomeration Schedule Stage Cluster First ~ears Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Cluster 1 7 8 7 6 5 1 3 6 5 15 1 15 1 6 1 1 1 Cluster 2 12 13 8 10 14 17 4 7 9 16 3 18 5 15 6 11 2 Coefficients 3. dengan banyaknya kombinasi jarak dari 18 variabel tersebut. Cara hierarki berarti pengelompokan dilakukan secara bertingkat. Hal ini berarti susu OAT QUAKER lebih mirip (similar) dalam karakteristiknya (lemak.611 17. Namun demikian. matrik di atas adalah jarak berdasar ukuran Sebagai contoh.758.340 6. atau dari 73 .

yang menyatakan jarak antara variabel susu Frisian Flag Instan dengan variabel susu Dancow Full Cream. DANCOW FULL CREAM dan FRISIAN FLAG FULL CREAM. terlihat angka 3. Karena proses agglomerasi dimulai dengan dua variabel yang terdekat. Kemudian jika dilihat pada kolom terakhir untuk baris 1 tersebut (NEXT STAGE).08225 @ 74 . Jika dilihat dari stage 2 ke stage 3. sekarang cluster terdiri dati 3 variabel.03552 Jarak antara variabel 8 dengan variabel 13 adalah 0. pelan-pelan jumlah cluster berkurang sehingga akhirnya semua menjadi satu cluster saja. Dengan demikian.terbentuknya cluster yang ban yak. yang bisa dilihat jarak pada Output PROXIMITY MATRIX: Jarak antara variabel 8 dengan variabel 7 adalah 0. dinamakan dengan AGGLOMERASI.237E-03 atau 0. Pada baris 3. antara variabel 8 dengan variabel 13.05313 Jarak rata-rata= (0. dengan penjelasan berikut ini. Hal ini berarti langkah clustering selanjutnya dilakukan dengan melihat stage 3 atau baris ke 3. yakni FRISIAN FLAG INSTAN. jarak rata-rata: Jarak antara variabel 7 dengan variabel 8 adalah 0. terlihat variabel 7 (FRISIAN FLAG INST AN) membentuk cluster dengan variabel 8 (FRISIAN FLAG FULL CREAM). Perhatikan kolom koefisien yang berisi angka 3. terjadi pembentukan cluster lain. Dengan demikian.003237. terbentuk sam duster dengan anggota variabel 7 (FRISIAN FLAG INST AN) dengan variabel 12 (DANCOW FULL CREAM). Cam pembuatan duster yang dimulai dari dua atau lebih variabel yang paling rnirip membentuk satu cluster.05313)/2=0. maka j arak kedua variabel tersebut adalah yang terdekat dari sekian banyak kombinasi jarak dari 18 variabel yang ada.04432 Akan tetapi. kemudian cluster memasukkan lagi sam variabel yang paling mirip.03552 Jarak antara variabel S dengan variabel IZ adalah 0. yang kemudian juga dilanjutkan ke (NEXT STAGE pada baris 2) baris 3. jika dilihat pada stage 2 (baris 2). terjadi penambahan variabel 7 ke cluster yang sudah ada (yakni antara variabel 8 dengan 13). seperti yang terlihat pada matrik proximity sebelumnya. e Seperti pada tahap atau stage 1 (lihat baris 1).03552+0. yakni variabel 7 (FRISIAN FLAG INS TAN) dan variabel 12 (DANCOW FULL CREAM). Angka pada kolom COEFFICIENT adalah jarak rata-rata yang terjadi antara variabel terakhir yang bergabung FRISIAN FULL CREAM dengan dua variabel terdahulu.

ill mana variabel 6 dengan 11 memang sangat berjauhan.432E-02 yang ditampilkan. dan cluster dilanjutkan ke tahapan awal pada stage yang belum dicluster. semakin anggota cluster tersebut mempunyai kemiripan satu dengan yang lain. berarti proses cluster untuk jalur tersebut sudah selesai. Yang perlu diperhatikan adalah semakin kecil angka koefisien. Jika dilihat pada NEXT STAGE untuk baris 15. Jika angka pada NEXT STAGE adalah 0. Sebagai contoh. Demikian seterusnya dari stage 3 proses dilanjutkan ke stage 8. Dengan demikian. Hal ini bisa dilihat Dendograrn. dari stage 8 ke stage 14 dan selanjutnya sampai ke stage terakhir. maka angka 0.03552+0. pemasukan variabel 11 (DANCOW membuat jarak keseluruhan makin besar secara signifikan.004432 atau 4.896.057 inilah yang tampak di kolom Koefisien.08225)/2=sekitar 0. Dan sebaliknya. Proses agglomerasi ini tentu bersifat kompleks. dengan memasukkan variabel 11. yakni stage 17. Proses agglomerasi pada akhirnya akan menyatukan semua variabel menjadi satu cluster. proses cluster dilanjutkan ke stage 16. pada stage 15. Perincian cluster dengan anggota yang terbentuk bisa dilihat pada output selanjutnya. tergantung jumlah cluster yang dibentuk. Namun.057 atau 5. dihasilkan beberapa cluster dengan masing-masing anggotanya.7E-02 Jarak 0. 75 . terjadi penggabungan variabel 1 dengan variabel 6 (dan tentunya sudah terjadi penggabungan dengan variabel lainnya). Hanya dalam prosesnya. khususnya perhitungan koefisien yang rnelibatkan sekian banyak variabel dan terus bertambah. makin tidak rnirip satu dengan yang lain. makin besar koefisien. jika stage 3 tidak (kebetulan) terkait langsung dengan stage 2.Jarak rata-rata= (0. Proses ini berjalan secara otomatis sampai semua variabel pada akhimya membentuk sebuah cluster saja (lihat DENDOGRAM). Terlihat koefisien langsung melonjak menjadi 17. dan koefisien yang didapat adalah 6.611.

LIGO. Anggota Cluster 4 adalah variabel susu DANCOW COKLAT. ANLENE dan PROTIFAR. INDOMILK COKLAT dan TROPIC ANA SLIM.ingg 3 1 3 1 Tabel di atas adalah perincian terbentuk: @ anggota tergantung cluster yang Jika ditentukan 4 Cluster. MlLO.Cluster Membership Case 1:OAT Quaker 2:Nestle Carnation 3:UGO havermout 4:0valtine 5:Milo 6:Dancow 7:Frisian 8:Frisian 8alita Flag Instan Flag Full Cr 4 Clusters 3 Clusters 2 Clusters 1 2 1 1 1 3 1 2 1 1 2 1 1 1 1 1 1 1 1 1 3 3 1 1 1 1 1 1 9:Frisian Flag Coklat 10:Frisian Flag Madu 11 :Dancow Coklat 12:Dancow 13:lndomilk 14:lndomilk 15:Prosleo 17:Tropicana 18:Protifar Full Cream Full Cream Coklat rendah lemak Slim 3 4 1 1 1 1 1 1 1 1 3 1 1 1 3 3 1 3 1 1 1 1 16:Anlene Kalsium l. atau variabel susu OAT. atau variabel 76 . maka dengan melihat kolom 4 CLUSTERS: Anggota Cluster 1 adalah variabel dengan tanda 1. tanda 4. Anggota Cluster 2 adalah variabel dengan tanda 2. atau variabel susu NESTLE CARNATION Anggota Cluster 3 adalah variabel dengan tanda 3. DANCOW FULL CREAM. PROSTEO. FRISIAN FLAG FULL CREAM. atau variabel susu DANCOW BALITA. FRISIAN FLAG MADU. FRISIAN FLAG COKLAT. INDOMlLK FULL CREAM. FRISIAN FLAG INSTAN. OV ALTINE.

Demikian pula. Dari proses di atas bahwa susu DANCOW COKLAT dan NESTLE memang jauh berbeda (tidak similar) dengan susu dan merk susu NESTLE adalah yang paling berbeda dengan rnerk-merk yang lain.III Jika ditentukan 3 Cluster. Dari hasil di alas bisa dilihat bahwa peralihan dari 4 cluster ke 3 yang terjadi adalah penggabungan variabel-variabel yang sudah dan bukan mengacak variabel dari awal. Pada 3 cluster. 77 . maka dengan melihat kolom 3 CLUSTERS: Anggota Cluster 3 adalah DANCOW COKLAT Anggota Cluster 2 adalah NESTLE CARNATION Anggota Cluster 1 adalah 16 merk susu di luar dua merk susu di atas. <ill Jika ditentukan 2 Cluster. dari anggota cluster 1 dati formasi 2 CLUSTER adalah penggabungan dari anggota duster 3 dan cluster 1 dad 3 Cluster. terlihat anggota pada cluster 1 adalah merk-merk susu yang sebelumnya anggota cluster 1 dan cluster 3 dari 4 Cluster. maka dengan melihat kolom 2 CLUSTERS: Anggota Cluster 2 adalah NESTLE CARNATION Anggota Cluster 1 adalah 17 merk susu di luar merk susu nestle.

.

pada proses pertama telah terbentuk sembilan @ 4 duster yang mempunyai penjelasan ""'tJ'-''' ..ANALISIS DENDOGRAM: Perhatikan bahwa skala yang bukanlah koefisien yang ada pada tabel Aggromeration Schedule. 13. karena mereka mempunyai panjang garis yang sama dan tergabung satu kesatuan.. 12. variabel nomor 7. dengan menggunakan petunjuk panjang garis yang semakin ke kanan. Dendogram berguna untuk ditentukan "~_'>~_'''I akan 79 . Proses agglomerasi dimulai pada skala 0. Sebaliknya. 14 dan 9 membentuk duster tersendiri. Juga variabel nomor 1 dan 17. Demikian seterusnya. Demikian variabel nomor 5.. serta variabel nomor 3 dan 4. 6 dan 10 membentuk sebuah cluster tersendiri. UJ'H anggota lebih dari satu variabel " 5 cluster yang berdiri sendiri. Kemudian proses dan sekarang terlihat variabel nomor <i5dan 16 bergabung menjadi satu cluster. 11 dan 2 tidak tergabung dengan variabel karena mempunyai garis yang lebih dari variabelvariabel yang telah disebut terdahulu. proses agglomerasi berjalan ke arah kanan. Dengan demikian. juga variabel 3 dan 4 yang sebelumnya telah tergabung. maka variabel-variabel yang terwakili dengan garis tersebut semakin membentuk sebuah cluster. 8. sekarang bergabung lagi dengan variabel 1 dan 17 yang sebelumnya juga sudah membentuk satu duster tersendiri. hingga pada semua variabel akan tergabung satu cluster. variabel nomor 15. dengan ketentuan jika sebuah garis dekat dengan angka 0. namun telah dilakukan proses skala (rescale). dengan batasan 0 sampai 25. '-"A~USU' contoh.

dernikian pula dengan Dancow Full Cream dan Dancow Balita. Namun pada proses awal tersebut. seperti Frisian Flag. Dan di antara kedua merk susu tersebut. maka sembilan cluster (sesuai proses pertama cluster pada Dendogram) adalah dimungkinkan untuk diambil sebagai jumlah cluster yang baik. Demikian seterusnya bisa dibuat berbagai kesimpulan Lalu berapa jurnlah cluster yang seharusnya digunakan? Sebenarnya tidak ada ketentuan atau rumusan yang pasti jumlah cluster yang ideal. Namun kedua merk tersebut juga berbeda karakteristiknya dengan susu yang lain. dan hal itu lebih tergantung tujuan penelitian serta subyektifitas peneliti. Susu Dancow Coklat berbeda karakteristiknya (energi yang dihasilkan. karbohidrat dan mineral) dengan susu Nestle Carnation. maka susu Frisian Flag instan. dan mereka tentu juga berbeda dengan UU.5S'J'" cluster yang lain. bisa ditarik kesimpulan dengan berpedoman bahwa anggota sebuah cluster tentu mempunyai kemiripan satu dengan yang lain. jika diambil 3 cluster. karena ketiga susu tersebut mernbentuk satu cluster tersendiri. madu dan full cream mempunyai satu dengan yang lain. rnaka berdasar Dendogram. juga mirip satu sama bersama dengan susu Indomilk Full Cream. jika diinginkan pengelompokan susu yang sebanyak mungkin hingga diketahui susu mana saja yang berbeda dengan yang lain. susu Frisian Flag Coklat justru berbeda dengan jenis Frisian Flag lainnya. Namun jika jumlah terse but terlalu banyak dan akan diringkas. dan malah kemiripan dengan susu Milo dan susu Indomilk Coklat. karena mereka terbentuk pada satu cluster. Ovaltine dan seterusnya. 80 . kandungan lemak. Sebagai contoh.Kesimpulan: Tergantung dari cluster yang diinginkan. Pada contoh di atas. bisa dilanjutkan proses kedua dan seterusnya. Namun jika dilihat dari proses agglomerasi awal.

Modul ini merupakan pengembangan dari analisis cluster. yakni melakukan hasil cluster dengan berbagai variabel lain. di 81 . 1: Dari hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada modul sebelumnya. khususnya yang berciri data nominal. BUATLAH TABULASI SILANG ANTARA VARIABEL DAERAH DENGAN VARIABEL QCL_l e <II Buka file duster_z_score_hasil Dan menu Crosstabs ••. A. buatlah tabulasi silang (Crosstab) yang relevan.

82 .Pengisian: G> Masukkan variabel daerah ke kotak ROW(S) Masukkan variabel qcl_l ke kotak COLUMN(S) " Kemudian klik mouse pada kotak CELLS. hingga tampak di layar: Pengisian: Pada bagian PERCENTAGES. sesuatu yang relevan untuk profiling hasil cluster. pada Output akan tampak komposisi persentase berdasarkan baris. aktifkan pilihan Row. Dengan mengaktifkan pilihan Row. Abaikan bagian yang kemudian tekan tombol OK untuk proses. Tekan tombol CONTINUE untuk kembali ke kotak dialog Utama.

Pada responden yang tinggal di Kota Menengah.(Lihat file CLUSTER Crosstabs CROSSTAB. terlihat sebagian besar responden (95.9% 18 94. @ <II Dengan demikian.3% Total Count within DAERAH Oaerah T empat Tinggal % AnaUsis: Analisis akan dilakukan pada tabel CROSST AB untuk setiap bans: o Pada responden yang tinggal di Kota Besar. terlihat sebagian besar responden (94. dan 83 .0% 24 100.0% 60 100. sedang responden yang ada di kota Menengah adalah mereka yang termasuk Golongan Menengah.) Case Processing Summary Cases Valid N DAERAH Daerah TempatTinggal • QCL_1 Cluster Number of Case 60 Percent 100.8% 24 40.8 %) menjadi anggota cluster 3.0% 1 Kota Sesar Count T empat Tinggal 2 Kota Menengah within DAERAH Daerah Tempat Tinggal % 94. terlihat sebagian besar responden (94.spo.1% Count within DAERAH Oaerah Tempat Tinggal % 5.0% N 60 Total Percent 100.0% 3 Kota Keeil Count within DAERAH Daerah T empat Tinggal % 4. Pada responden yang tinggal di Kota Kecil. bisa dengan mudah disimpulkan bahwa responden yang ada di Kota Besar adalah mereka yang dari Golongan Atas (lihat penamaan cluster pada modul sebelumnya). sedangkan sisanya ada di duster 2.3% 1 23 95.7% 3 Total 17 100.7%) justru menjadi anggota cluster 2. sedangkan sisanya ada di cluster 3.7% 20 33. Namun mereka tidak terdapat pada cluster 3.0% N 0 Missing Percent .2% 16 26.1 %) menjadi anggota cluster 1. sedangkan sisanya ada di cluster 2.0% 1 19 100.0% DAERAH Daerah Tempat Tinggal" OCl_1 Cluster Number QCL of Case 1 Cluster creseraburancn Number of Case 1 DAERAH Daerah 2 16 1 5.

dalam arti langsung bisa dilihat perbedaan komposisi yang mencolok antar anggota Cluster. dengan melihat persentase masingmasing baris untuk Hap cluster.A. TABULASI SILANG ANTARA VARIABEL STATUS DENGAN VAmABEL QCL_l CLUSTER) @ Buka file Dati menu pilih submenu @ Crosstabs . patokan tetap pada komposisi per baris. Dalam praktek. tentu dimungkinkan perbedaan komposisi yang tidak berbeda jauh.LLnJ..C. @ hingga tampak di layar: Pengisian: @ Pada PERCENTAGES. aktifkan Row.. Pengisian: @ Masukkan variabel status ke kotak ROW(S) Masukkan variabel qd_l ke kotak COLUMN(S) '. mereka Kasus di alas bersifat sederhana.responden yang bertempat tinggal di Kota Kecil bisa dikategorikan yang ada di Golongan Bawah. Abaikan bagian yang 84 . Jika demikian. e Tekan tombol CONTINUE untuk kembali ke kotak dialog Utama. Tampak di layar kotak dialog CROSST AB. B. kemudian tekan tombol OK untuk proses..

7% 7 28.0% 60 100. terlihat sebagian besar responden menjadi anggota cluster 3. Pada responden yang berstatus Menikah Tanpa Anak.0% 2 Menikah Tanpa Anak Count % within STATUS Status Pernikahan 3 Menikah dengan Anak Count % within STATUS Status 9 45.3% 7 28.0% 11 44. sedangkan sisanya cukup merata di cluster 1 dan cluster 2.(Lihat file CLUSTER Crosstabs CROSSTAB 2. @ @ 85 . sedangkan sisanya tersebar cukup merata di cluster 2 dan cluster 3. dengan melihat angka persentase: @ Pada responden yang Belum Menikah.7% 3 20.0% Total 15 100.0% 20 33.0% 60 100.0% 20 100.0% 25 100.0% Total Count % within STATUS Status Pernikahan Analisis akan dilakukan pada tabel CROSST AB untuk setiap baris. terlihat sebagian besar responden menjadi anggota cluster 3.0% 5 Pernikahan 25.0% 16 26. terlihat sebagian besar responden justru menjadi anggota cluster 2.0% 0 .) Case Processing Summary Cases Valid N STATUS Status Pernikahan * QCl 1 Cluster Number 01 Case Percent N Missing Percent N Total Percent _ 60 100.spo.0% STATUS Status Pernlkahan * QCL_1 Cluster Number 01 Case Crosstabulation OCL_1 1 Cluster Number of Case 2 3 STATUS Status Pernikahan 1 Belum Menikah Count % within STATUS Status Pernikahan 4 26. sedangkan sisanya secara merata ada di cluster 1 dan cluster 3.0% 6 30.3% 8 53.0% 24 40. Pada responden yang berstatus Menikah dengan Anak.

Tarnpak di layar: pilih submenu lalu Scatter III 86 .'JjlL< III Buka file Dari menu Graph. karena dan analisis per bans yang dominan adalah responden yang berstatus Bujang dan mereka yang menikah dengan anak. pada cluster 1 tidak ada anggota dari segi status yang sehingga strategi meraih pelanggan bisa dilakukan pada ketiga Sedangkan jika meraih pelanggan dan clsuter 2.. Plot . Sedangkan untuk cluster 3. HH_. UVLLHU . BUATLAH GRAFIK PENCARAN CLUSTER) DAR! VARIABEL JLJi"". buatlah Grafik yang relevan.UUJUH Dan hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada modul sebelumnya. sebaiknya diarahkan kepada pelanggan yang telah menikah namun belum anak. maka strategi bisa diarahkan kepada kedua golongan status tersebut. duster 1 dan duster 3 mempunyai komposisi yang relatif rnerata. sedangkan cluster 2 jelas didominasi responden yang berstatus Menikah Tanpa Anak. .. Dengan demikian.H.. A.Jika dilihat dan jumlah responden per kolom.

(Lihat file CLUSTER Interactive GRAFIKspo.31776 ~ :J (33.02605 2.04884 1_88764 5 :::~~: . dan Cluster 3 "'-LJaI'.40671 2.24968 2. terlihat Cluster 1 semua bersimbol A atau 'Kota Besar'. sedangkan Cluster 2 sebagian besar beranggota dengan simbol adalah B atau di Kota Menengah.g ~ E 2. Pilihan ini akan mengubah sirnbol dari variabel tertentu agar bisa diproses pacta pembuatan Grafik. Tekan OK untuk proses pembuatan Grafik.83827 Q)1_S5247 g iii i5 ill 155663 114007 ~-------" . NB: Jika saat pemasukan variabel tampak kotak dialog untuk mengubah (Convert) tanda variabel agar bisa dimasukkan ke kotak bersangkutan.90897 3.Pengisian: '" '" '" Masukkan tanda Masukkan tanda variabel qd_l pada sumbu X (kotak panjang dengan variabel qcl_2 pada sumbu Y (kotak panjang dengan Masukkan variabel daerah pada kotak STYLE. 87 . maka klik mouse pada pilihan CONVERT.) b ~ 3.34781 (32.Aua besar bersimbol X atau tinggal di Kota Kecil.20961 . Cluster Numbe.g ·00 ~ ~ !: 3.65221 ~ !::::: 2.12597 ._---------r--- -------------~'~-------. 01 Case Dengan pada simbol untuk Daerah yang ada di kotak kanan atas.+-1.

Demikian seterusnya bisa dilihat pencaran kota-kota pada ketiga cluster yang terbentuk. Dernikian 88 .Pembuatan Grafik seperti ini akan melengkapi analisis yang dilakukan. Jika dilihat pada data di file CLUSTER_Z_SCORE_HASIL. akan tampak hasil (output tidak disimpan pada disket kerja): Daerah Tempat A Kota Besar B Kota Menengah X Tinggal Kota Keel! Cluster Number of Case Sekarang terlihat deretan nama Kota temp at tinggal responden. yang dengan ukuran Distance di sumbu Y. dengan kegunaan lebih pada visualisasi data yang lebih praktis dan jelas. terlihat kota Sernarang adalah kota (tinggal) terdekat dengan cluster 1. angka untuk Semarang (terkecil pada kode qcl_l=l) adalah 1. sedangkan daerah Jakarta Timur adalah yang terjauh. Catatan: Jika pada kotak dialog pembuatan Graph di atas.88. jam menonton TV sekian dan lainnya. Dari grafik tersebut. pada bagian bawah (LABEL CASES BY) dimasukkan variabel tinggal. Posisi Kota Semarang yang paling dekat berarti responden yang tinggal di kota Semarang adalah yang paling dekat dengan karakteristik duster 1. menunjukkan jarak kota tertentu dengan pusat clusternya (dengan jarak terdekat tentunya tepat di sumbu X). terlihat untuk variabel qcl_2 yang menunjukkan jarak sebuah kasus. dibanding melihat deretan angka seperti pembuatan Crosstab yang telah dibuat pada kasus sebelumnya. seperti usia sekian.

Masukkan variabel zkonsums pada sumbu X (kotak panjang dengan tanda ~) Masukkan tanda 1') variabel zusia pada sumbu Y (kotak panjang dengan @ . Masukkan variabel daerah pada kotak STYLE 89 . BUATLAH VARIABEL Timur.sebaliknya dengan responden yang tinggal di Jakarta mempunyai ciri paling jauh dengan karakteristik duster 1.. yang GRAFIK PENCARAN (SCATTER) ZUSIA DENGAN VARIABEL ZKONSUMS ANTARA !II Buka file duster_z_score_hasil Dari menu Plot .. lalu pilihan Scatter @ Pengisian: . B.. Tampak di layar: pilih submenu Interactive..

00000 1. terlihat semua responden yang mempunyai tingkat konsumsi tinggi (sumbu X makin ke kanan) adalah responden yang bertempat tinggal di Kota Besar. tiga yaitu * Kode 1. yang tersebar di bagian kiri sumbu X. variasi sumbu X dan 3 Seperti diketahui. hampir semuanya berasal dati tempat tinggal Kota Menengah dan Kota Kecil.00000 3.00000 Zscore: Tlnqkat Pengeiuaran Bulanan Dengan berpedoman pada simbol untuk tiap Daerah yang ada di kotak kanan atas. Agar lebih akan dilakukan pengubahan: • Nama variabel QCL_l diubah CLUSTER.file CLUSTER Interactive GRAFIK B Kota Menengah X Kota Keen 0. Dernikian seterusnya bisa dibuat berbagai sumbu Y sesuai kebutuhan. yang ada dalam satu variabel QCL_l. Sedang mereka yang mempunyai konsumsi (pengeluaran) kecil. 2 dan 3.2 dan 3 diubah menjadi Golongan Atas. Menengah dan Bawah. dati hasil Cluster dengan metode K-Means cluster dengan kode 1. 90 .