Professional Documents
Culture Documents
WORKSHOP
APLIKASI ANALISIS STATISTIKA TERAPAN
DENGAN OPEN SOURCE SOFTWARE R
Oleh :
Dr. Dedi Rosadi, S.Si., M.Sc.
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 1
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
MATERI SESI II
WORKSHOP APLIKASI ANALISIS STATISTIKA TERAPAN
DENGAN OPEN SOURCE SOFTWARE R
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 2
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Studi Kasus 2.2.1. Untuk ilustrasi kapabilitas R, dalam latihan ini, kita akan
mencoba membandingkan hasil analisa paket SPSS dan R. Dimiliki data
Karyawan.sav (Santoso, 2004). Ingin diamati bagaimanakah hubungan
antara Gaji, Usia dan Pengalaman Kerja seorang karyawan (yang disimpan
kedalam variabel GAJI, USIA, KERJA).
Studi Kasus 2.2.2. Dari data karyawan diatas, amatilah hubungan diantara
dua variabel GAJI, USIA dengan variabel pengalaman KERJA sebagai faktor
pengontrol.
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 3
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Pengantar
Analisis regresi digunakan untuk menjelaskan atau menggambarkan
suatu variabel response(output, dependen) Y dan satu atau lebih variabel
input (prediktor, independen atau explanatory variable) X 1 ,..., X p . Jika p=1,
maka regresi yang terbentuk disebut regresi sederhana, sedangkan jika p>1
maka regresi yang terbentuk disebut multiple regression atau regresi
multivariat. Jika terdapat lebih dari satu Y, maka regresi tersebut disebut
multivariate multiple regression yang tidak dipelajari dalam workshop ini.
Pada bagian ini, akan dipelajari metode regresi pada keadaan variabel
dependen merupakan variabel kontinu, sedangkan variabel input dapat
bernilai kontinu, diskrit atau kategorik.
Analisa regresi memiliki beberapa tujuan penting, seperti:
1. Untuk melakukan/membuat prediksi terhadap Y dimasa yang akan datang
2. Untuk menganalisa efek atau hubungan diantara variabel input dan
dependen
3. Untuk mendapatkan deskripsi dari struktur data.
Beberapa perluasan dari model regresi yang dibicarakan disini misalnya
seperti model regresi untuk variabel respon multivariat, model respon biner
(yakni regresi logistic) dan model respon counting (poisson regression).
Nilai dari β 0 , β 1 tidak diketahui dan akan diestimasi dari data. Nilai εi adalah
komponen error yakni besarnya perbedaan dari nilai y terhadap model linear.
Estimasi dari β 0 , β 1 dibawah asumsi komponen error εi adalah iid normal
dengan mean µ dan variansi σ2 dapat dilakukan dengan menggunakan
metode least square. Nilai estimasi dari parameter β 0 , β 1 adalah
b1 =
∑ ( x − x )( y − y ) , b
i i
= y − b1 x
∑ (x − x) 2 0
i
Studi kasus 2.3.1. Nilai maksimum detak jantung dari seseorang terhadap
umur (dalam tahun) dapat digambarkan dengan persamaan
Max=220-umur
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 4
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Umur 18 23 25 35 65 54 34 56 72 19 23 42 18 39 37
Max 202 186 187 180 156 169 174 172 153 199 193 174 198 183 178
detak
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 5
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
kolom Enter name for model, dan pilih maxrate sebagai respon variabel dan
usia sebagai explanatory variabel. Klik OK, maka diperoleh output berikut
pada layar output
> summary(modeldetakjantung)
Call:
lm(formula = maxrate ~ usia, data = detakjantung)
Residuals:
Min 1Q Median 3Q Max
-15.8544 -2.9478 -0.8013 5.0522 9.8380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 204.1910 3.7960 53.791 < 2e-16 ***
usia -0.6683 0.0938 -7.125 7.76e-06 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
4. Diagnostic check
Validitas dari model dapat di amati secara grafis menggunakan beberapa
metode standar. Asumsi bahwa komponen error dari model iid normal dapat
diamati dari residual yang berdistribusi normal. Akan tetapi, asumsi
independensi dari residual pasti tidak berlaku karena diketahui bahwa
jumlahan residual akan bernilai 0 akan tetapi jika model sesuai, maka tidak
akan terdapat korelasi serial dalam residual.
a. Test for normality
Bentuk Uji :
Ho: residual berdistribusi Normal
Ha: residual tidak berdistribusi Normal
Terdapat banyak metode untuk melakukan uji normalitas terhadap residual.
Akan tetapi, disini akan dilakukan pengamatan menggunakan qq plot
b. Uji untuk serial korelasi
Bentuk Uji :
Ho:Tidak terdapat serial korelasi pada residual
Ha : Terdapat serial korelasi pada residual
Uji untuk serial korelasi dapat dilakukan dengan menggunakan uji durbin
watson. Kemudian, asumsi bahwa komponen error memiliki variansi yang
tetap dalam waktu (homokedastik) dapat diamati dengan melihat plot
residual vs fitted value.
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 6
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Keterangan plot
Residual vs fitted: Plot ini membuat plot dari fitted value vs residual. Amati
penyebaran residual disekitar garis y=0. Tampak disini tidak terlihat adanya
trend, sehingga dapat disimpulkan bahwa residual homokedastik. Demikian
pula tampak data menyebar cukup random disekitar garis y=0, sehingga
disimpulkan model linear cukup baik untuk memodelkan hubungan y dan x
Normal qq plot: Tampak residual berada disekitar garis lurus, yakni dapat
disimpulkan bahwa residual mengikuti distribusi normal
Scale-location plot: plot ini menampilkan nilai dari standardized residual.
Kesimpulan ekuivalen dengan plot residual vs fitted diatas. Nilai tertinggi
menunjukkan residual terbesar
Cook distance plot: menampilkan titik yang memiliki pengaruh terbesar
terhadap estimasi garis regresi. Seringkali didalam analisa regresi, data yang
memiliki cook distance relatif sangat besar, walaupun mungkin bukan
merupakan residual, pengaruhnya terhadap hasil fitting model dianalisa
dengan dibuang dari data.
Lebih lanjut tentang diagnostic check ini akan diberikan pada bagian regresi
multivariat.
Uji durbin watson dapat dilakukan dengan memilih menu
Models/Numerical diagnostics/Durbin Watson test for
autocorrelation. Pilih untuk alternative hypothesis rho !=0. Diperoleh
output berikut
> dwtest(maxrate ~ usia, alternative="two.sided", data=detakjantung)
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 7
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Durbin-Watson test
Diperoleh kesimpulan bahwa hipotesa nol tidak ditolak pada α=5% (Ho di
tolak jika p-value <5% untuk α=5%)
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 8
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Langkah 2, 3 dan 4 diatas dapat juga dibalik, yakni pertama tama melakukan
diagnostic checking, kemudian melakukan transformasi, kemudian
melakukan seleksi variabel, dan kemudian diagnostic check.
C. Metode Stepwise
Metode ini merupakan kombinasi dari metode bacward dan forward, yakni
metode ini dilakukan pada situasi dimana kita ingin menambahkan atau
membuang variabel prediktor yang telah dibuang atau ditambahkan pada
langkah-langkah pemilihan terdahulu.
Analisa pemilihan variabel dengan metode diatas ini pada R dilakukan secara
manual. Metode pemilihan variabel dapat juga dilakukan dengan
menggunakan metode information criterion seperti Akaike Information
Criterion (AIC), Bayes Information Criterion (BIC) (tidak dibahas pada
workshop ini).
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 9
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
3. Heteroskedastisitas
Uji ini bertujuan untuk menganalisa apakah variansi dari residual tetap
sepanjang waktu (homokedastik) atau berubah oleh waktu
(heteroskedastik). Bentuk uji ini dapat dituliskan sbb:
Ho: Asumsi homokedastisitas terpenuhi
Ha: Asumsi homokedastisitas tidak terpenuhi
Apabila terjadi heteroskedastisitas, dapat dilakukan beberapa hal (tidak
dibahas di workshop):
• Melakukan analisa generalized least square terhadap model, atau
• Melakukan transformasi terhadap data response. Transformasi dapat
dilakukan dengan menggunakan metode Box Cox power transformation.
4. Autokorelasi
Telah dibahas didepan (dengan menggunakan uji durbin watson)
STUDI KASUS 2.3.2. (Regresi berganda). Untuk ilustrasi kapabilitas R, dalam latihan
ini, kita akan mencoba membandingkan hasil analisa regresi multivariat dengan paket
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 10
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
SPSS dan R. Dimiliki data penjualan (variabel sales), biaya iklan koran (variabel
iklan_ko), biaya iklan di radio (variabel iklan_ra), jumlah outlet diseluruh daerah (variabel
outlet) dan jumlah salesman (variabel salesman). Data tersimpan dalam file
regresimultivariat.sav (Santoso, 2004). Lakukan analisa regresi dengan sales sebagai
variabel dependen dan iklan_ko, iklan_ra, outlet dan salesman sebagai variabel
independe. Lakukan juga analisa pemilihan variabel terbaik.
Catatan Pemodelan:
• Lakukan analisa yang sama dengan diatas menggunakan SPSS.
Bandingkan hasilnya dengan output dari R. Apakah anda menemukan
perbedaan?
• Seorang pembuat model mungkin memperoleh kesimpulan model yang
berbeda dibandingkan dengan pembuat model yang lain. Ini mungkin
terjadi karena adanya perbedaan metode pemilihan variabel, ataupun
perbedaan urutan langkah pemodelan. Ini sejalan dengan pepatah
terkenal dalam statistical modeling: ”All models are wrong but some
models are useful”.
Yi = β0 + β1Xi1 + ui
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 11
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 12
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
1 e α + βxi
π i = Λ (α + β xi ) = =
1 + e −α + βxi 1 + e α + βxi
Secara umum, harga transformasi fungsi logit dan fungsi probit ekuivalen
nilainya, kecuali pada nilai ekstrem dari π i . Akan tetapi, ada dua kelebihan
dari fungsi logit dibandingkan dengan model probit
1. Simplicity
Persamaan dari fungsi logistic relatif sederhana, sedangkan fungsi normal
lebih kompleks. Perbedaan ini bersifat trivial untuk data dikotomi, tetapi
untuk data polythomus, dimana diperlukan model multivariat logistic atau
multivariat normal, terlihat bahwa model logistic akan jauh lebih sederhana
2. Interpretability
Transformasi invers dari logit model Λ−1 (π i ) dapat diinterpretasikan langsung
sebagai log-odds, sedangkan transformasi invers φ −1 (π i ) tidak memiliki
interpretasi lansung.
– Untuk logit model, pandang nilai rasio odds
πi
= e α + βx i
1− πi
πi
Maka diperoleh log = α + βX i .
1− πi
πi
–Transformasi Λ−1 ( Pi ) = log disebut logit dari π, yakni nilai log dari odds
1− π i
ratio kejadian Y bernilai 1 (kejadian sukses) dibandingkan dengan dengan
kemungkinan bernilai 0 .
–Fungsi logit bersifat simetrik disekitar 0 dan terbatas diatas dan dibawah.
Model logit dan probit diatas dapat secara langsung diperluas untuk model
dengan beberapa variabel prediktor. Sementara model dengan variabel
response polythomus tidak dibahas pada workshop ini .
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 13
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
X3= IPK
Misalkan dari output program didapatkan hasil sebagai berikut:
Dependen :Nilai
Metode:Logit
variabel Koefisien p-value
Constant -11.011 0.010
X1 0.08761 0.000
X2 2.13211 0.021
X3 1.9971 0.040
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 14
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 15
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Studi Kasus 2.4.2. Analisa regresi logistik logit untuk data non
tabular
Dimiliki data hipotetik yang tersedia pada file logit.txt. Lakukan analisa
regresi logistik terhadap variabel y terhadap semua variabel independen lain.
Studi Kasus 2.4.3. Analisa regresi logistik probit untuk data non
tabular
Dimiliki data hipotetik yang tersedia pada file probit.txt. Lakukan analisa
regresi logistik terhadap variabel y terhadap semua variabel independen x.
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 16
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
Model kausal
Alternatif pemodelan data runtun waktu dengan komponen trend (tetapi
tidak seasonal) adalah dengan menggunakan model ARIMA
(autoregressive integrated moving average) yang diusulkan Box Jenkins
Model dengan komponen musiman dapat dianalisa dengan model SARIMA
(seasonal ARIMA)
Eksponensial Smoothing
Untuk keperluan peramalan, seringkali dilakukan dengan metode
penghalusan eksponensial, yakni dengan cara mendapatkan model tanpa
komponen irregular
Prediksi nilai satu satuan waktu kedepan diketahui data dari Xt sampai
pada waktu t=τ adalah dengan menggunakan rata-rata terbobot dari data
dimasa yang lampau
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 17
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
JGOS 2005, © Dedi Rosadi
#menggunakan Exponential Smoothing untuk data beer data dan menyimpan hasil kedalam
objek HWSmoth
HWSmoth
plot(beer)
HWSmoth$fitted
lines(HWSmoth$fitted[,2],col="red")
predict(HWSmoth,n.ahead=12)
plot(beer,xlim=c(1956,1999))
lines(predict(HWSmoth,n.ahead=48),col=2)
Daftar Pustaka
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 18
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id