Analisa Data JGOS

JGOS 2005, © Dedi Rosadi
WORKSHOP
APLIKASI ANALISIS STATISTIKA TERAPAN
DENGAN OPEN SOURCE SOFTWARE R
Oleh :
Dr. Dedi Rosadi, S.Si., M.Sc.
Modul ini bebas digunakan untuk maksud nonkomersial. Jika digunakan untuk tujuan komersial, 1
harus dengan persetujuan author. Contact: dedirosadi@ugm.ac.id
MATERI SESI II
WORKSHOP APLIKASI ANALISIS STATISTIKA TERAPAN
DENGAN OPEN SOURCE SOFTWARE R
2.1. Penggunaan R GUI (Rcommander)

Disini akan kita coba gunakan salah satu paket program yang telah
kita install sebelumya yaitu Rcommander sebagai alat untuk melakukan
analisa regresi sederhana, multivariat, logit dan probit.
Pada prisipnya cara kerja pada R comander relatif sama dengan paket
program analisis data satatistika komersial lainnya, namun pada R
Commander tedapat sedikit perbedaan tampilan data. Pada paket program
komersial, biasanya data yang di input dapat dilihat langsung , namun pada
R comander data yang telah selesai di input tidak diperlihatkan, namun ke
aktifan dari data dapat dilihat pada menu bar yang ada. Pada menu bar yang
ada jika terdapat data yang aktif maka akan tedapat tanda bertuliskan nama
file data yang digunakan. Namun jika tidak terdapat data yang aktif maka
akan terdapat tanda <no active data set>.
Berikut beberapa cara menggunakan paket Rcommander
1. Mengaktifkan Rcommander dari R console
Package|Load Package|Pilih Rcmdr|OK
Maka akan muncul kotak dialog sebagai berikut:
2. Menggunakan Menu File

Untuk me load script File|Load Script
Untuk Save Output Work space dan lain sebagainya
Untuk keluar dari paket Commander File|Exit
3. Menggunakan menu Data

Menginput data baru dengan cara Data|New data set
Import data dari file pakat program lain Data|Import
Data|Pilih jenis data
4. Menggunakan menu Statistics
Melihat deskriptif korealasi frekwensi dan tabel dengan
Statistics| Summaries | pilih analisa yang di inginkan
Menggunakan tabel kontingensi /tabulasi silang Statistics |
Contingency Table
Melakukan uji rata-rata seperti uji z t-test ANOVA dengan vara

Statistics | Mean | pilih analisa yang di inginkan
Uji proporsi dengan cara Statistics | Proportion
Uji kesamaan variansi seperti Lavene dan Barlet dengan cara
Statistics| Variances
Analisa Non parametrik Statistics|Nonparametric test
Pemodelan seperti pemodelan linier regresi sederhana
multivariat logit dan probit dengan cara Statistics | Fit model
| pilih pemodelan yang di inginkan
Analisis Multivariat seperti Reabilitas, PCA, dan analisis Faktor
dapat dilakukan dengan Statistics | dimensional analisis |
pilih analisa yang di inginkan
5. Menggunakan menu graph
Untuk analisa statistika secara geafis seprti bar chart qq plot
dan sebagainya dapat dilakukan dengan cara Graph | pilih
menu grafis yang di inginkan
6. Menggunakan menu Models
Untuk melakukan uji kelayakan model
7. Menggunakan menu Distributions
Untuk pengerjaan yang berkaitan dengan distribusi peluang
2.2. Analisa Korelasi dengan R-Commander

2.2.1. Analisa Korelasi
Analisa korelasi bertujuan untuk mengamati apakah diantara dua variabel
terdapat hubungan, dan jika ada hubungan, bagaimanakah arah hubungan
dan seberapa besar hubungan tersebut. Data yang dianalisa dapat berupa
data kualitatif ataupun kuantitatif.
Studi Kasus 2.2.1. Untuk ilustrasi kapabilitas R, dalam latihan ini, kita akan
mencoba membandingkan hasil analisa paket SPSS dan R. Dimiliki data
Karyawan.sav (Santoso, 2004). Ingin diamati bagaimanakah hubungan
antara Gaji, Usia dan Pengalaman Kerja seorang karyawan (yang disimpan
kedalam variabel GAJI, USIA, KERJA).
2.2.2. Analisa korelasi parsial

Analisa korelasi parsial bertujuan untuk melihat hubungan antara dua
variabel, dengan memasukkan variabel lain sebagai pengontrol.
Studi Kasus 2.2.2. Dari data karyawan diatas, amatilah hubungan diantara
dua variabel GAJI, USIA dengan variabel pengalaman KERJA sebagai faktor
pengontrol.
2.2.3. Korelasi untuk data ordinal

Korelasi ini bertujuan untuk mengamati hubungan antara dua atau lebih
variabel ordinal (berjenjang, misal sangat baik, baik, tidak baik dst).
Perhitungannya dilakukan dengan menggunakan koefisien korelasi Spearman
Studi kasus 2.2.3. Dimiliki data nilai_karyawan.sav (Santoso, 2004). Ingin

diamati bagaimanakah hubungan antara prestasi kerja, IQ para karyawan
dan loyalitasnya (yang disimpan kedalam variabel PRESTASI, IQ, LOYAL).
2.3. Aplikasi Pemodelan Regresi Linier Sederhana dan Regresi

Multivariat Dalam R
Pengantar
Analisis regresi digunakan untuk menjelaskan atau menggambarkan
suatu variabel response(output, dependen) Y dan satu atau lebih variabel
input (prediktor, independen atau explanatory variable) X 1 ,..., X p . Jika p=1,
maka regresi yang terbentuk disebut regresi sederhana, sedangkan jika p>1
maka regresi yang terbentuk disebut multiple regression atau regresi
multivariat. Jika terdapat lebih dari satu Y, maka regresi tersebut disebut
multivariate multiple regression yang tidak dipelajari dalam workshop ini.
Pada bagian ini, akan dipelajari metode regresi pada keadaan variabel
dependen merupakan variabel kontinu, sedangkan variabel input dapat
bernilai kontinu, diskrit atau kategorik.
Analisa regresi memiliki beberapa tujuan penting, seperti:
1. Untuk melakukan/membuat prediksi terhadap Y dimasa yang akan datang
2. Untuk menganalisa efek atau hubungan diantara variabel input dan
dependen
3. Untuk mendapatkan deskripsi dari struktur data.
Beberapa perluasan dari model regresi yang dibicarakan disini misalnya
seperti model regresi untuk variabel respon multivariat, model respon biner
(yakni regresi logistic) dan model respon counting (poisson regression).
Simple linear regression

Dengan model regresi linear sederhana, akan diamati hubungan dari
pasangan variabel dependen dan satu variabel independen ( xi , y i ) dengan
persamaanya
y i = β 0 + β 1 xi + ε i
Nilai dari β 0 , β 1 tidak diketahui dan akan diestimasi dari data. Nilai εi adalah
komponen error yakni besarnya perbedaan dari nilai y terhadap model linear.
Estimasi dari β 0 , β 1 dibawah asumsi komponen error εi adalah iid normal
dengan mean µ dan variansi σ2 dapat dilakukan dengan menggunakan
metode least square. Nilai estimasi dari parameter β 0 , β 1 adalah
b1 =
∑ ( x − x )( y − y ) , b
i i
= y − b1 x
∑ (x − x) 2 0
i
Studi kasus 2.3.1. Nilai maksimum detak jantung dari seseorang terhadap
umur (dalam tahun) dapat digambarkan dengan persamaan
Max=220-umur
Misalkan pernyataan ini akan dibuktikan secara empiris, dengan mengamati

15 orang dan diperoleh data berikut:
Umur 18 23 25 35 65 54 34 56 72 19 23 42 18 39 37
Max 202 186 187 180 156 169 174 172 153 199 193 174 198 183 178
detak
Langkah-langkah analisa regresi sederhana dengan menggunakan R-

Commander
1. Data entry
Data entry dapat dilakukan dengan memilih menu Data/New data set...
Pada jendela dialog yang muncul, isikan nama variabel detakjantung. Maka
jendela data editing akan dibuka. Isikan data diatas, dengan membuat
variabel baru bernama usia (bertipe numerik), dan maxrate(bertipe
numerik). Isikan data diatas, kemudian tutup jendela data editor. Maka
sekarang objek data bernama detakjantung sedang aktif di R-commander
2. Mengamati hubungan antar usia dan maxrate
Untuk mengamati apakah terdapat hubungan linear antara variabel usia dan
maxrate, akan dibuat scatter plot dari data. Pilih menu Graphs/Scatter
plot. Pilih variabel usia sebagai variabel x dan variabel maxrate sebagai
variabel respon. Selanjutnya hanya pilih least square line dalam pilihan
plot. Klik OK untuk menampilkan grafik. Grafik ini dapat disimpan dengan
menu Graphs/Save grah to file.
Terlihat adanya hubungan linear antara variabel independen dan variabel

dependen
3. Estimasi dari model
Untuk melakukan estimasi dari model, pilih menu Statistics/Fit
models/Linear regression. Kemudian isikan modeldetakjantung pada
kolom Enter name for model, dan pilih maxrate sebagai respon variabel dan
usia sebagai explanatory variabel. Klik OK, maka diperoleh output berikut
pada layar output
> summary(modeldetakjantung)
Call:
lm(formula = maxrate ~ usia, data = detakjantung)
Residuals:
Min 1Q Median 3Q Max
-15.8544 -2.9478 -0.8013 5.0522 9.8380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 204.1910 3.7960 53.791 < 2e-16 ***
usia -0.6683 0.0938 -7.125 7.76e-06 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 6.856 on 13 degrees of freedom

Multiple R-Squared: 0.7961, Adjusted R-squared: 0.7804
F-statistic: 50.76 on 1 and 13 DF, p-value: 7.764e-06
Terlihat disini komponen b0 dan b1 signifikan pada α=5%. Model hasil

estimasi adalah yˆ = 210.05 - 0.79773 * x .
4. Diagnostic check
Validitas dari model dapat di amati secara grafis menggunakan beberapa
metode standar. Asumsi bahwa komponen error dari model iid normal dapat
diamati dari residual yang berdistribusi normal. Akan tetapi, asumsi
independensi dari residual pasti tidak berlaku karena diketahui bahwa
jumlahan residual akan bernilai 0 akan tetapi jika model sesuai, maka tidak
akan terdapat korelasi serial dalam residual.
a. Test for normality
Bentuk Uji :
Ho: residual berdistribusi Normal
Ha: residual tidak berdistribusi Normal
Terdapat banyak metode untuk melakukan uji normalitas terhadap residual.
Akan tetapi, disini akan dilakukan pengamatan menggunakan qq plot
b. Uji untuk serial korelasi
Bentuk Uji :
Ho:Tidak terdapat serial korelasi pada residual
Ha : Terdapat serial korelasi pada residual
Uji untuk serial korelasi dapat dilakukan dengan menggunakan uji durbin
watson. Kemudian, asumsi bahwa komponen error memiliki variansi yang
tetap dalam waktu (homokedastik) dapat diamati dengan melihat plot
residual vs fitted value.
Uji normalitas dan homokedastik dapat dilakukan dengan menggunakan

menu Models/Graph/Basic diagnostic plots
Keterangan plot
Residual vs fitted: Plot ini membuat plot dari fitted value vs residual. Amati
penyebaran residual disekitar garis y=0. Tampak disini tidak terlihat adanya
trend, sehingga dapat disimpulkan bahwa residual homokedastik. Demikian
pula tampak data menyebar cukup random disekitar garis y=0, sehingga
disimpulkan model linear cukup baik untuk memodelkan hubungan y dan x
Normal qq plot: Tampak residual berada disekitar garis lurus, yakni dapat
disimpulkan bahwa residual mengikuti distribusi normal
Scale-location plot: plot ini menampilkan nilai dari standardized residual.
Kesimpulan ekuivalen dengan plot residual vs fitted diatas. Nilai tertinggi
menunjukkan residual terbesar
Cook distance plot: menampilkan titik yang memiliki pengaruh terbesar
terhadap estimasi garis regresi. Seringkali didalam analisa regresi, data yang
memiliki cook distance relatif sangat besar, walaupun mungkin bukan
merupakan residual, pengaruhnya terhadap hasil fitting model dianalisa
dengan dibuang dari data.
Lebih lanjut tentang diagnostic check ini akan diberikan pada bagian regresi
multivariat.
Uji durbin watson dapat dilakukan dengan memilih menu
Models/Numerical diagnostics/Durbin Watson test for
autocorrelation. Pilih untuk alternative hypothesis rho !=0. Diperoleh
output berikut
> dwtest(maxrate ~ usia, alternative="two.sided", data=detakjantung)
Durbin-Watson test
data: maxrate ~ usia

DW = 2.4856, p-value = 0.367
alternative hypothesis: true autocorelation is not 0
Diperoleh kesimpulan bahwa hipotesa nol tidak ditolak pada α=5% (Ho di
tolak jika p-value <5% untuk α=5%)
5. Untuk mendapatkan nilai-nilai dari fitted value ŷ dari modeldetakjantung

diatas, dapat digunakan perintah fitted(modeldetakjantung). Untuk
menampilkan plot dari fitted value ŷ dan nilai y original, dapat digunakan
perintah berikut (ketikkan pada jendela perintah R-Commander dan blok
perintah ini, lalu klik kanan kemudian submit)
plot(usia,fitted(modeldetakjantung))
points(usia,maxrate,col="red")
Pada grafik yang dibuat, titik hitam menyatakan fitted value, sedangkan
titik-titik warna merah nilai y.
6. Prediksi dari nilai y menggunakan modeldetakjantung hasil estimasi diatas
untuk diberikan suatu nilai x tertentu, dapat di hitung menggunakan perintah
predict. Misalkan ingin dihitung nilai prediksi max rate untuk usia 50 dan 60,
maka dapat digunakan perintah
predict(modeldetakjantung,data.frame(usia=c(50,60)))
7. Kita dapat juga menampilkan plot dari fitted value dan interval konfidensi
dari nilai fitted value. Misalkan saja, untuk contoh diplot nilai interval
konfidensi 95% dari fitted value, dapat digunakan perintah berikut
plot(usia,fitted(modeldetakjantung))
abline(modeldetakjantung)
IKbawah= predict(modeldetakjantung,data.frame(usia=sort(usia)),level=0.95,interval="confidence")[,2]
points(sort(usia),IKbawah,type="l")
IKatas= predict(modeldetakjantung,data.frame(usia=sort(usia)),level=0.95,interval="confidence")[,3]
points(sort(usia),IKatas,type="l")
points(usia,maxrate,col="red")
Analisa regresi multivariat
Model regresi multivariat dengan k variabel prediktor secara umum dapat
diberikan sebagai berikut:
Yi = β0 + β1Xi1 + β2Xi2 + … + βkXik + εi
Dengan asumsi standar:
Yi adalah nilai variabel respon dalam observasi ke-i
β0, β1, …, βk adalah parameter
Xik adalah nilai nilai variabel independen yang ke-k dalam observasi ke-i
εi adalah nilai random error dengan mean E{εi}= 0 dan variansi σ2 {εi} = σ2 diasumsikan berdistribusi normal
εi dan εj tidak berkorelasi sehingga nilai covariansinya σ {εi,εj} = 0 untuk semua i dan j;
Secara umum, langkah-langkah analisa regresi dapat dilakukan dengan cara

sebagai berikut:
1. Menentukan variabel dependen dan variabel independen dari model

2. Membangun model dan melakukan seleksi terhadap variabel independen
yang signifikan dalam model
3. Melakukan diagnostic checking, yakni mengecek asumsi konstant variansi
(homoskedasticity), normality residual, serial korelasi dan multikolinearitas
4. Melakukan transformasi terhadap variabel respon dan/atau variabel
independen
Langkah 2, 3 dan 4 diatas dapat juga dibalik, yakni pertama tama melakukan
diagnostic checking, kemudian melakukan transformasi, kemudian
melakukan seleksi variabel, dan kemudian diagnostic check.
Keterangan langkah-langkah pemodelan

Langkah 2: Pemilihan Variabel dengan Procedure Stepwise
A. Metode Eliminasi Backward
Metode eliminasi ini dilakukan dengan langkah-langkah berikut:
1. Mulai dengan model terlengkap, yakni mengandung semua variabel
prediktor
2. Hapus prediktor yang memiliki nilai p-value terbesar lebih besar dari nilai
kriteria α
3. Ulangi fitting model, kemudian kembali ke langkah 2
4. Berhenti jika semua nilai p-value kurang dari kriteria α
Nilai kriteria α sering disebut sebagai ”p-to remove” dan tidakselalu harus
bernilai α=5%. Jika performansi dari prediksi, sering diguakan nilai α yang
lebih besar, seperti 15-20%
B. Metode Forward Selection

Langkah –langkahnya merupakan kebalikan dari metode backward, yakni
sbb:
1. Mulai dengan tidak ada variabel dalam model (model dengan konstanta)
2. Untuk semua variabel prediktor tidak dalam model, pilih satu variabel
dengan nilai p-value terkecil kurang dari nilai kriteria α
3. Lanjutkan, sampai tidak terdapat variabel prediktor yang dapat
ditambahkan kedalam model
C. Metode Stepwise
Metode ini merupakan kombinasi dari metode bacward dan forward, yakni
metode ini dilakukan pada situasi dimana kita ingin menambahkan atau
membuang variabel prediktor yang telah dibuang atau ditambahkan pada
langkah-langkah pemilihan terdahulu.
Analisa pemilihan variabel dengan metode diatas ini pada R dilakukan secara
manual. Metode pemilihan variabel dapat juga dilakukan dengan
menggunakan metode information criterion seperti Akaike Information
Criterion (AIC), Bayes Information Criterion (BIC) (tidak dibahas pada
workshop ini).
Langkah 3: Diagnostic checking

Pada bagian analisa regresi sederhana (simple regression), telah dibahas
beberapa metode diagnostic check. Berikut beberapa keterangan singkat
tentang uji diagnostic check dari model regresi
1. Normalitas residual (telah dibahas secara singkat didepan)
2. Multikolinearitas
Pada uji multikolinearitas, akan diuji apakah pada model regresi ditemukan
adanya korelasi antar variabel independen. Jika terjadi korelasi, maka
dinamakan terdapat problem multikolinearitas. Model regresi yang baik
seharusnya tidak terdapat korelasi antar variabel independen. Jika terjadi
kolinearitas, maka hasil estimasi dari koefisien menjadi tidak valid, dan
analisa dapat dilakukan dengan dua cara
• Mengeluarkan salah satu variabel yang memiliki hubungan
korelasi yang kuat
• Melakukan analisa regresi bayesian atau regresi ridge (tidak
dibahas disini)
Uji multikolinearitas ini secara singkat dapat dinyatakan dengan hipotesa
berikut:
Ho:Tidak Terjadi multikolinearitas dalam model
Ha: terjadi multikolinearitas dalam model
Uji dapat dilakukan dengan menggunakan Variance Inflation factor (VIF) atau
tolerance (1/VIF). Regresi yang bebas multikolinearitas biasanya memiliki
VIF disekitar satu, atau tolerance mendekati satu.
3. Heteroskedastisitas
Uji ini bertujuan untuk menganalisa apakah variansi dari residual tetap
sepanjang waktu (homokedastik) atau berubah oleh waktu
(heteroskedastik). Bentuk uji ini dapat dituliskan sbb:
Ho: Asumsi homokedastisitas terpenuhi
Ha: Asumsi homokedastisitas tidak terpenuhi
Apabila terjadi heteroskedastisitas, dapat dilakukan beberapa hal (tidak
dibahas di workshop):
• Melakukan analisa generalized least square terhadap model, atau
• Melakukan transformasi terhadap data response. Transformasi dapat
dilakukan dengan menggunakan metode Box Cox power transformation.
4. Autokorelasi
Telah dibahas didepan (dengan menggunakan uji durbin watson)
Langkah 4: Transformasi variabel (tidak dibahas diworkshop)

Transformasi terhadap variabel dependen dapat dilakukan dengan
menggunakan metode box cox power. Transformasi juga dapat dilakukan
terhadap variabel independen, seperti dengan melakukan analisa broken
stick regression (regresi dengan memecah variabel independen), atau
melakukan analisa regresi multivariat dengan memasukkan komponen
polynomial dari variabel independen.
STUDI KASUS 2.3.2. (Regresi berganda). Untuk ilustrasi kapabilitas R, dalam latihan
ini, kita akan mencoba membandingkan hasil analisa regresi multivariat dengan paket
SPSS dan R. Dimiliki data penjualan (variabel sales), biaya iklan koran (variabel
iklan_ko), biaya iklan di radio (variabel iklan_ra), jumlah outlet diseluruh daerah (variabel
outlet) dan jumlah salesman (variabel salesman). Data tersimpan dalam file
regresimultivariat.sav (Santoso, 2004). Lakukan analisa regresi dengan sales sebagai
variabel dependen dan iklan_ko, iklan_ra, outlet dan salesman sebagai variabel
independe. Lakukan juga analisa pemilihan variabel terbaik.
Catatan Pemodelan:
• Lakukan analisa yang sama dengan diatas menggunakan SPSS.
Bandingkan hasilnya dengan output dari R. Apakah anda menemukan
perbedaan?
• Seorang pembuat model mungkin memperoleh kesimpulan model yang
berbeda dibandingkan dengan pembuat model yang lain. Ini mungkin
terjadi karena adanya perbedaan metode pemilihan variabel, ataupun
perbedaan urutan langkah pemodelan. Ini sejalan dengan pepatah
terkenal dalam statistical modeling: ”All models are wrong but some
models are useful”.
2.4. Aplikasi Pemodelan Regresi Logistik Dalam R

Model LPM
Pada bagian ini pembahasan akan kita lanjutkan untuk Pemodelan logit
dan probit. Secara sederhana perbedaan antara regresi biasa dengan
pemodelan logit ialah haya pada variabel dependent atau responsenya. Pada
regresi biasa, data dependent merupakan data kontinyu namun pada regresi
logistik data dari variabel dependennya berupa kategorik baik biner (seperti
Ya atau Tidak) yang sering disebut dikotomus atau bisa juga polycotomus
seperti ( sangat tidak setuju, tidak setuju, biasa saja, setuju, sangat setuju).
Namun pada workshop ini, yang akan kita bahas hanya untuk variabel
dependent yang dicotomus.
Model logit sebenarnya berdasar dari ide Linier Probability Model (LPM)
yang secara sederhana dapat di ilustrasikan sebagai berikut:
Yi = β0 + β1Xi1 + ui
Misalkan variabel X merupakan pendapatan suatu keluarga dan

variabel Y merupakan keadaan dimana suatu keluarga memiliki rumah
(Y=1) dan tidak memiliki rumah (Y=0), dalam hal ini baik analisa regresi
baik sederhana maupun multivariat tidak dapat memodelkan permasalahan
diatas. LPM dapat menyelesaikan permasalahan ini dengan ide bahwa
ekspektasi kondisional Y dari Xi dapat di interpretasikan sebagai probabilitas
kondisional saat suatu event Yi akan muncul oleh karena Xi atau dituliskan
E(Y|xi). Ini dapat diperoleh sebagai berikut. Definisikan
πi=P(Yi)=P(Yi=1|X=xi). Maka E(Y|xi)= πi.1+(1-πi)*0= πi.
Beberapa asumsi LPM

o ui iid normalitas
o Yi Berdistribusi Bernoulli
o Probabilitas terjadinya suatu event, 0≤ E(Y|xi)≤1
Namun pada kenyataannya model jarang digunakan karena memiliki

beberapa kelemahan yaitu (Gujarati 2004) :
1. ui nonnormal (yakni karena Yi dikotomi, maka ui juga dikotomi)
2. Asumsi heteroskedastisitas tidak terpenuhi
3. Terkadang nilai dari Pi berada diluar range 0-1
4. Nilai R2 yang umumnya kecil
Sebenarnya dengan menaikan jumlah data dan menggunakan tekhnik
estimasi parameter WLS dapat mengatasi maslah-maslalah diats namun
tetap saja pemodelan LPM pada kenyataanya tidak dapat diterima walau
secara fundamental atau secara logis , karena sebagian besar kejadian dalam
pemodelan dengan nilai dependent berupa data diskrit atau dengan asumsi
output merupakan suatu probabilitas tidak dapat serta merta di modelkan
secara linier (gujarati 2004 ::hal 593 ). Oleh karena itu kita memerlukan
model alternatif yang dapat digunakan relatif memenuhi asumsi –asumsi
diatas dan logis atau dapat di interpretasikan secara fundamental yaitu
dengan pemodelan Logit
Transformasi πi: Model Logit dan Probit

Untuk membuat harga πi selalu berada diantar 0 dan 1, maka kita
memerlukan suatu fungsi monoton positif (non decreasing) yang memetakan
linear prediktor η = α+βX ke unit interval. Transformasi tipe ini diharapkan
akan mempertahankan struktur linear dari model, dan menghindari nilai
peluang berada diluar interval [0,1]. Sembarang fungsi distribusi kumulatif
(CDF) akan memenuhi kriteria diatas
πi = P(Yi=1|X=xi)= P (ηi) = P (α+ βXi)
Dimana fungsi CDF P () dipilih sebelumya dan α, β adalah parameter-
parameter yang akan diestimasi. Fungsi P () diasumsikan smooth dan
simetris, dan mendekati nilai symmetric π=0 dan 1 secara asimtotis.
Jika fungsi P() diasumsikan strictly increasing,maka model dapat ditulis
ulang sebagai
P-1(πi )= ηi = α+ βXi
Untuk transformasi P(), sering digunakan CDF dari distribusi normal standar
1 2
1 z x
φ ( z) =
2π
∫e
∞
2
dx
atau, lebih umum, fungsi logistik

1 eZ
Λ( z ) = =
1 + e −Z 1 + e Z
Disini konstanta π ≈3.141 dan e ≈2.718.
Dengan menggunakan CDF normal φ (z ) diperoleh linear probit model
1
1 α + β xi x2
π i = φ (α + βxi ) =
2π
∫∞
e 2 dx
Sementara itu, dengan menggunakan fungsi logistik, diperoleh linear logistik

regression atau linear logit model
1 e α + βxi
π i = Λ (α + β xi ) = =
1 + e −α + βxi 1 + e α + βxi
Secara umum, harga transformasi fungsi logit dan fungsi probit ekuivalen
nilainya, kecuali pada nilai ekstrem dari π i . Akan tetapi, ada dua kelebihan
dari fungsi logit dibandingkan dengan model probit
1. Simplicity
Persamaan dari fungsi logistic relatif sederhana, sedangkan fungsi normal
lebih kompleks. Perbedaan ini bersifat trivial untuk data dikotomi, tetapi
untuk data polythomus, dimana diperlukan model multivariat logistic atau
multivariat normal, terlihat bahwa model logistic akan jauh lebih sederhana
2. Interpretability
Transformasi invers dari logit model Λ−1 (π i ) dapat diinterpretasikan langsung
sebagai log-odds, sedangkan transformasi invers φ −1 (π i ) tidak memiliki
interpretasi lansung.
– Untuk logit model, pandang nilai rasio odds
πi
= e α + βx i
1− πi
πi
Maka diperoleh log = α + βX i .
1− πi
πi
–Transformasi Λ−1 ( Pi ) = log disebut logit dari π, yakni nilai log dari odds
1− π i
ratio kejadian Y bernilai 1 (kejadian sukses) dibandingkan dengan dengan
kemungkinan bernilai 0 .
–Fungsi logit bersifat simetrik disekitar 0 dan terbatas diatas dan dibawah.
Model logit dan probit diatas dapat secara langsung diperluas untuk model
dengan beberapa variabel prediktor. Sementara model dengan variabel
response polythomus tidak dibahas pada workshop ini .
Interpretasi Model Logit dan Probit
Contoh interpretasi Model Logit

Misal disini kita akan memodelkan masalah efek metode pengajaran yang
berbeda. Dimiliki data berikut:
Y= 1 jika nilai akhir A
0 jika nilai akhir B atau C
X1= nilai awal test
X2= 1 metode pembelajaran A
0 metode pembelajaran B
X3= IPK
Misalkan dari output program didapatkan hasil sebagai berikut:
Dependen :Nilai
Metode:Logit
variabel Koefisien p-value
Constant -11.011 0.010
X1 0.08761 0.000
X2 2.13211 0.021
X3 1.9971 0.040
Maka model logitnya telah kita dapatkan yaitu

π i = −11.001 + 0.088 X 1 + 2.13 X 2 + 1.998 X 3
Interpretasi hasil disini bukan lah nilai kuantitatif dari response melainkan
probabilitas /pelung terjadinya suatu event dalam hal ini mendapatkan nilai A
Dengan persamaan distribusi komulatif
1
π i = E (Y = 1 | X i ) = − ( β1 + β 2 X I )
1+ e
E (Y = 1 | X ) dibaca harga harapan/peluang terjadinya suatu event dengan
nilai kuantitatif 1 dalam hal ini mendapatkan nilai A didalam response dengan
input /prediktor X
Maka jika terdapat seseorang dengan kriteria

X1= (Nilai awal test) 20
X2=(medapatkan kriteria metode pembelajaran A ) 1
Berapakah kemungkinan ia mendapatkan nilai A ialah ????
Kita gunakan model
Z i = −11.001 + 0.088 X 1 + 2.13 X 2 + 1.998 X 3
= −11.001 + 0.088(20) + 2.13(1) + 1.998(4)
= 0.8671
1
π i = E (Y = 1 | X ) = − ( 0.8671)
= 0.703018
1+ e
Atau dengan kata lain orang tersebut memiliki peluang sebesar 70% untuk
mendapatkan nilai A dengan kondisi demikian
Contoh interpretasi Model Probit
Misalkan dimiliki data tentang kepemilikan rumah, dengan variabel

Y= 1 jika memiliki rumah
0 jika tidak memiliki rumah
X1= pendapatan (dalam juta)
Misalkan hasil estimasi diperoleh sebagai berikut
Dependen :I
Metode:Probit
variabel Koefisien p-value
Constant -0.8133 0.003
X1 0.05846 0.021
Maka diperoleh peluang kepemilikan rumah

1
1 -0.8133+ 0.05846 xi x2
π i = φ (-0.8133 + 0.05846 xi ) =
2π
∫∞
e 2 dx
Misalkan dimiliki nilai pendapatan 1 (juta rupiah). Maka diperoleh

φ[−0.8133 + 0.054846(1)] = φ (−0.7258) , dengan φ (−0.7258) adalah nilai cdf
normal standard dititik − 0.7258 . Jika kita lihat didalam tabel cdf normal
standar maka dapat diketahui bahwa φ (−0.7258) ialah sekitar 0.3066.
Diperoleh disini peluang kepemilikan rumah sebesar 0.3 untuk penghasilan 1

juta.
Studi kasus 2.4.1. (Analisa regresi logistik untuk data tabular).

Dimiliki data tabular (hypothetik) berikut (Gujarati, 2004)
X (Income, Ni (Jumlah Ni(jumlah

dalam juta Keluarga dengan keluarga yang
rupiah) income tersebut) memiliki
rumah)
6 40 8
8 50 12
10 60 18
13 80 28
15 100 45
20 70 36
25 65 39
30 50 33
35 40 30
40 25 20
Lakukan analisa regresi logistik untuk mengestimasi peluang kepemilikan

rumah diberikan suatu nilai income.
Studi Kasus 2.4.2. Analisa regresi logistik logit untuk data non
tabular
Dimiliki data hipotetik yang tersedia pada file logit.txt. Lakukan analisa
regresi logistik terhadap variabel y terhadap semua variabel independen lain.
Studi Kasus 2.4.3. Analisa regresi logistik probit untuk data non
tabular
Dimiliki data hipotetik yang tersedia pada file probit.txt. Lakukan analisa
regresi logistik terhadap variabel y terhadap semua variabel independen x.
2.5. Pengantar Analisa Runtun Waktu dengan R
Pada R Analisa time series dasar dapat dilakukan dengan library ts

(mulai versi 1.7 digabung kedalam library stats), Analisa lebih lanjut dapat
dilakukan dengan library: R-metrics (library fSeries untuk analisa model
ARIMA, ARCH/GARCH), tseries. Pada bagian ini kita tidak menggunakan
fasilitas GUI pada prakteknya namun akan kita gunakan perintah-perintah
pada console R-base. Jadi untuk sesi terakhir ini hanya akan diberikan
pengenalan dan demo penggunaan R dalam Time Series Analysis. Lebih
lanjut pengantar pengenealan R dalam time series analysis yaitu sebagai
berikut
Deskripsi data runtun waktu:

Adalah data yang dikumpulkan, dicatat, atau diobservasi berdasarkan
urutan waktu
Tujuan analisa runtun waktu secara umum adalah untuk menemukan
bentuk pola variasi dari data dimasa lampau dan menggunakan
pengetahuan ini untuk melakukan peramalan terhadap sifat-sifat dari
data dimasa yang akan datang
Pemodelan data Runtun Waktu

Untuk tujuan peramalan, data runtun waktu sering didekomposisikan
kedalam empat komponen utama:
Trend: bentuk penurunan atau pertambahan data
Musiman (seasonal) : fluktuasi berulang (dan beraturan) dalam suatu
kurun waktu tertentu
Siklikal (cyclical): pola siklus, umumnya periode waktu relatif lebih
panjang dibanding musiman
Komponen tak beraturan (irregular): pola acak
Model dengan trend

Data time series Xt didekomposisikan kedalam komponen trend Tt,
seasonal St dan irregular et
Trend dapat dimodelkan dengan berbagai cara

∞
Linear filtering Tt = ∑λ X
i = −∞
i t +i ,contoh, rata-rata bergerak (moving average)
a
1
Tt = ∑ X t +i
2a + 1 i = a
Regresi trend, contoh: model parabola X t = β 0 + β 1t + β 1t 2 + ε t
Model kausal
Alternatif pemodelan data runtun waktu dengan komponen trend (tetapi
tidak seasonal) adalah dengan menggunakan model ARIMA
(autoregressive integrated moving average) yang diusulkan Box Jenkins
Model dengan komponen musiman dapat dianalisa dengan model SARIMA
(seasonal ARIMA)
Eksponensial Smoothing
Untuk keperluan peramalan, seringkali dilakukan dengan metode
penghalusan eksponensial, yakni dengan cara mendapatkan model tanpa
komponen irregular
Prediksi nilai satu satuan waktu kedepan diketahui data dari Xt sampai
pada waktu t=τ adalah dengan menggunakan rata-rata terbobot dari data
dimasa yang lampau
Lebih lanjut tentang Eksponensial Smoothing

Pada eksponensial smoothing nilai λi diberikan sebagai bobot geometrik,
yakni λi=α(1- α)I, 0< α<1
Model diatas hanya digunakan untuk data tanpa komponen trend
dan/atau musiman
Jika mengandung komponen trend dan/atau musiman dapat digunakan
metode penghalusan Holt-Winters, yang memerlukan tiga parameter
penghalusan, yakni α (untuk “level” dari proses), β (untuk penghalusan
trend), dan γ (untuk komponen musiman)
Studi Kasus : Pengenalan Time series

STUDI Work file (Image) : Beer.dat (silahkan di load image yang tersedia)
KASUS
2.2 Ilustrasi
Sebuah perusahaan minuman ingin melakukan Peramalan terhadap
data yang dimiliknnya, guna kepentingan perusahaan kedepannya.
Dengan data runtun waktu yang dimiliki perusahaan tersebut akan
dilakukan analisa Time Series dengan metode Exponensial smoothing
meramal 12 periode kedepan serta 4 tahun kedepan.
Langkah komputasi Time Series
#Contoh Exponential Smoothing menggunakan metode Holt WInter

HWSmoth=HoltWinters(beer)
#menggunakan Exponential Smoothing untuk data beer data dan menyimpan hasil kedalam
objek HWSmoth
HWSmoth
#menunjukan output , smotthing parameter, alpha=0,076; beta=0,07

dan gamma=0.145 dalam kasus ini .
plot(beer)
HWSmoth$fitted
#menunjukan list nilai fitted value (pencocokan), seasonal

(musiman ), trend and irregular components
lines(HWSmoth$fitted[,2],col="red")
#menambahkan fitted data kedalam plot
Lanjutan Langkah komputasi Time Series
#Prediksi menggunakan hasil dari exponential smothing model
predict(HWSmoth,n.ahead=12)
#menampilkan untuk nilai prediksi pada 12 periode selanjutnya

(contoh Sep. 1995 to Aug.1996).
plot(beer,xlim=c(1956,1999))
lines(predict(HWSmoth,n.ahead=48),col=2)
# prediksi untuk 4 tahun kedepan (contoh 48 bulan):
Daftar Pustaka
Gujarati, D., 2004, Basic Econometrics, Mc Graw Hill

Rosadi, D., 2005, Modul Praktikum Komputasi Statistika, Lab Komputasi
Statistika Matematika, FMIPA UGM
Santoso, S., 2004, Buku Latihan SPSS Statistik Parametrik, Elex Media
Komputindo, Jakarta

Analisa Data JGOS

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisa Data JGOS

Uploaded by

Copyright:

Available Formats

JGOS 2005, © Dedi Rosadi

2.1. Penggunaan R GUI (Rcommander)

2. Menggunakan Menu File

3. Menggunakan menu Data

Melakukan uji rata-rata seperti uji z t-test ANOVA dengan vara

2.2. Analisa Korelasi dengan R-Commander

2.2.2. Analisa korelasi parsial

2.2.3. Korelasi untuk data ordinal

Studi kasus 2.2.3. Dimiliki data nilai_karyawan.sav (Santoso, 2004). Ingin

2.3. Aplikasi Pemodelan Regresi Linier Sederhana dan Regresi

Simple linear regression

Misalkan pernyataan ini akan dibuktikan secara empiris, dengan mengamati

Langkah-langkah analisa regresi sederhana dengan menggunakan R-

Terlihat adanya hubungan linear antara variabel independen dan variabel

Residual standard error: 6.856 on 13 degrees of freedom

Terlihat disini komponen b0 dan b1 signifikan pada α=5%. Model hasil

Uji normalitas dan homokedastik dapat dilakukan dengan menggunakan

data: maxrate ~ usia

5. Untuk mendapatkan nilai-nilai dari fitted value ŷ dari modeldetakjantung

Secara umum, langkah-langkah analisa regresi dapat dilakukan dengan cara

1. Menentukan variabel dependen dan variabel independen dari model

Keterangan langkah-langkah pemodelan

B. Metode Forward Selection

Langkah 3: Diagnostic checking

Langkah 4: Transformasi variabel (tidak dibahas diworkshop)

2.4. Aplikasi Pemodelan Regresi Logistik Dalam R

Misalkan variabel X merupakan pendapatan suatu keluarga dan

Beberapa asumsi LPM

Namun pada kenyataannya model jarang digunakan karena memiliki

Transformasi πi: Model Logit dan Probit

atau, lebih umum, fungsi logistik

Sementara itu, dengan menggunakan fungsi logistik, diperoleh linear logistik

Interpretasi Model Logit dan Probit

Contoh interpretasi Model Logit

Maka model logitnya telah kita dapatkan yaitu

Maka jika terdapat seseorang dengan kriteria

Contoh interpretasi Model Probit

Misalkan dimiliki data tentang kepemilikan rumah, dengan variabel

Maka diperoleh peluang kepemilikan rumah

Misalkan dimiliki nilai pendapatan 1 (juta rupiah). Maka diperoleh

Diperoleh disini peluang kepemilikan rumah sebesar 0.3 untuk penghasilan 1

Studi kasus 2.4.1. (Analisa regresi logistik untuk data tabular).

X (Income, Ni (Jumlah Ni(jumlah

Lakukan analisa regresi logistik untuk mengestimasi peluang kepemilikan

2.5. Pengantar Analisa Runtun Waktu dengan R

Pada R Analisa time series dasar dapat dilakukan dengan library ts

Deskripsi data runtun waktu:

Pemodelan data Runtun Waktu

Model dengan trend

Trend dapat dimodelkan dengan berbagai cara

Lebih lanjut tentang Eksponensial Smoothing

Studi Kasus : Pengenalan Time series

Langkah komputasi Time Series

#Contoh Exponential Smoothing menggunakan metode Holt WInter

#menunjukan output , smotthing parameter, alpha=0,076; beta=0,07

#menunjukan list nilai fitted value (pencocokan), seasonal

#menambahkan fitted data kedalam plot

Lanjutan Langkah komputasi Time Series

#Prediksi menggunakan hasil dari exponential smothing model

#menampilkan untuk nilai prediksi pada 12 periode selanjutnya

# prediksi untuk 4 tahun kedepan (contoh 48 bulan):

Gujarati, D., 2004, Basic Econometrics, Mc Graw Hill

You might also like