You are on page 1of 47

21 Desember 2012

S3-IKM_FKM UI

Rr. Nur Fauziyah


Sarah Handayani
Nurbaiti
Sebelumnya telah diperkenalkan analisis regresi
linier yang digunakan bila variabel tergantung atau
responsnya berskala numerik atau kontinu.

Namun bila kita mempunyai variabel respons yang


bukan numerik melainkan dikotom ( yaitu
mempunyai dua nilai atribut), maka analisis yang
tepat digunakan bukanlah analisis regresi linier
melainkan analisis regresi logistik.
Hosmer & Lomeshow (1989), pernah menyatakan
tentang regresi logistik seperti yang di kutip oleh
Sounders & Trapp (1994), yaitu :

Logistic regression is a model appearing with


increasing frequency in the medical literature ; it is
commonly used when the independent variables
include both numerical and nominal measures and
the outcome variable is binary, or dichotomous,
having only two values. Logistic regression can
also be used when outcome had more than values.

Klainbaum (1992) memberikan definisi regresi


logistik seperti ini, yaitu :

Logistic regression is a mathematical modelling


apporoach that can be used to describe the
relationship of saveral Xs to a dichotomous
dependent variable
Fungsi logistik dapat digambarkan dalam bentuk
matematis dibawah ini :
F(z) = 1
1 + e-2
Dari fungsi regresi logistik diperoleh model regresi
logistik. Model regresi logistik dituliskan dalam
bentuk penjumlahan linear :
Z = + 1X1 + 2X2 + 3X3 + .......kXk
Model ini digunakan untuk data longitudinal
(Klainbaum,1992)
Di dalam konsep epidemiologi, terdapat
pengertian perbandingan antara probabilitas
sakit dan sehat, sebagai pI (1-p) untuk
kondisi variabel X tertentu (misal kondisi
terpajan), yang disebut sebagai ODD. Untuk
hal diatas, maka dapat menghitung ODD
(dapat dicatat bahwa penulisan e (= bilangan
natural euler) berpangkat suatu bilangan bisa
ditulis dengan exp bilangan itu).

ODD = exp (a+bX)


(1-p)

Dari persamaan diatas, maka dapat dilakukan


transformasi, yang disebut sebagai
transformasi logit atau logistik, yaitu dengan
transformasi logaritma nilai e, sehingga
persamaannya disebut sebagai regresi logit
atau regresi logistik.

Log-e ODD = In ODD = Logit (Y=y) = a+bX


Bentuk persamaan ini lebih sederhana, dan
dapat digunakan untuk membandingkan dua
ODD, yang disebut sebagai ODDS RATIO atau
di singkat OR.

Pada kondisi X terpajan (misal X=1),maka


In ODD1 = a + (b*1) = a + b
ODD1 = exp (a + b)

Pada kondisi X tak terpajan (misal X =0), maka:


In ODD0 = a + (b*0) = a
ODD0 = exp (a)
Odds Ratio dihitung dengan membandingkan
dua ODD diatas :

ODD1 = exp(a+b) = exp (b)


ODD0 exp(a)

Jelaslah bahwa dari persamaan regresi logistik


Logit (Y=y) = a + bX, hasil utama yang dapat
dibaca adalah Odds Ratio.
Bila kembali kepada tabel silang 2x2, maka
Odds Ratio dapat dihitung seperti berikut :
Sakit Tidak Sakit
Terpapar a b
Tidak Terpapar c d

Risiko sakit=a/a+b;bila sakit jarang,maka


=a/b=ODD1

Risiko sakit = c/c+d;bila sakit


jarang,maka=c/d=ODD2

ODDS RATIO = ODD1 / ODD2 = (a/b) / (c/d) =


ad / bc
No Jenis Studi
1 Kasus kontrol Odds Terpajan Pada Kasus/Kontrol
(a/c) / (b/d) = ad/bc (OR)
2 Kohort Kemungkinan sakit pada kel
terpajan/tidak terpajan
Rasio Risiko (RR)
3 Studi bukan Hanya dapat dihitung nilai OR, yang pada
kohort studi kasus- kontrol dengan kejadian
sakit jarang (rare disease) akan sama
dengan nilai RR. Sedangkan terapan
analisis regresi logistik pada rancangan
studi potong lintang akan menghasilkan
Estimasi OR.
Regresi Logistik:
Model matematis untuk menganalisis hubungan antara satu
atau beberapa variabel independen yang bersifat kontinu
maupun binary dengan satu variabel dependen yang bersifat
binary/binomial atau dikotom (sehat/sakit, hidup/mati)

Regresi Logistik:
a. Sederhana (simple) hanya satu variabel
independen
b. Ganda (multiple) lebih dari satu variabel
independen
1. Model Prediksi

Analisis ini bertujuan untuk memperoleh model yang


terdiri dari beberapa variabel independen (prediktor) dari
kumpulan besar variabe, yang dianggap terbaik untuk
memprediksi kejadian variabel dependen (outcome).
Pada model ini semua variabel dianggap sama penting,
sehingga dapat dilakukan estimasi beberapa koefisien
regresi logistik sekaligus.
Prosedur pemodelan:

Agar diperoleh model regresi yang hemat


dan mampu menjelaskan hubungan
variabel independen dan dependen dalam
populasi, diperlukan prosedur pemilihan
variabel
1. Melakukan analisis bivariat antara masing-masing
variabel independen dengan variabel dependennya. Bila
hasil uji bivariat mempunyai nilai p < 0,25, maka
variabel tersebut dapat masuk model multivariat.
Namun bisa saja p value > 0,25 tetap diikutkan ke
multivariat bila variabel tsb secara substansi penting
2. Memilih variabel yang dianggap penting yang masuk
dalam model, dengan cara mempertahankan variabel
yang mempunyai p value < 0,05 dan mengeluarkan
variabel yang p valuenya > 0,05. Pengeluaran variabel
tidak serentak semua yang p valuenya > 0,05, namun
dilakukan secara bertahap dimulai dari variabel yang
mempunyai p value terbesar
3. Identifikasi linearitas variabel numerik dengan tujuan
untuk menentukan apakah variabel numerik dijadikan
variabel katagorik atau tetap variabel numerik.

Caranya :
dengan mengelompokkan variabel numerik ke dalam 4
kelompok berdasarkan nilai kuartilnya. Kemudian
lakukan analisis logistik dan dihitung nilai OR-nya. Bila
nilai OR masing-masing kelompok menunjukkan bentuk
garis lurus, maka variabel numerik dapat dipertahankan.
Namun bila hasilnya menunjukkan adanya patahan,
maka dapat dipertimbangkan dirubah dalam bentuk
katagorik.
4. Setelah memperoleh model yang memuat
variabel-variabel penting, maka langkah terakhir
adalah memeriksa kemungkinan interaksi variabel
ke dalam model.

Penentuan variabel interaksi sebaiknya melalui


pertimbangan logika substantif. Pembuktian
interaksi dilihat dari kemaknaan uji statistik. Bila
variabel mempunyai nilai bermakna, maka variabel
interaksi penting dimasukkan dalam model.
2. Model Faktor Resiko

Analisis ini bertujuan untuk mengestimasi secara


valid hubungan satu variabel utama dengan variabel
dependent dengan mengontrol beberapa variabel
confounding
2. Model Faktor Resiko

Pada model ini yang diutamakan adalah nilai


koefisien regresi suatu determinan yang memang
ingin dipelajari. Sedangkan variabel lain-kovariat
dipertimbangkan sebagai variabel kontrol, karena
variabel tersebut ikut berpengaruh (confounding)
atau sebagai faktor modifikasi (interaksi) yag nilai
pengaruhnya tak homogen dalam hubungan
antara determinan dan outcome.
Regresi logistik mempunyai batasan yang longgar
dengan arti regresi logistik mentoleransi asumsi-
asumsi yang harus dipenuhi pada regresi linear.
Seperti, tidak diperlukan asumsi linearitas,
normalitas, homosedascity, dll.
Pada analisis regresi, variabel dependennya berupa
data katagorik yang bisa saja berasal dari data
numerik, yang mengakibatkan terjadi perubahan nilai
dari data numerik tersebut sehingga banyak
kehilangan informasi dari data yang didapat.
Tahapan pemodelan:

1. Lakukan pemodelan lengkap, mencakup variabel


utama , semua kandidat konfonding dan kandidat
interaksi (interaksi dibuat antara variabel utama
dengan semua variabel konfonding).
2.Lakukan penilaian interaksi, dengan cara
mengeluarkan variabel interaksi yang nilai p Wald-
nya tidak signifikan dikeluarkan dari model secara
berurutan satu per satu dari nilai p Wald yang
terbesar.
Tahapan pemodelan:

3. Lakukan penilaian konfonding, dengan cara


mengeluarkan variabel kovariat/ konfonding satu per satu
dimuali dari yang memiliki nilai p Wald terbesar, bila
setelah dikeluarkan diperoleh selisih OR faktor/variabel
utama antara sebelum dan sesudahvariabel kovariat (X1)
dikeluarkan lebih besar dari 10%, maka variabel tersebut
dinyatakan sebagai konfonding dan harus tetap berada
dalam model
1. Meaning coding
2. Inclussion of all relevant variable in the
regression model
3. Exclusion of all irrelevant variabels
4. Low error in the explanatory variables.
5. Linearity
6. Additivity
7. No multicollinearity
8. No outliers
9. Large samples
10. Sampling adequacy
11. The dependent variable need not be normally
distributed
12. The dependent variable need not be
homoscedastic for each level of the
independents; that is, there no homogeneity of
variance assumption.
13. Expected dispersion
Variabel bebas yang dapat digunakan pada
analisis regresi logistik bisa berskala kontinu
atau kategorik. Penjelasan di bawah ini
menuntun kita kepada pemahaman mengapa
analisis regresi logistik yang digunakan untuk
keadaan respons dikotom tersebut.

Maksud dari respons dikotom adalah respons


yang mutually exclusive , misalkan sehat
dan sakit, hidup dan mati .
Diagram tebar dari data dengan variabel binary:
Gambaran sebaran kemampuan melakukan treadmill

di hubungkan dengan kejadian serangan jantung


2.2

2.0

1.8

1.6

1.4

1.2

1.0

.8
400 600 800 1000 1200 1400

Treadmill dalam detik


Persamaan Regresi Logistik:

Logit (Y ) a b1 x1 .... bk xk
1
P(Y ) ( a b1 x1 ..... bk xk )
P = Probabilitas
1 Exp

OR Exp (b )
OR = Odds Ratio
Analisis berikut melihat faktor yang berhubungan dengan pemakaian kondom
pada WTS (0=Tidak,1=Pakai)
Age : Continu
Brothel : 0=No, 1=Yes
Educ : 0=Lo, 1=Med, 2=Hi

------------------ Variables in the Equation ------------------

Variable B S.E. Wald df Sig R Exp(B)

AGE .0108 .0134 .6593 1 .4168 .0000 1.0109


BROTHEL .6165 .1616 14.5530 1 .0001 .1117 1.8525
EDU_G 8.2514 2 .0162 .0650
EDU_G(1) .4443 .1981 5.0283 1 .0249 .0549 1.5594
EDU_G(2) .5704 .2073 7.5705 1 .0059 .0744 1.7690
INCOME .0001 .0002 .7496 1 .3866 .0000 1.0001
Constant -1.5700 .4750 10.9236 1 .0009
a. varibel independen dikotomus (0,1)
Mis: Brothel (0=No, 1=Yes)
OR di brothel dibandingkan dengan tidak di brothel:
OR = e () =e (0.6165) = 1.8525

b. varibel independen politomus (0,1,2,)


Mis: Education (O=Low, 1=Moderate, 2=High)
OR Moderate education dibandingkan dengan Low education:
OR = e () =e (0.4443) = 1.5594
OR High education dibandingkan dengan Low education:
OR = e () =e (0.5704) = 1.7690

c. varibel independen kontinu


OR untuk setiap perubahan c unit pada x adalah sebesar = e c()
Mis: Age
OR pada setiap kenaikan usia 10 th adalah:
OR = e c() =e 10(0.0108) = 1.1140
Tabel Silang:
BROTHEL * CO_L Crosstabulation

Count
OR = 173*279/227*120 = 1.77
CO_L
1=Ya 0=Tdk Total
BROTHEL 1=Ya 173 227 400
RR = (173/400) / (120/399) = 1.44
0=Tdk 120 279 399
Total 293 506 799

Regresi Logistik Sederhana:

--------------------- Variables in the Equation -----------------------


Variable B S.E. Wald df Sig R Exp(B)
BROTHEL .5721 .1487 14.8058 1 .0001 .1104 1.7719
Constant -.8437 .1092 59.7323 1 .0000

OR di brothel dibandingkan dengan tidak di brothel:


OR = e () =e (0.5721) = 1.7719
Regresi Logistik Sederhana:

--------------------- Variables in the Equation -----------------------


Variable B S.E. Wald df Sig R Exp(B)
BROTHEL .5721 .1487 14.8058 1 .0001 .1104 1.7719
Constant -.8437 .1092 59.7323 1 .0000

RR di brothel dibandingkan dengan tidak di brothel:


P1 (Y ) Probabilitas pakai kondom pada WTS di brothel
RR
P0 (Y ) Probabilitas pakai kondom pada WTS bukan di brothel
1 1
P1(Y ) ( a b1 x1 )
( .8437.5721(1))
0.4325
1 Exp 1 Exp
1 1
P0(Y ) ( a b1 x1 )
( .8437.5721( 0 ))
0.3007
1 Exp 1 Exp
P1 (Y ) 0.4325
RR 1.44
P0 (Y ) 0.3007
Logit (Y ) a b1 x1 .... bk xk
Aplikasi pada desain studi Cohort
Menghitung Resiko Individu (probabilitas)
1
P(Y )
1 Exp ( a b1 x1 .... bk xk )
Menghitung Resiko Relatif (RR)
P1 (Y )
RR
P0 (Y )
Desain studi Case-control/Cross-Sectional
Tdk bisa menghitung resiko individu
Hanya bisa menghitung Odds Ratio (OR)

OR Exp (b )
Contoh Soal:

Studi Cohort dilakukan 10 tahun untuk melihat kejadian serangan jantung


(0=Tidak, 1=Ya). Sebagai variabel independennya adalah kadar katekolamin
(KAT), EKG, dan Umur. Dengan persamaan logistik sbb:

Logit (Y ) 3.911 0.652 x1 0.029 x2 0.342 x3


x1 : KAT (0=rendah, 1=tinggi)
x2 : Usia (kontinu dalam tahun)
x3 : EKG (0=normal, 1=tdk normal

a. Berapa probabilitas seseorang untuk mendapatkan serangan jantung


apabila usia=40, EKG=normal, dan KAT=Tinggi
b. Berapa probabilitas seseorang untuk mendapatkan serangan jantung
apabila usia=40, EKG=normal, dan KAT=Rendah
c. Berapa resiko untuk terjadinya serangan jantung pada kelompok
KAT=Tinggi dibandingkan dengan KAT=Rendah pada usia=40 dan
EKG=Normal
Jawab:
Logit (Y ) 3.911 0.652 x1 0.029 x2 0.342 x3
a. Berapa probabilitas seseorang untuk mendapatkan serangan
jantung apabila usia=40, EKG=normal, dan KAT=Tinggi
1
P(Y ) [ 3.911 0.652 (1) 0.029 ( 40) 0.342 ( 0 ) 0109
. 11%
1 e
b. Berapa probabilitas seseorang untuk mendapatkan serangan
jantung apabila usia=40, EKG=normal, dan KAT=Rendah
1
P(Y ) [ 3.911 0.652 ( 0) 0.029 ( 40 ) 0.342 ( 0 ) 0.06 6%
1 e
c. Berapa resiko untuk terjadinya serangan jantung pada kelompok
KAT=Tinggi dibandingkan dengan KAT=Rendah pada usia=40,
EKG=Normal
P(Y ) ( Kat Tinggi ,Usia 40, EKG normal ) 0109
.
182
. RR
P(Y ) ( Kat Re ndah ,Usia 40, EKG normal ) 0.06
Pilihan Menu:
Statistics
Regression <
Logistic

Untuk variabel independen yang kategorikal, pilih:


Categorical
Reference Categori (First, Last)
Change Contrast

Pilihan Options:
- Menghitung CI untuk OR atau exp()
- Memilih nilai untuk entry atau removal
variabel dalam metode Stepwise
Total number of cases: 799 (Unweighted)
Number of selected cases: 799
Number of unselected cases: 0
Number of selected cases: 799
Number rejected because of missing data: 35
Number of cases included in the analysis: 764

Dependent Variable Encoding:


Original Internal
Value Value
.00 0
1.00 1
Parameter
Value Freq Coding
(1) (2)
EDU_G
.00 262 .000 .000
1.00 249 1.000 .000
2.00 253 .000 1.000

Keterangan diatas menyatakan ada 799 kasus (subjek), namun 35 kasus tidak
diikutkan dalam analysis karena missing value

SPSS mengubah variabel kategorikal (EDU_G) menjadi variabel kontras


(dummy) EDU_G (1) dan EDU_G (2)
Dependent Variable.. CO_L
Beginning Block Number 0. Initial Log Likelihood Function
-2 Log Likelihood 1006.1579

Beginning Block Number 1. Method: Enter


Variable(s) Entered on Step Number 1..
AGE
BROTHEL
EDU_G
INCOME
Estimation terminated at iteration number 3 because
Log Likelihood decreased by less than .01 percent.
-2 Log Likelihood 981.324
Goodness of Fit 761.257
Chi-Square df Significance
Model 24.834 5 .0002
Block 24.834 5 .0002
Step 24.834 5 .0002

Model dan Block Chi-Square menilai apakah model secara keseluruhan cocok
(fit) dengan data yang ada. Pada model ini p = 0.0002, maka model tsb
cocok dengan data.
Classification Table for CO_L
Predicted
.00 1.00 Percent Correct
0 I 1
Observed +-------+-------+
.00 0 I 460 I 22 I 95.44%
+-------+-------+
1.00 1 I 256 I 26 I 9.22%
+-------+-------+
Overall 63.61%

Pada tabel klasifikasi dapat dilihat kecocokan model dengan data yang ada.
Dari 482 subjek yang tidak pakai kondom, sebanyak 460 (95%) dapat diprediksi
oleh model. Dari 282 subjek yang pakai kondom, hanya 26 (9%) yang dapat
diprediksi oleh model.
Jika tidak pakai kondom dianggap sebagai hasil yang ingin diprediksi, maka dapat
dikatakann sensifitas model adalah 95%. Secara keseluruhan akurasi model
adalah 63.6%.
Dari hasil analysis diperoleh Model Regresi Logistik sbb:

------------------ Variables in the Equation ------------------

Variable B S.E. Wald df Sig R Exp(B)

AGE .0108 .0134 .6593 1 .4168 .0000 1.0109


BROTHEL .6165 .1616 14.5530 1 .0001 .1117 1.8525
EDU_G 8.2514 2 .0162 .0650
EDU_G(1) .4443 .1981 5.0283 1 .0249 .0549 1.5594
EDU_G(2) .5704 .2073 7.5705 1 .0059 .0744 1.7690
INCOME .0001 .0002 .7496 1 .3866 .0000 1.0001
Constant -1.5700 .4750 10.9236 1 .0009

Persamaan regresi logistik (logit):


Logit (Y ) 1.57 0.018x1 0.6165x2 0.4443x31 0.5704 x32 0.0001x4
Model yang fit (cocok):
Model yang hanya terdiri dari variabel independen yang
berkontribusi pada model atau benar-benar berhubungan
dengan dependen variabel
Metode Maximum-Likelihood

Uji hipotesis (=0):


1. Likelihood Ratio Test (LRT) Pendekatan distribusi X2
Full model Logit (y) = + 1x1 L1
Reduce model Logit (y) = L2
G = -2 {ln L2 ln L1}
Critical Region: G > X2 tabel (, df= jumlah var x yang diuji)
atau p-value <

2. Wald Test Pendekatan distribusi Z


Wald = /SE
Critical Region: Wald > Z (/2) atau p-value <
Full model (AGE, Brothel, EDU, INCOME)
- 2 log likelihood = 981.324 . L1
Recude model (Brothel, EDU, INCOME)
- 2 log likelihood = 981.983 . L2
Likelihood Ratio Test
G = L2 L1 = 981.983 981.324 = 0.659
X2 tabel (0.05, df=1) = 3.84

Karena 0.659 < 3.81 maka variabel AGE tidak punya


kontribusi pada model

Hasil tsb sama dengan hasil Wald test dengan p-value yang
tidak signifikan untuk AGE = 0.4168
Dengan merubah varibel AGE, dari kontinu menjadi
kategori (0,1,2) maka variabel AGE menjadi signifikan:
---------------------- Variables in the Equation -----------------------

Variable B S.E. Wald df Sig R Exp(B)

BROTHEL .6242 .1635 14.5689 1 .0001 .1118 1.8667


EDU_G 8.9099 2 .0116 .0699
EDU_G(1) .4578 .1970 5.4001 1 .0201 .0581 1.5806
EDU_G(2) .5901 .2068 8.1459 1 .0043 .0782 1.8042
AGE_G 6.8484 2 .0326 .0532
AGE_G(1) .4962 .1896 6.8469 1 .0089 .0694 1.6424
AGE_G(2) .3039 .2170 1.9609 1 .1614 .0000 1.3551
INCOME .0002 .0002 1.5501 1 .2131 .0000 1.0002
Constant -1.5835 .2512 39.7472 1 .0000
Perbandingan Likelihood Ratio Test (LRT) dengan Wald
Test:

Secara umum hasil LRT sama dengan Wald


Pada keadaan tertentu jumlah sampel (n) kecil, bisa
saja Wald tidak signifikan tetapi LRT signifikan.
Hal ini disebabkan oleh perhitungan Wald didasarkan
SE, sedangkan SE meningkat dengan semakin
kecilnya jumlah sampel

Jadi untuk jumlah sampel yang kecil LRT lebih sensitif


TERIMA KASIH

You might also like