You are on page 1of 9

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981

VOL. 6 NO. 1 Maret 2013


125



PENANGANAN OVERDISPERSI DENGAN MODEL REGRESI BINOMIAL
NEGATIF I PADA STUDI KASUS PENGGOLONGAN RESIKO JUMLAH
KLAIM ASURANSI KENDARAAN DI MALAYSIA


Devni Prima Sari1



ABSTRACT

Poisson regression model is one of the regression models which are often used
to analyze discrete data. Poisson regression has the assumption of equi-
dispersion, a condition in which the value of the mean and variance of the
response variable the same value. In fact, often found in data the variance of
response variable greater than of the mean value (overdispersion). So used
Negative Binomial I to handling overdispersion. In this paper, the Negative
Binomial I regression models will be applied to the data by type of vehicle
insurance claims Malaysia's; Third Party Property Damage (TPPD).

Keywords: Poisson regression model, Negative Binomial, overdispersion

INTISARI

Model regresi Poisson adalah salah satu model regresi yang sering digunakan
untuk menganalisis data diskrit. Metode regresi Poisson mempunyai asumsi
equi-dispersion, yaitu kondisi dimana nilai rataan dan variansi dari variabel
respon bernilai sama. Pada kenyataannya, pada data sering dijumpai variansi
dari variabel respon lebih besar nilai rataannya (overdispersi). Untuk mengatasi
permasalahan tersebut digunakan model regresi binomial negatif I. Dalam tulisan
ini, model regresi binomial negatif I akan diterapkan pada data asuransi
kendaraan Malaysia dengan jenis klaim Third Party Property Damage (TPPD).

Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi



1 Staf Pengajar Jurusan Matematika FMIPA UNP
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
126
PENDAHULUAN
Pengelompokan resiko adalah
proses dari pemodelan statistik
dengan mengelompokan resiko
menurut rating factors dengan
karakteristik-karakteristik yang
dibentuk ke dalam rating classes.
Sebagai contoh, di dalam asuransi
motor yang bisa diberlakukan
sebagai faktor-faktor penilaian dapat
dilihat pada coverage type, vehicle
make, vehicle use and drivers
gender, vehicle year, dan location.
Model regresi Poisson telah
banyak digunakan untuk
memodelkan penggolongan resiko.
Sebagai contoh, McCullagh dan
Nelder [1] dalam buku Generalized
Linear Models menggunakan model
regresi Poisson untuk untuk
memodelkan jumlah klaim pada
peristiwa kerusakan muatan yang
dibawa kapal-kapal di dalam
asuransi laut. Di dalam asuransi
motor, Brockman dan Wright [2]
menerapkan model itu pada klaim
kerusakan kepemilikan motor di UK,
dan Renshaw [3] memakai model
tersebut untuk klaim-klaim motor
yang disediakan oleh suatu
perusahaan asuransi yang
terkemuka di dalam UK.
Selanjutnya, model regresi Poisson
diterapkan oleh Ismail dan Jemain
[4] pada himpunan dari klaim
kerusakan kendaraan pribadi yang
disediakan oleh satu perusahaan
asuransi di Malaysia.
Bagaimanapun, model regresi
Poisson adalah suatu metode
statistika yang digunakan untuk
menganalisis hubungan antara
variabel dependen yang dapat
dihitung (data cacah/count) dengan
satu atau lebih variabel independen,
dimana rataan dan variansinya
sama. Pada prakteknya seringkali
data cacah memperlihatkan variansi
yang sangat besar, dimana variansi
sampel lebih besar dari rataan
sampel (overdispersion). Ketika
model Poisson diaplikasikan untuk
data overdispersi, efisiensi dari
estimasi parameter masih tinggi
tetapi estimasi dari standar error-nya
akan tidak tepat. Sehingga
probabilitas dari interval konfidensi
dan tingkat signifikansinya tidak valid
dan menghasilkan suatu hasil yang
tidak tepat. Oleh karena itu, sasaran
dari penelitian ini untuk
menggunakan model regresi
binomial negatif I sebagai alternatif
jika terjadi kasus overdispersi.
Selanjutnya, model-model regresi
Poisson dan binomial negatif I
dicoba, diuji dan dibandingkan pada
jenis data jumlah klaim Asuransi
motor di Malaysia; Third Party
Property Damage (TPPD)

PENDEKATAN PEMECAHAN
MASALAH
Model Regresi Poisson
Pada regresi Poisson
diasumsikan bahwa variabel
dependen yang menyatakan
jumlah (cacah) kejadian berdistribusi
Poisson, diberikan sejumlah variabel
independen . Y
i
mengikuti
distribusi Poisson, fungsi kepadatan
peluang adalah,

(1
)
atau .
Selanjutnya, dalam regresi
Poisson hubungan tersebut dapat
dituliskan dalam bentuk:

atau dalam bentuk vektor ditulis
sebagai

(0)
Karena nilai , maka digunakan
fungsi link atau
untuk
menghubungkan
dengan fungsi linear , sehingga
hubungan antara dan
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
127
menjadi tepat. Dengan
demikian, model regresi dapat ditulis
dalam bentuk:

(2
)
Untuk memasukkan covariates
dan untuk menjamin non-negatif,
mean atau fitted value diasumsikan
sebagai perkalian, yaitu,
,
(3)
di mana e
i
menunjukkan ukuran
paparan (exposure), x
i
merupakan
vektor p x 1 dari variabel penjelas,
dan merupakan vektor p x 1 dari
parameter regresi.
Untuk mengestimasi
parameter-parameter dalam regresi
Poisson dapat digunakan metode
estimasi maksimum likelihood
(MLE). Langkah pertama yang
dilakukan adalah menentukan fungsi
likelihood dari model regresi
Poisson. Selanjutnya dari fungsi
likelihood diambil nilai lognya
sehingga diperoleh fungsi log-
likelihood dari persamaan di atas
sebagai berikut:

(4
)
Kemudian persamaan (4) diturunkan
terhadap dan disamakan dengan
nol, yaitu:

(5
)
Sehingga persamaan (5) sama
dengan weighted least square
(WLS), estimasi likelihood
maksimum, , dapat diestimasi
dengan menggunakan Iterative
Weighted Least Squares (IWLS).

Binomial Negatif I (NB I)
Diasumsi untuk berdisribusi
gamma dengan mean
dan varians , dan
menjadi berdisribusi Poisson
dengan rataan bersyarat
dapat ditunjukkan
bahwa distribusi marjinal
mengikuti distribusi binomial
negatif dengan fungsi kepadatan
peluang,

(
6
)
di mana mean , dan
variansi adalah
.
Parameter berbeda dapat
menghasilkan berbagai jenis
distribusi Binomial Negatif. Misalnya,
dengan mengambil v
i
=
-1
,
mengikuti sebuah distribusi
Binomial Negatif dengan mean E ( )
= dan variansi Var ( ) = (1 +
), di mana menunjukkan
parameter dispersi (Lawless, 1987);
(Cameron & Trivedi, 1986).
Sehingga persamaan (6) menjadi,

(
7
)
Jika sama dengan nol, mean
dan variansi akan sama, E( ) =
Var( ), akan menjadi distribusi
Poisson. Jika > 0, variansi akan
melebihi mean, Var( ) > E( ), dan
distribusi memungkinkan
overdispersi. Dalam tulisan ini,
distribusi akan disebut sebagai
Binomial Negatif I.
Untuk mengestimasi
parameter dan dalam regresi
binomial negatif I dapat digunakan
metode Maximum Likelihood
Estimation (MLE). Jika diasumsikan
bahwa mean atau fitted value adalah
multiplikatif, yaitu,
,
diperoleh fungsi log-likelihood untuk
regresi Binomial Negatif I sebagai
berikut:
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
128

(8)
Oleh karena itu, estimasi
kemungkinan maksimum, ,
dapat diperoleh dengan
memaksimalkan terhadap
dan . Persamaan terkait adalah,

(9
)
dan,

(10)
Pendekatan yang lebih mudah
untuk mengestimasi adalah dengan
menggunakan perkiraan yang
disarankan oleh (Breslow, 1984),
yaitu dengan menyamakan Pearson
Chi-Square Statistic dengan derajat
bebas,

(11)
di mana n menunjukkan jumlah
rating classes dan p jumlah
parameter regresi. Prosedur iterasi
seperti yang disebutkan di atas juga
dapat digunakan, kali ini
menghasilkan MLE dari dan
estimasi moment dari , .
Dalam tulisan ini, ketika
diestimasi dengan MLE, model akan
disebut sebagai Binomial Negatif I
(MLE). Demikian juga, ketika
diestimasi dengan metode moment,
model akan disebut sebagai
Binomial Negatif I (moment).

Evaluasi Model
Pearson Chi-Square
Ukuran lain yang bisa digunakan
untuk uji goodness of fit yaitu
statistik Pearson Chi- Square
(McCullagh & Nelder, 1989) yang
didefinisikan sebagai

(12)

Deviance
Deviance yaitu logaritma dari uji
rasio likelihood-nya (McCullagh &
Nelder, 1989). Uji rasio likelihoodnya
membandingkan current model-nya
dengan saturated model-nya.
Deviance dituliskan sebagai berikut:

(13)
di mana dan adalah
model log likelihood yang dievaluasi
masing-masing di bawah dan .
Untuk model yang memadai, D juga
memiliki asimtotik distribusi chi-
squre dengan n - p derajat
kebebasan. Oleh karena itu, jika
nilai-nilai untuk kedua Pearson Chi-
Square dan D adalah dekat dengan
derajat kebebasan, model dapat
dianggap memadai.

AIC dan BIC
Ketika beberapa model cocok,
dapat membandingkan performa
model-model alternatif berdasarkan
beberapa kemungkinan langkah-
langkah yang telah diusulkan dalam
literatur statistik. Dua yang paling
sering digunakan adalah ukuran
Akaike Information Criteria (AIC) dan
Bayesian Schwartz Information
Criteria (BIC). AIC didefinisikan
sebagai

(14)
dimana menunjukkan log-likelihood
dievaluasi di bawah dan jumlah
parameter.
Untuk ukuran ini, semakin kecil AIC,
semakin baik model.
BIC didefinisikan sebagai
(Schwarz, 1978),

(15)
mana menunjukkan log-likelihood
dievaluasi di bawah , p jumlah
parameter dan n jumlah rating
classes. Untuk ukuran ini, semakin
kecil BIC, semakin baik model.

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
129
HASIL DAN PEMBAHASAN
Data
Asuransi kendaraan pada
umumnya menangani tiga jenis
klaim, yaitu kerusakan kendaraan
karena kecelakaan/kesalahan
sendiri (Own Damage/OD),
terjadinya luka-luka pihak ketiga
(Third Party Bodily Injury/TPBI), dan
kerusakan properti pihak ketiga
(Third Party Property
Damage/TPPD). Dalam penelitian
ini, akan disajikan aplikasi numerik
dari model regresi Poisson pada
data TPPD klaim asuransi untuk
mobil pribadi dari perusahaan
asuransi di Malaysia. Secara
khusus, klaim TPPD mencakup
kewajiban hukum untuk penggunaan
kendaraan bermotor yang
diasuransikan. Data, yang
didasarkan pada kebijakan 170.000
mobil pribadi selama tiga tahun,
periode 1998-2000, telah disediakan
oleh Asosiasi Asuransi Umum
Malaysia (PIAM). Pemaparan ini
dinyatakan dalam unit mobil per
tahun dan terjadi klaim terdiri dari
klaim yang sudah dibayar maupun
yang outstanding. Tabel 3.1
menunjukkan rating factors dan
rating classes untuk exposure dan
klaim yang dikeluarkan. Dalam hal
ini, terdapat 2 2 3 x 4 x 5 = 240
perkalian rating classes yang
diklasifikasikan menurut frekuensi
klaim. Data lengkap, yang berisi
exposure, claim counts, rating
factors dan rating classes
ditampilkan pada lampiran.

Tabel 1 Rating factors dan rating classes untuk data Malaysia
Rating Factors Rating Classes
Coverage type
Comprehensive
Non-Comprehensive
Vehicle make
Local
Foreign
Vehicle use and drivers gender
Private-male
Privat-female
Business
Vehicle year
0-1 year
2-3 year
4-5 year
6+ year
Location
Central
North
East
South
East Malaysia

Pencocokan hanya melibatkan
data sejumlah 108 poin karena
terdapat tujuh kelas yang memiliki
nilai exposure sama dengan nol dan
125 poin yang memiliki jumlah klaim
sama dengan nol. Variabel dalam
penelitian ini terdiri dari variabel
respon dan prediktor.

Hasil Analisis Data
Data jumlah klaim dimodelkan
dengan menggunakan model regresi
Poisson untuk mengetahui
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
130
hubungan antar variabel respon
dengan rating factors. Selanjutnya,
untuk mengetahui pengaruh yang
diberikan setiap rating factors
tersebut, dilakukan analisis
Deviance dengan menggunakan
program R. Tabel 2 memberikan
hasil analisis deviance model regresi
Poisson yang memuat rating factors.

Tabel 2. Analisis deviance model regresi Poisson untuk masing-masing rating
factors


Berdasarkan analisis deviance,
model terbaik adalah model yang
semua rating factors signifikan.
Selanjutnya untuk mengetahui
pengaruh yang diberikan setiap
variabel penjelas dilakukan
pengujian parameter. Hasil estimasi
parameter untuk masing-masing
rating factors, dapat dilihat pada
tabel 3.

Tabel 3. Estimasi Parameter untuk model regresi Poisson


Nilai p-value untuk parameter
business, non-comprehensive dan
non-comprehensive, 2-3year sama
dengan 0.30089, 0.54663 dan
0,35649, nilai ini mengidentifikasikan
bahwa estimasi parameter tidak
signifikan. Dengan demikian nilai-
nilai parameter yang tidak signifikan
tersebut dikombinasikan dengan
intercept. Kemudian dilakukan
estimasi ulang sampai semua nilai
signifikan.




JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
131
Tabel 4. Poisson vs Binomial Negatif I
est std.error p-value est std.error p-value est std.error p-value
a 0,002 0,048
Intercept -2,495 0,032 0,000 -2,512 0,037 0,000 -2,597 0,079 0,000
Foreign -0,093 0,028 0,001 -0,091 0,031 0,004 -0,077 0,061 0,203
Private-female -0,505 0,033 0,000 -0,507 0,035 0,000 -0,514 0,062 0,000
North -0,218 0,031 0,000 -0,204 0,035 0,000 -0,161 0,073 0,027
East -0,424 0,059 0,000 -0,418 0,061 0,000 -0,396 0,094 0,000
East-Malaysia -0,510 0,062 0,000 -0,508 0,064 0,000 -0,498 0,093 0,000
Comprehensive, 2-3 year -0,386 0,037 0,000 -0,380 0,043 0,000 -0,330 0,088 0,000
Comprehensive, 4-5 year -0,633 0,041 0,000 -0,618 0,046 0,000 -0,546 0,091 0,000
Comprehensive, 6+ year -0,788 0,039 0,000 -0,765 0,044 0,000 -0,666 0,088 0,000
Non-comprehensive, 4-5 year -0,903 0,269 0,001 -0,895 0,270 0,001 -0,835 0,294 0,005
Non-comprehensive, 6+ year -1,293 0,069 0,000 -1,283 0,073 0,000 -1,235 0,117 0,000
df 97 96 96
Pearson's X^2 297,78 262,32 97,00
Deviance 149,31 261,75 97,21
Deviance 149,31 261,75 97,21
log L -409,99 -41280,26 -24475,29
Parameter
Poisson Binomial Negatif I (MLE) Binomial Negatif I (moment)

Tabel. 4 memperlihatkan
perbandingan antara model regresi
Poisson dengan model regresi
binomial negatif I. Parameter regresi
untuk semua model memberikan
nilai-nilai yang mendekati. Nilai
standar error untuk model regresi
binomial negatif I (MLE) dan
binomial negatif I (moment) besar
dari Poisson. Walaupun nilai standar
error untuk binomial negatif I
(moment) paling besar, tetapi
parameter regresi tidak signifikan.
Dalam kasus ini, model terbaik
adalah model regresi binomial
negatif I (MLE).

KESIMPULAN
Pertama, analisis regresi
Poisson adalah analisis regresi
dimana variabel dependennya
diasumsikan berdistribusi Poisson
dan nilai dari variabel dependennya
adalah count (cacah) dan non
negatif. Sedangkan nilai untuk
variabel independennya dapat saja
bernilai real, cacah atau kategorik.
Asumsi pada regresi Poisson
, pada kenyataannya
sering ditemukan kasus dimana
maka dikatakan
terjadi overdispersi, untuk
mengetahui adanya overdispersi
adalah dengan melihat nilai
deviance yang dibagi dengan derajat
bebasnya atau Pearson Chi-Square
yang dibagi dengan derajat
bebasnya. Model regresi Binomial
Negatif I dapat digunakan untuk
mengatasi permasalahan
overdispersi yang terjadi pada model
regresi poison. Kedua, cara menguji
model regresi Binomial Negatif I
terbaik untuk penggolongan resiko
pada jumlah klaim yaitu pengujian
signifikansi parameter regresi
menggunakan uji normalitas dengan
melihat p-value nya. Ketiga, hasil
dari beberapa contoh analisis data
pada jenis data jumlah klaim
Asuransi motor di Malaysia; Third
Party Property Damage (TPPD)
menunjukkan bahwa model regresi
Binomial Negatif I (MLE) merupakan
model yang paling tepat digunakan
untuk data yang bersifat overdispersi
dibandingkan dengan model regresi
Poisson.

DAFTAR PUSTAKA
[1] McCullagh, P., & Nelder, J.
1989. Generalized Linear
Models (2nd Edition ed.).
London: Chapman and Hall.

[2] Cameron, A. C., & Trivedi, P. K.
1986. Econometric Models
Based on Count Data:
Comparisons and Applications
of Some Estimators and Tests.
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
132
Journal of Applied
Econometrics, 29-53.

[3] Breslow, N. E. 1984. Extra-
Poisson Variation in Log-Linear
Models. Journal of the Royal
Statistical Society , Blackwell
Publishing for the Royal
Statistical Society.


[4] Ismail N & AA. Jemain. 2007.
Handling Overdispersion with
Negative Binomial and
Generalized Poisson
Regression Models. Casualty
Actuarial Society Forum,
Winter, 103-158.

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
133
LAMPIRAN

Program R

a. Model Regresi Poisson
Poisson<- function(data7)
{
x=as.matrix(data7[,-(11:12)])
X=cbind(1,x)
count=as.vector(data7[,12])
x=0
exposure=as.vector(data7[,11])
new.beta <- rep(c(0.001),
dim(X)[2])

for (i in 1:length(count))
{
beta=new.beta
miul=exposure*exp(as.vector
(X%*%beta))
W=diag(miul)
I.inverse=solve(t(X)%*%W%*
%X)
k=(count-miul)/miul
z=t(X)%*%W%*%k
new.beta=as.vector(beta+I.in
verse%*%z)
new.miul=exposure*exp(as.v
ector(X%*%new.beta))

loglikelihood=sum((count*log
(new.miul))-new.miul-
lfactorial(count))
Deviance=sum(count*log(cou
nt/miul)-(count-miul))
pearson=sum((count-
miul)^2/new.miul)
}

varians=as.vector
(diag(I.inverse))
std.error=sqrt(varians)
df=dim(X)[1]-dim(X)[2]
n=dim(X)[1]
p=dim(X)[2]
AIC=-2*loglikelihood+2*p
BIC=-2*loglikelihood+p*log(n)

coef<-c(beta)
SE<-c(std.error)
tstat<-coef/SE
pval=2*pnorm(-abs(tstat))

cat("=====================
========================
==","\n")
frame=data.frame(beta=c("interc
ept","Foreign","Private_female","
North","East","East_Malaysia","c
omp_2_3year","comp_4_5year",
"comp_6year","noncomp_4_5ye
ar","noncomp_6year"),nilai_beta
=new.beta,standar.error=std.err
or,varians=round(varians,3),pval
=round(pval,5))
cat("nilai estimasi beta tiap
dummy","\n")
print(frame,digits=2)
cat("=====================
========================
==","\n")

cat("df =",df,"\n")
cat("Pearson's
X^2=",pearson,"\n")
cat("Deviance =",Deviance,"\n")
cat("log L =",loglikelihood,"\n")
cat("AIC =",AIC,"\n")
cat("BIC =",BIC,"\n")
}
Poisson(data7)

You might also like