JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981
VOL. 6 NO. 1 Maret 2013
125
PENANGANAN OVERDISPERSI DENGAN MODEL REGRESI BINOMIAL NEGATIF I PADA STUDI KASUS PENGGOLONGAN RESIKO JUMLAH KLAIM ASURANSI KENDARAAN DI MALAYSIA
Devni Prima Sari1
ABSTRACT
Poisson regression model is one of the regression models which are often used to analyze discrete data. Poisson regression has the assumption of equi- dispersion, a condition in which the value of the mean and variance of the response variable the same value. In fact, often found in data the variance of response variable greater than of the mean value (overdispersion). So used Negative Binomial I to handling overdispersion. In this paper, the Negative Binomial I regression models will be applied to the data by type of vehicle insurance claims Malaysia's; Third Party Property Damage (TPPD).
Model regresi Poisson adalah salah satu model regresi yang sering digunakan untuk menganalisis data diskrit. Metode regresi Poisson mempunyai asumsi equi-dispersion, yaitu kondisi dimana nilai rataan dan variansi dari variabel respon bernilai sama. Pada kenyataannya, pada data sering dijumpai variansi dari variabel respon lebih besar nilai rataannya (overdispersi). Untuk mengatasi permasalahan tersebut digunakan model regresi binomial negatif I. Dalam tulisan ini, model regresi binomial negatif I akan diterapkan pada data asuransi kendaraan Malaysia dengan jenis klaim Third Party Property Damage (TPPD).
Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi
1 Staf Pengajar Jurusan Matematika FMIPA UNP JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 126 PENDAHULUAN Pengelompokan resiko adalah proses dari pemodelan statistik dengan mengelompokan resiko menurut rating factors dengan karakteristik-karakteristik yang dibentuk ke dalam rating classes. Sebagai contoh, di dalam asuransi motor yang bisa diberlakukan sebagai faktor-faktor penilaian dapat dilihat pada coverage type, vehicle make, vehicle use and drivers gender, vehicle year, dan location. Model regresi Poisson telah banyak digunakan untuk memodelkan penggolongan resiko. Sebagai contoh, McCullagh dan Nelder [1] dalam buku Generalized Linear Models menggunakan model regresi Poisson untuk untuk memodelkan jumlah klaim pada peristiwa kerusakan muatan yang dibawa kapal-kapal di dalam asuransi laut. Di dalam asuransi motor, Brockman dan Wright [2] menerapkan model itu pada klaim kerusakan kepemilikan motor di UK, dan Renshaw [3] memakai model tersebut untuk klaim-klaim motor yang disediakan oleh suatu perusahaan asuransi yang terkemuka di dalam UK. Selanjutnya, model regresi Poisson diterapkan oleh Ismail dan Jemain [4] pada himpunan dari klaim kerusakan kendaraan pribadi yang disediakan oleh satu perusahaan asuransi di Malaysia. Bagaimanapun, model regresi Poisson adalah suatu metode statistika yang digunakan untuk menganalisis hubungan antara variabel dependen yang dapat dihitung (data cacah/count) dengan satu atau lebih variabel independen, dimana rataan dan variansinya sama. Pada prakteknya seringkali data cacah memperlihatkan variansi yang sangat besar, dimana variansi sampel lebih besar dari rataan sampel (overdispersion). Ketika model Poisson diaplikasikan untuk data overdispersi, efisiensi dari estimasi parameter masih tinggi tetapi estimasi dari standar error-nya akan tidak tepat. Sehingga probabilitas dari interval konfidensi dan tingkat signifikansinya tidak valid dan menghasilkan suatu hasil yang tidak tepat. Oleh karena itu, sasaran dari penelitian ini untuk menggunakan model regresi binomial negatif I sebagai alternatif jika terjadi kasus overdispersi. Selanjutnya, model-model regresi Poisson dan binomial negatif I dicoba, diuji dan dibandingkan pada jenis data jumlah klaim Asuransi motor di Malaysia; Third Party Property Damage (TPPD)
PENDEKATAN PEMECAHAN MASALAH Model Regresi Poisson Pada regresi Poisson diasumsikan bahwa variabel dependen yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen . Y i mengikuti distribusi Poisson, fungsi kepadatan peluang adalah,
(1 ) atau . Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk:
atau dalam bentuk vektor ditulis sebagai
(0) Karena nilai , maka digunakan fungsi link atau untuk menghubungkan dengan fungsi linear , sehingga hubungan antara dan JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 127 menjadi tepat. Dengan demikian, model regresi dapat ditulis dalam bentuk:
(2 ) Untuk memasukkan covariates dan untuk menjamin non-negatif, mean atau fitted value diasumsikan sebagai perkalian, yaitu, , (3) di mana e i menunjukkan ukuran paparan (exposure), x i merupakan vektor p x 1 dari variabel penjelas, dan merupakan vektor p x 1 dari parameter regresi. Untuk mengestimasi parameter-parameter dalam regresi Poisson dapat digunakan metode estimasi maksimum likelihood (MLE). Langkah pertama yang dilakukan adalah menentukan fungsi likelihood dari model regresi Poisson. Selanjutnya dari fungsi likelihood diambil nilai lognya sehingga diperoleh fungsi log- likelihood dari persamaan di atas sebagai berikut:
(4 ) Kemudian persamaan (4) diturunkan terhadap dan disamakan dengan nol, yaitu:
(5 ) Sehingga persamaan (5) sama dengan weighted least square (WLS), estimasi likelihood maksimum, , dapat diestimasi dengan menggunakan Iterative Weighted Least Squares (IWLS).
Binomial Negatif I (NB I) Diasumsi untuk berdisribusi gamma dengan mean dan varians , dan menjadi berdisribusi Poisson dengan rataan bersyarat dapat ditunjukkan bahwa distribusi marjinal mengikuti distribusi binomial negatif dengan fungsi kepadatan peluang,
( 6 ) di mana mean , dan variansi adalah . Parameter berbeda dapat menghasilkan berbagai jenis distribusi Binomial Negatif. Misalnya, dengan mengambil v i = -1 , mengikuti sebuah distribusi Binomial Negatif dengan mean E ( ) = dan variansi Var ( ) = (1 + ), di mana menunjukkan parameter dispersi (Lawless, 1987); (Cameron & Trivedi, 1986). Sehingga persamaan (6) menjadi,
( 7 ) Jika sama dengan nol, mean dan variansi akan sama, E( ) = Var( ), akan menjadi distribusi Poisson. Jika > 0, variansi akan melebihi mean, Var( ) > E( ), dan distribusi memungkinkan overdispersi. Dalam tulisan ini, distribusi akan disebut sebagai Binomial Negatif I. Untuk mengestimasi parameter dan dalam regresi binomial negatif I dapat digunakan metode Maximum Likelihood Estimation (MLE). Jika diasumsikan bahwa mean atau fitted value adalah multiplikatif, yaitu, , diperoleh fungsi log-likelihood untuk regresi Binomial Negatif I sebagai berikut: JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 128
(8) Oleh karena itu, estimasi kemungkinan maksimum, , dapat diperoleh dengan memaksimalkan terhadap dan . Persamaan terkait adalah,
(9 ) dan,
(10) Pendekatan yang lebih mudah untuk mengestimasi adalah dengan menggunakan perkiraan yang disarankan oleh (Breslow, 1984), yaitu dengan menyamakan Pearson Chi-Square Statistic dengan derajat bebas,
(11) di mana n menunjukkan jumlah rating classes dan p jumlah parameter regresi. Prosedur iterasi seperti yang disebutkan di atas juga dapat digunakan, kali ini menghasilkan MLE dari dan estimasi moment dari , . Dalam tulisan ini, ketika diestimasi dengan MLE, model akan disebut sebagai Binomial Negatif I (MLE). Demikian juga, ketika diestimasi dengan metode moment, model akan disebut sebagai Binomial Negatif I (moment).
Evaluasi Model Pearson Chi-Square Ukuran lain yang bisa digunakan untuk uji goodness of fit yaitu statistik Pearson Chi- Square (McCullagh & Nelder, 1989) yang didefinisikan sebagai
(12)
Deviance Deviance yaitu logaritma dari uji rasio likelihood-nya (McCullagh & Nelder, 1989). Uji rasio likelihoodnya membandingkan current model-nya dengan saturated model-nya. Deviance dituliskan sebagai berikut:
(13) di mana dan adalah model log likelihood yang dievaluasi masing-masing di bawah dan . Untuk model yang memadai, D juga memiliki asimtotik distribusi chi- squre dengan n - p derajat kebebasan. Oleh karena itu, jika nilai-nilai untuk kedua Pearson Chi- Square dan D adalah dekat dengan derajat kebebasan, model dapat dianggap memadai.
AIC dan BIC Ketika beberapa model cocok, dapat membandingkan performa model-model alternatif berdasarkan beberapa kemungkinan langkah- langkah yang telah diusulkan dalam literatur statistik. Dua yang paling sering digunakan adalah ukuran Akaike Information Criteria (AIC) dan Bayesian Schwartz Information Criteria (BIC). AIC didefinisikan sebagai
(14) dimana menunjukkan log-likelihood dievaluasi di bawah dan jumlah parameter. Untuk ukuran ini, semakin kecil AIC, semakin baik model. BIC didefinisikan sebagai (Schwarz, 1978),
(15) mana menunjukkan log-likelihood dievaluasi di bawah , p jumlah parameter dan n jumlah rating classes. Untuk ukuran ini, semakin kecil BIC, semakin baik model.
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 129 HASIL DAN PEMBAHASAN Data Asuransi kendaraan pada umumnya menangani tiga jenis klaim, yaitu kerusakan kendaraan karena kecelakaan/kesalahan sendiri (Own Damage/OD), terjadinya luka-luka pihak ketiga (Third Party Bodily Injury/TPBI), dan kerusakan properti pihak ketiga (Third Party Property Damage/TPPD). Dalam penelitian ini, akan disajikan aplikasi numerik dari model regresi Poisson pada data TPPD klaim asuransi untuk mobil pribadi dari perusahaan asuransi di Malaysia. Secara khusus, klaim TPPD mencakup kewajiban hukum untuk penggunaan kendaraan bermotor yang diasuransikan. Data, yang didasarkan pada kebijakan 170.000 mobil pribadi selama tiga tahun, periode 1998-2000, telah disediakan oleh Asosiasi Asuransi Umum Malaysia (PIAM). Pemaparan ini dinyatakan dalam unit mobil per tahun dan terjadi klaim terdiri dari klaim yang sudah dibayar maupun yang outstanding. Tabel 3.1 menunjukkan rating factors dan rating classes untuk exposure dan klaim yang dikeluarkan. Dalam hal ini, terdapat 2 2 3 x 4 x 5 = 240 perkalian rating classes yang diklasifikasikan menurut frekuensi klaim. Data lengkap, yang berisi exposure, claim counts, rating factors dan rating classes ditampilkan pada lampiran.
Tabel 1 Rating factors dan rating classes untuk data Malaysia Rating Factors Rating Classes Coverage type Comprehensive Non-Comprehensive Vehicle make Local Foreign Vehicle use and drivers gender Private-male Privat-female Business Vehicle year 0-1 year 2-3 year 4-5 year 6+ year Location Central North East South East Malaysia
Pencocokan hanya melibatkan data sejumlah 108 poin karena terdapat tujuh kelas yang memiliki nilai exposure sama dengan nol dan 125 poin yang memiliki jumlah klaim sama dengan nol. Variabel dalam penelitian ini terdiri dari variabel respon dan prediktor.
Hasil Analisis Data Data jumlah klaim dimodelkan dengan menggunakan model regresi Poisson untuk mengetahui JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 130 hubungan antar variabel respon dengan rating factors. Selanjutnya, untuk mengetahui pengaruh yang diberikan setiap rating factors tersebut, dilakukan analisis Deviance dengan menggunakan program R. Tabel 2 memberikan hasil analisis deviance model regresi Poisson yang memuat rating factors.
Tabel 2. Analisis deviance model regresi Poisson untuk masing-masing rating factors
Berdasarkan analisis deviance, model terbaik adalah model yang semua rating factors signifikan. Selanjutnya untuk mengetahui pengaruh yang diberikan setiap variabel penjelas dilakukan pengujian parameter. Hasil estimasi parameter untuk masing-masing rating factors, dapat dilihat pada tabel 3.
Tabel 3. Estimasi Parameter untuk model regresi Poisson
Nilai p-value untuk parameter business, non-comprehensive dan non-comprehensive, 2-3year sama dengan 0.30089, 0.54663 dan 0,35649, nilai ini mengidentifikasikan bahwa estimasi parameter tidak signifikan. Dengan demikian nilai- nilai parameter yang tidak signifikan tersebut dikombinasikan dengan intercept. Kemudian dilakukan estimasi ulang sampai semua nilai signifikan.
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 131 Tabel 4. Poisson vs Binomial Negatif I est std.error p-value est std.error p-value est std.error p-value a 0,002 0,048 Intercept -2,495 0,032 0,000 -2,512 0,037 0,000 -2,597 0,079 0,000 Foreign -0,093 0,028 0,001 -0,091 0,031 0,004 -0,077 0,061 0,203 Private-female -0,505 0,033 0,000 -0,507 0,035 0,000 -0,514 0,062 0,000 North -0,218 0,031 0,000 -0,204 0,035 0,000 -0,161 0,073 0,027 East -0,424 0,059 0,000 -0,418 0,061 0,000 -0,396 0,094 0,000 East-Malaysia -0,510 0,062 0,000 -0,508 0,064 0,000 -0,498 0,093 0,000 Comprehensive, 2-3 year -0,386 0,037 0,000 -0,380 0,043 0,000 -0,330 0,088 0,000 Comprehensive, 4-5 year -0,633 0,041 0,000 -0,618 0,046 0,000 -0,546 0,091 0,000 Comprehensive, 6+ year -0,788 0,039 0,000 -0,765 0,044 0,000 -0,666 0,088 0,000 Non-comprehensive, 4-5 year -0,903 0,269 0,001 -0,895 0,270 0,001 -0,835 0,294 0,005 Non-comprehensive, 6+ year -1,293 0,069 0,000 -1,283 0,073 0,000 -1,235 0,117 0,000 df 97 96 96 Pearson's X^2 297,78 262,32 97,00 Deviance 149,31 261,75 97,21 Deviance 149,31 261,75 97,21 log L -409,99 -41280,26 -24475,29 Parameter Poisson Binomial Negatif I (MLE) Binomial Negatif I (moment)
Tabel. 4 memperlihatkan perbandingan antara model regresi Poisson dengan model regresi binomial negatif I. Parameter regresi untuk semua model memberikan nilai-nilai yang mendekati. Nilai standar error untuk model regresi binomial negatif I (MLE) dan binomial negatif I (moment) besar dari Poisson. Walaupun nilai standar error untuk binomial negatif I (moment) paling besar, tetapi parameter regresi tidak signifikan. Dalam kasus ini, model terbaik adalah model regresi binomial negatif I (MLE).
KESIMPULAN Pertama, analisis regresi Poisson adalah analisis regresi dimana variabel dependennya diasumsikan berdistribusi Poisson dan nilai dari variabel dependennya adalah count (cacah) dan non negatif. Sedangkan nilai untuk variabel independennya dapat saja bernilai real, cacah atau kategorik. Asumsi pada regresi Poisson , pada kenyataannya sering ditemukan kasus dimana maka dikatakan terjadi overdispersi, untuk mengetahui adanya overdispersi adalah dengan melihat nilai deviance yang dibagi dengan derajat bebasnya atau Pearson Chi-Square yang dibagi dengan derajat bebasnya. Model regresi Binomial Negatif I dapat digunakan untuk mengatasi permasalahan overdispersi yang terjadi pada model regresi poison. Kedua, cara menguji model regresi Binomial Negatif I terbaik untuk penggolongan resiko pada jumlah klaim yaitu pengujian signifikansi parameter regresi menggunakan uji normalitas dengan melihat p-value nya. Ketiga, hasil dari beberapa contoh analisis data pada jenis data jumlah klaim Asuransi motor di Malaysia; Third Party Property Damage (TPPD) menunjukkan bahwa model regresi Binomial Negatif I (MLE) merupakan model yang paling tepat digunakan untuk data yang bersifat overdispersi dibandingkan dengan model regresi Poisson.
DAFTAR PUSTAKA [1] McCullagh, P., & Nelder, J. 1989. Generalized Linear Models (2nd Edition ed.). London: Chapman and Hall.
[2] Cameron, A. C., & Trivedi, P. K. 1986. Econometric Models Based on Count Data: Comparisons and Applications of Some Estimators and Tests. JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 132 Journal of Applied Econometrics, 29-53.
[3] Breslow, N. E. 1984. Extra- Poisson Variation in Log-Linear Models. Journal of the Royal Statistical Society , Blackwell Publishing for the Royal Statistical Society.
[4] Ismail N & AA. Jemain. 2007. Handling Overdispersion with Negative Binomial and Generalized Poisson Regression Models. Casualty Actuarial Society Forum, Winter, 103-158.
JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : 2086 4981 VOL. 6 NO. 1 Maret 2013 133 LAMPIRAN
Program R
a. Model Regresi Poisson Poisson<- function(data7) { x=as.matrix(data7[,-(11:12)]) X=cbind(1,x) count=as.vector(data7[,12]) x=0 exposure=as.vector(data7[,11]) new.beta <- rep(c(0.001), dim(X)[2])
for (i in 1:length(count)) { beta=new.beta miul=exposure*exp(as.vector (X%*%beta)) W=diag(miul) I.inverse=solve(t(X)%*%W%* %X) k=(count-miul)/miul z=t(X)%*%W%*%k new.beta=as.vector(beta+I.in verse%*%z) new.miul=exposure*exp(as.v ector(X%*%new.beta))