BAB 9
Teknik Validasi Statistik
Pendahuluan
Didalam bab ini dipertimbangkan beberapa prosedur statistik yang bermanfaat
dalam pengesahan (validasi) model simulasi. Bagian 9.1 dan 9.2 mempertim-
bangkan pengujian kecocokan (goodness of ft), yang berguna untuk memastikan
apakah suatu distribusi probabilitas diasumsikan konsisten dengan suatu himpu-
nan data yang diberikan. Dalam Bagian 9.1 dimisalkan bahwa distribusi yang
diasumsikan sepenuhnya ditentukan, sedangkan dalam Bagian 9.2 dimisalkan
bahwa ini hanya ditentukan sampai parameter yang pasti — sebagai contoh, ini
mungkin Poisson yang memiliki rerata yang tidak diketahui. Dalam Bagian 9.3
diperlihatkan bagaimana yang satu dapat menguji hipotesis di mana dua sampel
data yang terpisah berasal dari populasi pokok yang sama — seperti kasus dengan
data nyata dan disimulasi ketika model matematis yang diasumsikan sedang
disimulasikan adalah suatu representasi kenyataan yang akurat. Hasil dari Bagian
9.3 bermanfaat khususnya dalam pengujian validitas suatu model simulasi. Suatu
penyamarataan terhadap kasus dari banyak sampel ditunjukkan juga dalam
bagian ini. Akhirnya, dalam Bagian 9.4 diperlihatkan bagaimana menggunakan
data nyata untuk menguji hipotesis dimana proses pembangkitan data merupakan
suatu proses Poisson nonhomogen. Kasus dari proses Poisson yang homogen juga
dipertimbangkan di dalam bagian ini.
9.1 Pengujian Goodness of Fit
Orang sering memulai suatu analisis probabilitas dari fenomena tertentu dengan
hipotesis bahwa keyakinan dari elemen-elemen acaknya memiliki suatu distribusi
probabilitas khusus. Sebagai contoh, kita mungkin memulai suatu analisis dari
185186 Pengantar Simulasi
suatu jaringan lalu-lintas dengan beranggapan bahwa jumlah kecelakaan setiap
hari memiliki distribusi Poisson. Hipotesis yang demikian dapat diuji secara
statistik dengan mengamati data dan kemudian melihat apakah asumsi dari suatu
distribusi probabilitas yang khusus adalah konsisten dengan data ini. Pengujian
secara statistik ini disebut pengujian goodness of fit.
Satu cara dari pelaksanaan suatu pengujian goodness of fit adalah untuk partisi
pertama nilai-nilai yang mungkin dari suatu kuantitas acak ke dalam jumlah
daerah yang terbatas. Sebuah sampel dari nilai kuantitas ini kemudian diamati dan
suatu perbandingan dibuat antara jumlah dari mereka yang gagal kedalam ma-
sing-masing daerah dan jumlah yang diharapkan secara teori ketika distribusi
probabilitas yang ditetapkan memang menentukan data tersebut.
Di dalam bagian ini dipertimbangkan pengujian goodness of fit ketika semua
parameter dari distribusi yang dihipotesis ditetapkan; dan didalam bagian berikut
kita mempertimbangkan pengujian yang demikian ketika parameter tertentu tidak
ditetapkan. Pertama kita mempertimbangkan kasus dari suatu diskret dan ke-
mudian suatu distribusi yang dihipotesis secara kontinu.
Ki-kuadrat Pengujian Goodness of Fit untuk Data Diskret.
Andaikan bahwa n variabel acak bebas — Yi, . . .Y, — masing-masing
mengambil satu dari nilai 1, 2,..., &, untuk diamati, di mana, kita tertarik dalam
pengujian hipotesis di mana {p, i= 1, ..., 4} adalah fungsi masa probabilitas dari
variabel-variabel acak ini. Yaitu, jika Y mewakili setiap dari ¥,, hipotesis untuk
diuji, yang mana kita jadikan dengan Ho dan dihubungkan sebagai hipotesis nol,
adalah
Ho: PAY=i}=py i= 1, ok
Untuk menguji hipotesis yang terdabulu, misalkan N,, i= 1, ..., &, merupakan
jumlah dari ¥; yang sama dengan i. Karena setiap Y; secara bebas sama dengan i
dengan probabilitas P{Y = i}, ini mengikuti bahwa , menurut Ho, N, adalah
binomial dengan parameter m dan p,. Sebab itu, ketika Hs benar,
EIN] =np.
sehingga (N, - mp)? adalah suatu indikasi mengenai bagaimana mungkin ini
muncul dimana pi benar-benar sama dengan probabilitas dimana Y = i. Jika ini
besar, misalkan, dalam hubungan dengan np, maka ini adalah indikasi bahwa HoTeknik Validasi Statistik 187
tidak benar. Sebenarya penalaran yang demikian membuat kita mempertim-
bangkan kuantitas
dan untuk menolak hipotesis nol ketika T besar.
Sedangkan nilai-nilai kecil dari kuantitas pengujian T adalah bukti setuju dari
hipotesis Ho, sesuatu yang besar menunjukan kepalsuannya. Andaikan sekarang
bahwa hasil data sebenarnya didalam kuantitas pengujian T mengambil nilai ¢.
Untuk melihat bagaimana tidak mungkin suatu hasil yang besar akan didapat jika
hipotesis nol benar, kita menetapkan yang disebut nilai-p dengan
nilaicp = Py,{T 20)
di mana kita telah menggunakan notasi Py, untuk menunjukkan bahwa probabili-
tas dihitung menurut asumsi bahwa Ho adalah benar. Oleh sebab itu nilai-p
memberikan probabilitas dimana suatu nilai yang besar dari T sebagai sesuatu
yang diamati yang akan terjadi jika hipotesis nol adalah benar. Ini adalah khusus
untuk menolak hipoiesis nol-katakan bahwa ini muncul menjadi tidak konsisten
dengan data-ketika suatu nilai-p kecil menghasilkan (suatu nilai kurang dari .05,
atau lebih konserfatif, .01 yang biasanya diambil untuk menjadi kritis) dan untuk
menerima hipotesis nol-katakan bahwa ini muncul untuk menjadi konsisten
dengan data-sebaliknya.
Setelah pengamaian nilai tersebut, sebut saja t dari kuantitas pengujian, jadi
tetap untuk menentukan probabilitas
nilai-p = Py,{T >t)
Suatu perkiraan baik yang beralasan terhadap probabilitas ini dapat diperoleh
dengan menggunakan hasil yang klasik dimana, untuk nilai-nilai yang besar dari
n, T memiliki kira-kira suatu distribusi ki-kuadrat dengan k- / derajat kebebasan
ketika Hp adalah benar. Oleh sebab itu
nilai-p = P(X}, >4} 9.1)188 Pengantar Simulasi
dimana X}-, adalah suatu variabel acak ki-kuadrat dengan k - 1'derajat kebe-
basan. Probabilitas ki-kuadrat dapat diperoleh dengan menjalankan Program 9-1.
Contoh 9a: Pertimbangkan suatu kuantitas acak yang dapat mengambil setiap
nilai-nilai yang mungkin 1, 2, 3, 4, 5 dan misalkan kita ingin menguji hipotesis
dimana nilai-nilai ini mungkin sama terjadi. Yakni, kita ingin menguji
Hypi=2, i=dye.s8
Jika suatu contoh berukuran 50 menghasilkan nilai-nilai N, berikut:
12, 5, 19, 7,7
maka perkiraan nilai-p diperoleh sebagai berikut. Nilai dari pengujian statistik
T diberikan oleh
(4+ 254+ 81+9+9)
10
12.8
Jalankan Program 9-1 menghasilkan
nilai- p ~ P{X3 > 12.8} = 0122
Untuk suatu nilai-p yang rendah, hipotesis dimana semua hasil-hasil yang
mungkin sama akan ditolak.
Jika perkiraan nilai-p diberikan oleh Persamaan (9.1) tidak terlalu kecil —
katakan, kira-kira .15 atau lebih besar — kemudian ini jelas bahwa hipotesis
nol tidak akan ditolak sehingga tidak perlu untuk mencari suatu perkiraan yang
lebih baik. walaupun , ketika nilai-p lebih dekat ke nilai kritis (seperti .05, atau
01) kita mungkin mengingini suatu pendugaan yang lebih cermat dari nilainya
daripada yang diberikan oleh distribusi perkiraan ki-kuadrat. Untungnya,
suatu penduga yang lebih cermat dapat diperoleh melalui suatu studi simulasi.
Pendekatan simulasi untuk menduga nilai-p dari hasi! T= adalah sebagai
berikut. Untuk menentukan probabilitas dimana T akan menjadi paling tidak
sebesar t ketika Ho benar, kita membangkitkan 7 variabel-variabel acak bebas
¥,..., ¥, masing-masing memiliki fungsi massa probabilitas {p, i= 1,...,
K}— yakni,Teknik Validasi Statistik 189
PYM ==p, T=h... kk Jel.
Sekarang misalkan
Ni" = number j: ¥f0 =i
dan tetapkan
7 SME = py?
i=t MP
Sekarang ulangi prosedur ini dengan mensimulasi suatu himpunan kedua,
yang bebas dari himpunan pertama, dari n variabel-variabel acak yang bebas
¥?,...,Y) , masing-masing memiliki fungsi massa probabilitas {p,i=1,..
- , 4} kemudian, seperti untuk himpunan pertama, tentukan 7). Ulangi ini
dengan jumlah waktu yang besar, katakan, r, menghasilkan r variabel-variabel
acak bebas 7", 7, .. , 7° masing-masing dari ini memiliki distribusi yang
sama seperti pengujian statistik T ketika Hy adalah benar. Oleh sebab itu,
dengan hukum bilangan-bilangan besar, proporsi dari 7; yang adalah sebesar i
akan sangat mendekati sama terhadap probabilitas dimana T adalah sebesar ¢
ketika Hp adalah benar — yakni,
number [:7) = 1
r
~ PAT =
Program 9-2 menggunakan simulasi untuk memperkirakan nilai-p. Pe-
makai harus memasukkan probabilitas p, i=, ..., & ukuran sampel 7, nilai dari
kuantitas pengujian yang diamati 7, dan jumlah pelaksanaan simulasi yang
diingini.
Contoh 9b Mari kita menimbang kembali Contoh 9a dan saat ini gunakan
simulasi untuk memperkirakan nilai-p. Untuk melakukan begitu kita men-
jalankan Program 9-2.
RUN
THIS PROGRAM USES SIMULATION TO APPROXIMATE THE p-value IN THE
GOODNESS OF FIT TEST
Random number seed (-32768 to 32767)? 6867
ENTER THE NUMBER OF POSSIBLE VALUES
25
ENTER THE PROBABILITIES ONE AT A TIME
7.2