Professional Documents
Culture Documents
BAB 7
MENDAPATKAN DISTRIBUSI DARI DATA
OLEH :
KELOMPOK V
RISWANDI H12107001
FADLI LANTERA H12107003
HADIJAH H12107005
SITI ZUHURIA H12107007
KHALILAH NURFADILAH H12107014
A. RANUWIRAWAN R. H12107026
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS HASANUDDIN
MAKASSAR
2010
BAB 7
Bab ini dimulai dengan mendorong analis untuk meninjau data yang telah
tersedia dan karakteristik dari variabel yang akan dimodelkan. Beberapa teknik tersebut
kemudian dibahas yang memungkinkan analisis untuk menggunakan data yang tersedia untuk
menentukan distribusi dipasang secara empiris. Kelebihan utama dari pendekatan intuitif ini
adalah kesederhanaan penggunaan dan penghilangan distribusi teoritis yang tidak tepat atau
membingungkan.
Teknik ini kemudian dijelaskan untuk distribusi teoritis dipasang pada data yang
diamati, termasuk penggunaan penduga maksimum likelihood, tingkat kebaikan statistika dan
plot. Akhirnya, beberapa teknik yang dibahas untuk membantu model probabilitas.
Gambar 7.1 Contoh dari keterikatan antara variabel-variabel model: a. Langsung b. Tidak langsung
Dalam contoh (a), sebuah bank, pendapatannya dimodelkan sebagai fungsi dari
bunga dan nilai hipotek, antara lain. Tingkat KPR berkorelasi dengan tingkat bunga karena
tingkat suku bunga sebagian besar mendefinisikan bagaimana suku bunga KPR seharusnya.
Hubungan ini harus disertakan dalam model simulasi untuk memastikan bahwa hanya akan
menghasilkan skenario yang berarti. Ada dua pendekatan untuk ini:
1. Tentukan distribusi untuk tingkat hipotek dan bunga berdasarkan data historis dan
kemudian mengkorelasikan sampling dari distribusi selama simulasi.
2. Tentukan distribusi suku bunga dari data historis dan hubungan (stokastik)
fungsional dengan tingkat hipotek.
Pada contoh (b) gambar 7.1, adalah menghitung harga tawaran untuk memasok
tenaga kerja untuk pekerjaan atap. Pemilihan bahan atap belum diputuskan dan
ketidakpastian ini memiliki implikasi untuk jam orang-yang akan dibutuhkan untuk
membangun atap dan kayu untuk meletakkan atap. Ada karena itu merupakan hubungan tidak
langsung antara kedua variabel yang dengan mudah bisa saja terlewatkan, dia tidak melihat di
luar komponen langsung dari perhitungan biaya nya. Hilang korelasi ini akan menghasilkan
meremehkan penyebaran biaya subkontraktor dan berpotensi menyebabkan dia untuk
penawaran harga yang terkena dia untuk kerugian yang signifikan. Hal ini dapat dilihat
bahwa korelasi merupakan bagian penting dari analisis risiko banyak. Bab 10 menjelaskan
beberapa teknik untuk model korelasi antar variabel.
Jika distribusi diketahui cocok dekat dengan jenis variabel yang dimodelkan,
biasanya sebagai hasil karya akademis diterbitkan, semua yang tersisa adalah untuk
menemukan parameter fitting terbaik, seperti yang dijelaskan dalam bagian 7.3.
i
dari distribusi, yaitu F (xi )= dimana i adalah peringkat titik data yang teramati dan n
( n+1)
adalah jumlah titik data.
minimum dan maksimum untuk distribusi empiris subyektif ditentukan
berdasarkan pengetahuan analis dari variabel. Untuk variabel kontinu, nilai-nilai
ini umumnya di luar jangkauan dari data yang diamati. Nilai minimum dan
maksimum yang dipilih adalah nol dan 45.
Data titik adalah peringkat dalam urutan antara nilai minimum dan maksimum.
Probabilitas kumulatif F (x) untuk setiap nilai x dihitung sebagai berikut:
Ini formula untuk F (x) digunakan karena tempat semua x i s terhadap persentil
kumulatif diharapkan yang akan diamati jika titik data dipilih secara acak dari
distribusi. Karena itu memaksimalkan kesempatan mereplikasi distribusi yang
benar.
Kedua array, {x i } dan {F ( x i) }, bersama dengan nilai minimum dan maksimum,
maka dapat digunakan sebagai masukan langsung ke dalam distribusi kumulatif.
Jika ada jumlah data yang sangat besar, menjadi tidak praktis untuk menggunakan
semua titik data untuk menentukan distribusi Kumulatif. Dalam kasus seperti itu, lebih
mudah untuk mengkonversi data ke dalam distribusi Histogram pertama. Jumlah pita harus
ditetapkan dengan maksimum praktis yang menyeimbangkan kehalusan detail (jumlah besar
bar) dengan sering memiliki mendefinisikan besar array distribusi (angka yang lebih rendah
dari bar).
Gambar 7.3 menggambarkan sebuah contoh di mana 221 titik data diplot dalam
bentuk histogram selama rentang dari data yang diamati. Analis menganggap bahwa variabel
dibayangkan bisa berkisar dari nol sampai 300. Karena tidak ada data yang diamati dengan
nilai di bawah 20 dan di atas 280, berkisar histogram bar perlu diubah untuk mengakomodasi
minimal subjektif dan maksimal. Cara termudah untuk mencapai tujuan ini adalah untuk
memperluas jangkauan dari bar pertama dan terakhir dengan non-probabilitas nol untuk
mencakup rentang diperlukan, tetapi tanpa mengubah probabilitasnya. Dalam contoh ini, bar
histogram dengan kisaran 20-40 diperluas ke berbagai 0-40 dan bar dengan kisaran 260-280
diperluas untuk kisaran 260-300. Kami mungkin akan memiliki sedikit membesar-besarkan
taiis distribusi. Namun, jika jumlah bar pada awalnya dipilih cukup besar, akan ada sedikit
pengaruh yang nyata pada model. {x i } array input ke dalam distribusi Kumulatif kemudian
{40, 60, ..., 420260}, maka {x i } array {0.018,0.131, ..., 0.986,0.995} dan minimum dan
maksimum, tentu saja 0 dan 300 masing-masing.
Mengubah distribusi Histogram menjadi distribusi kumulatif mungkin tampak
sedikit berguna ketika Histogram dapat digunakan dalam suatu model analisis risiko. Namun,
teknik ini memungkinkan analisis untuk memilih berbagai lebar bar sesuai kebutuhannya,
seperti dalam contoh di atas, dan oleh karena itu untuk memaksimalkan rincian dalam
distribusi tempat yang membutuhkan.
Data dari variabel diskrit dapat digunakan untuk menentukan distribusi empiris
dalam dua cara:
Gambar 7.3 Menyesuaikan distribusi empirik dengan data histogram menggunakan distribusi
kumulatif
Jika jumlah nilai x ini tidak berbeda besar, frekuensi data pada setiap nilai x dapat
digunakan langsung untuk menentukan Disribution Diskrit.
Jika jumlah nilai x yang sangat besar, biasanya lebih mudah untuk mengatur data
ke dalam bentuk histogram dan kemudian menentukan distribusi kumulatif, seperti di atas.
Sifat diskrit variabel dapat diperkenalkan kembali oleh embedding distribusi kumulatif di
dalam fungsi (...) standar spreadsheet ROUND.
Opsi yang diuraikan di atas memiliki keunggulan bahwa distribusi berasal dari
data yang diamati akan sangat terpengaruh oleh subjektivitas apapun dan bahwa penggunaan
maksimal data yang telah dibuat dalam mendefinisikan distribusi. Kerugian yang jelas adalah
bahwa proses ini cukup sulit. Namun, data Distribusi fasilitas di Lotus 1-2-3, fasilitas
Histogram di Excel dan laporan statistik BestFit semua bisa membuat menyortir data dan
menghitung frekuensi kumulatif sangat mudah.
Parameter distribusi yang membuat jenis distribusi yang terbaik sesuai dengan data
yang tersedia dapat ditentukan dengan beberapa cara. Teknik yang paling umum adalah
dengan menggunakan estimator maksimum likelihood (MLEs). Parameter (MLEs) dari
distribusi ditemukan bahwa memaksimalkan kepadatan probabilitas gabungan untuk data
yang diamati. MLEs sangat berguna karena, untuk distribusi banyak, mereka menyediakan
cara cepat untuk parameter terbaik. Sebagai contoh, distribusi Normal didefinisikan oleh
mean dan deviasi standar dan MLEs perusahaan mean dan deviasi standar dari data yang
diamati.
7.3.1 Estimator Maksimum Likelihood(MLEs)
Estimator maksimum likelihood dari suatu distribusi adalah nilai-nilai parameter yang
menghasilkan kepadatan maksimum probabilitas gabungan untuk data yang diamati. Dalam
kasus distribusi diskrit, MLEs memaksimalkan probabilitas aktual dari distribusi yang dapat
menghasilkan data yang diamati. Pertimbangkan jenis distribusi probabilitas yang
didefinisikan oleh sebuah parameter tunggal, α. Fungsi likelihood L(α) adalah sebanding
dengan probabilitas bahwa satu set poin n data ( x i) dapat dihasilkan dari distribusi dengan
kepadatan probabilitas f(x) atau, dalam kasus distribusi diskrit, massa probabilitas diberikan
oleh
Selanjutnya mencari nilai α yang memaksimalkan L(α). Hal ini ditentukan dengan melakukan
diferensial parsial L(α) terhadap α dan menuju ke nol:
δ L(α )
=0
δα
Untuk beberapa jenis distribusi, ini merupakan masalah aljabar relatif yang sederhana, untuk
orang lain persamaan diferensial sangat rumit dan diselesaikan secara numerik sebagai
gantinya. Software seperti BestFit telah membuat proses ini sangat mudah untuk melakukan
secara otomatis, tetapi ada contoh sederhana secara rinci dalam Bagian 7.3.2 untuk tujuan
ilustrasi.
1 −x
f(x) = exp( )
β β
n
1
I(β) = -n In (β)- ∑ xi
β i=1
Nilai maksimum I(β), dan juga L(β), terjadi ketika derivatif parsial terhadap β sama dengan
nol, yaitu
n
δI ( β ) −n 1
= + 2 ∑ xi = 0
δβ β β i=1
Diberikan
n
1
β= ∑x
n i=1 i
yaitu β MLE dari distribusi eksponensial adalah mean dari data yang diamati.
distribusi Normal meiliki dua parameter, μ mean dan deviasi standar σ. Probabilitas fungsi
kepadatan f(x) diberikan oleh
1
f(x) = exp(-¿ ¿)
√2 π σ 2
1 ( x i−µ)2
n
Fungsi likelihood L(μ, σ) = ( )exp (- ∑ )
√2 π σ 2 i=1 2σ2
n 2
n ( x −µ)
I(µ, σ) = - ln(2 π ) – n ln σ - ∑ i 2
2 i=1 2σ
Nilai maksimum I(μ, σ), dan karena itu L(μ, σ), terjadi derivatif parsial ketika engkau
sehubungan dengan μ dan σ sama dengan nol, yaitu
n
δI (µ , σ )
= -2 ∑ x i + 2 µn = 0
δµ i=1
n
1
Diberikan µ= ∑ x =x́
n i=1 i
δI (µ , σ ) −n n
( x i−µ)2
= +∑ =0
LP σ i=1 σ3
Diberikan
Σ=
√ ∑ ( x i−µ)2 =s
i=1
σ3
Dimana s standar deviasi dari data yaitu μ dan σ MLEs dari distribusi normal adalah mean
dan deviasi standar dari data yang diamati.
Gambar 7.4 mengilustrasikan spreadsheet Microsoft Excel dibentuk untuk menemukan parameter dari suatu
distribusi Rayleigh terbaik yang akan cocok dengan 18 poin data yang diamati.
Fungsi distribusi kumulatif untuk distribusi Rayleigh F(x) adalah
Dimana b adalah parameter distribusi itu. Microsoft Solver di Excel diatur untuk menemukan
nilai minimum untuk sel F21 (jumlah perbedaan absolut antara di F diamati dan Rayleigh (x)
s) dengan mengubah nilai b di sel C23. Solusi solver untuk b adalah 4.51195, sesuai dengan
cocok ditampilkan dalam bagan Gambar 7.4.
Formalisme entropi maksimum adalah teknik untuk menentukan distribusi dari variabel yang
mewakili ketidakpastian maksimum data yang diamati untuk variabel yang mungkin.
H(x) = ∫ f ( x ) . log f ( x ) . dx
−∞
Dimana f(x) adalah probabilitas dari distribusi.Teknik ini dapat diterapkan di mana kita hanya
memiliki pengetahuan yang sangat terbatas dari variabel.
Goodness-of-fit statistic telah banyak dikembangkan tapi hanya 2 yang biasa digunakan.
Yang paling umum adalah chi kuadra ( x 2 ¿ dan statistik kolmogorov-Smirnoff (K-S) umumnya
digunakan untuk diskrit dan kontinu.
Data yang akan dianalisis bisa masuk dalam salah satu bentuk goodness-of-fit statistic.
Goodness-of-fit statistic tidak mudah untuk dipahami atau ditafsirkan.Tidak memberikan
ukuran propability untuk data sebenarnya berasal dari distribution. Malah, statistik goodness-
of-fit memberikan peluang bahwa data acak yang dihasilkan dari distribusi akan
menghasilkan nilai goodness-of-fit statistic serendah yang dihitung untuk data yang diamati.
Setara dengan probabilitas bahwa data itu, pada kenyataannya, berasal dari pasangan
distribusi, karena mungkin ada distribusi yang memiliki bentuk yang sama dan lebih baik
menghasilkan data ini dan diamati sangat teliti untuk data distribusi normal, karena banyak
distribusi cenderung ke bentuk normal dalam kondisi tertentu.
Nilai-nilai kritis ditentukan oleh tingkat kepercayaan yang diperlukanαyang merupakan
nilai-nilai dari goodness-of-fit statistic yang memiliki probabilitas melebihi yang sama
dengan keyakinan tertentu nilai-nilai level kritis untuk x 2 tes ditemukan langsung dari x 2
distribusi, bentuk dan berbagai distribusi x 2didefinisikan oleh derajat fredom x 2
v=N−a−1
Dimana N = jumlah atau kelas histogram batang
a = sejumlah parameter yang diestimasi untuk menentukan distribusi yang paling
sesuai
v =N-a -1.
Gambar 7.5 menunjukkan plot kumulatif turun untuk x 2(11), yakni para x 2 distribusi dengan
11 derajat kebebasan. Ini plot sebuah kesempatan α 80% (= interval keyakinan) bahwa nilai
akan terjadi yang lebih tinggi dari 6,988 (nilai kritis pada tingkat kepercayaan 80%) untuk
data yang sebenarnya diambil dari distribusi dipasang, yaitu hanya ada 20% kemungkinan
bahwa x 2 nilai bisa jadi ini kecil. Jika analis konservatif dan menerima kesempatan ini 80%
dari palsu menolak sesuai dengan, α keyakinannya interval = 80% dan nilai kritis yang terkait
6,988.
Nilai-nilai kritis untuk statistik KS dan AD telah ditemukan oleh simulasi Monte Carlo
(Stephens. 1974, 1977; Chandra et al, 1981). Tabel nilai kritis untuk statistik KS juga sangat
sering ditemukan dalam buku- buku teks statistik. Sayangnya, KS standar dan nilai-nilai AD
penggunaan terbatas untuk membandingkan nilai kritis jika lebih sedikit dari sekitar 30 titik
data. Masalah muncul karena statistik ini dirancang untuk menguji cuaca distribusi dengan
parameter yang dikenal bisa menghasilkan data yang diamati. Jika parameter dari distribusi
dipasang telah diperkirakan dari data tersebut, KS dan statistik AD akan menghasilkan hasil
tes konservatif, yaitu ada kemungkinan lebih kecil dari suatu distribusi baik pas diterima.
Ukuran efek ini bervariasi antara jenis distribusi yang dipasang. Modifikasi statistik KS dan
AD telah ditentukan untuk mengoreksi masalah ini sebagai berikut (lihat manual BestFit
diterbitkan pada tahun 1993) di mana n adalah jumlah titik data dan Dn A 2n dimodifikasi KS
dan statistik AD masing-masing:
Kolmogorov-Smirnoff Statistics
Normal 0.85
(√ n - 0.01 + ). D
√n n
Esponential 0.2 0.5
( Dn – )( √ n+ 0.26 + )
n √n
Weibull and extreme Value √ n Dn
Lainnya 0.11
√ n+0.12+ ). D
√n n
Anderson-Darling Statistics
Normal 4 25 2
(1 + − ). An
n n2
Esponential 0.6 2
(1+ ). An
n
Weibull and extreme Value ¿) A2n
Lainnya A2n
1. Data yang diamati berisi sampel acak dari n titik data independent.
2. Ukuran skala bias nominal (yakni numeric) atau menurut angka (numerical)
3. n titik data dapat diurut ke dalam bentuk histogram dengan N kelas non-overlapping
atau bar yang menutup keseluruhan range yang mungkin dari variabel.
dimana O(i) adalah frekuensi yang diamati pada histogram kelas ke-i atau bar dan E(i) adalah
frekuensi yang diharapkan dari distribusi yang sesuai pada nilai x yang jatuh dengan range-x
pada bar histogram ke-i. E(i) dihitung dengan :
Karena statistic χ 2 menjumlahkan kuadrat dari semua error {O ( i )−E ( i ) }, maka statistic χ 2
dapat secara tidak sebanding, sensitive ke nilai error apapun yang besar misalnya, jika error
dari 1 bar adalah 3 kali dari bar yang lain, sehingga akan menambah 9 kali lebih pada statistic
(asumsikan E(i) sama untuk keduanya).
χ 2 adalah yang paling umum digunakan pada statistic goodness of fit yang digambarkan di
sini dan sangat bergantung pada jumlah bar N yang digunakan. Dengan mengganti nilai dari
N, salah satunya dapat dengan mudah mengganti tingkatan antara 2 tipe distribusi.
Sayangnya, tidak ada cara cepat untuk memilih nilai dari N. Sebagai panduan, bagaimanapun,
aproksimasi Scott Normal, digunakan dengan memakai software BestFit yang biasanya
tampak untuk bekerja sangat baik: N=(4 n)2/ 5
Di mana n adalah jumlah titik data. Panduan lain yang berguna adalah memastikan bahwa
tidak ada bar yang memiliki frekuensi harapan yang lebih kecil dari sekitar 1, yakni E(i)≥ 1
untuk semua i. Catatan bahwa statistic χ 2 tidak membutuhkan semua atau bar histogram
apapun yang memiliki lebar sama.
Statistic χ 2 paling berguna untuk fitting distribution untuk data diskrit dan hanya satu-
satunya statistic yang digambarkan di sini yang dapat digunakan untuk data nominal (yakni
non-numeric).
Contoh 7.4: Penggunaan χ 2 untuk data kontinu
Susunan data dari 156 titik memiliki distribusi Normal(70,20). Pertama-tama, datanya
ditempatkan dalam bentuk histogram dengan 14 bar sebagai usulan menggunakan
aproksimasi normal Scott’s (Tabel 7.1(a)). 4 bar ekstrim memiliki frekuensi harapan di
bawah 1 untuk distribusi normal (70,20) dengan 156 pengamatan. Bar ini kemudian
dikombinasikan untuk menghasilkan revisi set dari jarak bar. Bar ekstrim sekarang memiliki
frekuensi harapan 1.02
Hipotesis
H 0 : Data datang dari distribusi Normal (70,20)
H 1 : Data tidak datang dari distribusi Normal (70,20)
Kesimpulan
Test statistic χ 2 memiliki nilai 21.0 dari tabel 7.1(b). Terdapat v=N−1=12−1=11 derajat
bebas ¿ ketika tidak ada parameter distribusi yang ditentukan dari data). Perhatikan pada
distribusi χ 2(11), peluang yang akan kita miliki nilai χ 2 yang tinggi ketika H 0 benar adalah di
bawah 2%. Kemudian kita menyimpulkan bahwa data tidak datang dari distribusi Normal
(70,20).
Kumpulan dari 136 titik data dipercayai berasal dari distribusi Poisson. MLE untuk parameter
λ untuk Poisson diestimasikan dengan mengambil mean dari titik data: λ=4.4559 . Data
ditabulasikan pada bentuk frekuensi pada tabel 7.2 dan kemudian pada data tersebut frekuensi
harapan dari distribusi Poisson(4.4559) yakni E ( i )=f ( x )∗136, di mana
e−4.4559 4.4559x
f x=
( )
x!
Tabel 7.1 Perhitungan statistik χ 2 untuk data kontinu: (a) menentukan jarak bar yang
digunakan; (b) Perhitungan χ 2 dengan merevisi jarak bar
Histogram Bar Frekuensi Harapan Revisi Bar E(i) dari O(i) Perhitungan χ2
Dari A Ke B dari Normal (70,20) Dari A ke B Normal (70,20) 2
{ O ( i )−E ( i ) } /E (i)
−∞ 10 0.22 −∞ 20 1.02 3 3.843529
10 20 0.80 20 30 2.73 5 1.887509
20 30 2.73 30 40 7.27 6 0.221857
30 40 7.27 40 50 15.15 10 1.75066
40 50 15.15 50 60 24.73 21 0.562592
50 60 24.73 60 70 31.59 25 1.374742
60 70 31.59 70 80 31.59 37 0.926499
70 80 31.59 80 90 24.73 21 0.562592
80 90 24.73 90 100 15.15 17 0.225908
90 100 15.15 100 110 7.27 11 1.913741
100 110 7.27 110 120 2.73 6 3.916813
110 120 2.73 120 −∞ 1.02 3 3.843529
120 130 0.80
130 −∞ 0.22 Chi squared 20.96755
Tabel 7.2 Perhitungan statistik χ 2 untuk data diskrit : (a) Tabulasi data; (b) Perhitungan χ 2
Nilai x Frekuensi Frekuensi E(i) dari Nilai Frekuensi Frekuensi E(i) dari Perhitungan
Pengamatan O(i) Poisson(4.456) x Pengamatan O(i)3 Poisson(4.456)4 χ2 {O(i)-E(i)}2-
E(i)
0 0 1.579 0 0 1.579 1.579
1 8 7.036 1 8 7.036 0.1321
2 18 15.675 2 18 15.675 0.3449
3 20 23.282 3 20 23.282 0.4627
4 29 25.936 4 29 25.936 0.3620
5 21 23.113 5 21 23.113 0.1932
6 18 17.165 6 18 17.165 0.0406
7 10 10.926 7 10 10.926 0.0785
8 8 6.086 8 8 6.086 0.6019
9 2 3.013 9 2 3.013 0.3406
10 1 1.343 10+ 2 2.189 0.0163
11+ 1 0.846
Total 136 Chi squared: 4.152
Frekuensi harapan dari nilai 11+, dihitung sebagai 136- (jumlah dari semua frekuensi harapan
lainnya), adalah kurang dari 1. Jumlah bar kemudian berkurang ditunjukkan pada tabel
7.2(b), untuk memastikan bahwa semua frekuensi harapan lebih besar dari 1.
Hipotesis
Kesimpulan
Uji statistic χ 2 memiliki nilai 4.152 pada tabel 7.2(b). Terdapat nilai
v=N−a−1=11−1−1=9 derajat kebebasan (a=1ketika 1 parameter distribusi, mean,
ditentukan dari data). Perhatikan distribusi χ 2 (9), peluang bahwa kita akan mendapatkan
nilai χ 2 yang tinggi ketika H 0 benar di atas 90%. Ketika ini adalah peluang yang besar, kita
tidak layak menolak H 0 dan kemudian menyimpulkan bahwa data sesuai untuk ditribusi
Poisson (4.4559).
Permainan baru telah ditemukan dan, sehubungan dengan itu, perlengkapan yang secara acak
memilih bola dari drum berputar. Terdapat jumlah yang sama dari bola hitam, biru, merah,
hijau dan putih pada drum. Bola apapun yang dipilih, digantikan sebelum seleksi berikutnya.
Bola berwarna yang berbeda berasal dari pabrik yang berbeda sehingga perancang permainan
ingin memastikan bahwa pemilihan benar-benar acak. Mesin diuji 200 kali, ditunjukkan pada
tabel 7.3. Apakah peluang bahwa bola menjadi dipilih secara acak?
Ini adalah pertanyaan yang ekuivalen: apakah peluang bahwa frekuensi bola berdistribusi
seragam? Uji χ 2 dapat dihitung pada frekuensi pengamatan dan memakai frekuensi harapan
dari n /N , ditunjukkan pada tabel.
Hipotesis
Keputusan
Uji statistic χ 2 memiliki nilai 6.44 pada tabel 7.3. Terdapat n=N−a−1=5−0−1=4 derajat
bebas (a=0ketika tidak ada parameter distribusi yang dibutuhkan untuk ditentukan dari data).
Perhatikan pada distribusi χ 2 ( 4), peluang bahwa kita akan memiliki nilai yang tinggi untuk
χ 2 ketika H 0 benar kurang dari 20%, sehingga kita dapat layak menolak H 0 dan kemudian
simpulkan bahwa bola tidak dipilih secara acak.
Di mana i = tingkatan dari titik data dan n = jumlah total titik data
F (x) dihitung untuk distribusi seragam (dalam hal ini F ( x )=x ¿ .
Jarak maksimum Di antara F (i) dan F (x) dihitung untuk tiap i:
Di=MAX (|( F ( x )−F L (i ) )|,|( F ( x )−F U ( i ) )|)
Di mana |(…)| mendapatkan nilai absolut
Nilai maksimum dari jarak Di selanjutnya adalah jarak Di K-S :
Dn=MAX ( { Di } )
Statistik K-S biasanya lebih beguna dibandingkan statistic χ 2 di mana data ditaksir pada
semua titik data dan menghindari masalah untuk menentukan ikatan-ikatan untuk membagi
data. Bagaimanapun nilainya hanya ditentukan oleh salah satu nilai yang memiliki
ketidakcocokan yang terbesar dan tidak mengambil laporan dari lack(kekurangan) dari fit
melewati ditribusi sisa. Dengan demikian, pada gambar 7.7, akan memberikan fit terburuk
pada distribusi pada (a) yang memiliki satu ketidakcocokan terbesar disbanding distribusi
pada (b) yang memiliki general fit yang buruk di atas jarak-x keseluruhan.
Jarak vertical antara distribusi F n (x) yang diamati dan teoritis ditribusi fitted F (x)
pada semua titik, katakanlah x 0, itu sendiri memiliki distribusi dengan rataan dari nol dan
standar deviasi σ K −S yang diberikan dengan
F ( x 0 ) [1−F ( x 0 ) ]
σ K −S=
√ n
Gambar 7.7 Bagaimana jarak D n K-S dapat memberikan ukuran fit yang salah karena
kepercayaannya pada jarak tunggal paling besar antara 2 distribusi kumulatif dibanding melihat
jarak di luar range yang mungkin: (a) distribusi umumnya good fit kecuali di salah satu area tertentu;
(b) distribusi umumnya poor fit tetapi dengan tidak satupun ketidakcocokan yang besar
Ukuran dari standar deviasi σ K −S di luar jarak x ditunjukkan pada gambar 7.8 untuk sejumlah
tipe distribusi dengan n=100. Posisi Dn sepanjang sumbu-x lebih mungkin terjadi di mana
σ K −S paling besar yang, gambar 7.8 tunjukkan, akan biasanya keluar dari dasar pangkal
probabilitas. Ketidaksensitifan dari statistic K-S ini pada lack(kekurangan) fit pada ekstrim
dan distribusi adalah benar untuk statistic Darling-Anderson.
Tabel 7.4 mengilustrasikan perhitungan jarak Dn dari statistic K-S untuk 12 ukuran dari
persentase oksigen yang dihancurkan pada eksperimen biokimia. Data diuji pada distribusi
Beta(16,45) yang mana analisis sebelumnya menyatakan bahwa, seharusnya good fit. Proses
perhitungannya sebagai berikut.
Gambar 7.8 Variasi standar deviasi dari Statistik K-S D n di luar range dari berbagai distribusi. Standar
deviasi lebih besar, kesempatan lebih bahwa D n akan jatuh pada bagian range, yang menunjukkan bahwa
statistic K-S akan cenderung focus pada derajat fit pada nilai x keluar dari ujung distribusi
i Data Pengamatan Batas Bawah F(i) Batas Atas F(i) F(x) untuk Beta Di
(16,45)
1 16.60% 0.000 0.083 0.033 0.051
2 19.75% 0.083 0.167 0.120 0.046
3 23.26% 0.167 0.250 0.311 0.145
4 25.17% 0.250 0.333 0.443 0.193
5 25.85% 0.333 0.417 0.491 0.158
6 27.38% 0.417 0.500 0.598 0.181
7 27.95% 0.500 0.583 0.636 0.136
8 29.49% 0.583 0.667 0.728 0.145
9 29.83% 0.667 0.750 0.747 0.081
10 31.20% 0.750 0.833 0.814 0.064
11 34.57% 0.833 0.917 0.925 0.092
12 39.87% 0.917 1.000 0.988 0.072
D n 0.193
n
Di mana Ψ ( x )=
F ( x ) {1−F ( x ) }
F n ( x )=i /n
i = tingkatan kumulatif dari titik data
Statistik Darling-Anderson adalah versi canggih dari statstik K-S dan lebih kuat dengan alas
an berikut :
Oleh karena itu statistik A-D biasanya lebih berguna mengukur fit dari pada statistik K-S
khususnya ketika sangat penting untuk menempatkan penekanan yang sama dalam
menyesuaikan distribusi. Selain itu, statistic A-D sangat praktikal untuk menghitung manual.
Bagaimanapun, paket software seperto BestFit akan menampilkan perhitungan secara
automatic.
Godness-of-fit statistic dapat digunakan dengan solusi linear untuk menemukan parameter
yang menghasilkan fit terdekat dari sebuah distribusi dengan data pengamatan. Gambar 7.10
mengilustrasikan hasil dari contoh sederhana pada Microsoft Excel.
Gambar 7.10 Menemukan parameter fit terbaik untuk distribusi dengan mengoptimalkan statistik goodness-of-
fit (dalam hal ini X2)
Overlay plot histogram dari data dengan fungsi kepadatan dari distribusi dipasang
biasanya perbandingan paling informatif (lihat Gambar 7.11 (a)) Sangat mudah untuk
melihat di mana perbedaan utama dan apakah bentuk umum dari data yang digunakan.
membandingkan distribusi skala yang sama baiknya.The dan jumlah bar histogram harus
digunakan untuk semua plot jika perbandingan langsung dari beberapa distribusi cocok
akan dilakukan untuk data yang sama.
Gambar 7.11(a) Contoh plot goodness-of-fit: Perbandingan kepadatan peluang untuk Input dan Distribusi
Normal;
7.5.2 Perbandingan Distribusi Probabillity
Sebuah overlay plot frekuensi kumulatif data dan distribusi dipasang kadang-kadang
digunakan (lihat gambar 7.11 (b). Namun plot ini memiliki skala yang sangat sensitif dan
frekuensi kumulatif jenis distribusi yang paling mengikuti jenis yang sangat mirip kurva-
S.This dari plot karena itu hanya akan muncul perbedaan yang sangat besar antara data
theb dan distribotions dipasang dan umumnya tidak direkomendasikan sebagai ukuran
visual kebaikan fit.
Gambar 7.11(b) Perbandingan Peluang kumulatif untuk input dan distribusi Normal;
Ini adalah plot dari distribusi kumulatif F kurva dipasang (x) terhadap frekuensi kumulatif
i
F n ( x )= untuk semua nilai x i (lihat gambar 7.11 (d)). Pencocokan terbaik, semakin dekat
n
dengan plot ini yang menyerupai garis lurus lurus dan dapat berguna jika salah satu
tertarik pada pencocokan erat persentil kumulatif dan ia akan menampilkan perbedaan
yang signifikan antara Pertengahan dari distribusi. Bagaimanapun, plot yang jauh lebih
peka terhadap perbedaan dalam fit daripada perbandingan probabilitas kepadatan plot dan
karena itu tidak sering digunakan dan juga bisa agak membingungkan bila digunakan
untuk memeriksa data diskrit yang cocok dan cukup baik dapat dengan mudah ditutupi,
terutama jika hanya ada beberapa diijinkan nilai-x.
Ini adalah plot dari data yang diamati xi terhadap nilai-nilai x dimana
F ( x )=F n ( x ) , i, e=i/n (lihat gambar 7.11 (e)). Seperti plot P-P, pencocokan yang lebih
baik, yang lebih dekat dengan plot ini menyerupai garis lurus. Plot ini dapat bermanfaat
jika ada yang cukup tertarik pada pencocokan persentil kumulatif dan ia akan
menampilkan perbedaan yang signifikan antara ujung dari distribusi. Bagaimanapun, plot
ini memberikan masalah insensitivitas sama dengan petak P-P plot.
. Gambar 7.11(e) Plot Q-Q membandingkan Input dan Distribusi Normal;