You are on page 1of 27

Tugas II

Riset Pemasaran dan Manajemen Resiko

BAB 7
MENDAPATKAN DISTRIBUSI DARI DATA

OLEH :
KELOMPOK V

RISWANDI H12107001
FADLI LANTERA H12107003
HADIJAH H12107005
SITI ZUHURIA H12107007
KHALILAH NURFADILAH H12107014
A. RANUWIRAWAN R. H12107026

JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS HASANUDDIN
MAKASSAR
2010
BAB 7

MENDAPATKAN DISTRIBUSI DARI DATA

Bab ini dimulai dengan mendorong analis untuk meninjau data yang telah
tersedia dan karakteristik dari variabel yang akan dimodelkan. Beberapa teknik tersebut
kemudian dibahas yang memungkinkan analisis untuk menggunakan data yang tersedia untuk
menentukan distribusi dipasang secara empiris. Kelebihan utama dari pendekatan intuitif ini
adalah kesederhanaan penggunaan dan penghilangan distribusi teoritis yang tidak tepat atau
membingungkan.
Teknik ini kemudian dijelaskan untuk distribusi teoritis dipasang pada data yang
diamati, termasuk penggunaan penduga maksimum likelihood, tingkat kebaikan statistika dan
plot. Akhirnya, beberapa teknik yang dibahas untuk membantu model probabilitas.

7.1 Menganalisis Sifat Data Yang Diamati


Sebelum mencoba untuk menyesuaikan distribusi probabilitas untuk satu set data
yang diamati, ada baiknya pertama mempertimbangkan sifat dari variabel yang bersangkutan.
Sifat-sifat distribusi atau distribusi yang dipilih untuk dipasang dengan data harus sesuai
dengan variabel yang dimodelkan. Perangkat lunak seperti best fit telah membuat distribusi
yang tepat untuk data yang sangat mudah dan dihapus perlu untuk setiap pengetahuan
statistik yang mendalam. Produk-produk ini umumnya sangat berguna tetapi, melalui
otomatisasi dan kemudahan penggunaan, sengaja mendorong pengguna untuk mencoba
cocok untuk distribusi sepenuhnya tidak pantas. Sementara saya sangat mendukung
penggunaan perangkat lunak pas distribusi tersebut, perlu mempertimbangkan hal-hal berikut
sebelum mencoba cocok dengan:
Sebuah variabel diskrit hanya dapat mengambil satu nilai yang spesifik, misalnya
jumlah jembatan di sepanjang jalan raya, tapi pengukuran seperti volume aspal, misalnya,
terus menerus. Sebuah variabel yang diskrit di alam biasanya, namun tidak selalu, paling
sesuai untuk suatu distribusi diskrit. Sebuah pengecualian yang sangat umum adalah di mana
selisih antara nilai-nilai yang diijinkan bersebelahan tidak signifikan dibandingkan dengan
rentang bahwa variabel dapat berlangsung.
Dalam keadaan tertentu, distribusi diskrit bisa sangat erat didekati dengan
distribusi kontinu untuk nilai x yang besar.Jika sebuah variabel diskrit telah dimodelkan
dengan distribusi kontinu untuk kenyamanan, sifat diskrit dengan mudah bisa dimasukkan
kembali ke dalam model analisis risiko.
Distribusi harus dilengkapi, dalam alasan, mencakup rentang di mana variabel
yang dimodelkan secara teoritis dapat diperpanjang. Jika distribusi dipasang mungkin
melampaui jangkauan variabel, sebuah model analisis risiko akan menghasilkan skenario
mustahil. Jika distribusi gagal untuk memperpanjang selama rentang mungkin seluruh
variabel, analisa resiko tidak akan mencerminkan ketidakpastian yang benar dari masalah.
Variabel mungkin berkorelasi dengan, atau fungsi, variabel lain dalam model dan
juga mungkin terkait dengan variabel lain di luar model yang, pada gilirannya,
mempengaruhi variabel ketiga dalam model analisis resiko. Gambar 7.1 mengilustrasikan
beberapa contoh.

Gambar 7.1 Contoh dari keterikatan antara variabel-variabel model: a. Langsung b. Tidak langsung
Dalam contoh (a), sebuah bank, pendapatannya dimodelkan sebagai fungsi dari
bunga dan nilai hipotek, antara lain. Tingkat KPR berkorelasi dengan tingkat bunga karena
tingkat suku bunga sebagian besar mendefinisikan bagaimana suku bunga KPR seharusnya.
Hubungan ini harus disertakan dalam model simulasi untuk memastikan bahwa hanya akan
menghasilkan skenario yang berarti. Ada dua pendekatan untuk ini:
1. Tentukan distribusi untuk tingkat hipotek dan bunga berdasarkan data historis dan
kemudian mengkorelasikan sampling dari distribusi selama simulasi.
2. Tentukan distribusi suku bunga dari data historis dan hubungan (stokastik)
fungsional dengan tingkat hipotek.
Pada contoh (b) gambar 7.1, adalah menghitung harga tawaran untuk memasok
tenaga kerja untuk pekerjaan atap. Pemilihan bahan atap belum diputuskan dan
ketidakpastian ini memiliki implikasi untuk jam orang-yang akan dibutuhkan untuk
membangun atap dan kayu untuk meletakkan atap. Ada karena itu merupakan hubungan tidak
langsung antara kedua variabel yang dengan mudah bisa saja terlewatkan, dia tidak melihat di
luar komponen langsung dari perhitungan biaya nya. Hilang korelasi ini akan menghasilkan
meremehkan penyebaran biaya subkontraktor dan berpotensi menyebabkan dia untuk
penawaran harga yang terkena dia untuk kerugian yang signifikan. Hal ini dapat dilihat
bahwa korelasi merupakan bagian penting dari analisis risiko banyak. Bab 10 menjelaskan
beberapa teknik untuk model korelasi antar variabel.
Jika distribusi diketahui cocok dekat dengan jenis variabel yang dimodelkan,
biasanya sebagai hasil karya akademis diterbitkan, semua yang tersisa adalah untuk
menemukan parameter fitting terbaik, seperti yang dijelaskan dalam bagian 7.3.

7.2 PENERAPAN DISTRIBUSI EMPIRIS PADA DATA YANG DIAMATI


7.2.1 Pemodelan Variabel kontinu
Jika data yang diamati kontinu dan cukup luas, biasanya cukup untuk menggunakan plot
frekuensi kumulatif titik data untuk menentukan distribusi probabilitasnya
Gambar 7.2 Menyesuaikan distribusi empiris kontinu pada data menggunakan distribusi
kumulatif
Gambar 7.2 menggambarkan sebuah contoh dengan 18 titik data. diamati F(x)
dihitung sebagai nilai-nilai yang diharapkan F (x) yang akan sesuai dengan sampling acak

i
dari distribusi, yaitu F (xi )= dimana i adalah peringkat titik data yang teramati dan n
( n+1)
adalah jumlah titik data.
 minimum dan maksimum untuk distribusi empiris subyektif ditentukan
berdasarkan pengetahuan analis dari variabel. Untuk variabel kontinu, nilai-nilai
ini umumnya di luar jangkauan dari data yang diamati. Nilai minimum dan
maksimum yang dipilih adalah nol dan 45.
 Data titik adalah peringkat dalam urutan antara nilai minimum dan maksimum.
 Probabilitas kumulatif F (x) untuk setiap nilai x dihitung sebagai berikut:
 Ini formula untuk F (x) digunakan karena tempat semua x i s terhadap persentil
kumulatif diharapkan yang akan diamati jika titik data dipilih secara acak dari
distribusi. Karena itu memaksimalkan kesempatan mereplikasi distribusi yang
benar.
 Kedua array, {x i } dan {F ( x i) }, bersama dengan nilai minimum dan maksimum,
maka dapat digunakan sebagai masukan langsung ke dalam distribusi kumulatif.
Jika ada jumlah data yang sangat besar, menjadi tidak praktis untuk menggunakan
semua titik data untuk menentukan distribusi Kumulatif. Dalam kasus seperti itu, lebih
mudah untuk mengkonversi data ke dalam distribusi Histogram pertama. Jumlah pita harus
ditetapkan dengan maksimum praktis yang menyeimbangkan kehalusan detail (jumlah besar
bar) dengan sering memiliki mendefinisikan besar array distribusi (angka yang lebih rendah
dari bar).
Gambar 7.3 menggambarkan sebuah contoh di mana 221 titik data diplot dalam
bentuk histogram selama rentang dari data yang diamati. Analis menganggap bahwa variabel
dibayangkan bisa berkisar dari nol sampai 300. Karena tidak ada data yang diamati dengan
nilai di bawah 20 dan di atas 280, berkisar histogram bar perlu diubah untuk mengakomodasi
minimal subjektif dan maksimal. Cara termudah untuk mencapai tujuan ini adalah untuk
memperluas jangkauan dari bar pertama dan terakhir dengan non-probabilitas nol untuk
mencakup rentang diperlukan, tetapi tanpa mengubah probabilitasnya. Dalam contoh ini, bar
histogram dengan kisaran 20-40 diperluas ke berbagai 0-40 dan bar dengan kisaran 260-280
diperluas untuk kisaran 260-300. Kami mungkin akan memiliki sedikit membesar-besarkan
taiis distribusi. Namun, jika jumlah bar pada awalnya dipilih cukup besar, akan ada sedikit
pengaruh yang nyata pada model. {x i } array input ke dalam distribusi Kumulatif kemudian
{40, 60, ..., 420260}, maka {x i } array {0.018,0.131, ..., 0.986,0.995} dan minimum dan
maksimum, tentu saja 0 dan 300 masing-masing.
Mengubah distribusi Histogram menjadi distribusi kumulatif mungkin tampak
sedikit berguna ketika Histogram dapat digunakan dalam suatu model analisis risiko. Namun,
teknik ini memungkinkan analisis untuk memilih berbagai lebar bar sesuai kebutuhannya,
seperti dalam contoh di atas, dan oleh karena itu untuk memaksimalkan rincian dalam
distribusi tempat yang membutuhkan.

7.2.2 Pemodelan Variabel Diskrit

Data dari variabel diskrit dapat digunakan untuk menentukan distribusi empiris
dalam dua cara:

Gambar 7.3 Menyesuaikan distribusi empirik dengan data histogram menggunakan distribusi
kumulatif
Jika jumlah nilai x ini tidak berbeda besar, frekuensi data pada setiap nilai x dapat
digunakan langsung untuk menentukan Disribution Diskrit.
Jika jumlah nilai x yang sangat besar, biasanya lebih mudah untuk mengatur data
ke dalam bentuk histogram dan kemudian menentukan distribusi kumulatif, seperti di atas.
Sifat diskrit variabel dapat diperkenalkan kembali oleh embedding distribusi kumulatif di
dalam fungsi (...) standar spreadsheet ROUND.
Opsi yang diuraikan di atas memiliki keunggulan bahwa distribusi berasal dari
data yang diamati akan sangat terpengaruh oleh subjektivitas apapun dan bahwa penggunaan
maksimal data yang telah dibuat dalam mendefinisikan distribusi. Kerugian yang jelas adalah
bahwa proses ini cukup sulit. Namun, data Distribusi fasilitas di Lotus 1-2-3, fasilitas
Histogram di Excel dan laporan statistik BestFit semua bisa membuat menyortir data dan
menghitung frekuensi kumulatif sangat mudah.

7.3 PEMASANGAN SEBUAH DISTRIBUSI TEORITIS ATAS DATA DITINJAU


Bagian ini menjelaskan metode untuk menemukan distribusi teoritis yang paling
sesuai dengan data yang diamati. Sebuah jenis distribusi teoritis dapat dipilih sebagai yang
paling tepat agar sesuai dengan data untuk tiga alasan:
 matematika Distribusi adalah sebuah model yang akurat ketidakpastian dalam variabel
yang dipertimbangkan (lihat bagian 7.1)
 Distribusi akan cocok dengan data apabila variabel dari type kecocokan ini diketahui
dengan jelas. (lihat bagian 7.1 lagi)
 Analisis sederhana harus menemukan teori distribusi dari kecocokan terbaik dari data,
apapun yang mungkin.

Parameter distribusi yang membuat jenis distribusi yang terbaik sesuai dengan data
yang tersedia dapat ditentukan dengan beberapa cara. Teknik yang paling umum adalah
dengan menggunakan estimator maksimum likelihood (MLEs). Parameter (MLEs) dari
distribusi ditemukan bahwa memaksimalkan kepadatan probabilitas gabungan untuk data
yang diamati. MLEs sangat berguna karena, untuk distribusi banyak, mereka menyediakan
cara cepat untuk parameter terbaik. Sebagai contoh, distribusi Normal didefinisikan oleh
mean dan deviasi standar dan MLEs perusahaan mean dan deviasi standar dari data yang
diamati.
7.3.1 Estimator Maksimum Likelihood(MLEs)

Estimator maksimum likelihood dari suatu distribusi adalah nilai-nilai parameter yang
menghasilkan kepadatan maksimum probabilitas gabungan untuk data yang diamati. Dalam
kasus distribusi diskrit, MLEs memaksimalkan probabilitas aktual dari distribusi yang dapat
menghasilkan data yang diamati. Pertimbangkan jenis distribusi probabilitas yang
didefinisikan oleh sebuah parameter tunggal, α. Fungsi likelihood L(α) adalah sebanding
dengan probabilitas bahwa satu set poin n data ( x i) dapat dihasilkan dari distribusi dengan
kepadatan probabilitas f(x) atau, dalam kasus distribusi diskrit, massa probabilitas diberikan
oleh

L(α) = ∏ i ( x i,α) sehingga L(α) = f( x 1 ,α) * f( x 2,α)*….*f( x n−1 ,α)*f( x n, α)

Selanjutnya mencari nilai α yang memaksimalkan L(α). Hal ini ditentukan dengan melakukan
diferensial parsial L(α) terhadap α dan menuju ke nol:

δ L(α )
=0
δα

Untuk beberapa jenis distribusi, ini merupakan masalah aljabar relatif yang sederhana, untuk
orang lain persamaan diferensial sangat rumit dan diselesaikan secara numerik sebagai
gantinya. Software seperti BestFit telah membuat proses ini sangat mudah untuk melakukan
secara otomatis, tetapi ada contoh sederhana secara rinci dalam Bagian 7.3.2 untuk tujuan
ilustrasi.

7.3.2 Contoh Derivasi MLEs

Contoh 7.1: Menentukan MLE untuk distribusi eksponensial

Distribusi eksponensial memiliki satu parameter, β. Probabilitas fungsi kepadatan f(x)


diberikan oleh

1 −x
f(x) = exp( )
β β

fungsi likelihoo L(β) adalah,


n
n
1 −xi 1 −∑ x
L(β) =∏ exp( ) = n exp( i=1 i )
i=1 β β β
βn

Untuk mempermudah perhitungan, kita mendefinisikan I(β) = ln L(β):

n
1
I(β) = -n In (β)- ∑ xi
β i=1

Nilai maksimum I(β), dan juga L(β), terjadi ketika derivatif parsial terhadap β sama dengan
nol, yaitu

n
δI ( β ) −n 1
= + 2 ∑ xi = 0
δβ β β i=1

Diberikan

n
1
β= ∑x
n i=1 i

yaitu β MLE dari distribusi eksponensial adalah mean dari data yang diamati.

Contoh 7.2: Menentukan MLEs untuk distribusi Normal,

distribusi Normal meiliki dua parameter, μ mean dan deviasi standar σ. Probabilitas fungsi
kepadatan f(x) diberikan oleh

1
f(x) = exp(-¿ ¿)
√2 π σ 2
1 ( x i−µ)2
n
Fungsi likelihood L(μ, σ) = ( )exp (- ∑ )
√2 π σ 2 i=1 2σ2

Untuk mempermudah perhitungan, kita kembali definisikan I(β) = ln L(β):

n 2
n ( x −µ)
I(µ, σ) = - ln(2 π ) – n ln σ - ∑ i 2
2 i=1 2σ

Nilai maksimum I(μ, σ), dan karena itu L(μ, σ), terjadi derivatif parsial ketika engkau
sehubungan dengan μ dan σ sama dengan nol, yaitu
n
δI (µ , σ )
= -2 ∑ x i + 2 µn = 0
δµ i=1

n
1
Diberikan µ= ∑ x =x́
n i=1 i

Dimana x́ adalah mean dari data, dan

δI (µ , σ ) −n n
( x i−µ)2
= +∑ =0
LP σ i=1 σ3

Diberikan

Σ=
√ ∑ ( x i−µ)2 =s
i=1

σ3

Dimana s standar deviasi dari data yaitu μ dan σ MLEs dari distribusi normal adalah mean
dan deviasi standar dari data yang diamati.

7.3.3 Menemukan Parameter Fitting terbaik menggunakan pemecahan Linear

Gambar 7.4 mengilustrasikan spreadsheet Microsoft Excel dibentuk untuk menemukan parameter dari suatu
distribusi Rayleigh terbaik yang akan cocok dengan 18 poin data yang diamati.
Fungsi distribusi kumulatif untuk distribusi Rayleigh F(x) adalah

F(x) = 1- exp(- x 2/2b 2)

Dimana b adalah parameter distribusi itu. Microsoft Solver di Excel diatur untuk menemukan
nilai minimum untuk sel F21 (jumlah perbedaan absolut antara di F diamati dan Rayleigh (x)
s) dengan mengubah nilai b di sel C23. Solusi solver untuk b adalah 4.51195, sesuai dengan
cocok ditampilkan dalam bagan Gambar 7.4.

7.3.4 Formalisme Entropi Maksimum

Formalisme entropi maksimum adalah teknik untuk menentukan distribusi dari variabel yang
mewakili ketidakpastian maksimum data yang diamati untuk variabel yang mungkin.

Untuk distribusi kontinu, H(x) ditulis sebagai:

H(x) = ∫ f ( x ) . log f ( x ) . dx
−∞

Dimana f(x) adalah probabilitas dari distribusi.Teknik ini dapat diterapkan di mana kita hanya
memiliki pengetahuan yang sangat terbatas dari variabel.

7.4 STATISTIK GOODNESS-OF-FIT

Goodness-of-fit statistic telah banyak dikembangkan tapi hanya 2 yang biasa digunakan.
Yang paling umum adalah chi kuadra ( x 2 ¿ dan statistik kolmogorov-Smirnoff (K-S) umumnya
digunakan untuk diskrit dan kontinu.

Data yang akan dianalisis bisa masuk dalam salah satu bentuk goodness-of-fit statistic.
Goodness-of-fit statistic tidak mudah untuk dipahami atau ditafsirkan.Tidak memberikan
ukuran propability untuk data sebenarnya berasal dari distribution. Malah, statistik goodness-
of-fit memberikan peluang bahwa data acak yang dihasilkan dari distribusi akan
menghasilkan nilai goodness-of-fit statistic serendah yang dihitung untuk data yang diamati.
Setara dengan probabilitas bahwa data itu, pada kenyataannya, berasal dari pasangan
distribusi, karena mungkin ada distribusi yang memiliki bentuk yang sama dan lebih baik
menghasilkan data ini dan diamati sangat teliti untuk data distribusi normal, karena banyak
distribusi cenderung ke bentuk normal dalam kondisi tertentu.
Nilai-nilai kritis ditentukan oleh tingkat kepercayaan yang diperlukanαyang merupakan
nilai-nilai dari goodness-of-fit statistic yang memiliki probabilitas melebihi yang sama
dengan keyakinan tertentu nilai-nilai level kritis untuk x 2 tes ditemukan langsung dari x 2
distribusi, bentuk dan berbagai distribusi x 2didefinisikan oleh derajat fredom x 2
v=N−a−1
Dimana N = jumlah atau kelas histogram batang
a = sejumlah parameter yang diestimasi untuk menentukan distribusi yang paling
sesuai

7.4.1 Nilai Kritis dan Interval Keyakinan untuk Statistika Goodnesss-of-fit

Bentuk dan jangkauan distribusi didefinisikan oleh derajat kebebasan v:

v =N-a -1.

Dimana jumlah N= Jumlah bar histogram atau kelas

a = parameter yang diperkirakan untuk menentukan distribusi yang paling pas

Gambar 7.5 menunjukkan plot kumulatif turun untuk x 2(11), yakni para x 2 distribusi dengan
11 derajat kebebasan. Ini plot sebuah kesempatan α 80% (= interval keyakinan) bahwa nilai
akan terjadi yang lebih tinggi dari 6,988 (nilai kritis pada tingkat kepercayaan 80%) untuk
data yang sebenarnya diambil dari distribusi dipasang, yaitu hanya ada 20% kemungkinan
bahwa x 2 nilai bisa jadi ini kecil. Jika analis konservatif dan menerima kesempatan ini 80%
dari palsu menolak sesuai dengan, α keyakinannya interval = 80% dan nilai kritis yang terkait
6,988.

Nilai-nilai kritis untuk statistik KS dan AD telah ditemukan oleh simulasi Monte Carlo
(Stephens. 1974, 1977; Chandra et al, 1981). Tabel nilai kritis untuk statistik KS juga sangat
sering ditemukan dalam buku- buku teks statistik. Sayangnya, KS standar dan nilai-nilai AD
penggunaan terbatas untuk membandingkan nilai kritis jika lebih sedikit dari sekitar 30 titik
data. Masalah muncul karena statistik ini dirancang untuk menguji cuaca distribusi dengan
parameter yang dikenal bisa menghasilkan data yang diamati. Jika parameter dari distribusi
dipasang telah diperkirakan dari data tersebut, KS dan statistik AD akan menghasilkan hasil
tes konservatif, yaitu ada kemungkinan lebih kecil dari suatu distribusi baik pas diterima.
Ukuran efek ini bervariasi antara jenis distribusi yang dipasang. Modifikasi statistik KS dan
AD telah ditentukan untuk mengoreksi masalah ini sebagai berikut (lihat manual BestFit
diterbitkan pada tahun 1993) di mana n adalah jumlah titik data dan Dn A 2n dimodifikasi KS
dan statistik AD masing-masing:

Kolmogorov-Smirnoff Statistics

Distribution Modified test statistic

Normal 0.85
(√ n - 0.01 + ). D
√n n
Esponential 0.2 0.5
( Dn – )( √ n+ 0.26 + )
n √n
Weibull and extreme Value √ n Dn

Lainnya 0.11
√ n+0.12+ ). D
√n n
Anderson-Darling Statistics

Distribution Modified test statistic

Normal 4 25 2
(1 + − ). An
n n2
Esponential 0.6 2
(1+ ). An
n
Weibull and extreme Value ¿) A2n

Lainnya A2n

7.4.2 Statistik Goodness of fit Chi Square


Statistik Chi Square ( χ 2) mengukur sebaik mana memperkirakan frekuensi distribusi yang
sesuai dibandingkan dengan frekuensi dari histogram data yang diamati. Tes Chi Square
membuat asumsi berikut :

1. Data yang diamati berisi sampel acak dari n titik data independent.
2. Ukuran skala bias nominal (yakni numeric) atau menurut angka (numerical)
3. n titik data dapat diurut ke dalam bentuk histogram dengan N kelas non-overlapping
atau bar yang menutup keseluruhan range yang mungkin dari variabel.

Statistik Chi square dihitung sebagai berikut :


n 2
2 {O ( i )−E(i)}
χ =∑
i=1 E(i)

dimana O(i) adalah frekuensi yang diamati pada histogram kelas ke-i atau bar dan E(i) adalah
frekuensi yang diharapkan dari distribusi yang sesuai pada nilai x yang jatuh dengan range-x
pada bar histogram ke-i. E(i) dihitung dengan :

E ( i )={ F ( i maks) −F ( i min ) }∗n

Dimana F (x) = Fungsi distribusi dari fitted distribution

i maks = nilai x batas atas pada histogram bar ke-i

i min = nilai x batas bawah pada histogram bar ke-i

Karena statistic χ 2 menjumlahkan kuadrat dari semua error {O ( i )−E ( i ) }, maka statistic χ 2
dapat secara tidak sebanding, sensitive ke nilai error apapun yang besar misalnya, jika error
dari 1 bar adalah 3 kali dari bar yang lain, sehingga akan menambah 9 kali lebih pada statistic
(asumsikan E(i) sama untuk keduanya).
χ 2 adalah yang paling umum digunakan pada statistic goodness of fit yang digambarkan di
sini dan sangat bergantung pada jumlah bar N yang digunakan. Dengan mengganti nilai dari
N, salah satunya dapat dengan mudah mengganti tingkatan antara 2 tipe distribusi.
Sayangnya, tidak ada cara cepat untuk memilih nilai dari N. Sebagai panduan, bagaimanapun,
aproksimasi Scott Normal, digunakan dengan memakai software BestFit yang biasanya
tampak untuk bekerja sangat baik: N=(4 n)2/ 5
Di mana n adalah jumlah titik data. Panduan lain yang berguna adalah memastikan bahwa
tidak ada bar yang memiliki frekuensi harapan yang lebih kecil dari sekitar 1, yakni E(i)≥ 1
untuk semua i. Catatan bahwa statistic χ 2 tidak membutuhkan semua atau bar histogram
apapun yang memiliki lebar sama.
Statistic χ 2 paling berguna untuk fitting distribution untuk data diskrit dan hanya satu-
satunya statistic yang digambarkan di sini yang dapat digunakan untuk data nominal (yakni
non-numeric).
Contoh 7.4: Penggunaan χ 2 untuk data kontinu
Susunan data dari 156 titik memiliki distribusi Normal(70,20). Pertama-tama, datanya
ditempatkan dalam bentuk histogram dengan 14 bar sebagai usulan menggunakan
aproksimasi normal Scott’s (Tabel 7.1(a)). 4 bar ekstrim memiliki frekuensi harapan di
bawah 1 untuk distribusi normal (70,20) dengan 156 pengamatan. Bar ini kemudian
dikombinasikan untuk menghasilkan revisi set dari jarak bar. Bar ekstrim sekarang memiliki
frekuensi harapan 1.02
Hipotesis
H 0 : Data datang dari distribusi Normal (70,20)
H 1 : Data tidak datang dari distribusi Normal (70,20)
Kesimpulan
Test statistic χ 2 memiliki nilai 21.0 dari tabel 7.1(b). Terdapat v=N−1=12−1=11 derajat
bebas ¿ ketika tidak ada parameter distribusi yang ditentukan dari data). Perhatikan pada
distribusi χ 2(11), peluang yang akan kita miliki nilai χ 2 yang tinggi ketika H 0 benar adalah di
bawah 2%. Kemudian kita menyimpulkan bahwa data tidak datang dari distribusi Normal
(70,20).

Contoh 7.5: Penggunaan χ 2 untuk data diskrit

Kumpulan dari 136 titik data dipercayai berasal dari distribusi Poisson. MLE untuk parameter
λ untuk Poisson diestimasikan dengan mengambil mean dari titik data: λ=4.4559 . Data
ditabulasikan pada bentuk frekuensi pada tabel 7.2 dan kemudian pada data tersebut frekuensi
harapan dari distribusi Poisson(4.4559) yakni E ( i )=f ( x )∗136, di mana
e−4.4559 4.4559x
f x=
( )
x!
Tabel 7.1 Perhitungan statistik χ 2 untuk data kontinu: (a) menentukan jarak bar yang
digunakan; (b) Perhitungan χ 2 dengan merevisi jarak bar
Histogram Bar Frekuensi Harapan Revisi Bar E(i) dari O(i) Perhitungan χ2
Dari A Ke B dari Normal (70,20) Dari A ke B Normal (70,20) 2
{ O ( i )−E ( i ) } /E (i)
−∞ 10 0.22 −∞ 20 1.02 3 3.843529
10 20 0.80 20 30 2.73 5 1.887509
20 30 2.73 30 40 7.27 6 0.221857
30 40 7.27 40 50 15.15 10 1.75066
40 50 15.15 50 60 24.73 21 0.562592
50 60 24.73 60 70 31.59 25 1.374742
60 70 31.59 70 80 31.59 37 0.926499
70 80 31.59 80 90 24.73 21 0.562592
80 90 24.73 90 100 15.15 17 0.225908
90 100 15.15 100 110 7.27 11 1.913741
100 110 7.27 110 120 2.73 6 3.916813
110 120 2.73 120 −∞ 1.02 3 3.843529
120 130 0.80
130 −∞ 0.22 Chi squared 20.96755

Tabel 7.2 Perhitungan statistik χ 2 untuk data diskrit : (a) Tabulasi data; (b) Perhitungan χ 2

Nilai x Frekuensi Frekuensi E(i) dari Nilai Frekuensi Frekuensi E(i) dari Perhitungan
Pengamatan O(i) Poisson(4.456) x Pengamatan O(i)3 Poisson(4.456)4 χ2 {O(i)-E(i)}2-
E(i)
0 0 1.579 0 0 1.579 1.579
1 8 7.036 1 8 7.036 0.1321
2 18 15.675 2 18 15.675 0.3449
3 20 23.282 3 20 23.282 0.4627
4 29 25.936 4 29 25.936 0.3620
5 21 23.113 5 21 23.113 0.1932
6 18 17.165 6 18 17.165 0.0406
7 10 10.926 7 10 10.926 0.0785
8 8 6.086 8 8 6.086 0.6019
9 2 3.013 9 2 3.013 0.3406
10 1 1.343 10+ 2 2.189 0.0163
11+ 1 0.846
Total 136 Chi squared: 4.152

Frekuensi harapan dari nilai 11+, dihitung sebagai 136- (jumlah dari semua frekuensi harapan
lainnya), adalah kurang dari 1. Jumlah bar kemudian berkurang ditunjukkan pada tabel
7.2(b), untuk memastikan bahwa semua frekuensi harapan lebih besar dari 1.

Hipotesis

H 0 : Data berasal dari distribusi Poisson

H 1 : Data tidak berasal dari ditribusi Poisson

Kesimpulan

Uji statistic χ 2 memiliki nilai 4.152 pada tabel 7.2(b). Terdapat nilai
v=N−a−1=11−1−1=9 derajat kebebasan (a=1ketika 1 parameter distribusi, mean,
ditentukan dari data). Perhatikan distribusi χ 2 (9), peluang bahwa kita akan mendapatkan
nilai χ 2 yang tinggi ketika H 0 benar di atas 90%. Ketika ini adalah peluang yang besar, kita
tidak layak menolak H 0 dan kemudian menyimpulkan bahwa data sesuai untuk ditribusi
Poisson (4.4559).

Contoh 7.6: Penggunaan χ 2 dengan data nonnumeric

Permainan baru telah ditemukan dan, sehubungan dengan itu, perlengkapan yang secara acak
memilih bola dari drum berputar. Terdapat jumlah yang sama dari bola hitam, biru, merah,
hijau dan putih pada drum. Bola apapun yang dipilih, digantikan sebelum seleksi berikutnya.
Bola berwarna yang berbeda berasal dari pabrik yang berbeda sehingga perancang permainan
ingin memastikan bahwa pemilihan benar-benar acak. Mesin diuji 200 kali, ditunjukkan pada
tabel 7.3. Apakah peluang bahwa bola menjadi dipilih secara acak?

Tabel 7.3 Perhitungan statistik χ 2 untuk data nonnumerik

Warna Bola Frekuensi Frekuensi Harapan Perhitungan Chi


Pengamatan O(i) E(i) Square
{O(i)-E(i)}2/E(i)
Hitam 51 40 3.0250
Biru 44 40 0.4000
Merah 35 40 0.6250
Hijau 40 40 0.0000
Putih 30 40 2.5000
200 6.5500

Ini adalah pertanyaan yang ekuivalen: apakah peluang bahwa frekuensi bola berdistribusi
seragam? Uji χ 2 dapat dihitung pada frekuensi pengamatan dan memakai frekuensi harapan
dari n /N , ditunjukkan pada tabel.

Hipotesis

H 0 : Bola berdistribusi secara acak

H 1 : Bola tidak berdistribusi secara acak

Keputusan

Uji statistic χ 2 memiliki nilai 6.44 pada tabel 7.3. Terdapat n=N−a−1=5−0−1=4 derajat
bebas (a=0ketika tidak ada parameter distribusi yang dibutuhkan untuk ditentukan dari data).
Perhatikan pada distribusi χ 2 ( 4), peluang bahwa kita akan memiliki nilai yang tinggi untuk
χ 2 ketika H 0 benar kurang dari 20%, sehingga kita dapat layak menolak H 0 dan kemudian
simpulkan bahwa bola tidak dipilih secara acak.

7.4.3 Statistik Kolmogorov-Smirnov(K-S)


K-S statistic Dn didefinisikan sebagai berikut
D n=max ⁡[|F n ( x )−F ( x )|]
Dimana Dn diketahui sebagai jarak K-S
N = jumlah total titik data
F(x) = Fungsi distribusi dari fitted distribution
F n (x)= Percentil kumulatif dari tiap titik data
i = Tingkat kumulatif dari titik data
Jadi, Statistik K-S hanya terkait dengan jarak vertical antara fungsi distribusi kumulatif pada
fitted distribution dan distribusi kumulatif dari data. Gambar 7.6 mengilustrasikan konsep
dari fitted data untuk distribusi seragam(0,1).
Gambar 7.6 Perhitungan Jarak D n Kolmogorov-Smirnov untuk data fit pada distribusi Seragam (0,1)
 Data diatur dalam urutan menaik
 Persentil kumulatif bagian atas F U (i) dan bagian bawah F L (i) dihitung sebagai
berikut:
i−1
F L ( i )=
n
i
F U ( i )=
n

Di mana i = tingkatan dari titik data dan n = jumlah total titik data
 F (x) dihitung untuk distribusi seragam (dalam hal ini F ( x )=x ¿ .
 Jarak maksimum Di antara F (i) dan F (x) dihitung untuk tiap i:
Di=MAX (|( F ( x )−F L (i ) )|,|( F ( x )−F U ( i ) )|)
Di mana |(…)| mendapatkan nilai absolut
 Nilai maksimum dari jarak Di selanjutnya adalah jarak Di K-S :
Dn=MAX ( { Di } )

Statistik K-S biasanya lebih beguna dibandingkan statistic χ 2 di mana data ditaksir pada
semua titik data dan menghindari masalah untuk menentukan ikatan-ikatan untuk membagi
data. Bagaimanapun nilainya hanya ditentukan oleh salah satu nilai yang memiliki
ketidakcocokan yang terbesar dan tidak mengambil laporan dari lack(kekurangan) dari fit
melewati ditribusi sisa. Dengan demikian, pada gambar 7.7, akan memberikan fit terburuk
pada distribusi pada (a) yang memiliki satu ketidakcocokan terbesar disbanding distribusi
pada (b) yang memiliki general fit yang buruk di atas jarak-x keseluruhan.

Jarak vertical antara distribusi F n (x) yang diamati dan teoritis ditribusi fitted F (x)
pada semua titik, katakanlah x 0, itu sendiri memiliki distribusi dengan rataan dari nol dan
standar deviasi σ K −S yang diberikan dengan

F ( x 0 ) [1−F ( x 0 ) ]
σ K −S=
√ n
Gambar 7.7 Bagaimana jarak D n K-S dapat memberikan ukuran fit yang salah karena
kepercayaannya pada jarak tunggal paling besar antara 2 distribusi kumulatif dibanding melihat
jarak di luar range yang mungkin: (a) distribusi umumnya good fit kecuali di salah satu area tertentu;
(b) distribusi umumnya poor fit tetapi dengan tidak satupun ketidakcocokan yang besar

Ukuran dari standar deviasi σ K −S di luar jarak x ditunjukkan pada gambar 7.8 untuk sejumlah
tipe distribusi dengan n=100. Posisi Dn sepanjang sumbu-x lebih mungkin terjadi di mana
σ K −S paling besar yang, gambar 7.8 tunjukkan, akan biasanya keluar dari dasar pangkal
probabilitas. Ketidaksensitifan dari statistic K-S ini pada lack(kekurangan) fit pada ekstrim
dan distribusi adalah benar untuk statistic Darling-Anderson.

Contoh 7.7: Penggunaan Statistik K-S

Tabel 7.4 mengilustrasikan perhitungan jarak Dn dari statistic K-S untuk 12 ukuran dari
persentase oksigen yang dihancurkan pada eksperimen biokimia. Data diuji pada distribusi
Beta(16,45) yang mana analisis sebelumnya menyatakan bahwa, seharusnya good fit. Proses
perhitungannya sebagai berikut.
Gambar 7.8 Variasi standar deviasi dari Statistik K-S D n di luar range dari berbagai distribusi. Standar
deviasi lebih besar, kesempatan lebih bahwa D n akan jatuh pada bagian range, yang menunjukkan bahwa
statistic K-S akan cenderung focus pada derajat fit pada nilai x keluar dari ujung distribusi

Tabel 7.4 Perhitungan Jarak K-S D n untuk contoh 7.7

i Data Pengamatan Batas Bawah F(i) Batas Atas F(i) F(x) untuk Beta Di
(16,45)
1 16.60% 0.000 0.083 0.033 0.051
2 19.75% 0.083 0.167 0.120 0.046
3 23.26% 0.167 0.250 0.311 0.145
4 25.17% 0.250 0.333 0.443 0.193
5 25.85% 0.333 0.417 0.491 0.158
6 27.38% 0.417 0.500 0.598 0.181
7 27.95% 0.500 0.583 0.636 0.136
8 29.49% 0.583 0.667 0.728 0.145
9 29.83% 0.667 0.750 0.747 0.081
10 31.20% 0.750 0.833 0.814 0.064
11 34.57% 0.833 0.917 0.925 0.092
12 39.87% 0.917 1.000 0.988 0.072
D n 0.193

 Data diurutkan menaik (ascending)


 Persentil kumulatif batas atas F U (i) dan batas bawah F L (i) dihitung sebagai berikut:
Di=MAX (|( F ( x )−F L (i ) )|,|( F ( x )−F U ( i ) )|)
Di mana ABS(…) adalah nilai absolute.
 F (x) dihitung untuk distribusi Beta menggunakan fungsi Excel BETADIST().
 Nilai maksimum dari jarak Di adalah jarak Dn selanjutnya dari K-S
Dn=MAX ( { Di } )
Pada contoh ini, D n=0,193 pada titik data ke-4, ditandai dengan persegi hitam pada
grafik pada gambar 7.9.

Gambar 7.9 Menghitung jarak K-S Dn untuk contoh 7.7

7.4.4 Statistik Anderson-Darling (A-D)

Statistik A-D A2n didefinisikan sebagai :



2
A2n =∫ |F n ( x ) . F ( x )| Ψ ( x ) f ( x ) dx
−∞

n
Di mana Ψ ( x )=
F ( x ) {1−F ( x ) }

n = jumlah banyaknya titik data

F(x) = fungsi ditribusi dari fitted distribution

f(x) = fungsi kepadatan dari fitted distribution

F n ( x )=i /n
i = tingkatan kumulatif dari titik data

Statistik Darling-Anderson adalah versi canggih dari statstik K-S dan lebih kuat dengan alas
an berikut :

 Ψ ( x ) mengganti kerugian untuk peningkatan variansi dari jarak vertical antara


distribusi σ K −S2, yang digambarkan pada bagian 7.4.3 dan gambar 7.8
 Jarak vertical antara distribusi adalah kuadratik, mengganti kerugian dari perubahan
pada variansi (variansi menjadi kuadrat dari standar deviasi).
 f (x) menimbang jarank pengamatan menggunakan peluang nilainya akan
menghasilkan nilai-x
 Jarak vertical diintegrasikan di atas semua nilai dari x untuk membuat penggunaan
maksimum pada data pengamatan (statistic K-S terlihat hanya pada jarak vertical
maksimum).

Oleh karena itu statistik A-D biasanya lebih berguna mengukur fit dari pada statistik K-S
khususnya ketika sangat penting untuk menempatkan penekanan yang sama dalam
menyesuaikan distribusi. Selain itu, statistic A-D sangat praktikal untuk menghitung manual.
Bagaimanapun, paket software seperto BestFit akan menampilkan perhitungan secara
automatic.

7.4.5 Menggunakan statistik Godness-fit untuk mengoptimalkan Distribution Fitting

Godness-of-fit statistic dapat digunakan dengan solusi linear untuk menemukan parameter
yang menghasilkan fit terdekat dari sebuah distribusi dengan data pengamatan. Gambar 7.10
mengilustrasikan hasil dari contoh sederhana pada Microsoft Excel.

Gambar 7.10 Menemukan parameter fit terbaik untuk distribusi dengan mengoptimalkan statistik goodness-of-
fit (dalam hal ini X2)

Prosesnya sebagai berikut :


 Para MLE dari distribusi dilengkapi (atau kira wajar untuk parameter paling cocok)
ditetapkan. MLE p untuk distribusi geometrik diberikan oleh
1
p= (¿ 0,5988untuk data ini)
1+ x
Dimana x adalah rata-rata dari titik data.
 spreadsheet adalah tertulis yang menghitung statistik kebaikan-of-fit yang relevan
(dalam hal ini kasus X2)Dengan MLE (menggunakan gambar memberikan atas)
diplayed di sel terpisah (dalam C12 kasus) bahwa E(i) perhitungan nilai merujuk
pada statistik X yang juga ditampilkan di sel terpisah (E11 pada contoh ini).

7.5 PLOT GOODNESS-OF-FIT


Plot Goodness-of-fit memberikan analisis perbandingan visual antara data dan distribusi
fit yang dilengkapi gambaran keseluruhan kesalahan dengan cara bahwa statistik
goodness-of-fit tidak dapat dan memungkinkan analis untuk memilih distribusi yang
paling cocok yang lebih kualitatif dan intuitif.
7.5.1 Perbandingan kepadatan probabilitas

Overlay plot histogram dari data dengan fungsi kepadatan dari distribusi dipasang
biasanya perbandingan paling informatif (lihat Gambar 7.11 (a)) Sangat mudah untuk
melihat di mana perbedaan utama dan apakah bentuk umum dari data yang digunakan.
membandingkan distribusi skala yang sama baiknya.The dan jumlah bar histogram harus
digunakan untuk semua plot jika perbandingan langsung dari beberapa distribusi cocok
akan dilakukan untuk data yang sama.

Gambar 7.11(a) Contoh plot goodness-of-fit: Perbandingan kepadatan peluang untuk Input dan Distribusi
Normal;
7.5.2 Perbandingan Distribusi Probabillity

Sebuah overlay plot frekuensi kumulatif data dan distribusi dipasang kadang-kadang
digunakan (lihat gambar 7.11 (b). Namun plot ini memiliki skala yang sangat sensitif dan
frekuensi kumulatif jenis distribusi yang paling mengikuti jenis yang sangat mirip kurva-
S.This dari plot karena itu hanya akan muncul perbedaan yang sangat besar antara data
theb dan distribotions dipasang dan umumnya tidak direkomendasikan sebagai ukuran
visual kebaikan fit.

Gambar 7.11(b) Perbandingan Peluang kumulatif untuk input dan distribusi Normal;

7.5.3 Perbedaan antara Densitas probabilitas

Plot ini berasal dari perbandingan kepadatan probabilitas, di atas, menggambarkan


perbedaan antara kerapatan probabilitas (lihat Gambar 7.11(c)).
Ini memiliki skala jauh lebih sensitif dibandingkan dengan plot lain dijelaskan ukuran
here.The dari penyimpangan juga merupakan fungsi dari jumlah kelas (bar) gunakan
untuk plot urutan histogram.In untuk membuat perbandingan langsung antara fungsi
distribusi yang lain cocok menggunakan jenis plot, analis harus memastikan bahwa
jumlah yang sama dari kelas Histogram digunakan untuk plots.
Gambar 7.11(c) Perbandingan kepadatan peluang untuk Input dan Distribusi Normal;

7.5.4 Probabilitas-probabilitas (P-P)

Ini adalah plot dari distribusi kumulatif F kurva dipasang (x) terhadap frekuensi kumulatif

i
F n ( x )= untuk semua nilai x i (lihat gambar 7.11 (d)). Pencocokan terbaik, semakin dekat
n
dengan plot ini yang menyerupai garis lurus lurus dan dapat berguna jika salah satu
tertarik pada pencocokan erat persentil kumulatif dan ia akan menampilkan perbedaan
yang signifikan antara Pertengahan dari distribusi. Bagaimanapun, plot yang jauh lebih
peka terhadap perbedaan dalam fit daripada perbandingan probabilitas kepadatan plot dan
karena itu tidak sering digunakan dan juga bisa agak membingungkan bila digunakan
untuk memeriksa data diskrit yang cocok dan cukup baik dapat dengan mudah ditutupi,
terutama jika hanya ada beberapa diijinkan nilai-x.

Gambar 7.11(d) Plot P-P membandingkan Input dan distribusi Normal;

7.5.5 Kuantil-Kuantil (Q - Q) Plot

Ini adalah plot dari data yang diamati xi terhadap nilai-nilai x dimana
F ( x )=F n ( x ) , i, e=i/n (lihat gambar 7.11 (e)). Seperti plot P-P, pencocokan yang lebih
baik, yang lebih dekat dengan plot ini menyerupai garis lurus. Plot ini dapat bermanfaat
jika ada yang cukup tertarik pada pencocokan persentil kumulatif dan ia akan
menampilkan perbedaan yang signifikan antara ujung dari distribusi. Bagaimanapun, plot
ini memberikan masalah insensitivitas sama dengan petak P-P plot.
. Gambar 7.11(e) Plot Q-Q membandingkan Input dan Distribusi Normal;

You might also like